DeepSeek是哪家公司的
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,是一家由量化投资公司幻方量化于2023年7月创立的中国人工智能公司。这家总部位于杭州的公司,由量化投资专家梁文锋主导创立,专注于开发高性能、低成本的大语言模型(LLM)及相关技术,致力于推动AI技术的普惠化。
公司背景与创始团队
DeepSeek的创始团队依托幻方投资的资金与“萤火超算”万卡级算力资源(万张A100 GPU),致力于通用人工智能(AGI)技术的探索。公司法定代表人为裴湉,创始人梁文锋是一位拥有浙大人工智能硕士学位的80后,其极客风格和技术理想驱动着公司的不断创新。目前,DeepSeek的团队规模虽然仅139人,但核心成员包括多名技术奇才,注重工程创新,创始人亲自参与代码编写。
技术创新与产品发展
DeepSeek在技术创新方面取得了显著成果。公司采用混合专家架构(MoE)、多头潜在注意力(MLA)、FP8混合精度训练以及强化学习算法GRPO等先进技术,显著降低了计算成本和内存占用,提升了模型的推理速度和性能。例如,DeepSeek-V3模型仅激活370亿参数(总参数6710亿),效率远超传统模型,且训练成本仅为GPT-4o的1/10。
在产品发展方面,DeepSeek自2023年11月发布首个大模型DeepSeek LLM以来,陆续推出了DeepSeek-V2、DeepSeek-V3、DeepSeek-R1等多款模型。其中,DeepSeek-R1作为一款推理模型,性能接近OpenAI的o1正式版,但成本仅为后者的几十分之一,且支持边缘设备部署。此外,DeepSeek还推出了多模态模型Janus-Pro,在图像生成任务中表现出色。
开源策略与行业影响
DeepSeek采用完全开源策略,公开模型权重和训练细节,吸引了全球开发者参与,推动了技术共享和生态合作。这一策略不仅降低了用户使用门槛,还促进了AI开发者社区的协作生态。DeepSeek的发布引发了全球AI领域的震动,甚至导致美国芯片巨头英伟达(NVIDIA)股价暴跌约17%,引发市场广泛关注。
生态合作与实际应用
DeepSeek与华为昇腾、摩尔线程等11家国产芯片公司完成了适配,并接入了亚马逊AWS、微软Azure等国际云平台。此外,DeepSeek还获得了国内外众多知名企业的认可并实际接入,包括华为云、腾讯云、阿里云、百度智能云等云服务提供商,以及视觉中国、科大讯飞等行业领先企业。在政务领域,深圳和海淀区等地也正式提供了DeepSeek模型应用服务,实现了基于DeepSeek的人工智能政务应用一体化赋能升级。
未来展望
DeepSeek通过高效算法、开源策略和低成本优势,在AI领域快速崛起,打破了美国在高端模型领域的垄断。然而,公司也面临着算力依赖、服务稳定性等挑战。未来,DeepSeek将继续在基础研究和硬件自主性上持续突破,推动技术普惠化,致力于成为“AI界的拼多多”。
360创始人周鸿祎评价DeepSeek“践行开放精神”,认为其在推动人工智能领域的发展方面值得持续关注。
总结
DeepSeek作为一家由量化投资公司幻方量化创立的人工智能公司,凭借其在技术创新、产品发展、开源策略和行业影响等方面的卓越表现,正逐步成为AI领域的佼佼者。未来,随着公司在基础研究和硬件自主性上的不断突破,DeepSeek有望在推动AI技术普惠化方面发挥更加重要的作用。