梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
关于鸟枪换炮网
ENGLISH
English
Español
Français
عربى
Русский язык
日本語
한국어
Deutsch
Português
新华报刊
新华每日电讯
经济参考
瞭望
半月谈
中证报
上证报
中国记者
中国名牌
中国传媒科技
环球
瞭望东方周刊
参考消息
新华出版社
财经国家周刊
地方频道
万宁
呼和浩特
张掖
淄博
青海
德州
阜新
怀化
鄂尔多斯
河北
盘锦
嘉峪关
海南
辽宁
周口
辽源
包头
内蒙古
韶关
平顶山
新疆
珠海
无锡
河源
遂宁
内江
兰州
崇左
江苏
仙桃
承建网站
中国政府网
中国文明网
国家国际发展合作署
中国雄安官网
中国互联网联合辟谣平台
中国记协网
国家公祭网
科普中国
国家能源局网站
国家信访局网站
中国禁毒网
网站无障碍
客户端
手机版
站内搜索
网络举报专区
新华通讯社主办
公司官网
股票代码:
603888
学习进行时
高层
时政
人事
国际
财经
网评
港澳
台湾
思客智库
全球连线
教育
科技
科普
体育
文化
书画
健康
军事
访谈
视频
图片
政务
中央文件
金融
汽车
食品
人居生活
信息化
数字经济
学术中国
乡村振兴
溯源中国
城市
旅游
能源
会展
彩票
娱乐
时尚
悦读
公益
一带一路
亚太网
上市公司
文化产业
鸟枪换炮网
>
> 正文
2026-03-20 04:57:57
来源:鸟枪换炮网
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
字体:
小
中
大
分享到:
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
2026-03-20 04:57:57
来源:鸟枪换炮网
\u003cdiv class=\"rich_media_content\"\u003e\u003cp\u003e \t【文/观察者网 熊超然】\u003c!--AIPOS_0--\u003e1月12日晚间,中国人工智能(AI)初创公司\u003c!--VERTICAL_CARD_BEGIN_0--\u003eDeepSeek\u003c!--VERTICAL_CARD_END_0--\u003e创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元(GPU)内存限制,实现“参数的积极扩展”。 \u003c/p\u003e\u003cp\u003e \t香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率。与此同时,外界猜测该公司将在今年春节之前发布一款重要的新模型。 \u003c/p\u003e\u003cp\u003e \t报道称,这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注,他们希望从中了解DeepSeek所取得的最新进展。在过去一年中,DeepSeek一直是中国AI领域创新的典范。 \u003c/p\u003e\u003cp style=\"text-align: center\"\u003e \t\u003cspan data-widget=\"image\" style=\"display: inline-block; max-width: 100%; width: 530px\"\u003e\u003c!--IMG_0--\u003e\u003cspan style=\"color: rgb(153, 153, 153); display: block; font-size: 12px; line-height: 18px; overflow-wrap: break-word; text-align: center\"\u003e\u003c!--NO_READ_BEGIN--\u003e \tDeepSeek与北京大学研究人员合作发表论文,梁文锋在列 论文截图 \u003c!--NO_READ_END--\u003e\u003c/span\u003e\u003c/span\u003e \u003c/p\u003e\u003cp\u003e \t\u003c!--AIPOS_1--\u003e据报道,在这篇题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新论文中,介绍了一种名为“Engram”(记忆痕迹)的“条件记忆”(conditional memory)技术。\u003c!--AI_AD_1000--\u003e \u003c!--MID_AD_0--\u003e\u003c!--EOP_0--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_0--\u003e\u003cp\u003e \t\u003c!--AIPOS_2--\u003e该技术用以解决扩大AI模型规模时的一个关键瓶颈——GPU高带宽内存(HBM)容量有限的问题。 \u003c/p\u003e\u003cp\u003e \t现有的大型语言模型(LLM)通过计算来检索基础信息,而这一过程需要大量的计算能力。然而,研究人员表示,这种方式浪费了宝贵的“序列深度”(sequential depth),这些“序列深度”本可以被分配用于更高层次推理的琐碎操作。 \u003c/p\u003e\u003cp\u003e \t《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一。韩国半导体行业分析机构SemiAnalysis的分析师Ray Wang表示,尽管近年来取得了稳步进展,但中国存储芯片巨头长鑫存储(CXMT)仍然比韩国的\u003c!--SECURE_LINK_BEGIN_0--\u003e三星电子\u003c!--SECURE_LINK_END_0--\u003e和SK海力士以及美国的美光科技等行业领军者落后数年。\u003c!--AI_AD_2000--\u003e \u003c!--MID_AD_1--\u003e\u003c!--EOP_1--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_1--\u003e\u003cp\u003e \t在论文中,DeepSeek和\u003c!--SECURE_LINK_BEGIN_1--\u003e北京大学\u003c!--SECURE_LINK_END_1--\u003e的研究人员表示,通过将计算与存储“解耦”,Engram可以让模型更高效地“查找”这些基础信息。 \u003c/p\u003e\u003cp\u003e \t他们提到的新技术,还能够提升模型在处理长上下文(即较长输入)时的效率,而这正是将AI聊天机器人转变为现实世界中有用的AI代理所面临的最大挑战之一。 \u003c/p\u003e\u003cp\u003e \t\u003c!--AIPOS_3--\u003e研究人员在一个拥有270亿个参数的模型中验证了这一技术,发现它使主要行业基准测试的表现提升了几个百分点。关键在于,这也为模型执行计算需求更高的复杂推理保留了更多容量。\u003c!--AI_AD_1001--\u003e \u003c/p\u003e\u003cp\u003e \t他们写道:“我们认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语。”研究人员将Engram的潜在影响比作他们自己开发的一种“混合专家”(MoE)技术,该技术使模型规模的扩大无需按比例增加计算量,并且此后已被其他中国竞争对手采用。 \u003c/p\u003e\u003cp style=\"text-align: center\"\u003e \t\u003cspan data-widget=\"image\" style=\"display: inline-block; max-width: 100%; width: 530px\"\u003e\u003c!--IMG_1--\u003e\u003cspan style=\"color: rgb(153, 153, 153); display: block; font-size: 12px; line-height: 18px; overflow-wrap: break-word; text-align: center\"\u003e\u003c!--NO_READ_BEGIN--\u003e \tDeepSeek创始人梁文锋 视频截图 \u003c!--NO_READ_END--\u003e\u003c/span\u003e\u003c/span\u003e \u003c/p\u003e\u003cp\u003e \t目前,行业中最大的模型拥有数万亿个参数。\u003c!--AIPOS_4--\u003e开源开发者平台Hugging Face的研究工程师埃利·巴库奇(Elie Bakouch)在社交媒体上对这篇论文大加称赞,称其“在推理和训练时用硬件上验证了这一技术”。 \u003c/p\u003e\u003cp\u003e \t据报道,这篇论文列出了14位共同作者,除了梁文锋之外,还包括北京大学王选计算机研究所助理教授、前微软亚洲研究院首席研究员张辉帅。 \u003c/p\u003e\u003cp\u003e \t\u003c!--AIPOS_5--\u003e去年年初,DeepSeek发布的大模型DeepSeek-R1,使用由\u003c!--SECURE_LINK_BEGIN_2--\u003e英伟达\u003c!--SECURE_LINK_END_2--\u003eH800 GPU驱动的数据中心进行训练,仅用两个月就完成了训练,成本为550万美元,仅为\u003c!--SECURE_LINK_BEGIN_3--\u003eOpenAI\u003c!--SECURE_LINK_END_3--\u003e等美国公司所花费金额的一小部分。却实现了足以匹敌美国顶尖AI模型的效果,震撼业界的同时引发多国关注,尤其是美国。 \u003c!--MID_AD_2--\u003e\u003c!--EOP_2--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_2--\u003e\u003cp\u003e \t当地时间1月12日,据英国《金融时报》报道,\u003c!--AIPOS_6--\u003e微软总裁布拉德·史密斯(Brad Smith)警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势所在。 \u003c/p\u003e\u003cp\u003e \t他表示,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司在全球面临的竞争。“我们必须认识到,与一年前不同,现在中国拥有一个,而且越来越多地拥有不止一个具有竞争力的开源模型。” \u003c/p\u003e\u003cp\u003e \t报道指出,史密斯发表这番言论之际,微软的一项新研究发现,DeepSeek一年前发布的R1大型语言模型,因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家。这也让中国在“开源”AI模型的全球市场份额方面超越了美国,这些模型通常可以免费供开发人员使用、修改和集成。 \u003c!--MID_AD_3--\u003e\u003c!--EOP_3--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_3--\u003e\u003cp\u003e \t\u003c!--AIPOS_7--\u003e《南华早报》指出,在DeepSeek发布其R1模型一周年之际,外界对其即将推出一款新的重要模型的期待正在升温。美国硅谷的新兴科技媒体“The Information”当地时间1月9日报道称,DeepSeek预计将在今年2月中旬推出一款具备强大编程能力的新V4模型。 \u003c!--MID_AD_4--\u003e\u003c!--EOP_4--\u003e\u003c/p\u003e\u003c!--PARAGRAPH_4--\u003e\u003cp\u003e \t\u003cstrong\u003e本文系观察者网独家稿件,未经授权,不得转载。\u003c/strong\u003e \u003c/p\u003e\u003cdiv powered-by=\"qqnews_ex-editor\"\u003e\u003c/div\u003e\u003cstyle\u003e.rich_media_content{--news-tabel-th-night-color: #444444;--news-font-day-color: #333;--news-font-night-color: #d9d9d9;--news-bottom-distance: 22px}.rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.rich_media_content{color:var(--news-font-day-color);font-size:18px}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]):not(.qn-editor-copy){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content{color:var(--news-font-night-color)}}.data_color_scheme_dark .rich_media_content p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:.5px;line-height:30px;margin-bottom:var(--news-bottom-distance);word-wrap:break-word}.data_color_scheme_dark .rich_media_content .qn-editor-copy p:not([data-exeditor-arbitrary-box=image-box]){letter-spacing:unset;line-height:unset;margin-bottom:unset;word-wrap:unset}.data_color_scheme_dark .rich_media_content{color:var(--news-font-night-color)}.data_color_scheme_dark .rich_media_content{font-size:18px}.rich_media_content p[data-exeditor-arbitrary-box=image-box]{margin-bottom:11px}.rich_media_content\u003ediv:not(.qnt-video),.rich_media_content\u003esection{margin-bottom:var(--news-bottom-distance)}.rich_media_content hr{margin-bottom:var(--news-bottom-distance)}.rich_media_content .link_list{margin:0;margin-top:20px;min-height:0!important}.rich_media_content blockquote{background:#f9f9f9;border-left:6px solid #ccc;margin:1.5em 10px;padding:.5em 10px}.rich_media_content blockquote p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content blockquote{background:#323232}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content blockquote{background:#323232}}.rich_media_content ol[data-ex-list]{--ol-start: 1;--ol-list-style-type: decimal;list-style-type:none;counter-reset:olCounter calc(var(--ol-start,1) - 1);position:relative}.rich_media_content ol[data-ex-list]\u003eli\u003e:first-child::before{content:counter(olCounter,var(--ol-list-style-type)) '. ';counter-increment:olCounter;font-variant-numeric:tabular-nums;display:inline-block}.rich_media_content ul[data-ex-list]{--ul-list-style-type: circle;list-style-type:none;position:relative}.rich_media_content ul[data-ex-list].nonUnicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.5)}.rich_media_content ul[data-ex-list].unicode-list-style-type\u003eli\u003e:first-child::before{content:var(--ul-list-style-type) ' ';font-variant-numeric:tabular-nums;display:inline-block;transform:scale(0.8)}.rich_media_content ol:not([data-ex-list]){padding-left:revert}.rich_media_content ul:not([data-ex-list]){padding-left:revert}.rich_media_content table{display:table;border-collapse:collapse;margin-bottom:var(--news-bottom-distance)}.rich_media_content table th,.rich_media_content table td{word-wrap:break-word;border:1px solid #ddd;white-space:nowrap;padding:2px 5px}.rich_media_content table th{font-weight:700;background-color:#f0f0f0;text-align:left}.rich_media_content table p{margin-bottom:0!important}.data_color_scheme_dark .rich_media_content table th{background:var(--news-tabel-th-night-color)}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content table th{background:var(--news-tabel-th-night-color)}}.rich_media_content .qqnews_image_desc,.rich_media_content p[type=om-image-desc]{line-height:20px!important;text-align:center!important;font-size:14px!important;color:#666!important}.rich_media_content div[data-exeditor-arbitrary-box=wrap]:not([data-exeditor-arbitrary-box-special-style]){max-width:100%}.rich_media_content .qqnews-content{--wmfont: 0;--wmcolor: transparent;font-size:var(--wmfont);color:var(--wmcolor);line-height:var(--wmfont)!important;margin-bottom:var(--wmfont)!important}.rich_media_content .qqnews_sign_emphasis{background:#f7f7f7}.rich_media_content .qqnews_sign_emphasis ol{word-wrap:break-word;border:none;color:#5c5c5c;line-height:28px;list-style:none;margin:14px 0 6px;padding:16px 15px 4px}.rich_media_content .qqnews_sign_emphasis p{margin-bottom:12px!important}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{padding-left:30px}.rich_media_content .qqnews_sign_emphasis ol\u003eli{list-style:none}.rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep:first-child::before{margin-left:-30px;content:counter(olCounter,decimal) ''!important;counter-increment:olCounter!important;font-variant-numeric:tabular-nums!important;background:#37f;border-radius:2px;color:#fff;font-size:15px;font-style:normal;text-align:center;line-height:18px;width:18px;height:18px;margin-right:12px;position:relative;top:-1px}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis{background:#262626}.data_color_scheme_dark .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis{background:#262626}body:not([data-weui-theme=light]):not([dark-mode-disable=true]) .rich_media_content .qqnews_sign_emphasis ol\u003eli\u003ep{color:#a9a9a9}}.rich_media_content h1,.rich_media_content h2,.rich_media_content h3,.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{margin-bottom:var(--news-bottom-distance);font-weight:700}.rich_media_content h1{font-size:20px}.rich_media_content h2,.rich_media_content h3{font-size:19px}.rich_media_content h4,.rich_media_content h5,.rich_media_content h6{font-size:18px}.rich_media_content li:empty{display:none}.rich_media_content ul,.rich_media_content ol{margin-bottom:var(--news-bottom-distance)}.rich_media_content div\u003ep:only-child{margin-bottom:0!important}.rich_media_content .cms-cke-widget-title-wrap p{margin-bottom:0!important}\u003c/style\u003e\u003c/div\u003e
【纠错】
【责任编辑:juanste】
阅读下一篇:
深度观察
新华全媒头条丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新时代“实”字说丨
新时代“实”字说
新华全媒头条丨
新时代“实”字说
新华全媒头条丨
探出水面!勇士战绩21胜18负 自9-6后首次超出五成胜率3个胜场
新华全媒头条丨
TVB前当家小生获富豪出五亿提亲,本人反应搞笑,无意结婚生子
新华全媒头条丨
新时代“实”字说
新华全媒头条丨
探出水面!勇士战绩21胜18负 自9-6后首次超出五成胜率3个胜场
新华全媒头条丨
TVB前当家小生获富豪出五亿提亲,本人反应搞笑,无意结婚生子
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制