1
00:00:00,000 --> 00:00:00,600
朋友们
2
00:00:00,600 --> 00:00:02,879
在中国的人工智能领域啊
3
00:00:02,879 --> 00:00:06,379
其实正在发生一场你可能还没太注意到的革命
4
00:00:06,379 --> 00:00:09,119
所以今天咱们就来聊聊这场变革的核心
5
00:00:09,119 --> 00:00:11,460
一家叫深度求索的公司
6
00:00:11,460 --> 00:00:13,220
还有他刚刚发布的一个
7
00:00:13,220 --> 00:00:16,250
可能要改变整个游戏规则的新模型
8
00:00:16,250 --> 00:00:18,910
要说这下一场人工智能革命啊
9
00:00:18,910 --> 00:00:21,089
可能真的跟你想的不太一样
10
00:00:21,089 --> 00:00:24,489
就在所有人的目光都还盯着硅谷的时候
11
00:00:24,489 --> 00:00:25,789
一场关于效率
12
00:00:25,789 --> 00:00:30,320
关于成本的技术风暴其实正在东方悄悄地上演
13
00:00:30,320 --> 00:00:34,799
就在不久前的2024年4月24日
14
00:00:34,799 --> 00:00:37,649
一个新的竞争者正式登场
15
00:00:37,649 --> 00:00:40,829
它的名字就叫deep seek v4
16
00:00:40,829 --> 00:00:41,890
说实话
17
00:00:41,890 --> 00:00:45,149
这个发布事件就是我们今天分析的核心
18
00:00:45,149 --> 00:00:49,270
因为它很可能会对全球人工智能的现有格局
19
00:00:49,270 --> 00:00:51,549
产生非常深远的影响
20
00:00:51,549 --> 00:00:54,750
喏这位来自中国的人工智能新选手
21
00:00:54,750 --> 00:00:56,310
他到底是什么来头
22
00:00:56,310 --> 00:00:59,460
咱们这就来深入地看一看TFCV4
23
00:00:59,460 --> 00:01:03,079
这次一亮相就直接拿出了两个版本
24
00:01:03,079 --> 00:01:06,228
首先是他的旗舰级选手V4pro
25
00:01:06,228 --> 00:01:09,569
参数量达到了惊人的1.6万亿
26
00:01:09,569 --> 00:01:14,069
然后呢还有一个更小更快的版本叫V4flash
27
00:01:14,069 --> 00:01:16,849
参数规模是2840亿
28
00:01:16,849 --> 00:01:20,109
你看这两种模型虽然设计目的不一样
29
00:01:20,109 --> 00:01:22,719
但毫无疑问都非常强大
30
00:01:22,719 --> 00:01:25,560
但是真正让整个行业都为之一振的
31
00:01:25,560 --> 00:01:27,959
其实还不仅仅是他这个参数规模
32
00:01:27,959 --> 00:01:31,019
而是它背后所代表的一场效率革命
33
00:01:31,019 --> 00:01:34,370
这才是deep sick v4真正厉害的地方
34
00:01:34,370 --> 00:01:36,560
那大家肯定会好奇了
35
00:01:36,560 --> 00:01:39,359
他们到底是怎么做到这么高效的呢
36
00:01:39,359 --> 00:01:42,219
这背后是不是有什么技术上的秘密
37
00:01:42,219 --> 00:01:46,530
来我们一起来探究一下他的秘密武器呀
38
00:01:46,530 --> 00:01:49,530
就藏在这几个关键技术里
39
00:01:49,530 --> 00:01:51,010
我们重点看第一个
40
00:01:51,010 --> 00:01:54,909
这个听起来有点复杂的混合注意力机制
41
00:01:54,909 --> 00:01:58,170
说白了它就是一种全新的方法
42
00:01:58,170 --> 00:02:02,010
能特别高效的去压缩人工智能的短期记忆
43
00:02:02,010 --> 00:02:04,870
也就是我们技术上常说的那个KV缓存
44
00:02:04,870 --> 00:02:06,769
正是这项核心技术
45
00:02:06,769 --> 00:02:09,349
让他在保持强大能力的同时
46
00:02:09,349 --> 00:02:13,120
把资源消耗给降到了一个难以置信的水平
47
00:02:13,120 --> 00:02:15,159
这张表格就非常直观了
48
00:02:15,159 --> 00:02:18,159
清楚地展示了这次的技术飞跃有多大
49
00:02:18,159 --> 00:02:19,400
你先看上下文
50
00:02:19,400 --> 00:02:19,939
长度
51
00:02:19,939 --> 00:02:22,840
直接从160000token跳到了100万
52
00:02:22,840 --> 00:02:24,439
但真正吓人的是
53
00:02:24,439 --> 00:02:25,969
下面这两行单
54
00:02:25,969 --> 00:02:28,990
令盘吹理的计算量和KV款纯占用
55
00:02:28,990 --> 00:02:31,319
这个降幅简直是断崖式的
56
00:02:31,319 --> 00:02:32,120
V 4pro
57
00:02:32,120 --> 00:02:34,000
只需要它上一代V3.2
58
00:02:34,000 --> 00:02:37,400
不到13的计算量和仅仅10percent的内存
59
00:02:37,400 --> 00:02:38,699
这是什么概念啊
60
00:02:38,699 --> 00:02:41,060
这张图表就更生动了
61
00:02:41,060 --> 00:02:44,039
大家看代表V4的两条蓝线
62
00:02:44,039 --> 00:02:47,979
远远地跑在代表V3.2的灰色虚线下面
63
00:02:47,979 --> 00:02:51,800
这就意味着在处理同样长度的文本时
64
00:02:51,800 --> 00:02:55,479
新模型的计算量和内存占用都要低得多
65
00:02:55,479 --> 00:02:59,399
说白了就是用一小部分资源办了更大事
66
00:02:59,399 --> 00:03:02,859
为了让大家对这种效率有个更具体的感受
67
00:03:02,859 --> 00:03:04,639
我们再看这张图
68
00:03:04,639 --> 00:03:07,219
如果我们把V3.2的内存占用
69
00:03:07,219 --> 00:03:09,099
看作一个完整的大饼
70
00:03:09,099 --> 00:03:12,020
那么新模型V4flash的KV缓存
71
00:03:12,020 --> 00:03:13,740
只占了其中的七本书
72
00:03:13,740 --> 00:03:17,729
就算是更强的V4pro也只占了十本书
73
00:03:17,729 --> 00:03:19,189
这意味着什么呢
74
00:03:19,189 --> 00:03:22,349
意味着绝大部分的内存都被节省下来了
75
00:03:22,349 --> 00:03:24,270
这就为未来那些更广泛
76
00:03:24,270 --> 00:03:26,969
更复杂的应用打开了想象空间
77
00:03:26,969 --> 00:03:30,849
好技术上的突破最终还是要落到市场上来
78
00:03:30,849 --> 00:03:32,870
那接下来我们就得聊聊钱了
79
00:03:32,870 --> 00:03:35,909
看看deep sc v four的性价比到底怎么样
80
00:03:35,909 --> 00:03:37,770
首先咱们来看价格
81
00:03:37,770 --> 00:03:40,469
这张图表我觉得都不用我多说了
82
00:03:40,469 --> 00:03:41,569
一目了然
83
00:03:41,569 --> 00:03:42,930
Deep seek v four
84
00:03:42,930 --> 00:03:47,689
flash和v four pro的定价跟GBT4这种大模型一比
85
00:03:47,689 --> 00:03:49,519
简直就是白菜价
86
00:03:49,519 --> 00:03:51,519
这已经不只是便宜了
87
00:03:51,519 --> 00:03:55,459
这完全是在搞一场大规模的价格颠覆啊
88
00:03:55,459 --> 00:03:56,699
那问题来了
89
00:03:56,699 --> 00:03:57,859
价格这么低
90
00:03:57,859 --> 00:03:59,618
性能会不会打折扣呢
91
00:03:59,618 --> 00:04:02,569
我们马上来看这张性能排行榜
92
00:04:02,569 --> 00:04:03,530
你会发现
93
00:04:03,530 --> 00:04:07,620
deep seek v4pro在这项衡量智能体性能的测试里
94
00:04:07,620 --> 00:04:09,419
稳稳地排在第一梯队
95
00:04:09,419 --> 00:04:12,360
甚至超过了一些我们耳熟能详的模型
96
00:04:12,360 --> 00:04:14,569
这一点就非常关键了
97
00:04:14,569 --> 00:04:19,009
所以你看这么一套低价高能的组合拳打出来
98
00:04:19,009 --> 00:04:21,449
正在撼动整个市场
99
00:04:21,449 --> 00:04:24,990
本来就已经打得很激烈的KIMIQ文
100
00:04:24,990 --> 00:04:26,250
这些竞争对手
101
00:04:26,250 --> 00:04:30,240
现在又得面对一个更强大的搅局者了
102
00:04:30,240 --> 00:04:30,839
好的
103
00:04:30,839 --> 00:04:31,959
我们已经看到了
104
00:04:31,959 --> 00:04:35,038
deep sick在模型层面强大的竞争力
105
00:04:35,038 --> 00:04:36,978
但是一个模型的发布
106
00:04:36,978 --> 00:04:39,798
它的影响绝不只是模型本身
107
00:04:39,798 --> 00:04:42,879
他会怎么去撼动整个产业生态呢
108
00:04:42,879 --> 00:04:45,360
我们来看看高盛是怎么分析的
109
00:04:45,360 --> 00:04:48,240
他们关注的正是这种技术变化带来的
110
00:04:48,240 --> 00:04:50,240
更广泛的经济影响
111
00:04:50,240 --> 00:04:53,620
这一句话直接点明了核心观点
112
00:04:53,620 --> 00:04:55,339
高盛的研究报告说
113
00:04:55,339 --> 00:04:58,160
他们继续把云计算和数据中心
114
00:04:58,160 --> 00:05:00,980
看作是首选的投资子行业
115
00:05:00,980 --> 00:05:01,579
诶
116
00:05:01,579 --> 00:05:02,699
为什么呢
117
00:05:02,699 --> 00:05:06,120
一个模型发布怎么就利好云计算了
118
00:05:06,120 --> 00:05:08,769
这张人工智能技术站的图
119
00:05:08,769 --> 00:05:10,649
可以帮我们理清这个思路
120
00:05:10,649 --> 00:05:12,410
你看deep cv4
121
00:05:12,410 --> 00:05:16,120
这样的创新是发生在最顶层的模型层
122
00:05:16,120 --> 00:05:19,600
但是当模型变得又好又便宜的时候
123
00:05:19,600 --> 00:05:22,110
就会催生出海量的应用
124
00:05:22,110 --> 00:05:25,910
而所有这些应用都需要底层的基础建设
125
00:05:25,910 --> 00:05:27,839
侍从来提供算力
126
00:05:27,839 --> 00:05:29,980
所以顶层易创新
127
00:05:29,980 --> 00:05:34,240
就会极大地推动底层算力需求的爆发式增长
128
00:05:34,240 --> 00:05:37,939
我们来把这个投资逻辑啊再梳理一遍
129
00:05:37,939 --> 00:05:43,110
首先更高效的AI模型会带来更广泛的应用
130
00:05:43,110 --> 00:05:47,310
然后呢海量的应用会创造出对AI token
131
00:05:47,310 --> 00:05:50,418
也就是模型使用量的巨大需求
132
00:05:50,418 --> 00:05:54,678
而这种需求对于那些提供底层计算能力的公司
133
00:05:54,678 --> 00:05:57,579
比如说云计算和数据中心服务商
134
00:05:57,579 --> 00:05:59,720
就是一个巨大的增长机会
135
00:05:59,720 --> 00:06:01,779
高盛的报告里也特别提到了
136
00:06:01,779 --> 00:06:04,990
几家在这个领域值得关注的关键公司
137
00:06:04,990 --> 00:06:08,449
那么在这场如此激烈的人工智能竞赛里
138
00:06:08,449 --> 00:06:11,158
到底谁会成为最终的赢家呢
139
00:06:11,158 --> 00:06:14,870
目前来看哈市场上主要有两类玩家
140
00:06:14,870 --> 00:06:18,649
一类呢就像deep sick和mini max这样的独立公司
141
00:06:18,649 --> 00:06:20,649
他们的优势就是效率高
142
00:06:20,649 --> 00:06:22,579
决策快船小好掉头
143
00:06:22,579 --> 00:06:25,100
另一类就是像阿里巴巴和腾讯
144
00:06:25,100 --> 00:06:26,500
这样的互联网巨头
145
00:06:26,500 --> 00:06:29,000
他们有庞大的现金流和基础设施
146
00:06:29,000 --> 00:06:32,079
能够牢牢抓住云计算带来的机会
147
00:06:32,079 --> 00:06:36,459
这两股力量之间正在激烈的竞争与合作
148
00:06:36,459 --> 00:06:40,120
而且这还不只是中国内部的竞争
149
00:06:40,120 --> 00:06:43,769
我们来看看open router这个平台上的数据
150
00:06:43,769 --> 00:06:46,310
这可是衡量全球开发者
151
00:06:46,310 --> 00:06:49,279
API使用量的一个重要风向标
152
00:06:49,279 --> 00:06:53,298
大家看这些用红色标记出来的中国模型
153
00:06:53,298 --> 00:06:56,738
在全球token使用量排行榜上的名次
154
00:06:56,738 --> 00:06:58,619
正在不断的往上爬
155
00:06:58,619 --> 00:06:59,750
这说明什么
156
00:06:59,750 --> 00:07:04,430
说明他们的全球影响力正在肉眼可见的增加
157
00:07:04,430 --> 00:07:07,970
那么让我们回到最初的那个问题
158
00:07:07,970 --> 00:07:11,428
在这场全球性的人工智能竞赛中
159
00:07:11,428 --> 00:07:14,869
最后胜出的到底是技术最复杂的
160
00:07:14,869 --> 00:07:17,819
还是成本效率最高的技术呢
161
00:07:17,819 --> 00:07:20,259
deep sick v4的横空出世
162
00:07:20,259 --> 00:07:23,100
无疑为这个问题增添了新的变数
163
00:07:23,100 --> 00:07:26,420
也让这场比赛的未来变得更有意思了
164
00:07:26,420 --> 00:07:28,680
值得我们持续关注