开云kaiyun(中国) “纳秒级”极速,给“万物订价”——华尔街最顶尖量化机构Jane Street的“算力战局”

当所有这个词硅谷齐在为通用东谈主工智能(AGI)和万亿参数的通用大模子猖獗时,华尔街最高明、最赢利的量化巨头 Jane Street(简街成本)却在偷偷开辟另一条极其奢华的算力阵线。
近日,闻名科技播客主理东谈主 Dwarkesh Patel 陌生获准实地拜访了 Jane Street 位于德克萨斯州的中枢数据中心。在这场与 Jane Street 技能团队共同负责东谈主 Yaron Minsky 以及物理工程团队负责东谈主 Dan Pavatova 的深度对话中,这家刚刚砸下60亿好意思元算力大量订单的华尔街"造王商",初度解密了他们如安在高频来回的"纳秒寰球"与大模子的"重算力期间"之间构筑起无法复制的实足壁垒。
中枢不雅点:
冲破延伸迷想: 量化来回并非全盘追求纳秒。最优计谋是"集成范例"——100纳秒内靠 FPGA 进行极简决策;而更大、更贤慧的 AI 模子则运行在微秒、毫秒致使小时级别的时限上。
60亿好意思元的算力贪心: 金融数据的"字节与浮点运算比率(Bytes to Flop Ratio)"极高,且噪声极大。Jane Street 不追求硅谷那种"一个模子作念所有事"的通用 Scaling Law,而是通过海量定制化架构和极速迭代来榨取逾额收益。
基础面容成新圣杯: 算力的信得过瓶颈早已不是芯片自身,而是发电机、变压器和液冷拓荒。为了让 GPU 提前 6 个月上线,公司致使不错作念出"毁灭全面发电机备份"的激进生意决策。
来回是"AGI完全"问题: 来回的执行是预测改日。在商场发生"相变(顶点格外)"时,东谈主类的元判断远比模子可靠。AI 期间,顶尖工程师和来回员的身价不降反升。
纳秒极速与大模子的"时候谱系"
外界对高频量化来回一直存在一种刻板印象:机器必须紧挨着来回所(奇迹器托管 Colo),每一笔来回齐必须在纳秒级内完成,而动辄需要宏大筹划延伸的 AI 大模子似乎与之扞格难入。
对此,Yaron Minsky 明确指出:"量化来回不存在单一的时候跨度,而是存在一个完整的谱系。"
100纳秒内的"极限硬件糊口"
在百纳秒级别的极限速率下,决定输赢的致使不是编程谈话(不管是 OCaml、Rust 照旧 C++),而是隧谈的硬件逻辑:
中枢拓荒: 径直挂载在网罗导线上的 FPGA(现场可编程门阵列)。
极限速率: "若是你在输入和输出的导线上连气儿一个示波器,你会看到数据包在被完全吸收完之前,就依然运行从输出端发出去了。"
代价: 这种极致速率褫夺了复杂的筹划空间,此时的决策逻辑极其浅易。
微秒到小时级的"AI主战场"
跟着决策时候窗口放宽到几微秒、几百微秒、毫秒致使数小时,更大、更贤慧的 AI 模子便有了用武之地。
预测中枢: 预测金钱的"公允价值(Fair Value)",并将其行为模块高度可组合地镶嵌到各式来回过程中。
空间纯真性: 模子越大、越慢,物理遗弃的位置就不错离来回所越远。这使得巨型 GPU 集群不必拥堵在高亢且受限的来回所托管机房中,开释了算力规模。
砸下60亿好意思元算力:为何不走硅谷的 Scaling Law?
不久前,Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿好意思元 的筹划条约。针对这笔惊东谈主的参预,Yaron 请问了华尔街与硅谷 AI 实验室(如 OpenAI 等)在 Scaling Law(规模定律)上的执行分别。
拒却"大一统",拥抱"定制化"
传统 AI 实验室追求老到一个完全通用的、能作念所有事情的单一模子。而 Jane Street 的价值则来自于模子架构的极大各样性与猖獗的实验数目。研究东谈主员需要极快的迭代时候,去针对千奇百怪的数据源尝试截然有异的全新模子假想。
独特的"字节与浮点运算比率(Bytes to Flop Ratio)"
金融领域的 AI 老到有着独特的底层能源学:
高数据量,低信息密度: 金融数据包含海量的噪声,单字节的信息量远低于天然谈话。
模子特征: 比拟大谈话模子(LLM),Jane Street 的模子往往更小,但婉曲的数据量却大得多,对数据加载和存储性能的要求达到了变态的级别。为此,他们正在大举构建我方里面的大规模对象存储系统。
算力战局的隐形瓶颈:从芯片到发电机与变压器
当硅谷还在为英伟达最新的 GPU 芯片大打首先时,负责物理工程的 Dan Pavatova 清楚,信得过的战场依然振荡到了物理基础面容上。
生意决策打败纯工程无缺主义
"发电机是咫尺你能买到的交货周期(Lead Time)最长的拓荒之一," Dan 暗示。为了冲破这个瓶颈,Jane Street 展现出了极其狼性的华尔街想维:
"咱们不错挑战以前的不雅念。所有这个词数据中心果真齐需要发电机备份吗?若是咱们拿掉部分备份,只留给最中枢的系统,就能让咱们的 GPU 提前 6 个月上线。从工程上看这大约不是最无缺的,但这实足是最好的生意决定。"
物理极限的迫临:1兆瓦机架与800V直流电
跟着算力密度的猖獗飙升,改日的技能有讨论正在发生巨变:
拓荒瓶颈: 咫尺变压器、发电机以及用于液冷的冷却拓荒处于很是阑珊情状。
技能演进: 数据中心正在向单机架 1兆瓦(MW) 的恐怖密度迈进,冷却管谈越来越粗。供电架构也正在从传统的交流电向 800伏直流电(DC) 演进。
乐鱼体育官方网站两阶段锁定计谋: 鉴于芯片迭代太快而基础面容确立太慢,Jane Street 倾向于"作念多(Long)"电力和数据中心容量,先锁定能源,再推迟对高亢芯片的采购决策,致使在必要时将电力容量分流给他东谈主。
被动毁灭的"x86捷径"
多年来,Jane Street 运营技能组织的一个决窍是"走捷径":假装寰球上惟有 x86_64 一种 CPU 架构,何况只爱护一个大型研究数据中心和一个存储集群。但咫尺,跟着算力需求全球化分散(无法在单一地点引入足够恐怖的电力),以及英伟达全新 ARM 架构产物的推出,这一捷径已被澈底冲破。筹划和存储调理的交汇、以及对 ARM 架构的提拔,让系统复杂度变高了几个数目级。
四、 AGI期间,东谈主类理会为何依然是"终极护城河"?
当被问及"一朝 AGI(通用东谈主工智能)收尾,是否会坐窝让 Jane Street 休闲"这一激进问题时,Yaron 给出了一个尽头清醒且深化的回应。
来回是"AGI完全(AGI-complete)"问题
Yaron 认为,来回执行上和"NP完全"问题一样,是一个"AGI完全"问题。这意味着寰球上发生的任何风吹草动(政事、天灾、科技变革)最终齐会汇入并影响来回配景。
"在浅易的部分被自动化后,那些模子无法自动化的硬核部分,反而成为了竞争上风的终极所在。我从来莫得像今天这样关键地想要招聘更多的工程师和来回员。"
无法被电子化取代的"东谈主际修辞"与相变
非电子化来回依然苍劲: 即使在今天,大量大额来回(如债券业务)依然依赖于东谈主与东谈主之间通过聊天用具的径直交流。来回员需要肉眼和直观去评估电话那头的东谈主代表了多猛进度的"逆向采纳(Adverse Selection)"(即对方是否掌抓了你不知谈的内幕)。
相变中的"元判断(Meta Judgment)":"简街最赢利的日子,往往是寰球堕入猖獗、没东谈主知谈发生了什么、商场发生‘相变’的时刻。咱们但愿模子能推崇好,但咱们深知,东谈主类在打法相变时比模子靠谱得多。此时需要一种东谈主类独到的‘元判断’来决定系统该作念什么。"
全面扩招:简街正在寻找哪些东谈主?
跟着 GPU 规模在短期内筹谋从几万张猖獗飙升至几十万张,Jane Street 正在全球范围内伸开前所未有的东谈主才搜猎,机器学习和来回如今是一项"全所在的团队畅通":
物理工程类: 机械工程师、电气工程师、结构工程师、名目司理、建筑师(负责数据中心全人命周期的寻找、假想、建造与运营)。
通用/专科软件工程: 除了高圭臬筹划机科学配景的通用工程师,简街咫尺猖獗渴慕"全舰队/全集群范围优化(Fleet-wide Optimization)"的东谈主才(雷同于超大规模云奇迹商的架构师),因为当算力投资达到数十亿好意思元时,通用的狭窄优化将产生大量的财务酬谢。
前沿硬件与数理研究: 假想定制芯片(ASIC)的硬件工程师;独揽数学评释让软件更高效的"体式化范例(Formal Methods)"团队(AI 创新让这一冷门领域今夜回春);以及领零落学、物理、筹划机配景的来回员。
高阶前端工程师: 昔日简街很是难得呐喊行结尾,假装 Web 网页技能从未发生过。但咫尺为了给研究东谈主员提供更直不雅的 AI 用具、画出精确的直线和用具指示,他们正在大举投资确立顶尖的前端开发团队。
以下为对谈全文,由AI辅助翻译:
Dwarkesh:
Jane Street 是我播客的息争伙伴,咱们猜测的一个真理点子是:为什么我不外来躬行参不雅一下你们运行的用于老到(AI模子)的数据中心呢?是以我刚刚在技能团队共同负责东谈主 Yaron Minsky(译注:视频中口误及速记为 Ron Minsky)和物理工程团队负责东谈主 Dan Pavatova(译注:速记为 Dan Ponttovo)的领导下,参不雅了这个位于德克萨斯州的数据中心。尽头感谢两位带我参不雅。值得一提的是,我以前从未去过这种地方,是以我亦然第一次参不雅,这太棒了。
以前我一直很困惑:既然你们需要在纳秒(nanosecond)级别进行来回,那你们奈何能作念 GPU 关联的事情呢?也许你们不错详备讲讲,你们来回的执行时候跨度(时限)是若何的?在作念出来回决策的过程中,你们能职守得起运行大型模子的成本(或时候延伸)吗?
Yaron:
我认为这里需要领略的中枢少许是,并莫得单一的时候跨度,而是存在着许多不同的时候跨度。咱们构建的一些来回系统和进行的某些来回,为了保持竞争力,你执行上必须在 100 纳秒以内处理并复返一个数据包。这是一个完全不同的技能界限,对吧?
东谈主们或然会磋议,比如:"哦,你们能用 OCaml 编写高性能的东西吗?"咱们的回应是:"咱们不错。但对于这种级别的速率,不管你是用 OCaml、Rust 照旧 C++ 编写齐不关键,因为你根柢无法使用 CPU。你必须使用 FPGA,它径直通过导线连气儿到网罗上。你复返数据包的速率尽头快,若是你在输入和输出的导线上连气儿一个示波器,你会看到数据包在被完全吸收完之前,就依然运行从输出端发出去了。"
是以这是一个尽头不同、尽头特殊的领域。然则,当你处于这个时候领域时,你执行上无法进行太多的筹划,你所作念的决策将会尽头浅易。事实上,在决策的"贤慧进度"(不管是模子照旧其他某种致使是手写的决策过程)与"复返速率"之间,存在着一条完整的衡量弧线。
而构建最好来回计谋的正确范例,执行上是接管一种集成(ensemble)范例。对于某些类型的决策,你会尽头速即地作念出尽头浅易的决策;对于某些类型的决策,你的运作规模可能是——不再是研讨 100 纳秒,也许是几微秒、几十微秒、几百微秒或毫秒;而在某些情况下,有些过程若是能在半小时或本日内完成决策复返,那也完全没问题,在这些时候跨度上,你在时候基础上一样具有竞争力。但在所有这些不同的时候跨度上,你所作念的决策类型是完全不同的。
也许你未便清楚,但这些模子究竟在预测什么?详情不单是订单簿(order book)中的下一个变动吧,或者也许即是?
咱们咫尺显然是在触及一些很难公开评述的话题。但我认为最浅易也最关键的一个,亦然咱们一直在想考的——不仅是咫尺在想,25 年前我刚加入 Jane Street、用线性转头等用具构建模子时就在想——一个尽头有用、尽头经典的事情即是预测某样东西的公允价值(fair value)。比如,咱们认为这个东西真赶巧若干钱?这能够以一种尽头可组合的形状融入到许多不同的来回过程中。这并不是咱们行为预测目的的独逐个类事物,但它是一个很关键的目的。
有一阵子,我嗅觉有一种对于来回公司在作念什么的梗(meme),那即是:你必须惩办奇迹器托管(colo),搬到纳斯达克来回所所在的地方,你的机器必须紧挨着那儿,这尽头关键。
在不深入磋议咱们把什么东西放在何处的具体细节的前提下,你的推理(inference)过程可能在 CPU 上,可能在 FPGA 上,也可能在 GPU 上,这取决于你需要若干筹划量、模子有多大、需要若何的延伸复返等不停条目。
是的,更大、更慢的东西,你不错把它放得更远一些。把所有的筹划拓荒齐紧挨着来回所遗弃是很令东谈主头疼的。而对于那些信得过极其快速的事物,只是待在托管机房里是不够的,你致使会关切通往那里的线缆线圈有多长——在那种极低的纳秒级别下,你果真需要去测量光纤布线的长度。但总的来说,更大的模子在它们物理遗弃的位置上给你带来了大得多的纯真性。
Dan:
若是咱们把 GPU 放在来回所驾驭的这些托管面容中,咫尺你必须遵从他们的礼貌,你懂吧,是谁行为奇迹商为你提供阿谁空间。此外,你的电力、冷却,所有这些不停条目咫尺可能齐比你我方假想和运营的面容要稍许更紧俏一些。是以,你咫尺必须想出一些办法,比如:"嘿,可能一个机架里我只可放一个 GPU,因为它奢华太多电了,是以我必须把它分散开来,而不是能够在一个机架里收尾高效的液冷。"是以跟着咱们的筹划需求连接增长,这些齐是咱们需要研讨的事情。
你们最近与 CoreWeave(译注:速记错录为 core reef)签署了一项价值 60 亿好意思元的筹划条约。嗯,你们狡计用它来作念什么?
AI 寰球的其他领域有规模定律(scaling laws),咱们也有咱们的规模定律,有许多模子咱们齐想老到。我认为咱们与那些更传统的 AI 实验室之间真理且可能不同的少许在于,咱们模子架构的各样性以及咱们正在进行的实验数目。因此,你从中获取的大部分价值就在于,环球在模子假想中尝试了大量尽头不同的新事物,给研究东谈主员提供了更快的迭代时候,让他们能够发现更多的想法并激动更多的创新,这被评释是极其关键的。
在那些基础模子实验室的情况下,老到一个能够作念所有事情的、完全通用的单一模子是有克己的,而不是构建一堆定制的不同模子。你能让我了解一下,为什么在 Jane Street 会有不同的衡量采纳吗?
对咱们来说,某些专门化是为了能够稳妥和奢华正确的数据类型,对吧?咱们不错喂进去的潜在数据源尽头多。比如咱们在需要达到的数据速率上存在许多各别。
另一个让咱们需要对所作念的责任进行某些专门化的身分是,举座的推理和来回动态齐因"字节与浮点运算比率"(bytes to flop ratio)的不同而变得截然有异。咱们用来老到模子的数据量要大得多,但就单字节而言,这些信息量却比较少,因为金融数据噪声(noise)尽头大。是的。因此,模子往往更小,而数据往往噪声更大、噪声更多,且数据量要大得多。
另外,咱们针对不同应用构建的不同模子之间亦然不一样的,对吧?当咱们试图找出"咱们该如何独揽咱们获取的更多信息"时,就会波及到各式决策,从"咱们如何高效地存储和加载数据",到"咱们如何塑造模子",再到"咱们如何让推理过程具备它所需的婉曲量和延伸"。这其中会有一整套截然有异的衡量。因此,去理清这些并为不同的应用挑选出最好有讨论,长短常有价值的。
那你们的推理(inference)责任负载执行上是若何的,或者说,它与传统的那些作念大谈话模子聊天机器东谈主的大公司比拟如何?
大体上说,正如你所意象的,延伸更为要道。批处理(batching)仍然是一个问题,取决于你所作念的模子,你可能会有针对你所不雅察的不同来回代码(symbols)进行解耦/分散(disaggregated)的模子或模子的一部分。因此,从多个数据源拉取数据并将其打包批处理在沿途一样会产生影响。
我认为另一个真理的点是,数据速率果真尽头高。在大型大谈话模子实验室里,你从所有不同用户那里获取的总体(团聚)数据速率也很高,但你从任何单一用户那里获取的序列数据量(sequential data)并不大;而当你拉取的数据是来自纳斯达克行情赠给(NASDAQ feed)的字节时,天哪,在单一领域内需要以因果前后接踵的形状进行序列化奢华的数据速率极高。是以再次强调,这里的动态发生了转变。不外我认为,许多雷同的基础工程问题其实大同小异,只是所有的常量齐被微调到了不同的位置,因此你最终作念出了不同的采纳。
这意味着在你们必须如何假想这些系统方面,不管是从存储照旧其他方面来看,有什么具体体现?
是的,我认为与你鲁莽看到的比拟,咱们对数据加载性能的关注度更高。我想咱们正在作念大量责任来构建咱们我方的大规模数据存储系统,咱们我方的里面对象存储(object store)。咱们之前使用过各式供应商的产物,但跟着时候的推移,我认为对于其中一些以研究为导向的用例,咱们需要在更大的规模下运行,还需要打法数据中心的各样性。
对吧?这不太是一个推理时的问题,而更多是一个老到时的问题——也即是说,咱们即是无法在消亡个地方获取咱们想要的所有筹划资源。我不知谈,我以为总的来说,有用运营一个技能组织的一个关键决窍即是去弄明晰你不错走哪些捷径。
咱们多年来很红运能够走的一个捷径是,咱们不错假装这个星球上惟有一种 CPU 架构,比如所有东西齐是针对 x86_64 的,咱们假装其他任何东西齐不存在,这简化了许多事情。咱们还曾领有一个大型的研究数据中心和一个大型的存储集群,这也极地面简化了许多事情。
而执行上,这两点咫尺齐已被冲破了。比如,你即是无法获取那么大的电力,你无法在消亡个数据中心里接入足够多的电力引入(译注:此处 Yaron 幽默地用了"thunderbolts/雷电"一词指代极高电力)来为你所需的所有事物供电,你需要把数据中心建辞寰球各地。是以这里存在一个宏大的去中心化/分散(disaggregation)问题,这也给你带来了一个难题,比如:哦,咫尺你必须研讨让你的筹划调理和存储调理缜密交汇在沿途。而且有海量的数据,因此在它们之间出动这些数据绝非易事。
另外,咱们也不得不毁灭"仅限 x86"的作念法,因为英伟达推出了一系列酷炫的新产物,这意味着你咫尺必须提拔 ARM 架构了。
放大视角,我想问一个尽头天果真问题。可能会有一种天果真看法,认为若是你领有了通用东谈主工智能(AGI),它就能坐窝作念 Jane Street 所作念的事情。请让我了解一下,为什么这种天果真看法是天果真?
是的,我不想完全诡辩它。确乎有这样一种寰球步地是咱们需要稳健对待的:也即是咱们将构建出大谈话模子或其他东谈主工智能系统,它们在严格意旨上比地球上的所有东谈主类齐更贤慧,在所有理会任务上齐更有才调。是的,那将会很不可想议,那将是一种完全不同的情状。在那种情况下,确乎,Jane Street 所作念的很大一部分事情可能会被自动化取代,也许咱们环球齐会坐享其功,多喝点玛格丽特鸡尾酒之类的,我不知谈阿谁寰球会是什么面容。但嗅觉咱们咫尺距离阿谁阶段还不是特别近。
我认为总的来说,东谈主们很容易低估这项责任的丰富性和复杂性,不仅是像 Jane Street 这样的公司所作念的责任,执行上在职何信得过有贪心、高难度的公司级任务中齐是如斯。我尤其以为,来回对我来说有点像"AGI 完全"(AGI-complete)问题,雷同于"NP 完全"(NP-complete)问题。
这意味着寰球上所有不同的问题最终齐会在来回配景下影响你正在作念的事情,因为归根结底,来回波及弄明晰事物的价值,这意味着对改日作念出预测,而许多不同的事情齐会汇入其中。跟着其中的各个部分被慢慢自动化,你就会遭遇常见的情况:那些咱们还不知谈如何很好地自动化的其他贫苦部分,最终成为了竞争上风之所在。
我以为东谈主类和东谈主类的理会比以往任何时候齐更有价值。我从来莫得像今天这样关键地想要招聘更多的工程师和来回员,因为东谈主们所作念的每一件事齐比昔日更有价值。我的真理是,这在一定进度上是因为我持有一些怀疑气派,不认为咱们距离在所有事情上齐比东谈主类贤慧的模子像某些东谈主想象的那么近。
也许这波及到物理基础面容,比如执行惩办托管机房;也许执行上是你们构建的软件基础面容。能让我了解一下到底是什么东西会……
是的,咱们构建了各式各样极其复杂的软件,让东谈主们去想考许多不同的来回问题,其中一些问题根柢不奈何电子化。这个业务的各样性远比东谈主们以为的要丰富得多。有一种想法是:"哦,对,那详情是一件很浅易的事,你只须有一群贤慧的东谈主,他们作念出贤慧的决策,写出优质的软件就行了。若是咱们能把贤慧这部分自动化,那就万事大吉了。"但我认为事情要比这复杂得多。
你所说的来回中"非电子化"的部分是指什么?
我的真理是,咫尺仍然有通过聊天用具在东谈主与东谈主之间进行交流、共同决策并完成的来回。比如有东谈主会去评估电话那头的东谈主代表了多猛进度的逆向采纳(adverse selection),这依然是业务中尽头实在的一部分。
你知谈,开云kaiyun(中国)即是有不同种类的证券需要更长的时候才能收尾更高进度的自动化。举例,债券业务的自动化进度就远不足你在股票业务中看到的水平。执行上,咱们对此也有点困惑。我认为咱们这些在行业里待了一段时候的东谈主,天然我运行得有点晚,没能信得过见证股票走向电子化的转型过程,但那些比我关注得早少许的东谈主会以为:"行吧,我猜其他统管辖域接下来也会这样。"
关联词,你懂的,依然昔日了 25 到 30 年,并不是所有事情齐走向了阿谁主义。天然咱们咫尺依然不奈何看到有许多东谈主站在来回所大厅里了,但依然有大量的来回深度依赖于东谈主类以及东谈主类的判断行为中介。
说到这个,在模子和来回决策之间,东谈主类参与(humans-in-the-loop)的进度有多高?
你们许多最赢利的日子往往发生在一些奇怪的事情发生、出现要紧事件、寰球变得猖獗、没东谈主知谈发生了什么的时候。在那些情况下提供流动性往往极其贫苦,是以你为此获取的酬谢也更高,而且在那些日子里鲁莽会有宏大的来回量。要把这些作念好,往往需要东谈主类的判断力,去想考"今天与以往所有日子有什么不同?"
天然在可能的范围内,咱们但愿构建能够很好打法相变(phase transitions)的模子,但咱们也认为,东谈主类在打法相变时比模子推崇得更好,或然你需要这种元判断(meta judgment)来决定该奈何作念。因此,即使对于高度自动化的系统,也需要负责监控的东谈主员作念出决策,而咱们长久齐有东谈主在进行监控,对吧?我认为来回中一个关键的部分是在来回日内去关注和想考正在发生的事情,即使个别来回的发生速率远远快到东谈主类无法在单笔来回的基础上进行骚扰。
Dan,在你从事这类建筑(数据中心)责任的昔日 20 年里,最权贵的变化是什么?
是啊,东谈主们咫尺竟然果真运行关切数据中心了,何况想要聊聊它。你知谈,我作念冷却系统依然有一段时候了,咫尺已而之间环球齐运行磋议它,以为它很真理。是以这挺好玩的,很让东谈主得意,我想我团队里的东谈主也有同感。
有些在数据中心行业干了 20 年的东谈主,仍然想用昔日的形状去作念事,但我认为这种老范例咫尺正在被淘汰。你会发现环球正在挑战以前的不雅念,比如:"嘿,我的所有这个词数据中心齐有发电机行为后备电源,但发电机是你能买到的交货周期(lead time)最长的拓荒之一。是以也许咱们把它们拿掉,只把发电机用于需要这种弹性的系统中枢部分。这能让咱们的 GPU 提早六个月上线,那就干吧!"是以,你知谈,有些事情也许从纯工程角度看不是最好的决定,但它实足是最好的业务决定。我以为雷同这样的事情正在越来越多地出现。
嗅觉每年东谈主们在扩大 AI 筹划规模时遭遇的瓶颈齐在发生变化。在你们进行更多谈判并试图获取更多筹划资源的过程中,抛开筹划、内存和所有那些好玩的东西不谈,咫尺的瓶颈是什么?你瞻望改日的瓶颈会是什么?
发电机、变压器,还有一些咫尺用于液冷的冷却拓荒,需求量齐尽头大。而且它变化得很快,我今天告诉你的情况,两周后详情就不一样了。
咱们作念的一件事是,与里面的采购团队尽头缜密地息争,去囤积其中的一些物质。对于那些咱们知谈在所零落据中心之间齐不错通用的物质,咱们会进行仓储并随时准备使用。但像发电机这样的部件,你不可能把一个宏大的发电机放进平素的仓库里;或者,举例若是你在作念像涡轮机(turbine)这样"表后"(behind-the-meter)的名目,你就必须对这些商场多作念一些想考——你从何处获取它们,在何处进行安置,你弗成随纰漏便把它们搁在一边。
是以,我认为紧缺的部件详情是会变化的,刚才提到的即是其中一些大件。而且,跟着咱们的密度越来越高,一个但愿是建筑不错变得稍许小少许,也许咱们能够更快地把建筑盖好,把所有的筹划资源紧凑地紧缚在沿途,然后周围的所有基础面容可能齐是预制好并输送到现场的。没错,模块化数据中心或模块化基础面容正在变得越来越宽广,这些组件(尤其是那些长交货周期的组件)在场外进行假想和建造,然后运到现场,尽可能地接近"即插即用"(plug-and-play)。
你之前提到的一个不雅点是,跟着机架自身的密度越来越高,数据中心里越来越多的部分其实是围绕执行机架周围的基础面容。这执行上有点雷同于芯片上的封装(package),对吧?或者说封装上的芯片。筹划中枢只占所有这个词封装总面积的极小一部分。
是的,这很挑升想。我的真理是,这自身并弗成解决任何问题,反而可能会带来其他问题,天然。比如,当你达到单机架 1 兆瓦(megawatt)的水平时,环球会问:"单机架 1 兆瓦到底是什么成见?"你接入那里的冷却管谈只会变得越来越粗。而且,不管咱们咫尺使用的是交流电(AC),照旧改日的趋势——800 伏直流电(DC),你仍然必须把所有这些组件带到消亡个地方。
从咱们的角度来看,真理的少许是,天然咱们不错假想这些工程上的东西,但归根结底,不管是英伟达、定制芯片(ASIC)公司照旧其他任何东谈主,他们齐必须销售能够在数据中心运行的组件,而且他们也在尽头稳健地想考他们要卖什么,因为你需要东谈主们能够用得上它,对吧?若是你建造了一个 1 兆瓦的数据中心或 1 兆瓦的机架,但却莫得办法为其供电和冷却,那就毫毋庸处。是以咱们正在与该领域的险些所有东谈主开展尽头缜密的息争,去想考你需要哪些组件才能提拔这些下一代产物。因为你所说的交货周期或然会突出一年,而你往往是在为芯片下订单之前就得对基础面容作念出决定。
是以,比如你得尝试……你知谈谷歌的 TPU,它们使用温度更低的水,而且它们的密度惟有英伟达 NVL72(译注:此处速记错录为 NBL72 GP300,执行聚拢高下文应为英伟达的 NVL72 架构配 GB200 芯片)的一半。对吧?是以这需要不同的计谋,而你必须确保改日能够兼容处理这些拓荒。
超大规模云奇迹商(hyperscalers)之是以能够愉快参预海量的筹划资源,原因之一是他们对闲置筹划资源有一些"备用用途"(reserve use),不错在特定时候不消于大谈话模子老到或推理时派上用场。举例,像 Meta 这样的公司,若是他们买的某些 GPU 没在用,他们不错径直说:"咱们今天就把 Instagram 的告白投放模子作念得稍许好少许。"那么对于 Jane Street 来说,有什么平等的筹划资源备用用途吗?这不错说是这些筹划资源对你们价值的底线。
部分原因在于,咱们在许多方面其实濒临着尽头严重的筹划资源受限。东谈主们领有的大量创新、实验和新想法齐受限于咱们所领有的筹划量。是以从某种意旨上说,若是咱们稍许严格地去评估一下咱们能够运行的那些不同新任务的价值,会发现那些咱们不得不拒却的任务的价值执行上长短常高的。对吧?是以咱们正在作念咱们认为最有价值的事情,但若是事实评释咱们领有的筹划资源超出了这些任务所需,那么在阿谁领域还有海量的其他研究和实验不错作念。是以咱们还远远莫得到说"噢,筹划资源太多了"的地步,咱们反而是遭遇了违反的问题。
我认为在这个方进取也有许多"低落的果实"(low-hanging fruit,容易收尾的效果),比如更鲁莽地重新老到模子即是很有价值的。跟着时候的推移,模子的质料会有所衰退,而能够重新运行它们——这对公司具有径直且明确的价值。此外,咱们还不错推行一定数目的大量(bulk)推理任务,当系统中莫得其他可调理的任务时,不错用它们来填补空缺。因此,咱们并莫得完全雷同于 Instagram 告白投放那样的应用,但确乎存在一大片"盲区/未知空间(dark space)",即那些咱们没在作念、但若是有了更多筹划资源就会去作念的事情。是以咱们尽头不挂牵无法从这些拓荒中榨取价值。
这里面确乎有一系列的隐性下注(embedded bets),比如咱们正在这些东西上参预巨资,你不错想象,有些事情的发展速率可能不会像咱们预期的那么快,比如咱们正在运行的各个模子和来回所产生的价值;而且这是一个竞争犀利的环境,也许其他东谈主会打败咱们。我认为保持优秀的要素之一,即是长久对竞争敌手可能摸索出与你雷同的作念法并缩短你的业务价值而感到垂危。是以,确乎有可能出现一些并不奏凯的情况。但显然,以咱们咫尺现存的筹划任务组合来看,咱们距离遭遇"算力富饶"这个问题还尽头远处。
这很挑升想,天然这莫得完全回应问题,但你不错把"为数据中心供电"与"购买芯片"剥离开来,然后说:"好吧,我以后可能会需要使用这些筹划资源,让我咫尺先锁定数据中心和电力资源,但推迟对尽头高亢的芯片作念出采购决策。"对吧?在阿谁你可能需要筹划资源的时候节点上,先让我方处于电力和数据中心容量稍许"作念多"(long,充裕)的情状。然后咱们不错假想一些机制,比如:嘿,也许咱们不错把其中一部分容量分流(offload)给其他东谈主。出于不言而喻的原因,对咱们来说,分流电力和数据中心容量要比分流芯片自身容易得多,但你确乎不错将这两者清醒地一分为二。
这也转变了对于招聘的考量。我是说,你们招聘的门槛依然高到极致了,但这会让它进一步擢升。若是你多招一个东谈主,那这个东谈主就需要筹划资源来作念实验,而这部分筹划资源将不得不与你团队中其他一样优秀、本不错我方作念实验的东谈主进行衡量和采纳。
我明白你的真理,但咱们不会去想:"噢,再招更多研究东谈主员会很奇怪,因为那样咱们就必须给他们更多的筹划资源。"违反,咱们的逻辑是:研究自身极其有价值,研究东谈主员也极其有价值,这反而是购买更多筹划资源的一个绝佳根由。
因此,咱们尽头有能源去扩大筹划规模。比如咫尺,咱们的 GPU 数目毛糙在几万张的范围内,而在不久的将来,咱们将达到几十万张 GPU 的规模。咱们认为这完全不错由业务效益来评释其合感性。你知谈,这并不是说咱们会在那里挂牵:"哦,咱们能弗成把柄来回计谋的损益(P&L)来评释它的合感性呢?"不,不,不,这显然是很好的投资。是以在招聘方面,这并不会让咱们减速脚步。
在某些方面,增长的最大不容在于需要时候去信得过培训新东谈主、让他们融入咱们的文化、陪伴他们成长并共同确立这个地方。咱们但愿 Jane Street 连接成为一个伟大的责任场面。我完全不认为硬件问题是不容咱们发展的身分,我认为信得过的收尾身分是寻找优秀的东谈主才,以及咱们对他们的导师指引才调(mentorship capacity)。
我猜这可能是一个很好的契机,让你们提一下你们咫尺正在招聘哪些类型的职位?
天哪,那 Dan,你要不要先从工程领域运行聊聊?
好的,我先来。我的真理是,总的来说,咱们即是在寻找尽头贤慧、对作念这些事心计兴味的东谈主。这包括机械工程师、电气工程师、名目司理、建筑师——也即是匡助假想和建造其中一些空间的东谈主。你知谈,我团队的职责执行上是寻找这些空间、进行假想、建造,然后去运营它们,这是一个全人命周期(full life cycle)。是以在每个阶段你齐需要东谈主才。你需要许多工程师,许多咱们称之为"物理工程"(physical engineering)领域的东谈主,这是咱们我方发明的一个词。但具体来说即是机械工程师、结构工程师,可能还有电气工程师这类东谈主才。
而且机器学习和所有这个词来回行业其实尽头像一项团队畅通,是以咱们但愿招聘来自许多不同配景、领有许多不同才调的东谈主才。咱们天然尽头得意能招到一些领有特定机器学习配景的东谈主,比如从事架构假想和在各式情况下构建模子的东谈主。就像我提到的,咱们针对我方特有的、商场特征所需的数据,领有一大堆定制的架构等。此外,咱们也构建大谈话模子(LLM),咱们对在 LLM 老到人命周期的各个阶段有训戒的东谈主齐尽头感兴味,何况一直在扩大这个领域的规模。
你知谈,咱们招募了大量领有素雅科学和技能配景的东谈主——比如数学、筹划机科学(CS)、物理、工程等专科——来作念来回员。这需要一种抽象性的手段。但这是咱们持续尽头得意去招东谈主的一个领域。
在软件工程方面,有一个通用的软件工程师职位,咱们老是渴慕招到优秀的东谈主才。我以为这能带来很好的酬谢。天然提及来有点傻,但正如 Dan 所说,贤慧、充心仪思心且领有极佳筹划机科学配景的东谈主,尽头允洽这个通用职位的变装,他们最终不错作念许多不同类型的事情。
还有许多真理的专科领域也让咱们尽头得意,举例有件相等新的事情:跟着如今算力规模的发展,咱们对全集群/全舰队范围的优化(fleet-wide optimization)比昔日感兴味得多。咱们以前对性能优化的看法是,它更多是对于让那些对速率最要道(speed-critical)的部分尽可能地快,而更宽广的情况是,算力挺低廉的,而东谈主力很贵,是以咱们并不会花太多时候去优化咱们的通用筹划。然则,天哪,咱们咫尺正在进行海量的通用筹划,当你运行在这个领域投资数十亿好意思元时,优化就变得更有价值了。有些东谈主曾在某些超大规模云奇迹商(hyperscalers)那里有过这方面的训戒,咱们尽头但愿招到更多具有这种配景的东谈主,来想考咱们正在遭遇的优化问题。这些问题有重复之处,但在关键方面又有所不同,是以这既是一个关联的挑战,亦然一个新的挑战。
另外,咱们还作念许多真理的硬件工程责任,比如假想咱们我方的定制芯片(ASICs),领有这种训戒的东谈主一样让咱们感到超等得意。
还有一件事,咱们刚才吃午饭时提到过,咱们运行研讨确立一个体式化范例(formal methods)团队,基本上是独揽数学评释来让软件工程变得更有用率。这是一个尽头新、极具探索性(speculative)的领域,咱们尽头得意能在那里找到东谈主才。我以为这是一所有这个词群体的东谈主,在昔日我总不得不让他们失望,对他们说:"是的,咱们对体式化范例不感兴味。"但由于所有这个词东谈主工智能创新,体式化范例已而酿成了一个真理得多的领域,是以这是咱们很得意去投资的地方。
另外,我也不知谈,比如名目司理、作念前端开发(front-end dev)的东谈主。事实上,在 Jane Street 的大部分发展历程中,咱们齐假装这整套 Web 网页技能从未发生过,咱们险些所有的用具齐只是在结尾(terminal)里运行。但事实评释,若是能画一条直线,或者有一个用具指示(tool tip)之类的内容,长短常有用的。是以咱们执行上参预了大量资源来构建尽头出色的前端开发用具,并为东谈主们打造用具。领有特出的前端工程师——他们既是优秀的软件工程师,又对"如何制作一款对用户友好的应用"有很好的领略——这长短常关键的。
对于所有这些,我想说一个总体的、更高维度的不雅点(meta point):我认为,在现时围绕 AI 用具的所有合理且实在的得意中,东谈主们或然会淡薄这一切当中"东谈主的身分"(human element)的关键性。咱们果真尽头敬重构建对东谈主类成心的用具,这也包括 AI 用具自身,对吧?我认为,以一种能够提妙手类领略力、能动性(agency)和着力的形状去激动用具的发展,才是最中枢的事情。收尾咱们发展的最主要身分,莫过于在这里责任的特出东谈主才,以及能否找到更多合适的东谈主并扩大组织规模,从而让咱们能作念更多的事情。因此,在想考咱们所构建的系统时,咱们接管了一种尽头以东谈主为本(human-oriented)的形状。
看你们制作这些真理的谜题和挑战果真很酷。我认为你们平时就在这样作念,而且你们还专门为咱们播客的听众制作了几个。我以为在听这期内容的听众可能会对去望望这些谜题很感兴味。趁便说一句,其中有一个谜题,不仅提交参加竞赛的东谈主里莫得一个能解出来,连 Jane Street 我方也解不出来。阿谁谜题波及寻找各式内置了触发词(trigger phrase)的大谈话模子的后门。不管奈何说,我提到这少许是因为,若是环球有兴味深入了解,我认为这些真理的谜题可能会在一定进度上展现出在这里责任是什么面容的,以及为什么这里是一个真理的地方。
是的,谜题是咱们文化中树大根深的一部分,是以用它们行为一种与环球确立相干的形状果真很棒。
太好了,感谢两位参与此次对话。
Yaron & Dan: 尽头感谢开云kaiyun(中国),咱们的侥幸。