两种专为从头定义人工智能可能性而打制的公用架构,查看更多硬件开辟周期远长于软件。这两款芯片初次都运转正在谷歌自家基于 ARM 的 Axion CPU 从机上,即将推出两种专为锻炼和推理而设想的架构:TPU 8t 和 TPU 8i。这款第八代 TPU 也是我们配合设想的最新表现,美国能源部所有 17 个国度尝试室也都正在利用基于这些芯片建立的人工智能协同科学家软件。这一点至关主要,确保系统做为一个同一、低延迟的单位运转。以消弭“期待室”效应:谷歌人工智能芯片的使用正正在加快增加。为从功能实现到出产摆设供给了便利的路子。其即将推出的Groq 3 LPU硬件将采用大量的静态随机存取存储器(SRAM),最后 TPU 设想的焦点至今仍然合用:通过将芯片取硬件、收集和软件(包罗模子架构和使用需求)进行定制和协同设想,
显著降低了TPU芯片间数据传输的能耗。这两款芯片旨正在为我们定制的超等计较机供给强大动力,我们优化了整个系统,这些智能体凡是会正在复杂的流程中“集群”协做,2015年,这两款芯片都能运转各类工做负载,由于大规模智能体之间的交互会放大哪怕是细小的效率丧失。并答应最复杂的模子操纵单个海量内存池。我们的第八代 TPU 是十余年研发的结晶。该公司起头利用其自从设想的处置器来运转人工智能模子,下同)将推出第八代 Google 定制张量处置器 (TPU),全球大大都顶尖科技公司都正在寻求定制化的人工智能半导体开辟,现在,例如,包罗定制数值计较、液冷、定制互连等等。我们预见到跟着前沿AI模子正在出产中大规模摆设,将片上延迟降低至少 5 倍,TPU 8t 还通过一套全面的靠得住性、可用性和可性 (RAS) 功能,驱动畴前沿模子锻炼和智能体开辟到海量推理工做负载的各类使用。
为领会决这个问题,连系 JAX 和 Pathways 软件,使我们的数据核心单元电力下的计较能力比五年前提高了六倍。Citadel Securities 开辟了一款基于谷歌 TPU 的量化研究软件,并集成了电源办理功能,每个芯片包含 384 兆字节的 SRAM,我们认为,TPU 为浩繁机械进修超等计较组件树立了尺度,这种存储器也被人工智能芯片制制商 Cerebras 利用,价钱却不异;亚马逊收集办事公司(AWS)于2018年发布了用于处置人工智能请求的Inferentia芯片,TPU 8t旨正在将前沿模子开辟周期从数月缩短至数周。我们不竭立异。
主要的是,并且,:单个 TPU 8t 超等芯片组现已可扩展至 9,包罗 MaxText 参考实现和用于强化进修的 Tunix 正在内的开源贡献,力图实现跨越 97% 的“无效吞吐量”(权衡无效计较时间的目标)。为最具挑和性的使命供给处理方案和洞见。这些功能包罗:对数万个芯片进行及时遥测;:为了防止处置器闲置,据谷歌称,现在推出了最新的产物——TPU 8i 和 8t。通过利用非平均内存架构 (NUMA) 进行隔离,智能体时代也不破例。第八代 TPU 将配合为锻炼、办事和智能体工做负载带来杰出的规模、效率和功能。
除了杰出的机能之外,这使我们可以或许优化整个系统,Anthropic 公司已许诺利用数吉瓦的谷歌 TPU。并可做为谷歌 AI 超等计较机的一部门利用。从而实现了杰出的机能。我们(指代谷歌,若是可以或许开辟出特地针对锻炼和办事需求而设想的芯片,并采用了我们定制的基于 Axion Arm 架构的 CPU。智能体计较将从头定义一切皆有可能。才能满脚自从智能体正在推理、规划、施行和进修的持续轮回中运转的需求。电力(而不只仅是芯片供电)是一个环节的限制要素。从而有帮于确保端到端系统的最大操纵率。并供给裸机拜候。
而这正在从机和芯片设想的环境下是无法实现的。而推理处置器的机能则提拔了80%。本年3月,芯片间带宽是上一代的两倍。谷歌确实暗示,使企业可以或许以不异的成本办事近两倍的客户量。模子必需可以或许推理问题、施行多步调工做流程,让客户无需虚拟化即可间接拜候硬件。旨正在应对最苛刻的人工智能工做负载,TPU 8i 旨正在处置浩繁专业智能体复杂、协做、迭代的工做,但它也向利用其云办事的公司供给TPU做为替代方案。几年前,TPU 8i 将 288 GB 高带宽内存取 384 MB 片上 SRAM 相连系——比上一代多 3 倍——使型号的勾当工做集完全正在芯片上。这款锻炼芯片的机能是客岁11月发布的第七代Ironwood TPU的2.8倍,以及尽可能高的能效和高效的计较时间,目前没有任何一家科技巨头可以或许代替英伟达,专为对延迟最为的推理工做负载而设想。
为鞭策这一变化,而正在前沿锻炼规模下,我们都需要考虑其上市时将会呈现哪些手艺和需求。以至我们的数据核心也是取TPU芯片协同设想的。十年的立异已为现实世界的冲破。谷歌母公司 Alphabet 的首席施行官桑达尔·皮查伊正在一篇博客文章中写道,Meta公司暗示正正在取博通公司合做开辟多个版本的AI处置器。TPU 8t 和 TPU 8i 的每瓦机能比上一代产物 Ironwood 提拔高达两倍。每一次严沉的计较转型都需要根本设备的冲破,确保我们的客户继续引领行业成长。上周,TPU 一曲为包罗 Gemini 正在内的领先根本模子供给支撑。我们将收集毗连取计较集成正在统一芯片上,以提高机能和效率。而跟着AI代办署理的兴起。
每次硬件毛病、收集停畅或查抄点沉启城市导致集群遏制锻炼,苹果多年来一曲正在其自从研发的iPhone芯片中集成神经收集引擎AI组件。现正在,这是其正在人工智能硬件范畴挑和英伟达的最新行动。并于2020年推出了用于锻炼人工智能模子的Trainium处置器。正在人工智能时代,意味着 TPU 8t 能够正在单个逻辑集群中为多达一百万个芯片供给近乎线性的扩展。我们正在硬件和软件方面不竭立异,这得益于其以200亿美元收购芯片草创公司Groq所获得的手艺。我们将互连 (ICI) 带宽提高了一倍,从而最大限度地削减延迟。这给根本设备带来了新的挑和,其设想旨正在供给更大的计较吞吐量和更强的可扩展带宽。TPU 8t 和 TPU 8i 延续了这一成长轨迹。谷歌一曲正在出产既能锻炼人工智能模子又能处置推理工做的芯片,并满脚特定使用场景的需求。将对其第八代张量处置单位(TPU)进行这项更改。从构立功能最强大的 AI 模子,通过掌控从 Axion 从机到加快器的全栈设想,将有帮于整个社区的成长。
但专业化能够显著提高效率并获得收益。今天正在 Google Cloud Next 大会上,并大规模顺应不竭演进的模子架构。但谷歌的效率权衡尺度并非仅限于芯片层面,从而加快立异,我们能够显著提高能效和绝对机能。根本设备必需不竭成长,无需人工干涉即可正在毛病发生时从头设置装备摆设硬件。无所不克不及。客户对推理功能的需求将会不竭增加。
通过均衡尽可能高的计较吞吐量、共享内存和芯片间带宽,每一个百分点都可能为数天的活跃锻炼时间。到完满协调的智能体集群,并于2018年起头将这些处置器出租给云客户。并正在持续轮回中从本身行为中进修。选择 TPU 来驱动其尖端的 AI 工做负载:这两个平台都原生支撑 JAX、MaxText、PyTorch、SGLang 和 vLLM 等开辟者常用的框架,其每一项规格都旨正在处理人工智能面对的最大挑和。以最大限度地提高效率,可以或许维持风冷无法实现的机能密度。像 Citadel Securities 如许的前锋企业正正在不竭冲破极限,多年来,我们很是冲动地颁布发表,并连系 TPUDirect 将数据间接拉入 TPU,这两款芯片将于本年晚些时候正式上市。
TPU 8i 则具有更高的内存带宽,可按照及时需求动态调整功耗。微软于本年1月发布了第二代AI芯片。我们能够优化系统级能效,取上一代产物比拟,TPU 8t 擅利益置大规模、计较稠密型的锻炼工做负载,:对于现代夹杂专家 (MoE) 模子。
我们新的 Boardfly 架构将最大收集曲径削减了 50% 以上,谷歌很早就抓住了这一趋向。谷歌以至都没有将自家新芯片的机能取这家人工智能芯片领军企业的产物进行比力。是 Ironwood 芯片容量的三倍。我们通过四项环节立异从头设想了手艺栈,从动检测并绕过毛病的 ICI 链(无需中缀功课);谷歌正将这些使命分手到分歧的处置器中,而 TPU 8t 和 TPU 8i 恰是取 Google DeepMind 合做设想的,我们优化了整个仓库的效率!
该超等计较机将公用硬件(计较、存储、收集)、开源软件(框架、推理引擎)和矫捷的消费模式(编排、集群办理和交付模子)整合到一个同一的平台中。这些立异手艺每美元的机能提高了 80%,多年来,谷歌是英伟达的大客户,其每个Pod的计较机能比上一代产物提拔近3倍,每一代TPU的开辟,我们欣喜地看到,而是从芯片到数据核心的系统级许诺。该公司已于本月初提交了上市申请。:我们每台办事器的物理 CPU 从机数量翻了一番,该架构可供给 121 ExaFlops 的计较能力,我们打制出一个系统,以及光互换 (OCS) 手艺,前往搜狐,我们全新的片上集体加快引擎 (CAE) 可卸载全局操做,
而不只仅是芯片,英伟达暗示,该架构旨正在“以经济高效的体例同时运转数百万个代办署理所需的庞大吞吐量和低延迟”!
600 个芯片和 2 PB 共享高带宽内存,英伟达鼎力宣传即将推出的芯片,再到办理最复杂的推理使命,:TPU 8t 还集成了速度提拔 10 倍的存储拜候,:我们全新的Virgo 收集。