欧雅图科技 - AI专题

人工智能

人工智能（Artificial Intelligence），英文缩写为AI。是新一轮科技革命和产业变革的重要驱动力量，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

Google教科书般的AI反击战

添加时间:2024/5/16 11:19:54 阅读次数:151次

在谷歌巨大的商业化版图面前，单纯提前一天发布GPT-4o，似乎并没有给OpenAI带来足够的优势。

在2024 Google I/O大会上，Google展示了一系列AI技术突破，包括AI生成视频、AI驱动的Workspace自动化工具，以及产品效果直逼GPT-4o的语音助手。众多AI产品的发布，形成了某种意义上的“狼群效应”，正帮助Google扭转被动追赶的局面。

另外，Gemini的多模态能力、Android 15的AI增强，不仅提升了用户体验，也显著增强了谷歌生态系统的粘性。相比之下，OpenAI可能技术上领先一步，但在应用广度上显得相对单一。

如今，Google 带着“巨头范儿”的反击越来越犀利，而对于 GPT-5 的发布时间仍持谨慎态度的 Sam Altman 而言，压力变得越来越大。

巨头反击教材第一章：放大优势

巨型企业的战略布局，往往建立在持续加强优势业务的前提下。而Google 起家于搜索，长于Workspace等一系列办公套件服务，而这也成了2024年Google I/O大会发布的重点。

完善的 AI 搜索能力，是业内翘首以盼的。Google本次发布的 AI Overview，在多模态的问题上做足了文章——

比如“Ask with video”，利用Gemini的多模态能力与Google Lens相结合，可以实现视频搜索，只要录制一段视频，就能知道用户使用唱片机，甚至维修照相机；Google Photos中还推出了新的AI功能“Ask Photos”，可以通过简单的提问在大量照片中找出“孩子多年来学习游泳的历程”。

Google还展示了一款名为Project Astra的多模式AI助手，可以观看并理解通过设备摄像头看到的内容，记住用户的东西在哪里，帮用户在现实世界“搜索“物品，或是完成其他任务。

Google 版 AI 搜索的输出结果不再是网址的罗列，而是一个全新的整合页面——它更像一份针对用户提问而形成的报告，不仅包括对问题本身的回答，也包括对用户可能忽略问题的猜测和补充，在产品形式上，也算做到了图文并茂。

国内某大厂同样推出了 AI 搜索功能，但只是在传统搜索页面上，利用占网页五分之一左右的空间，植入生成式 AI 的输出结果，且只能针对特定问题触发。整体完成度较低，因而也没有做太高调地发布和宣传。

两相比较之下，Google 此次对于 AI 搜索的革新可见一斑。在有限的搜索引擎市场里，这奠定了全新的标准。而对于模式已经固化多年的搜索广告而言，也更有想象空间。

Google 不是在发布某一项大模型能力，而是在试图重新占领用户心智。当下，Google 的搜索里面是“Ask，Not Search”，多模态的交互方式，只是在用户层面进一步完善围绕 “Ask” 建立的产品概念。

搜索的改造仅仅是个开始，Google希望搜索能成为激发用户AI需求的超级入口，即使用户不知道具体该问什么，Google也可以给出推荐，帮用户脑暴。这时，搜索界面会进一步变化，变成信息流的形式，每个卡片都可以进一步操作。

在搜索之外，Google的另一个优势领域是Workspace。Google为Workspace发布了一款与国内火爆的“数字员工”非常相似的产品——AI Teammate。

首先，Gemini 1.5 Pro即将被植入Workspace的文档、表格、幻灯片、云端硬盘和 Gmail 的侧边栏中，涵盖企业日常运营的各个方面。Gemini 可以帮用户查找具体的业务信息而不是通用信息；直接从电子邮件中检索相关的PDF文件；整理和管理电子邮件中的收据，并进行归档，或者从收据中提取信息并添加到表格中。

Gmail App中加入Gemini后，还可以提供了更加详细和上下文相关的回复建议，还能够为用户提供电子邮件的摘要。

同时，Google还将 Gemini与Google生态的日历、任务、Keep集成，使其 AI 产品成为一个全面的数字助理。Google还在Gemini 执行任务前设置了检查机制，确保信息的准确性，而Google助力相比其他智能助手最大的优势就在于Gemini与Google原生产品的无缝集成。

在企业中，数字员工最早的产品是利用RPA（机器人流程自动化）来自动化执行重复性、高量化、基于规则的任务。过去一年中大语言模型爆发，使很多办公软件、办公协作产品公司看到了机会，纷纷在会议、邮件、协同，以及文档管理等领域推出了大模型加持的数字员工产品，其中不乏国内大厂。

Google入局此类产品，无疑加剧了行业内的竞争，也给关注此领域的企业树立了一个“巨头”标杆。在Google全套工具的配合下，AI teammate的AI不再是散点工具。它的功能不只是简单的安排日程、订会议、做会议纪要。

在Google全家桶的配合下，AI teammate可以真正理解业务流，理解业务上下文，并给出结论，甚至帮助评估风险业务，回答项目能否按期完成，这甚至已经接近一个“董事长助理”的工作了

Gemini支持的Workspace将在2024年6月，以“通用助手”的形式向付费订阅者推出。

AI搜索和AI Workspace共同组成了Google版AI Agents的初貌：更强的多模态能力，全面深入多个场景的信息处理，真实理解企业的工作流。相比之下，OpenAI的GPT-4o虽在生成式AI技术上有优势，但在办公应用场景中尚未形成全面、高效的解决方案。

巨头反击教材第二章：多打组合拳

除了核心优势业务，Google也在2024 Google I/O大会上对整个生态系统进行了全面升级。

首先是围绕YouTube的视频领域。Google推出了对标Sora的Veo，Veo同样可以输出时长1分钟左右的稳定1080p视频。Google称已经向一些创作者提供 Veo，用于YouTube视频制作，同时也向好莱坞推销其用于电影制作，且Veo的部分功能将很快落到YouTube Shorts 中。

Google还推出了对标GPT-4o的“可打断的”语音助手Gemini Live，可以在Android上实现双向流畅的AI对话体验；还有角色聊天机器人Gems ，与OpenAI的GPT Store，以及Character.AI类似，Gems可制作定制的ChatGPT聊天机器人，完成某些任务并保留特定的特征，例如与爱因斯坦或马斯克对话，甚至可以为自己制作一个“假的”心理医生。

此外，Google 和OpenAI 一样，都关注教育场景。

Google推出了Android 的 Circle to Search，可以应用到家庭教育场景中。通过多模态模型提供个性化的互动式教育体验。这款产品不仅能理解和回应学生的问题，还能根据学习进度调整教学内容，提升了教育过程的互动性和效果。

疫情放大了在线教育的价值，家长也开始不断提高对家庭教育的重视。调研机构MarketsandMarkets的分析指出，全球数字教育市场规模预计从2023年的194亿美元增长到2028年的667亿美元，年复合增长率达28.0%。

Gems、Circle to Search与Gemini Live等产品，无疑可以大幅提高在线教育的互动体验，并基于AI为不同孩子提供个性化的教育方案，弥补了传统教育模式难以满足所有学生的需求的问题。

除了商业生态和场景，在AI基础设施方面，Google也进行了升级，这一点主要针对大模型ToB 业务的成本问题。

本次Google I/O大会上，Google将自研AI芯片升级到第六代TPU（张量处理单元）Trillium，与第五代相比，每个TPU的计算性能提高了4.7倍。谷歌还宣布将成为首批提供 Nvidia 下一代 Blackwell 处理器访问权限的云提供商之一。

Google CEO Sundar Pichai表示：“我们将继续投资基础设施，以推动人工智能的进步。”

相比于OpenAI和微软的合作模式，Google通过自身业务生态系统的紧密协作，提升了Google Cloud以及AI相关服务的兼容性和互操作性，也为开发者提供了更强大的工具和支持，整体的技术和商业化竞争优势更加明显。

在本次Google I/O大会上，Google总共124次提及AI。从商业生态到应用场景，再到基础设施，Google几乎对所有产品、能力进行了一次围绕AI的升级。

相对于 OpenAI，Google 业务的战线更长，这既是劣势，也是优势。一套组合拳下来，OpenAI 前一日的全部发布，成为了Google 发布的章节内容。这使得 Google 从单纯的产品性能对比层面一跃而出，居高临下的俯视 2024 年初的生成式 AI 市场竞争。

巨头反击教材第三章：整点新公司玩不起的

对于Google来说，所有的软件能力，最终都会在硬件上有所体现——为什么不呢？Google 既有产品线，也有相关市场经验。相对于软件服务，硬件业务的重资产属性更明显，新锐公司很难玩得起，但Google 如鱼得水。

Google在本次大会中不仅明确了Pixel手机将具备原生Gemini能力，使设备的多任务处理能力大幅提升，还宣布了很多Android 15中将推出的AI功能。

事实上，Gemini早已作为独立App在Android 端上线。此次，更新中Gemini对话过程中，用可以直接将生成的图像拖拽到其他应用中使用。在 Android 15 中，Gemini则支持了 YouTube 视频内容识别功能。Gemini 可以在视频播放界面直接提取相关信息，回答用户关于视频的各种问题，甚至生成视频内容摘要。

此外，用户可以同时运行多个应用程序而不影响性能，这在以往手机中是难以实现的。此外，Gemini AI根据用户习惯提供个性化推荐，使手机使用更加贴心便捷。这种智能化服务提高了用户满意度，增强了Google在智能手机市场的竞争力。

实时语音助手功能，在Pixel以及安卓系统中的落地，也必将使生态更加闭环。

在Gemini发布时提到的轻量化Nano版本已确认将用于Chrome的改进，在轻量化模型方面，Google又推出了全新的Gemini Flash。这两款Gemini模型以及开源的Gemma模型，都将在未来的端侧AI设备方面，为Google积蓄模型力量。

相比于过去单纯讨论芯片性能和安全性，Google的AI手机更加性感，也更符合实际。虽然Pixel手机的硬件水平在手机行业中一直处于落后地位，其唯一的竞争优势就是原生Android系统。如今作为Android+AI的原生设备，Pixel或将迎来新的春天。

Android的Gemini更新将在“未来几个月内推广到数亿台设备”，并且更多的上下文功能正在开发中。

Android的生态能力优势，第一次变得如此突出，Gemini 在其中加码极大。对于苹果而言，在WWDC到来前，一切都是未知。对于新生的华为鸿蒙而言，挑战更加剧烈。

有趣的是，AI不仅在Google的主力硬件产品中找到了丰富的应用场景，Google还展示了Google Glass的最新应用，似乎想告诉外界：有了AI的加持，即使是过去被认为失败的项目，如今也能为新的创新提供基础和灵感。

由此向下继续推演，在Gemini和硬件能力的加持下，即使Google要杀入最火热的AI PC市场的也会 “顺滑”无比。

结语

如何评价谷歌本次发布？不妨先看一下谷歌对哪些公司造成了威胁。

首先，AI搜索。除了已知的AI搜索公司PerplexityAI，以及传说中的OpenAI搜索，Google最直接威胁的当然是传统的搜索引擎。Google不只是简单的在搜索结果中增加一个AI总结，或是以自然语言对话方式进行搜索，Google的多模态AI搜索，几乎可以说是改变了搜索的范式，提升搜索智能化的同时，极大地提高了用户的使用体验。

基于Google这样的升级不管是有GPT-4加持的Bing，还是利用文心一言探索AI搜索的百度，都必须在AI+搜索的产品力方面加快创新步伐，才有可能在这一领域保持竞争力。

在办公软件、协作办公方面。Workspace的升级，使Google有能力提供“真正的”数字员工。Google不只是要对标老牌竞争对手微软，更是对所有研发数字员工、AI办公软件以及AI协同办公的供应商发出了挑战。以钉钉、飞书、WPS为代表的公司，在文档处理，以及办公、协作等方面的，可能都要重新评估自身的产品力。

在手机行业中，受到AI冲击最大的厂商必然是苹果，作为AI大模型时代唯一落后的巨头，如果不在iOS生态中引入更多创新，苹果恐怕很难应对来自Android阵营的AI攻势。而其他手机厂商，不管如何高唱AI手机概念，在Android+Gemini的裹挟下，基于系统的AI升级空间将会越来越小，要保持竞争力，就只能在硬件、生产成本，以及供应链等方面“抠“些小钱了。

而对于整个AI行业来说，首当其冲的是OpenAI。过去一年中，OpenAI凭借大数据、大算力、强算法、强工程的优势，在AI行业内保持了一个身位的领先优势。而随着技术的普及和其他科技行业的发展OpenAI所谓的技术优势，支撑正在变弱。OpenAI的领先技术正在从过去的被模仿，变成同期发布。

AI公司的技术竞争正在悄然向商业竞争和产品竞争过度。Google通过整合其广泛的产品生态系统，将AI技术落地到更多实际场景，如手机、办公软件、智能家居和在线教育等。一步步构建了庞大的商业生态和稳固的市场领先地位。

未来的竞争，或将更多地体现应用在场景中的多样性和市场主导地位的争夺上。在GPT-5或是其它更强大的AI大模型到来之前，OpenAI等AI公司在应用场景上的劣势将会被Google持续放大。

如今，Google正在以教科书般的方式展示如何在激烈的市场竞争中，通过技术和商业战略的双管齐下实现反击。这不仅仅是技术上的博弈，更是商业模式和生态系统构建上的较量。

分享到：

打印本页 | 返回列表