原创 苏霍伊 甲子光年
更实惠的混合现实头显、全息AR眼镜、会说话的AI助手。
作者|苏霍伊
北京时间9月26日凌晨,为期两天的Meta 2024年度开发者大会(Meta Connect)正式拉开帷幕!
公司CEO马克·扎克伯格(Mark Zuckerberg)原计划在当地时间上午10:00发表主题演讲。一点小插曲是,不知什么原因,活动并没有“如期”举行,他略微“迟到”了15分钟。
马克·扎克伯格在大会现场,来源:Meta
扎克伯格分享了有关混合现实(MR)、人工智能(AI),以及可穿戴设备等方向的最新进展。比如内部流传已久的第一副全息AR眼镜Orion(代号是Project Nazare)、雷朋智能眼镜和价格实惠的Quest 3S。但Orion目前只是作为一款演示原型,不会向消费者市场投放。
此外,大会亮点无疑在于开源模型界的“扛把子”Llama系列。这次发布的多模态大模型Llama 3.2能够同时理解图像和文本,超过100万广告主正在使用其生成式人工智能广告工具。
美国发明家本杰明·富兰克林曾写道:在这个世界上,只有死亡和税收是无法逃避的。现在对这句话稍作修改便是对当前AI“淘金热”最好的形容:除了死亡和税收,新的AI模型的出现也是必然。且其迭代的速度正不断加快。
就在9月24日,谷歌对其旗下的Gemini 1.5 AI模型进行了重大升级,而OpenAI也在月初推出了声称能像人类一样“深思熟虑”的o1模型。Llama 3.2的出现无疑让这场大模型“竞赛”再进一步。
Meta一直致力于利用头显、眼镜和人工智能系统将“未来带给每个人”。业界认为,Meta今天“大秀肌肉”为在展示其在人工智能领域的潜力,能够创造出超越智能手机和电脑的下一代计算平台。
“这是令人兴奋的一年,也是非常忙碌的一年。”扎克伯格在会上感慨。
Meta股价自年初以来持续飙升,累计上涨约63%,远大幅超出同期的纳斯达克指数涨幅23%。到9月23日,Meta的股价一度攀升至历史新高,接近574美元。虽然昨日该股稍有回调,收盘价为561美元。但扎克伯格的财富水涨船高,本周更是突破2000亿美元,跻身全球第三大富豪。
由于这次部分产品短期内不会面向公众推出,其经济效益尚不明确或尚未产生实际影响,这可能会限制其对股价的正面作用。
不知Meta这一次新披露能否带动其股价再创新高呢?
1.Meta的“感官”宇宙
Meta发布了最新的虚拟现实头显——Quest 3S。
这款头显以更亲民的价格299.99美元起售,具备与更昂贵版本的Quest 3相同的功能,但使用了成本更低的菲涅尔镜片,而非高品质的“煎饼镜片”(Pancake Lens)。
Meta Quest 3S与Quest 3,来源:Meta
Quest 3S搭载了与Quest 3相同的Qualcomm Snapdragon XR2 Gen 2芯片。Meta对系统进行了优化,维持性能同时又降低了成本。包括对Meta Horizon OS进行的空间计算更新,改善了对基本2D应用的支持、空间音频和色彩对比度,使体验更加真实。
为了测试Quest 3S上改进的穿透功能,现场展示了一些类似Apple Vision Pro的例子,有人在面前放置了悬浮在空中的内容面板,或将虚拟面板粘贴到附近的墙壁上。
现场展示的Quest 3S效果,来源:Meta
此外,Quest 3S还兼容Meta的数千款应用和完整游戏库,并会推出的Quest 3和3S独家游戏,像《蝙蝠侠:阿卡姆暗影》等。
扎克伯格表示“这让混合现实变得更好”。
扎克伯格还提到与微软的合作,在Quest上无缝使用Windows PC。在Metaverse中,角色形象已焕然一新,使用户通过门户在不同世界中跳跃。为了打造更加逼真的元宇宙体验,Meta推出了Hyperscape技术,用户可以简单地使用手机扫描自己所在的房间,随后通过头显设备随时“复制”这个空间的环境。Meta已支持多屏幕功能,用户能够与显示器上的内容直接互动。比如用户可以将笔记本电脑中的界面直接拖拽到Quest设备上。
Quest VR头戴式设备连接Windows 11 PC,来源:Meta
提到Meta AI,扎克伯格坚信,到 2024 年底,Meta AI将成为全球使用最广泛的人工智能资源。他在会上直言:“Meta AI可能已经存在了”。
Meta AI将能够为佩戴智能雷朋眼镜的人实时翻译对话,他在舞台上与墨西哥职业综合格斗运动员布兰登·莫雷诺(Brandon Carrillo Moreno)用西班牙语与英语进行了对话演示。扎克伯格先用英语讲话,智能雷朋眼镜实时将其所说内容翻译成西班牙语,而布兰登的回答也被配套应用程序翻译成了英语。
扎克伯格和布兰登·莫雷诺的翻译展示,来源:Meta
智能眼镜让人们无需用手就能从现实生活中走进数字生活。用户可以与智能人工智能助手交谈,与朋友联系,捕获重要时刻。而所有这一切都不需要拿出手机。“这种时尚的眼镜与我们的日常生活天衣无缝,你绝对会喜欢它们。”扎克伯格说道。
同时,Meta还推出了限量版透明框架的智能眼镜。
透明镜框的雷朋Meta眼镜,来源:Meta
尽管智能眼镜已经开创了一种由人工智能驱动的无屏眼镜新概念,但XR行业一直在追求一种真正的AR眼镜——这也一直是Meta的目标。一款将可穿戴设备的便利性和即时性与大屏幕、高带宽输入和情境化人工智能相结合的产品,并令人们在日常生活中感到舒适。
正如Meta在博客中写道:“五年前,我们向全世界宣布我们正在制造增强现实眼镜。人们不应该在触手可及的信息世界和现实世界之间做出唯一的选择。所以今天Orion出现了。”
扎克伯格佩戴Orion眼镜,来源:Meta
“实际上,它可能是继智能手机之后最具革命性的消费电子产品。”扎克伯克表示。Orion的研发是现代计算技术各领域众多突破性发明的结晶,建立在Reality Labs过去十年的研究基础之上。
它与雷朋Meta眼镜不同,前者镜片中没有屏幕,后者体积更大,主要有VR屏幕和AR直通摄像头。扎克伯格在今年早些时候的一次采访中表示,Orion全息眼镜不会像Meta雷朋产品那样时尚和纤薄。
Meta在这款眼镜上使用了轻质的碳化硅材料代替传统玻璃制作镜片,这种材料不会产生光学伪影或杂散光,并具有高折射率,是实现大视场的关键。Orion的投影仪采用了新型的uLED显示技术,这种技术体积极小,非常节能。
Meta还进行了大量创新,以确保这款眼镜在外观和感觉上都符合日常眼镜的标准。Orion集成了7个微型摄像头和传感器,这些组件都被精密地嵌入到镜框中,尺寸压缩到极致。此外,Meta使用了与F1赛车和宇宙飞船相同的轻质镁材料来制造镜框,不仅保证了光学元件的精确对齐,还有效地传导热量,保持设备的稳定运行。
Orion的输入和交互系统融合了语音控制、眼动追踪、手势追踪与肌电图(EMG)技术。设备端的机器学习处理器能够解释相关的肌电图信号,产生的输入事件无线传输到眼镜,随着使用时间的增长,系统会越来越精确地识别用户的手势。让用户在与丰富的数字内容交互同时,依然可以与周围的人保持联系。
扎克伯格略带骄傲地称:“这款眼镜领先世界十年。”Orion就像在物理世界和虚拟世界之间架起了一座桥梁,并把人放在中心。
Orion眼镜示意图,来源:Meta
扎克伯格对人工智能未来的愿景包括“神经接口”。“我认为你需要一种能够将信号从大脑发送到设备的设备。”这款眼镜配有一个手镯用以实现这一目标。他认为,Orion将被用作“开发套件”,但也因此不要指望很快就能买到它。
英伟达首席执行官黄仁勋 (Jensen Huang) 是早期测试Orion眼镜的人之一。他称其100克的重量“意义重大”,并连连称赞Orion的视觉效果和视野。
佩戴Orion眼镜的黄仁勋。来源:Meta
目前的 Orion 原型机尚未向消费者推出,不过扎克伯格表示,一些外部开发人员可以访问。
为什么是AR眼镜?
Meta认为,AR眼镜是开启“人本计算”领域的巨大跃迁的关键:
它们使数字体验不再受限于智能手机屏幕。通过使用大型全息显示器,用户可以把物理世界当作画布,在任何地方放置2D和3D的内容和体验;
它们无缝地集成了情景人工智能,这种AI可以感知和理解人周围的世界,从而预测并主动满足人的需求。
它们非常轻便,适合室内外使用,并且允许人们看到彼此的面容、眼睛和表情。
Meta开发者大会现场,来源:Meta
Meta表示,他们一直以来的目标很简单,就是帮助人们建立社区,令世界更紧密地联结在一起。在Reality Labs,其开发的工具可以帮助人们随时随地感受到联结。这也是为什么Meta正在努力构建下一个“人本”中心的计算平台。
2.Meta的AI“野心”
今年七月,Meta在官方博客中写道:“时至今日,开源大语言模型性能落后于闭源模型仍是常态。但现在,我们正在迎来一个开源引领的新时代。”
Llama 3.2系列中的11B是一款更为小巧的模型,可在边缘设备上运行;而90B的模型功能更为全面。这两款模型均能解读图表和图形,为图片添加标题,并能根据简单描述识别并定位图片中的对象。
Llama 3.2系列模型,来源:Meta
比如给定一个公园的地图,Llama 3.2 11B和90B能够回答出诸如“地形何时变得更陡?”,以及“这条路径的距离是多少?”等问题;或向其提供公司一年收入的图表,它们便能迅速标出表现最好的几个月。
扎克伯格称:“这是我们的第一个开源多模式模型,它支持许多需要视觉理解的有趣应用。”
Llama3.2功能展示,来源:Meta
Llama 3.2的11B和90B视觉模型已经证明在图像理解任务上表现出色,甚至超越了其他封闭模型如Claude 3 Haiku。这些模型能够支持从文档级别的图像和图表理解到复杂的图像描述任务,甚至包括基于自然语言的描述来在图像中定位对象。
Llama 3.2的1B和3B模型支持128K tokens的上下文长度,适配高通和联发科硬件,对Arm处理器做了专属优化。
3B模型在执行指令、摘要总结、快速文本重写以及工具使用等方面的表现优于Gemma 2 2.6B和Phi 3.5-mini模型。而1B模型则与Gemma表现相当。此外,11B和90B视觉模型不仅可以直接替代它们相应的文本模型,而且在图像理解任务上也显示出了比如Claude 3 Haiku和GPT-4o mini等封闭模型更出色的性能。
Llama 3.2 11B/90B评测结果,来源:Meta
这些模型也十分注重隐私保护,能在设备本地运行,避免数据传输到云端,从而增强了数据安全性。它们可以应用于各种情景,例如总结信息、提取行动项目或通过工具调用直接发送日历邀请。
对于专注于文本应用的开发者,Meta介绍称,Llama 3.2 11B和90B模型被设计为3.1版本的“即插即用”替代产品。这两个模型可以选择搭配使用新的安全工具Llama Guard Vision,能识别和过滤可能输入或模型生成的有偏见或有害的文本和图片。
在全球大多数地区,Llama的多模态模型可以通过包括Hugging Face、Microsoft Azure、Google Cloud和AWS在内的多个云平台下载和使用。此外,Meta官方网站上存放并提供这些模型的相关服务或资源,用户可以在该网站上访问或使用这些模型。
值得一提的是,Llama无法在欧洲使用。Meta也大会上也提到欧盟监管环境的“不可预测性”。
在一封来自超过25家的欧洲公司代表、研究人员和开发者的公开信中写道:欧洲需要对人工智能的监管明确性,片段化的监管使得欧盟可能会错失人工智能时代的机遇。 并呼吁对GDPR进行“现代解释”,主张不应“拒绝进步”。
本月早些时候,Meta宣布在调整了选择退出流程并整合了监管反馈后,将恢复在英国用户数据上的训练。但对于其他欧洲地区的训练情况,公司尚未提供更新。
这就不得不提到欧洲队《一般数据保护条例》(GDPR) ,它生效于2018年5月,为个人数据的收集、处理、存储和传输建立了一个框架。它要求以安全的方式处理所有个人数据,并包括对不遵守这些要求的企业的罚款和处罚。它还为个人提供了一些有关其个人数据的权利。
随着技术的进步和数据收集的日益普遍,数据隐私问题已成为人们关注的焦点。在其通过时,GDPR是最全面的数据隐私法规。虽然GDPR是一部欧洲法规,但很多使用线上广告服务的非欧洲实体也会受到影响。
而今年初期,欧盟监管机构要求Meta停止在欧洲用户数据上进行训练,以评估其是否遵守GDPR。Meta也多次因欧洲保守的隐私法案提出抗议。
扎克伯格强调,希望确保所有人都能享受到人工智能的“好处和机会”。
借助Facebook、Instagram、WhatsApp和Messenger的影响力,Meta的AI助手的升级可能使很多人首次体验到下一代更强大的语音和视觉能力。据Meta透露,目前每周已有超过1.8亿人在使用这款名为Meta AI的人工智能助手。
大会上,扎克伯格展示了一些全新的人工智能功能。包括一个雷朋智能眼镜运行Llama 3.2系统,它能够根据视线中的食材推荐相应食谱,还能对商店里的衣物进行评价。
同时,扎克伯格还介绍了公司正在研发的其他一些实验性AI功能,比如能够在西班牙语和英语之间进行实时翻译的软件,自动将视频内容配音为不同语言的功能,以及可以代替创作者回答粉丝提问的虚拟形象。
Meta的AI聊天机器人现已升级,支持语音交互,用户可以直接用语音而非文字与其互动。与此同时,其竞争对手ChatGPT也在一天前为付费用户提供了更高级的语音功能。Meta最近在其应用程序中加大了对人工智能的投入,例如在Instagram和Messenger的搜索栏中融入AI功能。用户现在还可以选择美国演员基根·迈克尔·奇(Keegan-Michael Key)等人的语音。
尽管Meta之前也推出过基于文本的助手并设置了名人角色,但这心思并未引起太多关注。今年7月,Meta推出了名为AI Studio的工具,允许用户自由选择任意角色来创建聊天机器人。Meta宣布,新的语音选项将于下月在美国、加拿大、澳大利亚和新西兰推出。Meta AI的图像功能也将在美国推出,但未透露何时在其他市场推出。
新版Meta AI还能为用户提供照片反馈和信息,例如,如果用户不确定拍到的是什么鸟,它可以告诉用户鸟的种类。它还可以帮助用户编辑图片,比如根据需要添加新背景或细节。谷歌也在今年4月为其Pixel智能手机和Google Photos推出了类似功能。
(封面图来源:Meta)
END.
原标题:《Meta开发者大会:黄仁勋亲测全新全息AR眼镜,Llama 3.2发布|甲子光年》
还没有评论,来说两句吧...