2024年11月11日 AI 周刊 – 五斗云科技

AI 产品与技术

由 GPT-4o 驱动的清洁机器人

一款由GPT-4o驱动的清洁机器人手臂成本仅为250美元，且在4天内搭建完成。这款机器人验证了AI模型可以驱动机器人执行任务，使得普通人也能轻松建造自己的机器人。官方介绍

In-Context LoRA

In-Context LoRA技术增加了AI生成图像的“情节记忆力”和“角色一致性”，保持不同图像之间的关联性和一致性，确保生成的多张相关图像不偏离主题。官方介绍

Runway Act-One 使用教程

Runway Act-One是一个视频和角色图像生成生动表演动画的工具，它能够转移源视频中的动态表情和微妙动作到参考角色上。官方介绍

Meta FAIR 人工多模态触感研究成果

Meta FAIR 实验室发布了三项人工多模态触感研究成果。首先，他们推出了Meta Digit 360人造指尖传感器，这款传感器具有人类级别的多模态感知能力，能够检测微小的触觉变化，如1毫牛顿的力量。其次，他们推出了Meta Sparsh，这是首个通用触觉表示，支持多种传感器和任务，帮助AI系统理解无法通过视觉获取的信息。最后，他们发布了Meta Digit Plexus，一个整合多种触觉传感器的标准化平台，支持同一机器人手上的数据采集和控制。官方介绍

苹果发布 Ferret-UI 2

苹果发布了Ferret-UI 2，这是一个专为理解和与移动用户界面交互而设计的模型，能“看懂”屏幕内容，理解用户指令与问题，并实时观察用户在手机屏幕上的操作，随时准备提供帮助和执行任务。官方介绍

苹果在 iOS 18.2 中新增 ChatGPT 限额提醒

苹果在iOS 18.2中新增了ChatGPT限额提醒，引导用户开通19.99美元/月的订阅会员，享受更多ChatGPT功能。若不开通会员，Siri将无法使用GPT进行复杂问题查询。官方介绍

小熊猫的AI编辑工具

小熊猫的AI编辑工具易用性非常好，适合小白用户。通过简单的文字输入和提示，轻松生成排版海报，高度可控，操作便捷，快速上手。官方介绍

儿童绘本故事与视频生成平台

利用AI快速生成和制作儿童绘本以及多媒体故事，从构思到制作插画、配音、发布，整个流程无需切换工具，操作简便。提供全面支持，适合创作和发布儿童故事。官方介绍

FLUX.1-dev LoRA：服装生成器

FLUX.1-dev LoRA是一个服装生成器，快速生成定制化服装效果图，支持详细描述颜色、图案、合身度、风格、材质等。提供多种风格和服装类型，包括不同面料弹性、领口样式等，满足各种时尚需求。官方介绍

E2F5工具教程：文本转语音 & 唇同步视频

E2F5工具提供了文本转语音和唇同步视频的教程，仅需5-15秒的录音，即可克隆任意人的声音，支持换脸与口型同步，让视频更加逼真。官方介绍

Google AI助手“Jarvis”意外泄露

Google AI助手“Jarvis”意外泄露，Chrome扩展短暂曝光，可协助用户完成餐厅预订、自动下单等日常任务。通过截图分析屏幕内容，利用Gemini 2.0模型决定操作。官方介绍

Google 正式推出 Gemini AI 驱动的 Vids 应用

Google正式推出了Gemini AI驱动的Vids应用，用户通过简单提示即可生成多种类型的视频演示。支持从提示或Google Drive文档中生成初始视频故事板，包括场景、脚本和背景音乐推荐等。官方介绍

ChatGPT Search 集成 Mapbox

ChatGPT Search集成了Mapbox，新增地图功能，支持查询地点及路线。官方介绍

Rive 发布 Layouts 新功能

Rive发布了Layouts新功能，设计一次，图像动画自动适应不同屏幕大小和布局。菜单和UI组件可以根据屏幕尺寸自动调整，提升响应式设计体验。官方介绍

Fish Audio 发布 Fish Agent V0.1 3B

Fish Audio发布了Fish Agent V0.1 3B，这是一个高级语音处理模型，支持即时语音克隆和文本到语音转换。官方介绍

Siri 与 Apple Intelligence 新功能：屏幕内容读取与操作

Siri与Apple Intelligence新增了屏幕内容读取与操作功能，允许开发者让应用内容可被Siri和Apple Intelligence访问，实现更智能的交互。官方介绍

智谱AI发布CogVideoX v1.5：高质量AI视频生成

智谱AI发布了CogVideoX v1.5，支持生成10秒4K、60fps超高清视频，提升图生视频的美学表现和人体运动模拟。同时发布音效模型CogSound，可为视频生成匹配的音效，实现音视频同步。官方介绍

xAI 正式推出 API

xAI正式推出了API，开发者可以基于Grok基础模型进行开发。公测阶段，每位开发者每月获得25美元的免费API额度。官方介绍

腾讯发布混元大模型 Hunyuan-Large

腾讯发布了混元大模型Hunyuan-Large，这是业界最大的开源MoE模型，包含3890亿参数，其中520亿参数为活跃参数。预训练模型支持256K的上下文窗口。官方介绍

Hertz-dev 发布首个会话音频开源模型

Hertz-dev发布了首个会话音频开源模型，支持全双工实时语音交互，120毫秒超低延迟。开发者可以下载并微调，适用于各种语音生成任务。官方介绍

腾讯发布 3D 开源模型：混元-3D

腾讯发布了3D开源模型混元-3D，10秒内即可生成高分辨率细节的3D模型，支持文本到3D、图像到3D转换，包括网格和纹理提取。官方介绍

AI 行业与政策

亚马逊推出AI从业者认证

亚马逊推出了AI从业者认证，这是一个在线学习并通过考试即可获得国际认可的AI证书。涵盖内容包括AI和机器学习基础、数据准备与分析、模型训练和部署等。官方介绍

前Meta AR 眼镜硬件负责人加入OpenAI

前Meta AR眼镜硬件负责人Caitlin Kalinowski，曾负责Meta的AR眼镜硬件（包括Orion），加入OpenAI，将负责OpenAI的机器人技术和消费硬件部门。官方介绍

OpenAI 拿下了 chat.com 域名

OpenAI拿下了http://chat.com域名，该域名已指向ChatGPT，标志着品牌的进一步扩展。预估购买金额在1500-2000万美金，体现了域名的高价值。官方介绍

本文转载自：https://use-ai-app.com/2024/11/12/2024-11-11-ai-weekly/