AI 产品与技术
由 GPT-4o 驱动的清洁机器人
一款由GPT-4o驱动的清洁机器人手臂成本仅为250美元,且在4天内搭建完成。这款机器人验证了AI模型可以驱动机器人执行任务,使得普通人也能轻松建造自己的机器人。官方介绍
In-Context LoRA
In-Context LoRA技术增加了AI生成图像的“情节记忆力”和“角色一致性”,保持不同图像之间的关联性和一致性,确保生成的多张相关图像不偏离主题。官方介绍
Runway Act-One 使用教程
Runway Act-One是一个视频和角色图像生成生动表演动画的工具,它能够转移源视频中的动态表情和微妙动作到参考角色上。官方介绍
Meta FAIR 人工多模态触感研究成果
Meta FAIR 实验室发布了三项人工多模态触感研究成果。首先,他们推出了Meta Digit 360人造指尖传感器,这款传感器具有人类级别的多模态感知能力,能够检测微小的触觉变化,如1毫牛顿的力量。其次,他们推出了Meta Sparsh,这是首个通用触觉表示,支持多种传感器和任务,帮助AI系统理解无法通过视觉获取的信息。最后,他们发布了Meta Digit Plexus,一个整合多种触觉传感器的标准化平台,支持同一机器人手上的数据采集和控制。官方介绍
苹果发布 Ferret-UI 2
苹果发布了Ferret-UI 2,这是一个专为理解和与移动用户界面交互而设计的模型,能“看懂”屏幕内容,理解用户指令与问题,并实时观察用户在手机屏幕上的操作,随时准备提供帮助和执行任务。官方介绍
苹果在 iOS 18.2 中新增 ChatGPT 限额提醒
苹果在iOS 18.2中新增了ChatGPT限额提醒,引导用户开通19.99美元/月的订阅会员,享受更多ChatGPT功能。若不开通会员,Siri将无法使用GPT进行复杂问题查询。官方介绍
小熊猫的AI编辑工具
小熊猫的AI编辑工具易用性非常好,适合小白用户。通过简单的文字输入和提示,轻松生成排版海报,高度可控,操作便捷,快速上手。官方介绍
儿童绘本故事与视频生成平台
利用AI快速生成和制作儿童绘本以及多媒体故事,从构思到制作插画、配音、发布,整个流程无需切换工具,操作简便。提供全面支持,适合创作和发布儿童故事。官方介绍
FLUX.1-dev LoRA:服装生成器
FLUX.1-dev LoRA是一个服装生成器,快速生成定制化服装效果图,支持详细描述颜色、图案、合身度、风格、材质等。提供多种风格和服装类型,包括不同面料弹性、领口样式等,满足各种时尚需求。官方介绍
E2F5工具教程:文本转语音 & 唇同步视频
E2F5工具提供了文本转语音和唇同步视频的教程,仅需5-15秒的录音,即可克隆任意人的声音,支持换脸与口型同步,让视频更加逼真。官方介绍
Google AI助手“Jarvis”意外泄露
Google AI助手“Jarvis”意外泄露,Chrome扩展短暂曝光,可协助用户完成餐厅预订、自动下单等日常任务。通过截图分析屏幕内容,利用Gemini 2.0模型决定操作。官方介绍
Google 正式推出 Gemini AI 驱动的 Vids 应用
Google正式推出了Gemini AI驱动的Vids应用,用户通过简单提示即可生成多种类型的视频演示。支持从提示或Google Drive文档中生成初始视频故事板,包括场景、脚本和背景音乐推荐等。官方介绍
ChatGPT Search 集成 Mapbox
ChatGPT Search集成了Mapbox,新增地图功能,支持查询地点及路线。官方介绍
Rive 发布 Layouts 新功能
Rive发布了Layouts新功能,设计一次,图像动画自动适应不同屏幕大小和布局。菜单和UI组件可以根据屏幕尺寸自动调整,提升响应式设计体验。官方介绍
Fish Audio 发布 Fish Agent V0.1 3B
Fish Audio发布了Fish Agent V0.1 3B,这是一个高级语音处理模型,支持即时语音克隆和文本到语音转换。官方介绍
Siri 与 Apple Intelligence 新功能:屏幕内容读取与操作
Siri与Apple Intelligence新增了屏幕内容读取与操作功能,允许开发者让应用内容可被Siri和Apple Intelligence访问,实现更智能的交互。官方介绍
智谱AI发布CogVideoX v1.5:高质量AI视频生成
智谱AI发布了CogVideoX v1.5,支持生成10秒4K、60fps超高清视频,提升图生视频的美学表现和人体运动模拟。同时发布音效模型CogSound,可为视频生成匹配的音效,实现音视频同步。官方介绍
xAI 正式推出 API
xAI正式推出了API,开发者可以基于Grok基础模型进行开发。公测阶段,每位开发者每月获得25美元的免费API额度。官方介绍
腾讯发布混元大模型 Hunyuan-Large
腾讯发布了混元大模型Hunyuan-Large,这是业界最大的开源MoE模型,包含3890亿参数,其中520亿参数为活跃参数。预训练模型支持256K的上下文窗口。官方介绍
Hertz-dev 发布首个会话音频开源模型
Hertz-dev发布了首个会话音频开源模型,支持全双工实时语音交互,120毫秒超低延迟。开发者可以下载并微调,适用于各种语音生成任务。官方介绍
腾讯发布 3D 开源模型:混元-3D
腾讯发布了3D开源模型混元-3D,10秒内即可生成高分辨率细节的3D模型,支持文本到3D、图像到3D转换,包括网格和纹理提取。官方介绍
AI 行业与政策
亚马逊推出AI从业者认证
亚马逊推出了AI从业者认证,这是一个在线学习并通过考试即可获得国际认可的AI证书。涵盖内容包括AI和机器学习基础、数据准备与分析、模型训练和部署等。官方介绍
前Meta AR 眼镜硬件负责人加入OpenAI
前Meta AR眼镜硬件负责人Caitlin Kalinowski,曾负责Meta的AR眼镜硬件(包括Orion),加入OpenAI,将负责OpenAI的机器人技术和消费硬件部门。官方介绍
OpenAI 拿下了 chat.com 域名
OpenAI拿下了http://chat.com域名,该域名已指向ChatGPT,标志着品牌的进一步扩展。预估购买金额在1500-2000万美金,体现了域名的高价值。官方介绍
本文转载自:https://use-ai-app.com/2024/11/12/2024-11-11-ai-weekly/