2024年11月18日 AI 周刊 – 五斗云科技

百度发布文心 iRAG 和无代码工具“秒哒”

在百度世界2024大会上，百度创始人李彦宏推出了全新 AI 技术文心 iRAG 和无代码开发工具“秒哒”。文心 iRAG 针对大模型图像生成中的“幻觉”问题进行了优化，提升了生成内容的实用性。无代码工具“秒哒”允许用户通过自然语言构建复杂应用，大幅降低了技术门槛。这些技术的发布预示着 AI 应用进入了一个新的时代。

秘塔 AI 搜索新增专题功能，提升个性化和专业搜索体验

秘塔 AI 搜索推出专题功能，允许用户创建个性化知识库并上传相关资料，以便针对特定领域定制数据源。该功能通过 API 支持集成到应用程序中，适用于学术研究和专业搜索需求。

谷歌 DeepMind 发布 AlphaFold3，助力科学发现和药物开发

谷歌 DeepMind 发布了获得 2024 年诺贝尔化学奖的 AlphaFold3 模型的源代码和模型权重。该版本提升了对蛋白质、DNA、RNA 以及小分子之间相互作用的建模能力，对科学研究和药物发现具有重要意义。
详情：https://github.com/google-deepmind/alphafold3

百度推出首款中文大模型 AI 眼镜，轻便设计支持长效续航

百度在 2024 世界大会上发布了小度 AI 眼镜，重量仅 45 克，支持 56 小时续航，配备 16MP 超广角摄像头。此款眼镜支持多种功能，包括卡路里识别、识物百科、视听翻译等，展示了百度在 AI 硬件领域的创新实力。

Meissonic 图像生成模型：实现高质量图像生成的创新

Meissonic 通过非自回归掩码图像建模技术及优化策略，成功生成媲美 SDXL 的高清图像。该模型仅需 10 亿参数，支持 1024×1024 分辨率，并能在普通消费级 GPU 上流畅运行，适用于多种图像生成应用。
详情：https://github.com/viiika/Meissonic

CHANGER 技术实现高保真 AI 换头效果，适用于多种应用场景

CHANGER 提供了一种高质量的头部合成技术，解决了传统合成中因头部形状差异导致的边界不自然问题。该技术使用色键和 H2 增强实现了无伪影背景生成，适用于工业级数字内容创作。
详情：https://hahminlew.github.io/changer/

清华大学团队提出机器人学习速成的高效数据策略

清华大学研究团队发现了数据规模化规律对机器人模仿学习的重要性，并提出了高效的数据收集策略，使机器人在新环境中任务成功率达到 90%。此方法为通用机器人的复杂任务提供了新思路。
详情：https://arxiv.org/pdf/2410.18647

Namify AI：一站式 AI 品牌命名工具

Namify AI 通过智能生成品牌名称、自动商标和域名检查以及免费徽标生成功能，帮助企业快速找到合适的品牌名称并确保其合法性和可用性，为品牌推广和形象塑造提供便捷方案。
详情：https://namify.tech/

百度文心大模型调用量突破15亿次，增长迅猛

在2024百度世界大会上，百度创始人李彦宏宣布文心大模型调用量突破15亿次，过去半年增长超7.5倍，标志着其在市场上的强劲需求。

阿里巴巴推出首个B2B AI搜索引擎Accio

阿里巴巴集团发布了全球首个专为B2B领域打造的AI搜索引擎Accio。该引擎旨在帮助商家更快速、精准地找到所需商品和供应商。Accio已经在阿里国际站试运行，提升了20%-30%的转化率，覆盖商品量达到亿级，支持PC和移动端，且涵盖5种语言。

详情：https://www.accio.ai/

百度“自由画布”公测：开启多模态内容创作新体验

在2024年百度世界大会上，百度宣布推出“自由画布”——一款由百度文库和百度网盘联合推出的AI创作工具。该平台利用文心多模态大模型支持的技术，允许用户在一个空间内创作、编辑和分享多格式内容，为内容生产到消费提供一站式服务。

详情：https://tanbi.baidu.com/h5apptopic/browse/freecanvasreservation

Anthropic即将发布Claude3.5Opus模型，AI竞争加剧

Anthropic的首席执行官宣布公司即将推出新一代人工智能模型Claude3.5Opus，该模型将进一步提升AI能力，重新分配性能曲线。随着OpenAI和谷歌等公司也在计划发布新模型，AI市场的竞争将更加激烈。

生数科技发布视频生成模型Vidu1.5，突破多主体一致性难题

生数科技推出了Vidu1.5视频生成模型，解决了多主体一致性问题，实现了世界领先水平的智能生成能力。Vidu1.5大幅提升了生成效率和视频模型的可控性，使其在通用人工智能（AGI）领域取得了重要突破。

详情：www.vidu.studio

小米计划在2025年推出新一代AI眼镜

小米宣布计划在2025年第二季度推出AI眼镜产品，与歌尔公司合作，预计出货量将超过30万台。业内预测2025年可能成为AI眼镜的爆发年，市场竞争激烈。

百度文心智能体平台开发者突破80万，商业化进展加速

百度文心智能体平台在2024年大会上发布了五大商业组件，助力智能体的商业化发展。平台吸引了超过80万名开发者，收入转化数量增长近400%，并推出了多智能体聚合与推荐新功能。

Fashion-VDM动态试穿技术变革网购体验

Fashion-VDM技术通过视频扩散模型实现动态试穿，提供逼真的试穿效果。该技术采用分离式无分类器引导和渐进时间训练策略，打破了传统虚拟试衣的局限。随着技术不断优化，Fashion-VDM有望颠覆传统网购试衣体验。

详情：https://johannakarras.github.io/Fashion-VDM/

Play AI推出对话式音频生成模型PlayDialog

Play AI发布了PlayDialog beta版语音生成模型，能够根据对话上下文生成自然的播客式音频。该模型经过数亿次真实对话的训练，适用于对话播客、旁白等多场景应用，提升了语音合成的流畅性和情感表达。

详情：https://play.ai/playnote

微软发布TinyTroupe：基于LLM的人格模拟工具

微软发布TinyTroupe AI工具，基于大型语言模型（LLM），用于人格模拟。该工具可应用于广告评估、软件测试、数据训练等商业场景，帮助企业在用户行为模拟和反馈收集上取得更佳效果。

详情：https://github.com/microsoft/TinyTroupe?continueFlag=851dbfac5e76da467e3106b5f1e45573

12. YouTube测试AI音乐重混功能“Dream Track”

YouTube推出了一款名为“Dream Track”的AI音乐重混工具，允许创作者通过指令改编授权音乐片段。此功能将增强短视频创作者的音乐表现力，拓宽短视频内容的音乐风格可能性。

OpenAI即将推出自主AI代理“Operator”

OpenAI宣布将在明年推出一款名为“Operator”的自主AI代理，具备控制计算机执行任务的能力。该产品被视为AI技术发展的重要一步，预计将带动行业竞争，同时在AI领域带来潜在的市场变革。

腾讯元宝2.0版本上线：多模态升级满足多维创作需求

腾讯推出元宝2.0版本，融入新设计的对话列表和AI应用专属板块，支持用户在搜索、阅读、写作和绘画等领域的多模态创作。升级后的“混元turbo”模型显著提升了性能，并整合了微信、QQ等多个腾讯生态资源，提升用户体验。

RMBG2.0强势推出：挑战remove.bg的抠图技术

Bria团队发布的RMBG2.0开源软件免费提供高清抠图服务，增强了边缘检测技术，抠图精度堪比付费软件。该工具适用于电商产品展示和营销内容的自动化处理，是对传统remove.bg的一大挑战。

详情：https://huggingface.co/spaces/briaai/BRIA-RMBG-2.0

DeepL Voice发布：实时多语言语音翻译工具

DeepL推出实时语音翻译工具DeepL Voice，支持多语言沟通和字幕翻译，适用于会议和对话场景。该工具支持包括英语、德语和语在内的多种语言，大大提升了跨语言沟通效率。

详情：https://www.deepl.com/en/products/voice

Exo Labs让Mac M4电脑本地运行开源AI模型

Exo Labs利用Apple M4芯片在本地计算集群上运行强大的AI模型，帮助用户降低云服务依赖并提升隐私安全。他们还计划推出硬件推荐基准测试，方便用户选择合适的设备进行AI任务。

详情：https://github.com/exo-explore/exo

生成式AI影响自由职业市场，写作岗位需求骤降30%

一项研究显示，生成式AI的快速发展导致自由职业市场中自动化岗位需求下降，写作岗位受影响最为明显，需求减少超过30%。同时，具备AI技能的新岗位需求正在增加。

全球AI PC市场份额突破20%，Windows占据主导地位

2024年第三季度全球AI PC出货量首次占据PC总出货量的20%，其中Windows设备占据53%的市场份额。这一趋势表明未来旧设备升级为AI PC的潜力巨大。

AI投资回报高达3.7倍，企业积极应用生成式AI

IDC研究表明，企业在生成式AI方面的投资回报率平均达到3.7倍，92%的企业利用AI提高生产力和收入。然而，30%的企业面临缺乏专业AI人才的挑战，微软正在帮助企业进行技能培训。

科大讯飞发布星火多模态交互大模型

科大讯飞推出了全新的星火多模态交互大模型，实现语音、视觉和数字人交互的无缝整合。该模型引入超拟人数字人技术，提升了 AI 的情感表达和交互真实感，使用户体验更为生动自然。通过跨模态的语义一致性，该模型支持更具个性化的情感表达，并在视觉交互上具备对背景场景的高精度感知能力。

详情：讯飞星火

Anthropic 推出提示词优化新功能，提升 AI 应用可靠性

Anthropic 最新发布的提示词优化功能为开发者提供了显著的便捷性，进一步提升了 AI 应用的可靠性和精确性。该优化器可自动完善提示词，准确率提升 30%，字数准确率达到 100%，并配备示例管理功能以简化开发流程。Kapa.ai 等公司已经成功将工作流迁移到 Claude 平台，并表示该功能显著加速了生产进程。

详情：Anthropic

OpenAI 发布 ChatGPT Windows 桌面版

OpenAI 推出了 ChatGPT 的 Windows 桌面应用，并在 macOS 测试版本中新增了与应用的深度集成功能。此更新提升了 ChatGPT 在桌面端的实用性，使其能够作为实时的代码分析和智能建议助手。OpenAI 计划继续扩展其应用支持，推动桌面工作效率的进一步提升。

详情：OpenAI

腾讯发布 AI 智能工作台 ima.copilot 的 Windows 版

腾讯推出 ima.copilot Windows 版，具备搜索、文本创作、图片生成等功能，并整合微信公众号资源以提升搜索效率。此外，ima.copilot 支持本地文件处理、多语言翻译，提供 24 小时在线私人助理服务，为用户打造一体化的知识库和便捷的工作体验。

详情：ima.copilot

阿里通义实验室推出代码模式，简化应用开发

阿里通义实验室发布了代码模式，用户只需简单指令便可生成应用，如小游戏、数据图表、网站等。基于 Qwen2.5-Coder 开发的代码模式提升了编程性能，尤其为非编程用户提供了便捷的生成体验，支持简历、小游戏等热门模板。

谷歌 Gemini Exp1114 横空出世，多项能力超越 GPT-4

谷歌发布的 Gemini 实验版本 Exp1114 在 Chatbot Arena 平台上的测试表现亮眼，超越 GPT-4，并在数学、复杂提示和创意写作等核心领域表现出色。该成果展示了谷歌在 AI 领域的长期积累，引发了行业广泛关注。

TikTok 发布 Symphony 工具，简化视频创作流程

TikTok 推出 Symphony Creative Studio，为广告主和内容创作者提供视频生成、翻译配音等功能，使创作流程更加高效。这一工具标志着 TikTok 在 AI 视频创作领域的商业化进程，并展现了其在 AI 技术上的竞争力。

Claude 新版亮相《我的世界》，在创意建筑中表现出色

Claude3.6 新版本在《我的世界》游戏中表现出色，与 Sonnet3.5 展开建筑能力的比拼，并获得用户投票的支持。该项目通过文本提供操作指令，展示了 AI 在游戏环境中的潜力。

详情：Claude 评测

豆包发布图像编辑模型 SeedEdit，实现“一句话 P 图”

SeedEdit 是豆包团队推出的图像编辑工具，用户仅需通过简单的文字指令即可编辑图片。该工具在保留图像原有元素的基础上完成精确修改，支持多轮编辑。用户输入“将项圈改为珍珠项链”等指令，SeedEdit 能快速生成高质量的编辑效果。

详情：https://huggingface.co/spaces/ByteDance/SeedEdit-APP

谷歌推出 AI 视频制作工具 Vids，轻松生成演示视频

谷歌发布了 AI 驱动的 Vids 视频创作工具，用户只需输入文字提示或上传 Google Drive 文档即可生成视频。Vids 提供丰富的模板和编辑功能，并支持语音旁白，旨在简化视频制作流程，使小白用户也能轻松创作高质量视频内容。

详情：https://workspace.google.com/products/vids/

Suno 推出 V4 音乐生成模型，提升音质和多样性

Suno 最新发布的 V4 音乐生成模型，借助深度学习技术生成自然流畅、富有表现力的音乐作品。该模型不仅适用于个人创作，还可以推动 AI 音乐生成技术在更广泛的领域应用。

百度文心一言绘画功能升级，支持多比例图片生成

百度的文心一言 AI 绘画功能迎来重大升级，用户可以轻松生成多种比例的图片，适用于新媒体配图等场景。升级后的绘画功能在语义理解和细节描绘上取得显著进步，有效提升了工作效率。

SkyReels AI 短剧平台将于 12 月在美国上线

昆仑万维宣布将于 12 月 10 在美国推出 SkyReels AI 短剧平台，为北美观众带来全新的短视频创作体验。SkyReels 集成了视频大模型和 3D 动捕功能，为创作者提供便捷的创作工具，提升用户互动体验。

CogSound 实现 AI 音效生成，让视频“声”动起来

CogSound 是基于 AI 的音效生成模型，能够为无声视频匹配合适的音效，实现音视频同步，提升观众的沉浸体验。该工具像经验丰富的配音大师，通过智能算法识别视频场景并生成相应音效，避免“音画不同步”尴尬。

即梦 AI 开放 Seaweed 视频生成模型，支持多拍动作与复杂交互

即梦 AI 发布的 Seaweed 视频生成模型基于 DiT 架构，适配多种设备比例，为创作者提供专业级光影布局和色彩调和。Pro 版模型更支持多镜头切换，适用于复杂场景的高质量视频生成。

URAvatar 实现手机扫描生成高保真虚拟头像

URAvatar 利用手机扫描生成个性化虚拟头像，支持实时渲染和光照迁移。用户可独立控制头像的凝视方向和动作，提升虚拟交互体验。这一技术为虚拟人像带来更高的视觉真实感。

DimensionX 单图生成 3D/4D 场景，支持游戏和影视制作

香港科技大学与清华大学联合推出 DimensionX AI 框架，通过单张图片生成 3D 和 4D 场景。该框架结合轨迹感知机制与去噪策略，能从图片中提取空间与时间信息，生成高真实度的动态场景。

详情：https://chenshuo20.github.io/DimensionX/

Meta AI 推出 FBDetect，实时识别性能下降

Meta AI 开发了 FBDetect 系统，可监测到 0.005% 的微小性能回退，显著提高服务器资源效率。该系统在 Meta 的基础设施中使用七年，帮助每年节省约 4000 台服务器资源。

详情：https://tangchq74.github.io/FBDetect-SOSP24.pdf

Anthropic 推出新型 token 计数 API，提升语言模型效率

Anthropic 公司发布的新型 token 计数 API 可帮助开发者优化 token 使用，提高交互效率。该 API 支持多种 Claude 模型，适用于客服机器人、文档摘要等多个场景。

ChatGPT 访问量激增至 37 亿，NotebookLM 功能更新成黑马

在 2024 年 10 月，ChatGPT 全球访问量达 37 亿次，同比增长 115.9%。同时，谷歌的 NotebookLM 由于 AI 播客功能的推出，访问量飙升至 3150 万次，成为黑马应用。

AI 编码助手 Cursor 背后公司估值激增至 25 亿美元

Anysphere 公司旗下的 AI 编码助手 Cursor 月收入突破 400 万美元，受到风投资本青睐。公司估值从 15 亿美元升至 25 亿美元，创始团队均为麻省理工学院学生，展现出巨大潜力。

甲壳虫乐队新曲《Now and Then》通过 AI 技术修复获两项格莱美提名

甲壳虫乐队利用 AI 技术修复新曲《Now and Then》，获得年度唱片和最佳摇滚表演两项格莱美提名。AI 技术帮助修复了约翰・列侬的录音，展现了乐队的音乐魅力。

转载自：https://use-ai-app.com/2024/11/18/november-18-2024-ai-weekly/