AI HOT · 今日热点

更新于 06/25 02:47  ·  来源 ↗
模型发布/更新 12
X:ChatGPT (@ChatGPTapp)  · 14 分钟前
新的GPT-5.5 Instant非常智能、非常直观,聊天起来非常有趣。 现已开始向所有人推送,先从Pro用户,然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。
X:OpenAI (@OpenAI)  · 47 分钟前
我们为你带来了新版 GPT-5.5 Instant,它现在聊起天来有趣多了。 我们最常用的模型现在能更好地理解问题背后的意图,并相应地调整回应。 它也能更可靠地处理复杂约束,让购物和本地推荐更加实用和连贯。 今天向付费用户推送,明天向免费用户推送。
IT之家(RSS)  · 14 小时前
6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。
公众号:通义实验室(千问)  · 15 小时前
通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。
X:Sky Computing Lab (@haoailab)  · 23 小时前
Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。
X:Krea AI (@krea_ai)  · 1 天前
我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report
Mistral AI:News(网页)  · 1 天前
Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。
IT之家(RSS)  · 1 天前
网易有道推出"子曰 4.0"TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。
公众号:京东JoyAI  · 1 天前
京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。
公众号:火山引擎  · 1 天前
火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及"一声多角"能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。
字节 Seed:Research Feed(网页内嵌数据)  · 1 天前
字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。
Hugging Face:Blog(RSS)  · 2 天前
PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。
产品发布/更新 17
The Decoder:AI News(RSS)  · 1 小时前
Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果,并集成去年收购的Weave工作流系统。新功能包括Code Layers(代码与设计并存)、Motion动画、深度层、Shader及Generative Plugins。协作方面,团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型,推理成本挤压利润率。同时,Anthropic等公司的竞争产品可直接生成界面,构成威胁。
Mistral AI:News(网页)  · 2 小时前
2026年6月24日,Mistral AI 发布 Connectors 多项新能力:Enriched admin controls(GA)支持按工作空间设置连接器访问权限并单独开关工具;API keys with connector scopes(GA)防止自动化 AI 工作负载中身份冒充;Multi-account connectors(GA)允许单个连接器绑定多个账户;Connectors Debugger(公开预览)对 MCP 连接器进行端到端根因分析;Connectors in Vibe Code(GA)和 Connectors in Workflows(公开预览)分别允许在开发者界面复用连接器及支持长时间运行任务不中断。
公众号:火山引擎  · 8 小时前
火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例:海底捞门店经营Agent将小时级工作压缩到分钟级,人工跟进时长缩减70%,巡检满意度提升50%;创维酷开借助ArkClaw终端版打造AIOS,Token消耗节省50%,支撑百万级终端。
OpenAI:官网动态(RSS · 排除企业/客户案例)  · 12 小时前
OpenAI 与 Broadcom 联合推出 Jalapeño,一款专为大语言模型(LLM)推理优化的定制 AI 芯片,旨在提升 AI 系统的性能、效率与规模。
公众号:豆包(字节)  · 17 小时前
豆包专业版基于豆包2.1系列大模型上线,面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型,支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式,专业版接入豆包2.1 Pro模型。定价:标准套餐68元/月(连续包月),加强套餐200元/月,高级套餐500元/月。大学生认证后标准套餐38元/月,持续6个月。
Hugging Face:Blog(RSS)  · 18 小时前
Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20-470 m3)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8-12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。
X:Runway (@runwayml)  · 21 小时前
Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。 全球最佳模型,汇聚一处。 使用优惠码 30RUNWAY,前三个月可享七折优惠。 通过下方链接开始使用。
Hacker News 热门(buzzing.cc 中文翻译)  · 1 天前
Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。
Hugging Face:Blog(RSS)  · 1 天前
IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月-2026年2月)和 WebArena(2025年2月-9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用,涵盖电影推荐、IBM Cloud 架构顾问等场景,每个应用仅需一个 FastAPI 文件。
公众号:千问APP(阿里)  · 1 天前
友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。
OpenRouter:Announcements(RSS)  · 1 天前
OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过`/api/v1/images/models`端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过`/api/v1/images/models/{id}/endpoints`端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用`"stream": true`即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。
HuggingFace Daily Papers(社区热门论文)  · 1 天前
NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。
Hacker News 热门(buzzing.cc 中文翻译)  · 1 天前
Oak 是开源版本控制系统,专为 AI 智能体(Claude Code、Codex、Cursor)设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型,可选 SQLite 和 git 后端。以分支-会话为基本工作单元,用分支描述替代逐次提交,通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0,支持 macOS(Apple Silicon)、Linux(x86_64)及 Windows,可通过 curl 或 cargo 安装,Apache-2.0 开源。
X:Berry Xia (@berryxia)  · 2 天前
Sakana AI 是 2023 年成立于东京的 AI 公司,由前 Google Brain 的 David Ha(CEO)、Transformer 论文共同作者 Llion Jones(CTO)及前日本外交官 Ren Ito(主席)联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用,内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos,通过动态编排多模型天然绕开单一供应商出口管制风险,被视为将多智能体从复杂工程变为开箱即用的产品形态。
Anthropic:Newsroom(网页)  · 2 天前
Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启"环境"行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。
公众号:数字生命卡兹克  · 2 天前
微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的"问小微"子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置"小工具"功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。
OpenAI:官网动态(RSS · 排除企业/客户案例)  · 2 天前
OpenAI 推出 Daybreak 系列工具,包括 Codex Security 和 GPT-5.5-Cyber,帮助组织大规模发现、验证并修补漏洞。
行业动态 6
Ars Technica:AI(RSS)  · 22 小时前
Oracle在截至5月31日的财年裁员21000人,员工总数降至141,000人,降幅12.9%。公司称AI技术的采用导致劳动力缩减,同时重组成本达18亿美元,同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元,扩建Oracle Cloud Infrastructure,服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人士指出裁员有助于改善现金流,但Oracle也承认大规模裁员可能带来生产力下降、人才短缺和员工士气受损等风险。
GitHub Blog  · 1 天前
GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942,拟由 SB 1000 修正)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要,已有直接监管和执法机制,并建议参考欧盟 AI 法案的透明度实践规范,以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正,以在保持透明度目标的同时兼容开源开发模式。
Artificial Intelligence News(RSS)  · 1 天前
2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。
Hacker News 热门(buzzing.cc 中文翻译)  · 1 天前
伊利诺伊州Holiday Hills警察局长于2026年6月18日被捕,被控两项渎职重罪。检方指控他利用Flock车牌读取系统及州警察数据库,跟踪6名认识的人,其中3人为前女友,并对其中一人的前男友车牌查询140次(86次脱岗),持续18个月。全美至少18起类似案例:佐治亚州Braselton警察局长、爱达荷州Jerome县警长(700余次查询其妻车牌)等均因此辞职或被捕。Flock首席法务官Dan Haley承认,滥用该系统"最常见情况"就是跟踪前女友。Flock称系统只跟踪车辆,但案例表明车辆是手段,人是目标。
TechCrunch:AI(RSS)  · 1 天前
Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元(据《华尔街日报》),双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称,希望通过与艺术家直接合作,打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手,此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive,亚马逊 MGM 工作室也在去年设立了影视 AI 部门。
IT之家(RSS)  · 2 天前
小米 YU7 GT(选配赛道专业套装)在纽博格林北环赛道以自动驾驶系统完成全程无人计时圈,成绩 10 分 29 秒 483,成为全球首个纽北自动驾驶圈速纪录。纽北官方圈速榜因此新增"自动驾驶"分类。小米汽车表示,在极限赛道中锤炼的动态模型、高频扭矩分配和毫秒级救车能力,将逐步下放至量产车,以提升用户在暴雨、冰雪等极端工况下的底盘与智驾安全。
论文研究 5
Google Research:Blog(网页)  · 1 小时前
Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。
MarkTechPost(RSS)  · 11 小时前
DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。
Hacker News 热门(buzzing.cc 中文翻译)  · 20 小时前
一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成"算法单一文化",导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。
Apple Machine Learning Research(RSS)  · 1 天前
苹果机器学习研究团队发现,LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明,9位评委实际仅提供约2个独立投票的信息量,面板准确率比独立投票理想值低8-22个百分点,最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微,即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证,瓶颈在于评委间的相关性而非聚合算法。
HuggingFace Daily Papers(社区热门论文)  · 2 天前
AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。
技巧与观点 10
Hugging Face:Blog(RSS)  · 2 小时前
NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4-3.7 倍,GPU 内存减少 29-32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。
Hacker News 热门(buzzing.cc 中文翻译)  · 4 小时前
LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX"不是一家人工智能公司",6月12日上市后收购AI编程工具Cursor属于"花钱买相关性";xAI则是"彻底的灾难",所有11位联合创始人已离职,Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型,理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞,称此举"专断随意"。Hoffman认为Anthropic和OpenAI均有巨大发展空间,但Cursor可能已过巅峰。他建议年轻人不要抵制AI。
公众号:火山引擎  · 4 小时前
在火山引擎Force大会,字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年,字节AI代码贡献率增长6倍,tokens消耗增长5倍,但过度关注单一指标可能失真--TRAE团队代码超90%由AI生成,人均需求吞吐率仅提升60%。900次实验显示,主流Coding模型组合代码正确率超80%,但可交付性仅40-60分;结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发,能力沉淀至TRAE(日均Token消耗5.6万亿,增长50倍),并推出TRAE Work。
X:面壁智能 OpenBMB (@OpenBMB)  · 11 小时前
🥳感谢分享,@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行,实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。 干得漂亮,推动高效多模态 AI 向前发展。🫡
Hugging Face:Blog(RSS)  · 1 天前
Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。
Hugging Face:Blog(RSS)  · 1 天前
Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM-5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。
OpenRouter:Announcements(RSS)  · 1 天前
Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态--托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API--默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。
OpenRouter:Announcements(RSS)  · 2 天前
Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策:通过 API 请求中的 `provider` 对象设置 `order` 或 `only` 限定服务商、`allow_fallbacks` 为 `false` 禁止回退、`data_collection` 为 `deny` 禁止数据存储或训练、`zdr` 为 `true` 要求零数据保留。示例以 `anthropic/claude-sonnet-4.6` 调用,首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求,可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商,API 返回错误而非路由至不合规服务商。
IT之家(RSS)  · 2 天前
6月22日,Anthropic工程负责人Fiona Fung表示,Claude Code和Claude Cowork等AI智能体让工程师越发依赖智能体工作,彼此之间交流减少,长期易感孤独。团队为此组织编程午餐、黑客松和共同开发时段,重新创造面对面协作机会。调查显示Claude Code已成为创业公司最常用的AI编程工具,"氛围编程"兴起使"单人创业者"增多,但Fung强调协作仍不可或缺。
Cursor Blog  · 2 天前
Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。