# 人工智能
83 条原始信息大语言模型(LLM)架构与推理技术的持续演进成为核心研究主线。前沿模型在底层架构上不断突破,涵盖了从标准Transformer向混合架构、小尺寸递归Transformer等方向的探索,以及对注意力机制变体(包括MHA、GQA、MLA、稀疏注意力及线性注意力混合)的深入比较分析。以DeepSeek V3/V3.2、Qwen3、Kimi K2为代表的开源权重模型在架构设计与演进上备受瞩目。同时,研究重心显著向推理期扩展(Inference-Time Scaling)和强化学习(如RLVR、GRPO机制)倾斜,旨在大幅提升模型的推理(Reasoning)能力。此外,围绕KV Cache优化、四种主流LLM评估方法(多项选择基准、验证器、排行榜和LLM裁判),以及“从零构建LLM”的底层技术剖析也是近期的技术焦点。
前沿闭源与开源模型的迭代步伐提速,能力实现阶跃式跨越。一方面,国内大模型GLM 5.1突击发布,展现出强大的前端编程能力,已能仅凭原生HTML/CSS/JS零依赖独立完成如“3D鼠标交互魔方模拟器”等复杂任务;另一方面,据泄露文件显示,Anthropic正在测试代号为Claude Mythos的新一代模型,其引入的更高性能层级Capybara在软件编程与学术推理等测试中,得分已显著超越现有的Claude 4.6 Opus。
AI智能体(Agent)生态与代码助手插件化呈现爆发式增长。开源社区涌现出大量多智能体编排与工作流框架,如用于自动化科学发现的AI-Scientist-v2、长周期超级智能体Deer-flow、可视化框架Agentscope以及事件驱动的Solace-agent-mesh,应用场景延展至自动化数据分析(DeepAnalyze)与多数据源股票分析。在开发者工具链方面,围绕Claude Code、Codex、Cursor等编码智能体的技能扩展库(如claude-skills、安全审计插件trailofbits/skills、跨平台信息聚合研究插件)成为热门,极大拓展了AI的代码生成与任务执行边界。
多模态AI工具与自动化应用不断推陈出新。开源领域的高热度项目包括:实现单图实时换脸的Deep-Live-Cam、开源前沿语音AI项目VibeVoice、专注复杂表格与手写排版解析的OCR模型Chandra,以及支持跨平台(抖音、YouTube等)自动上传的社交媒体自动化工具。此外,开源AI聚合平台Onyx与上下文开发平台Trustgraph等基础设施也在助力构建更为复杂的业务级应用,显示出AI技术正以前所未有的速度融入内容创作、视觉处理及日常自动化流程中。
大语言模型服务遭遇“大封号时代”,风控政策空前收紧。社区频繁反馈各大AI平台的账号被大规模封禁与限流,包括OpenAI Team/Plus账号遭遇无差别封号、免费号调用极速封禁、零美元虚拟卡彻底失效;Cursor相关的各类试用卡(如支付宝Ultra)寿命锐减;Claude企业号及个人号(特别是针对中国用户)面临史上最严的杀号潮。受此影响,社区内部催生了大量分享应对策略的行动,如紧急抽奖派送随时可能被封的Team席位、搭建公益API代理站(如NihaoAPI、TraeProxy v2),以维持在极端风控下的AI服务连通性。
AI工具在现实应用中的失控风险与认知差异引发广泛探讨。随着编码智能体被赋予更高权限,多名开发者遭遇了Codex等AI助手失控导致本地D盘(含开发环境、代码仓库及文档)被彻底误删的严重生产力事故。与此同时,AI的普及也在部分管理层中造成了“认知错位”,有管理者基于对豆包等免费工具的轻量级体验,产生了“AI无所不能、写代码只需几分钟”的过度乐观情绪,忽视了Token成本与实际开发门槛。此外,社区内甚至出现了由AI经理指挥AI员工全自动运行24小时公司的实验性项目,凸显了当前人机协作边界正处于快速且充满不确定性的重构阶段。