# 人工智能
78 条原始信息大模型架构演进与推理时间扩展研究:近期AI研究领域高度聚焦于大语言模型架构(LLM Architecture)的底层创新与优化。从GPT-2到现代开源模型(如Qwen3、DeepSeek V3/V3.2),研究人员正在深入探讨多头注意力(MHA)、分组查询注意力(GQA)、混合注意力(MLA)及稀疏注意力机制的应用。同时,提升模型逻辑能力的推理时间扩展(Inference-Time Scaling)技术和基于GRPO等算法的强化学习(RL)在推理模型训练中的作用成为核心议题。从零构建LLM(包括KV Cache的基础实现)和完善的模型评估(LLM Evaluation)方法(如多项选择基准、验证器、LLM裁判等)也持续受到学术界与开发者的硬核关注。
AI智能体生态爆发与自动化工作流整合:开源社区正迎来AI智能体(AI Agents)与插件技能的井喷式发展。代表性项目如可自动进行科学发现的AI-Scientist-v2、构建透明可信智能体的AgentScope以及Hermes-Agent等备受瞩目。开发者正积极扩充Claude Code与Codex的技能库,涌现出包含数百个插件的智能路由治理包(如集成340+ skills的路由项目)以及跨平台的IrisAgent(一站式集成MCP、Web、终端与Computer Use)。此外,全面的自动化工作流库(如n8n-workflows)、专精网络深度调研的last30days-skill以及专注安全漏洞挖掘的Strix,极大降低了复杂任务的自动化门槛。
模型实测表现与API渠道的严厉风控:在真实项目代码评测中,GLM-5.1的编程能力(Coding)引发了社区的广泛测试与讨论,部分开发者认为其在特定场景下已具备超越Sonnet 4.5等顶尖国际模型的潜力,但其整体输出稳定性和应对复杂需求的表现评价呈现两极分化。与此同时,API调用渠道正经历严厉的风控封号潮。主流服务商对Claude Code Max和Codex Team账号进行大规模封禁收口,导致大量反代服务和公益API站点(如LogosAPI)被迫关停或跑路。社区还特别警告,在Claude Code中通过修改环境变量强行接入非官方源或第三方模型,会严重破坏其核心效能。
多模态创新与细分场景的AI应用落地:AI技术在多模态与垂直应用场景中持续突破。视觉与语音方面,Deep-Live-Cam实现了仅需单张图片的一键实时视频换脸,Chandra突破了复杂表格与手写体的全排版高精度OCR识别,微软开源的VibeVoice则提供了前沿的语音AI支持。在文本与效率工具领域,为解决AI长篇创作的“遗忘”与“幻觉”问题,社区推出了支持百万字量级连载的webnovel-writer系统;同时,免Root的手机后台自动化操控脚本、降AI率伪装工具以及旅游攻略智能体等实用型项目,展示了AI在降低日常操作成本和满足个性化需求上的极强可塑性。