研究方向 | iLLM 大模型研究

🧠

我们探索超越标准 Transformer 的架构设计，包括线性注意力、状态空间模型、以及混合架构。目标是找到在计算效率和建模能力之间的最优平衡点，使模型能够在更长的上下文窗口上高效运行。

⚡

训练千亿参数模型需要突破工程与算法的双重挑战。我们研究分布式训练策略、内存优化技术、以及数据质量与课程学习方法，使训练过程更快、更稳定、更节省资源。

🔧

确保大模型的行为与人类意图对齐是核心挑战。我们研究 RLHF、DPO、Constitutional AI 等对齐范式，以及红队测试与安全评估方法论，致力于构建更安全、更可靠的模型。

🚀

将大模型从实验室推向生产环境，需要大幅降低推理延迟和成本。我们研究量化算法（GPTQ、AWQ）、推测解码、KV Cache 优化、以及连续批处理等关键技术。

📊

如何全面、客观地衡量模型能力是一个开放性问题。我们构建多维度评测基准，研究模型的可解释性方法，包括机械可解释性与因果追踪技术，理解模型内部的工作机制。

🌐

语言是认知的基石，但不是全部。我们研究语言模型与视觉、音频等模态的融合方案，以及基于大模型的自主智能体系统，探索从感知到行动的完整链路。