🧠

模型架构设计

我们探索超越标准 Transformer 的架构设计,包括线性注意力、状态空间模型、以及混合架构。目标是找到在计算效率和建模能力之间的最优平衡点,使模型能够在更长的上下文窗口上高效运行。

Linear Attention State Space Models Mixture of Experts Long Context

大规模高效训练

训练千亿参数模型需要突破工程与算法的双重挑战。我们研究分布式训练策略、内存优化技术、以及数据质量与课程学习方法,使训练过程更快、更稳定、更节省资源。

3D Parallelism Gradient Checkpointing Data Curation Training Stability
🔧

对齐与安全微调

确保大模型的行为与人类意图对齐是核心挑战。我们研究 RLHF、DPO、Constitutional AI 等对齐范式,以及红队测试与安全评估方法论,致力于构建更安全、更可靠的模型。

RLHF DPO Red Teaming Safety Evaluation LoRA / QLoRA
🚀

推理加速与部署优化

将大模型从实验室推向生产环境,需要大幅降低推理延迟和成本。我们研究量化算法(GPTQ、AWQ)、推测解码、KV Cache 优化、以及连续批处理等关键技术。

Quantization Speculative Decoding KV Cache Continuous Batching
📊

评测体系与可解释性

如何全面、客观地衡量模型能力是一个开放性问题。我们构建多维度评测基准,研究模型的可解释性方法,包括机械可解释性与因果追踪技术,理解模型内部的工作机制。

Benchmark Design Mechanistic Interpretability Causal Tracing Faithfulness
🌐

多模态与智能体

语言是认知的基石,但不是全部。我们研究语言模型与视觉、音频等模态的融合方案,以及基于大模型的自主智能体系统,探索从感知到行动的完整链路。

Vision-Language Audio Understanding Tool Use Autonomous Agents Planning