覆盖大模型从预训练到部署的完整生命周期
探索 Transformer 及其变体架构的设计空间,研究高效注意力机制与新型网络结构。
研究大规模分布式训练策略、混合精度优化、数据并行与流水线并行等关键技术。
研究 RLHF、DPO 等对齐方法,以及参数高效微调技术,使模型更安全可控。
研究模型量化、知识蒸馏、 speculative decoding 等推理加速技术,降低部署成本。
构建全面的大模型评测体系,研究模型安全性、鲁棒性与可解释性。
研究语言模型与视觉、音频等模态的融合,构建统一的多模态大模型。