发布日期:2025-04-16 11:31 点击次数:146
公众号『AI行业星球』
报告共19页
导读:报告详细阐述了通过长数据合成、渐进式预训练和多阶段监督微调等技术,有效提升了模型性能并降低了训练成本。此外,为推广长上下文模型的使用,报告开源了推理框架,包括长度外推方法、稀疏注意力机制及优化技术,显著提高了推理效率。Qwen2.5-1M 系列包括开源模型 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,以及 API 访问模型 Qwen2.5-Turbo。评估显示,这些模型在长文本任务中表现优异,短文本任务能力亦未受损。例如,Qwen2.5-14B-Instruct-1M 在长文本任务中显著优于 GPT-4o-mini,支持长度为其八倍的上下文。报告还介绍了模型架构、预训练策略、后训练方法及推理引擎优化。通过这些技术,Qwen2.5-1M 在长文本任务中实现了显著的性能提升,同时保持了短文本任务的高效处理能力。未来,团队将继续探索更有效的训练策略和模型架构,以进一步提升长文本模型的性能和效率。
展开剩余39% 发布于:广东省上一篇:没有了
下一篇:没有了