1、检验大模型数学推理能力,司南发布全新评测指标与评测集。近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在检... —— AI新技能 2024-12-25 23:09:59

更新时间:2024-12-25 23:12:06