SciEvalKit 使用文档
SciEvalKit 是一个开源评估框架与排行榜,旨在衡量大语言模型和多模态大模型的科学智能水平。 尽管现代前沿模型在通用基准上常能取得约 90 分的成绩,它们在严格、领域特定的科学任务中表现却急剧下降。这一持续的通用与科学能力差距催生了 SciEvalKit 的需求。
SciEvalKit 所支持的各个Benchmark的详细信息,请参考 SciEvalKit Feature Status。 其中,Sheet Requests 专用于收集由社区学者提议的新增或共建评测基准。