SciEvalKit 使用文档

SciEvalKit 是一个开源评估框架与排行榜，旨在衡量大语言模型和多模态大模型的科学智能水平。尽管现代前沿模型在通用基准上常能取得约 90 分的成绩，它们在严格、领域特定的科学任务中表现却急剧下降。这一持续的通用与科学能力差距催生了 SciEvalKit 的需求。

SciEvalKit 所支持的各个Benchmark的详细信息，请参考 SciEvalKit Feature Status。其中，Sheet Requests 专用于收集由社区学者提议的新增或共建评测基准。

Contents: