論文📚:https://arxiv.org/abs/2406.05761
↑今回の論文は 2025 naacl の Best Paper Awards (https://2025.naacl.org/blog/best-papers/**)**です。
🧠 論文の要約 :
The BIGGEN BENCH:
精緻なLLM能力評価のためのベンチマーク設計
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
Chapter1(Introduction)
Chapter2 (Related Work)
Chapter3 (BIGGEN BENCH ― The Big Generation Benchmark)
Chapter4 ( Main Results & Analyses)
Chapter5 (Can we rely on LLM to evaluate other LLM? )
Chapter6 (Conclusion & Outlook)
Appendix(A~G) ざっくり