分享一些 AI 模型評測排名網站
# 介紹
隨著 AI 大語言模型的快速迭代,能力也增強了許多,可以在以下的網站查看各個模型的排名。
# LMSYS.Org
LMSYS Org (Large Model Systems Organization)是一個開放的研究組織,由 UC Berkeley 的學生和教師與 UCSD 和 CMU 合作創立。
旨在通過共同開發開放模型、數據集、系統和評估工具,使大型模型對所有人都能夠接觸和使用。
希望建立一個開放和透明的平臺,提供語言模型基準數據和評估工具,幫助研究人員和開發者更好地理解和提升他們的模型性能。
# Chatbot Arena
LMSYS
https://lmarena.ai/leaderboard
⚔️ Arena (battle)
使用者可以輸入問題,會隨機提供不同的模型回答,使用者可以對回答較佳的模型投票,投票後會顯示剛剛回答的模型。
⚔️ Arena (side-by-side)
可以讓使用者選擇2個指定的模型,使用者可以對回答較佳的模型投票。
💬 Direct Chat
使用者可以直接和模型對話,可以選擇指定的模型。
# LLM 排行榜
lmsys.org 每隔一段時間都會發布排行榜,可以做為模型能力的參考,可以選擇不同的分類,查看該分類的排行榜。
# 贊助商
可以看到有許多大模型公司都贊助了 LMSYS,且會提供最新(或是測試中未公開)的語言模型給 LMSYS 測試。
模型未公開時會使用代號名稱,例如當時流傳的 m-also-a-good-gpt2-chatbot,也就是現在的 GPT-4o。
# 用戶能判斷模型的能力嗎?
在 GPT-4o-mini 勝出其他大模型後,許多人對這個榜單提出質疑,因此提供用戶的對話與投票紀錄,
之後也提出 style control 功能,目標是要有辦法區分模型分數是來自內容或是風格。
# Aider Leaderboards
Aider Leaderboards
https://aider.chat/docs/leaderboards/
Aider 是一個開源的 AI 程式碼撰寫工具。
Aider LLM Leaderboards 是由 Aider 開發的一組基準測試,用於評估大型語言模型(LLM)編輯程式碼的能力。
這些基準測試專注於模型編輯現有程式碼的能力,確保模型能夠一致地遵循系統提示詞(Prompt)完成編輯任務,適合評估在程式碼編輯的表現。
# 如何進行基準測試?
基準測試是 Aider’s polyglot benchmark,選取 Exercism 的 225 個困難的程式練習,測量模型完成任務的百分比以及使用正確編輯格式的百分比。
diff 輸出程式碼的部分更改
whole 輸出整個程式碼文件
# LiveBench
LiveBench
https://livebench.ai/
LiveBench 是一個用於評估大型語言模型(LLM)的基準測試平台,目標是防止測試集污染並提供客觀評分。
每月更新問題,確保模型沒有見過這些問題
可以自行驗證分數,也可以接入模型 API 進行跑分
# LiveCodeBench
LiveCodeBench
https://livecodebench.github.io/leaderboard.html
LiveCodeBench 是由加州大學柏克萊分校、MIT、康乃爾大學等團隊共同開發的程式碼大型語言模型(Code LLMs)評估基準
持續更新的題目庫,避免資料污染的模型效能評測
使用 LeetCode、AtCoder、Codeforces 平台的程式競賽題目
可以調整題目時間,確保在模型的訓練截止日期之後
# Vectara 的模型幻覺排行榜
hallucination-leaderboard
https://github.com/vectara/hallucination-leaderboard
透過 Hughes Hallucination Evaluation Model (HHEM) 來測試模型幻覺。
所謂「幻覺」(hallucinated)或「事實不一致」(factually inconsistent),是指一段文本(待判斷的假設)無法由源文本(給定的證據/前提)所支持。在檢索增強生成(RAG)的情境中,模型會從資料集中檢索到多段文本(通常稱為事實或上下文),若生成的摘要(假設)與這些源文本(給定的證據/前提)不符,即構成幻覺。
RAG中一種幻覺類型是,LLM 生成的陳述在現實世界中是正確的,但是並未出現在提供的源文本。
檢索到的事實(前提):「法國的首都是柏林」(源文本內容)
LLM 回答的摘要(假設):「法國的首都是巴黎」(符合真實世界知識)
這表示 LLM 未依賴 RAG 提供的資料,反而仰賴預訓練時學到的知識。
# fiction.live 評估模型在長上下文上的能力
fiction.live
https://fiction.live/stories?terms=Fiction.liveBench&page=1
核心目標: 測試 AI 模型在處理長篇文本時,能否維持回答品質,並深度理解動態發展的故事情節。
# 測試數據來源
基於 十幾部超長且複雜的故事(來自 Fiction.live 的真實用戶內容),並結合人工驗證的問答題(quizzes)。
實際的測試數據集(包含這些問題範例)是保密的。
測試時,會對原始故事進行分段裁剪,生成不同長度的版本:
0-token 測試:僅保留與問題直接相關的片段(最小上下文)。
逐步增加上下文長度:在相關內容周圍逐漸加入更多原始故事文本(即增加無關信息),測試模型在更長、更複雜的上下文中的表現。
# 問題設計
具有難度梯度
同一個問題會提供短上下文版本(如 1k tokens),多數模型能答對。
但是長上下文版本(如 8k tokens),這對多數模型來說則非常困難。
問題類型旨在測試深度理解能力,
追蹤角色關係和動機的動態變化(例如,從恨轉變為愛,再到執念)。
基於故事中的隱晦線索進行邏輯推理。
區分讀者知曉但角色未知的秘密。
刻意設計無法單靠搜索解決的問題:
避免模型僅依賴關鍵字搜索來定位答案,強制模型必須真正閱讀和理解整個上下文。
這更貼近小說寫作中對理解潛台詞、伏筆和情感細微變化的要求。
# 模型評估方式
橫向比較不同模型在不同上下文長度(如 1k, 8k tokens 等)下的表現。
關鍵指標是準確率 (accuracy),觀察其隨上下文增長而如何變化或衰減。
傳統測試聚焦從長文中找答案,而 Fiction.LiveBench 測試綜合理解能力。
模型不僅要能找到某句對話,更要能理解角色關係如何隨時間演變。
更貼近真實寫作需求,測試結果反映模型在創作輔助(如生成連貫的角色分析、維持情節一致性)中的實用性。
# Artificial Analysis Image Arena Leaderboard
採取用戶投票的 AI 繪圖模型排行榜
Artificial Analysis Image Arena Leaderboard
https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
llmbenchmarkLMSYSChatbot Arenalivebenchaider