2026-01-14 22:52:34 admin 战队风云

分享一些 AI 模型評測排名網站

# 介紹

隨著 AI 大語言模型的快速迭代,能力也增強了許多,可以在以下的網站查看各個模型的排名。

# LMSYS.Org

LMSYS Org (Large Model Systems Organization)是一個開放的研究組織,由 UC Berkeley 的學生和教師與 UCSD 和 CMU 合作創立。

旨在通過共同開發開放模型、數據集、系統和評估工具,使大型模型對所有人都能夠接觸和使用。

希望建立一個開放和透明的平臺,提供語言模型基準數據和評估工具,幫助研究人員和開發者更好地理解和提升他們的模型性能。

# Chatbot Arena

LMSYS

https://lmarena.ai/leaderboard

⚔️ Arena (battle)

使用者可以輸入問題,會隨機提供不同的模型回答,使用者可以對回答較佳的模型投票,投票後會顯示剛剛回答的模型。

⚔️ Arena (side-by-side)

可以讓使用者選擇2個指定的模型,使用者可以對回答較佳的模型投票。

💬 Direct Chat

使用者可以直接和模型對話,可以選擇指定的模型。

# LLM 排行榜

lmsys.org 每隔一段時間都會發布排行榜,可以做為模型能力的參考,可以選擇不同的分類,查看該分類的排行榜。

# 贊助商

可以看到有許多大模型公司都贊助了 LMSYS,且會提供最新(或是測試中未公開)的語言模型給 LMSYS 測試。

模型未公開時會使用代號名稱,例如當時流傳的 m-also-a-good-gpt2-chatbot,也就是現在的 GPT-4o。

# 用戶能判斷模型的能力嗎?

在 GPT-4o-mini 勝出其他大模型後,許多人對這個榜單提出質疑,因此提供用戶的對話與投票紀錄,

之後也提出 style control 功能,目標是要有辦法區分模型分數是來自內容或是風格。

# Aider Leaderboards

Aider Leaderboards

https://aider.chat/docs/leaderboards/

Aider 是一個開源的 AI 程式碼撰寫工具。

Aider LLM Leaderboards 是由 Aider 開發的一組基準測試,用於評估大型語言模型(LLM)編輯程式碼的能力。

這些基準測試專注於模型編輯現有程式碼的能力,確保模型能夠一致地遵循系統提示詞(Prompt)完成編輯任務,適合評估在程式碼編輯的表現。

# 如何進行基準測試?

基準測試是 Aider’s polyglot benchmark,選取 Exercism 的 225 個困難的程式練習,測量模型完成任務的百分比以及使用正確編輯格式的百分比。

diff 輸出程式碼的部分更改

whole 輸出整個程式碼文件

# LiveBench

LiveBench

https://livebench.ai/

LiveBench 是一個用於評估大型語言模型(LLM)的基準測試平台,目標是防止測試集污染並提供客觀評分。

每月更新問題,確保模型沒有見過這些問題

可以自行驗證分數,也可以接入模型 API 進行跑分

# LiveCodeBench

LiveCodeBench

https://livecodebench.github.io/leaderboard.html

LiveCodeBench 是由加州大學柏克萊分校、MIT、康乃爾大學等團隊共同開發的程式碼大型語言模型(Code LLMs)評估基準

持續更新的題目庫,避免資料污染的模型效能評測

使用 LeetCode、AtCoder、Codeforces 平台的程式競賽題目

可以調整題目時間,確保在模型的訓練截止日期之後

# Vectara 的模型幻覺排行榜

hallucination-leaderboard

https://github.com/vectara/hallucination-leaderboard

透過 Hughes Hallucination Evaluation Model (HHEM) 來測試模型幻覺。

所謂「幻覺」(hallucinated)或「事實不一致」(factually inconsistent),是指一段文本(待判斷的假設)無法由源文本(給定的證據/前提)所支持。在檢索增強生成(RAG)的情境中,模型會從資料集中檢索到多段文本(通常稱為事實或上下文),若生成的摘要(假設)與這些源文本(給定的證據/前提)不符,即構成幻覺。

RAG中一種幻覺類型是,LLM 生成的陳述在現實世界中是正確的,但是並未出現在提供的源文本。

檢索到的事實(前提):「法國的首都是柏林」(源文本內容)

LLM 回答的摘要(假設):「法國的首都是巴黎」(符合真實世界知識)

這表示 LLM 未依賴 RAG 提供的資料,反而仰賴預訓練時學到的知識。

# fiction.live 評估模型在長上下文上的能力

fiction.live

https://fiction.live/stories?terms=Fiction.liveBench&page=1

核心目標: 測試 AI 模型在處理長篇文本時,能否維持回答品質,並深度理解動態發展的故事情節。

# 測試數據來源

基於 十幾部超長且複雜的故事(來自 Fiction.live 的真實用戶內容),並結合人工驗證的問答題(quizzes)。

實際的測試數據集(包含這些問題範例)是保密的。

測試時,會對原始故事進行分段裁剪,生成不同長度的版本:

0-token 測試:僅保留與問題直接相關的片段(最小上下文)。

逐步增加上下文長度:在相關內容周圍逐漸加入更多原始故事文本(即增加無關信息),測試模型在更長、更複雜的上下文中的表現。

# 問題設計

具有難度梯度

同一個問題會提供短上下文版本(如 1k tokens),多數模型能答對。

但是長上下文版本(如 8k tokens),這對多數模型來說則非常困難。

問題類型旨在測試深度理解能力,

追蹤角色關係和動機的動態變化(例如,從恨轉變為愛,再到執念)。

基於故事中的隱晦線索進行邏輯推理。

區分讀者知曉但角色未知的秘密。

刻意設計無法單靠搜索解決的問題:

避免模型僅依賴關鍵字搜索來定位答案,強制模型必須真正閱讀和理解整個上下文。

這更貼近小說寫作中對理解潛台詞、伏筆和情感細微變化的要求。

# 模型評估方式

橫向比較不同模型在不同上下文長度(如 1k, 8k tokens 等)下的表現。

關鍵指標是準確率 (accuracy),觀察其隨上下文增長而如何變化或衰減。

傳統測試聚焦從長文中找答案,而 Fiction.LiveBench 測試綜合理解能力。

模型不僅要能找到某句對話,更要能理解角色關係如何隨時間演變。

更貼近真實寫作需求,測試結果反映模型在創作輔助(如生成連貫的角色分析、維持情節一致性)中的實用性。

# Artificial Analysis Image Arena Leaderboard

採取用戶投票的 AI 繪圖模型排行榜

Artificial Analysis Image Arena Leaderboard

https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

llmbenchmarkLMSYSChatbot Arenalivebenchaider