分享一些 AI 模型評測排名網站

2026-01-14 22:52:34 admin 战队风云

分享一些 AI 模型評測排名網站

# 介紹

隨著 AI 大語言模型的快速迭代，能力也增強了許多，可以在以下的網站查看各個模型的排名。

# LMSYS.Org

LMSYS Org (Large Model Systems Organization)是一個開放的研究組織，由 UC Berkeley 的學生和教師與 UCSD 和 CMU 合作創立。

旨在通過共同開發開放模型、數據集、系統和評估工具，使大型模型對所有人都能夠接觸和使用。

希望建立一個開放和透明的平臺，提供語言模型基準數據和評估工具，幫助研究人員和開發者更好地理解和提升他們的模型性能。

# Chatbot Arena

LMSYS

https://lmarena.ai/leaderboard

⚔️ Arena (battle)

使用者可以輸入問題，會隨機提供不同的模型回答，使用者可以對回答較佳的模型投票，投票後會顯示剛剛回答的模型。

⚔️ Arena (side-by-side)

可以讓使用者選擇2個指定的模型，使用者可以對回答較佳的模型投票。

💬 Direct Chat

使用者可以直接和模型對話，可以選擇指定的模型。

# LLM 排行榜

lmsys.org 每隔一段時間都會發布排行榜，可以做為模型能力的參考，可以選擇不同的分類，查看該分類的排行榜。

# 贊助商

可以看到有許多大模型公司都贊助了 LMSYS，且會提供最新(或是測試中未公開)的語言模型給 LMSYS 測試。

模型未公開時會使用代號名稱，例如當時流傳的 m-also-a-good-gpt2-chatbot，也就是現在的 GPT-4o。

# 用戶能判斷模型的能力嗎?

在 GPT-4o-mini 勝出其他大模型後，許多人對這個榜單提出質疑，因此提供用戶的對話與投票紀錄，

之後也提出 style control 功能，目標是要有辦法區分模型分數是來自內容或是風格。

# Aider Leaderboards

Aider Leaderboards

https://aider.chat/docs/leaderboards/

Aider 是一個開源的 AI 程式碼撰寫工具。

Aider LLM Leaderboards 是由 Aider 開發的一組基準測試，用於評估大型語言模型（LLM）編輯程式碼的能力。

這些基準測試專注於模型編輯現有程式碼的能力，確保模型能夠一致地遵循系統提示詞（Prompt）完成編輯任務，適合評估在程式碼編輯的表現。

# 如何進行基準測試？

基準測試是 Aider’s polyglot benchmark，選取 Exercism 的 225 個困難的程式練習，測量模型完成任務的百分比以及使用正確編輯格式的百分比。

diff 輸出程式碼的部分更改

whole 輸出整個程式碼文件

# LiveBench

LiveBench

https://livebench.ai/

LiveBench 是一個用於評估大型語言模型（LLM）的基準測試平台，目標是防止測試集污染並提供客觀評分。

每月更新問題，確保模型沒有見過這些問題

可以自行驗證分數，也可以接入模型 API 進行跑分

# LiveCodeBench

LiveCodeBench

https://livecodebench.github.io/leaderboard.html

LiveCodeBench 是由加州大學柏克萊分校、MIT、康乃爾大學等團隊共同開發的程式碼大型語言模型（Code LLMs）評估基準

持續更新的題目庫，避免資料污染的模型效能評測

使用 LeetCode、AtCoder、Codeforces 平台的程式競賽題目

可以調整題目時間，確保在模型的訓練截止日期之後

# Vectara 的模型幻覺排行榜

hallucination-leaderboard

https://github.com/vectara/hallucination-leaderboard

透過 Hughes Hallucination Evaluation Model (HHEM) 來測試模型幻覺。

所謂「幻覺」（hallucinated）或「事實不一致」（factually inconsistent），是指一段文本（待判斷的假設）無法由源文本（給定的證據/前提）所支持。在檢索增強生成（RAG）的情境中，模型會從資料集中檢索到多段文本（通常稱為事實或上下文），若生成的摘要（假設）與這些源文本（給定的證據/前提）不符，即構成幻覺。

RAG中一種幻覺類型是，LLM 生成的陳述在現實世界中是正確的，但是並未出現在提供的源文本。

檢索到的事實（前提）：「法國的首都是柏林」(源文本內容)

LLM 回答的摘要（假設）：「法國的首都是巴黎」(符合真實世界知識)

這表示 LLM 未依賴 RAG 提供的資料，反而仰賴預訓練時學到的知識。

# fiction.live 評估模型在長上下文上的能力

fiction.live

https://fiction.live/stories?terms=Fiction.liveBench&page=1

核心目標：測試 AI 模型在處理長篇文本時，能否維持回答品質，並深度理解動態發展的故事情節。

# 測試數據來源

基於十幾部超長且複雜的故事（來自 Fiction.live 的真實用戶內容），並結合人工驗證的問答題（quizzes）。

實際的測試數據集（包含這些問題範例）是保密的。

測試時，會對原始故事進行分段裁剪，生成不同長度的版本：

0-token 測試：僅保留與問題直接相關的片段（最小上下文）。

逐步增加上下文長度：在相關內容周圍逐漸加入更多原始故事文本（即增加無關信息），測試模型在更長、更複雜的上下文中的表現。

# 問題設計

具有難度梯度

同一個問題會提供短上下文版本（如 1k tokens），多數模型能答對。

但是長上下文版本（如 8k tokens），這對多數模型來說則非常困難。

問題類型旨在測試深度理解能力，

追蹤角色關係和動機的動態變化（例如，從恨轉變為愛，再到執念）。

基於故事中的隱晦線索進行邏輯推理。

區分讀者知曉但角色未知的秘密。

刻意設計無法單靠搜索解決的問題：

避免模型僅依賴關鍵字搜索來定位答案，強制模型必須真正閱讀和理解整個上下文。

這更貼近小說寫作中對理解潛台詞、伏筆和情感細微變化的要求。

# 模型評估方式

橫向比較不同模型在不同上下文長度（如 1k, 8k tokens 等）下的表現。

關鍵指標是準確率 (accuracy)，觀察其隨上下文增長而如何變化或衰減。

傳統測試聚焦從長文中找答案，而 Fiction.LiveBench 測試綜合理解能力。

模型不僅要能找到某句對話，更要能理解角色關係如何隨時間演變。

更貼近真實寫作需求，測試結果反映模型在創作輔助（如生成連貫的角色分析、維持情節一致性）中的實用性。

# Artificial Analysis Image Arena Leaderboard

採取用戶投票的 AI 繪圖模型排行榜

Artificial Analysis Image Arena Leaderboard

https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

llmbenchmarkLMSYSChatbot Arenalivebenchaider