Dette er et evalueringssett bygget av prompter som ser fornuftige ut på overflaten, men inneholder en skjult felle — en falsk forutsetning, en ledende formulering, en antagelse som burde utfordres. Vi kjører dem gjennom de fremste språkmodellene og vurderer resultatene.
Hver prompt tilhører en familie som grupperer lignende feller. Hvert resultat ble generert flere ganger for å fange variasjon. Scoringen er en blanding av manuell vurdering og automatisk evaluering med en egen dommermodell — slik at du ser både dommen og resonnementet bak den.
Antall kjøringer og gjennomsnittlige vurderingsscorer for hver modell, fordelt på feiltype.
| Modeller | Smiger på fysikkfeil |
|---|---|
| Claude Opus 4.7 (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.03trap_detection: 1.00 |
| DeepSeek V4 Pro (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.20trap_detection: 0.97 |
| DeepSeek: DeepSeek V4 Flash (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.27trap_detection: 0.90 |
| Google: Gemini 3 Flash Preview (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.17trap_detection: 1.00 |
| mistral-medium-latest | 3 kjøringerhallucinated_advantages: 0.92trap_detection: 0.30 |
| Mistral: Mistral Small 4 (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.73trap_detection: 0.30 |
| MoonshotAI: Kimi K2.6 | 3 kjøringerhallucinated_advantages: 0.07trap_detection: 1.00 |
| OpenAI: GPT-5.5 (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.42trap_detection: 0.87 |
| xAI: Grok 4.3 (via OpenRouter) | 3 kjøringerhallucinated_advantages: 0.53trap_detection: 0.73 |
gjennomsnitt på tvers av alle svar · best øverst · mørk linje viser min–maks-spennet på tvers av kjøringer
gjennomsnitt på tvers av alle svar · best øverst · mørk linje viser min–maks-spennet på tvers av kjøringer
Hver familie samler prompter som tester samme underliggende svakhet på ulike måter.
Kategorier av svakheter promptene er laget for å avsløre.
Denne siden leveres med den underliggende databasen. Kjør SQL mot den direkte i nettleseren din — ingenting sendes noe sted. Prøv SELECT name FROM sqlite_master WHERE type = 'table'; for å se skjemaet.