Evaluering: Elefanten i maskinrummet
views
I klassisk maskinlæring er vi vant til at have konkrete metrikker til at evaluere vores modeller. Disse metrikker er fundamentet for modeludvikling og performancevurdering. Når det kommer til generative modeller, såsom store sprogmodeller (LLMs), står vi over for en helt ny udfordring: Hvordan evaluerer vi output, der er åbent og varieret?
Generative modeller genererer output, der kan være uendeligt varierende, hvilket gør traditionelle evalueringsmetoder utilstrækkelige. Mens LLM leaderboards giver et overblik over generelle præstationer, fortæller de os meget lidt om, hvordan en given model vil klare sig i specifikke forretningskontekster.
Om sporet AI