De sidste to år har dansk Natural Language Processing (NLP), herunder udviklingen af danske transformer-baseret sprogmodeller, været i stor udvikling. Der er både blevet udgivet en dansk BERT, Ælæctra, RøBÆRTa, en skandinavisk Named Entity Recognition model, som opnår bedre resultater end nogensinde set før. Yderligere, har vi for nyligt fået en dansk Wav2Vec model, som er i stand til at håndtere tale data, og alt dette er til dels på grund af udgivelsen af åbne datasæt som The Danish Gigaword Corpus. Hvad har vejen været hertil, hvor er vi lige nu, og hvordan ser fremtiden ud for dansk NLP?
- Tags
-