GPT-Torsdag nr. 16: Multimodal AI, agenter og GPU-kapløbet
Fra Annette Poulsen
views
Fra Annette Poulsen
Dyk ned i teorier omkring Multimodal LLM Workflow, og hør, hvordan AI-modeller integrerer forskellige datatyper som tekst, billeder og lyd via modality encoding og feature alignment, før de fusioneres i LLM's kerne.
Mød også "hotte" AI-begreber som Chain-of-Thought (CoT), der leder modellen til at tænke i logiske trin, og Retrieval-Augmented Generation (RAG), som henter ekstern viden for at forbedre nøjagtigheden.
Få de seneste indsigter fra GPU-kapløbet, hvor en analyse fra november 2025 viste, at NVIDIA H100 er den klare omkostningsleder, da den er omtrent fem gange billigere per token end Google TPU v6e.
Vi kommer også omkring AI-agenterne, som stadig betragtes som den næste bølge. Benchmarken Terminal-Bench 2.0 afslører, at selv de stærkeste AI-agenter kun løser cirka 60 pct af virkelige udvikler- og systemopgaver i et terminalmiljø. Agenter klarer sig bedst med enkle dataopgaver (som filtrering og sortering) og basal filsystemnavigation, men de kæmper med kompleks fejlfinding, uforudsete problemer og langvarige, flertrins-arbejdsgange.
Endelig kan du se, hvordan AI anvendes i daglige rutiner, især inden for de fire kerneområder: Tekst, Analyse (f.eks. til serviet-beregninger og klassifikation), Brainstorm og Research (ved hjælp af værktøjer som Consensus og Perplexity). Der er også fokus på den stigende trend med at køre AI lokalt, inklusive et par eksempler på Android-enheder.