Testing Store Språkmodeller på Vitenskapelig Litteratur: Metoder som Fungerer
Testing av store språkmodeller på vitenskapelig litteratur har avdekket betydelige hull i dagens AI-kapasitet. Forskere har utviklet en database med 1 726 vitenskapelige artikler og 67 ekspertformulerte spørsmål for å evaluere LLM-forståelse, mens andre studier har testet over 40 ledende modeller på tvers av 1 180 nøkkelord innenfor 22 vitenskapelige domener. Resultatene viser at vitenskapelig idegenereringsevne er dårlig forutsagt av standard intelligensmetrikker. Vi vil i denne artikkelen utforske hvordan vi kan evaluere LLM-ytelse på vitenskapelig innhold, hvilke metoder som gir pålitelige resultater, og hvordan vi kan implementere testing i forskningsarbeidsflyten for å oppnå optimal kvalitetssikring.
Evalueringsmetoder for Store Språkmodeller på Vitenskapelig Innhold
Ekspertpanel-basert Testing med Fagspesifikke Spørsmål
Cornell-fysikere og Google-forskere engasjerte et panel på 12 menneskelige eksperter for å teste seks LLM-systemer, inkludert ChatGPT og Claude, på deres evne til å forstå vitenskapelig litteratur på spesialistnivå. Forskerne skapte en database med 1 726 vitenskapelige artikler kuratert av eksperter som dekker feltet høytemperatur-kuprater, en klasse supraledende materialer. Videre utviklet en større gruppe eksperter 67 spørsmål som tester dyp forståelse av litteraturen. Ekspertene graderte svarene manuelt uten å vite hvilket system de evaluerte, noe som sikret objektive vurderinger.
RAG-systemer med Kuraterte Dokumentdatabaser
Systemene som benyttet kuratert informasjon presterte best i testingen. Googles produkt og det tilpassede RAG-systemet viste overlegen ytelse, der den tilpassede modellen skilte seg særlig ut med sin unike evne til å hente bilder fra kuraterte dokumenter for datavisualisering. RAG-implementeringer i forskningsstudier viser at 63,6% benytter GPT-baserte modeller, mens 80,5% anvender standardrammeverk som FAISS eller Elasticsearch. Dessuten har 15,6% av studiene implementert proprietære repositorier via on-premises RAG-pipelines for å indeksere private bedriftsdokumenter.
Benchmarking med Referanseartikler og Standardiserte Datasett
PolyBench representerer et omfattende akademisk benchmark med 24,9k spørsmål på tvers av ulike formater. Rammeverket anvender comprehensiveness-compactness-prinsippet, der comprehensiveness sikrer semantisk dekning ved å dekke domenet fullt ut, mens compactness forbedrer presisjon ved å redusere redundans. Evalueringsmetrikker inkluderer Recall@K/Precision@K, som måler relevans innenfor de topp K resultatene, rapportert i 72,7% av studiene. ROUGE og BLEU for genereringsoppgaver anvendes i 44,2% av tilfellene.
Sammenligning av Proprietære og Åpen Kildekode Modeller
GPT-4 oppnådde 73,3% korrekte svar på nefrologi-testspørsmål, mens Claude 2 scoret 54,4%. I motsetning til disse presterte open-source-modeller svakere både på totalt antall korrekte svar og forklaringskvalitet. Proprietære modeller viser generelt overlegen ytelse på grunn av massive treningssett og tilgang til kuraterte, ikke-offentlige data. Open-source-modeller tilbyr fordeler som lavere kostnader, full kontroll over deployment og evne til å tilpasse for spesifikke bruksområder, men krever betydelig teknisk ekspertise.
Ytelsesmålinger og Testresultater fra Forskningsstudier
Tekstekstraksjon: Sterke Sider hos GPT-4 og Claude 3.5
Alle LLM-ene viste overraskende gode resultater ved uttrekk av tekstbasert informasjon. Claude 3.5 demonstrerte overlegen ytelse med en total nøyaktighet på opptil 71,5% (95% CI: 69,3%, 73,7%) sammenlignet med ChatGPT 4o som oppnådde 69,1% (95% CI: 66,8%, 71,3%). I dataekstraksjon fra randomiserte kontrollerte studier oppnådde Claude 2 en total nøyaktighet på 96,3% på tvers av 160 dataelementer. Videre viste Claude 3.5 Sonnet gjennomsnittlig nøyaktighet på 76,2%, med gjennomsnittlig presisjon på 89,2% og sensitivitet på 85,1%, noe som resulterte i en F1-score på 86,5%.
Datavisualisering: NotebookLM vs Standard LLM-systemer
Mens LLM-er presterte godt på tekstuttrekk, var de totalt ufähige til å engasjere seg med datavisualisering. NotebookLM kan ikke utføre dataanalyse på grunn av to tekniske begrensninger: den mangler tilgang til et python-miljø for å kjøre kode, og den anvender retrieval augmented generation som forhindrer prosessering av hele datasett samtidig. Den tilpassede modellen med sin unike evne til å hente bilder fra kuraterte dokumenter var betydelig bedre på datavisualisering. Claude 3.7 Sonnet og Gemini 2.5 Pro leverte imidlertid solide resultater for å generere diagrammer basert på begrenset instruksjon.
Matthews Korrelasjon og F1-Score i Artikkelscreening
Matthews correlation coefficient oppnår høy verdi bare hvis klassifisereren får gode resultater i alle oppføringene i konfusjonsmatrisen. MCC anses som gullstandard-metrikken for svært ubalanserte og kritiske oppgaver som medisinsk diagnostikk. GPT-3.5 Turbo overgikk tilfeldig klassifisering i alle unntatt to ytelsesmålinger (sensitivitet: p-verdi = 0,22; F1-score: p-verdi = 0,21). For tittelsreening demonstrerte GPT-4 Turbo og GPT-3.5 Turbo høy sensitivitet (opptil 99,5%) og spesifisitet (opptil 99,6%).
Arbeidsbelastningsreduksjon: 33% til 93% i Systematiske Gjennomganger
LLM-er kan redusere én reviewers arbeidsmengde mellom 33% og 93% under tittel- og sammendragsscreening. Otto-SR overgikk tradisjonelle to-persons arbeidsflyten med 96,7% sensitivitet og 97,9% spesifisitet, sammenlignet med menneskelig screening på 81,7% sensitivitet og 98,1% spesifisitet. Følgelig reproduserte otto-SR et helt utgave av Cochrane-gjennomganger (n=12) på to dager, noe som representerer omtrent 12 arbeidsår med tradisjonelt systematisk gjennomgangsarbeid.
Praktiske Utfordringer og Begrensninger ved LLM-testing
Manglende Evne til Figur- og Grafforståelse
Visuell resonnering forblir underutviklet til tross for fremgang på andre områder. LMM-er sliter særlig med vision-only problemer der all spørsmålsinformasjon er innebygd i diagrammer. Closed-source modeller demonstrerer betydelig sterkere CoT-resonneringskapasitet enn open-source alternativer. Når mer informasjon flyttes til visuell input, opplever open-source LMM-er et vesentlig større ytelsesfall sammenlignet med closed-source LMM-er. Mangelen på pålitelige OCR-kapasiteter og tverrmodal integrasjon hindrer alvorlig LMM-ers potensial til å takle vitenskapelige problemer i virkelige scenarioer.
Hallusinasjoner og Feilaktige Referanseattribusjoner
GPT-3.5 fabrikerer 39,6% til 55% av referansene i litteraturgjennomganger, mens GPT-4 fremdeles produserer 18% til 28,6% falske sitater. Innenfor genererte dokumenter inneholder 55% av GPT-3.5-sitatene og 18% av GPT-4-sitatene fabrikerte bibliografiske referanser. Blant ekte GPT-3.5-siterte arbeider har 43% substansielle sitasjonsfeil, sammenlignet med 24% for GPT-4. Perplexity svarte feil 37% av tiden, mens Grok-3 Search hadde høyeste feilrate på 94%. AI-søkemotorer klarte ikke å hente korrekt informasjon i over 60% av 1600 testforespørsler.
Kontekstvindu-begrensninger i Lange Vitenskapelige Artikler
Etter hvert som kontekststørrelsen økte, oversteg hallusinasjonsrater grunnleggende hallusinasjonsrater for alle modeller. Maksimalt kontekstvindu varierer betydelig fra maksimalt effektivt kontekstvindu for alle testede modeller. LLM-er kan holde oversikt over maksimalt n = 5 til 10 variabler før de overskrider arbeidsminnekapasitet. Ytelsen degraderer raskt til 50-50 tilfeldig gjetning etter dette punktet. Llama-2 kunne ikke evalueres for 3-shot setting på grunn av begrenset kontekstvindu-lengde på 4 096 tokens.
Inklusjons- og Eksklusjonskriteriers Innvirkning på Nøyaktighet
ChatGPT overholdt kriteriet «randomized study» i bare 39% til 49% av ikke-hallusinerte artikler. Kriteriet «not a systematic review» ble ikke respektert i 20,1% av tilfellene. TrialGPT-feil inkluderte 30,7% feil resonnering, 26,9% tvetydige etikettdefinisjoner og 15,4% mangel på medisinsk kunnskap.
Implementering av Testing i Forskningsarbeidsflyten
Oppsett av Vektordatabaser for Dokumentbehandling
Implementering starter med å bygge en robust datainfrastruktur. OpenScholar DataStore representerer et fullstendig åpent korpus med 45 millioner vitenskapelige artikler og 236 millioner passage embeddings. Vektordatabaser anvender spesialiserte algoritmer som HNSW, FAISS, ScaNN og CAGRA for effektiv likhetssøk. Layout Preservation-teknologi opprettholder originaldokumentets struktur i råtekst-output, noe som bevarer kolonneoppsett og tabeller som LLM-er kan bruke til å tolke dokumenter. Sub-question retrieval-teknikken sender først prompten til en LLM for å identifisere hvilke informasjonsbiter brukeren forsøker å ekstrahere, før spørringen sendes til vektordatabasen.
Utforming av Evalueringskriterier med LLM-støtte
LLM-as-a-Judge-tilnærmingen automatiserer evalueringer ved å bruke én LLM til å vurdere en annens output. TruLens implementerer evaluering gjennom tilpassede tilbakemeldingsfunksjoner som utnytter chain-of-thought resonnering på tvers av tre kritiske dimensjoner: Groundedness, Answer Relevance og Context Relevance. RAGAS-rammeverket måler Context Recall, Faithfulness og Factual Correctness. Kurering av golden datasets fra ulike kilder sikrer dekning på tvers av flere domener. Organisasjoner som investerer i omfattende testdata oppnår 3x raskere iterasjonssykluser.
Integrering av LLM som Andre Reviewer i Screeningprosessen
Prompt-utvikling krevde 1 045 poster før testing på gjenværende 11 939 poster fra grunnlinjegjennomgangen. GPT-4o-basert screening ekskluderte ikke noen artikler som til slutt ble inkludert i gjennomgangen, og oppnådde 100% sensitivitet. Simulerte arbeidsbelastningsreduksjoner varierte fra 65% til 85%. EPPI Reviewer-plattformen bruker OpenAI GPT-4o API via Azure med temperatur satt til null for å minimere variasjon. Eksplisitt instruksjon ved bruk av boolske formater som «Return TRUE if…» forbedret nøyaktigheten betydelig.
Validering og Kvalitetssikring av Automatiserte Resultater
SymGen-systemet muliggjør verifisering av LLM-responser 20% raskere sammenlignet med manuelle prosedyrer. Konsistens vurderes ved å kjøre 50 tilfeldig utvalgte poster gjennom GPT-4o API flere ganger. Abstracts under 20 ord gir utilstrekkelig kontekst for LLM-screening, noe som krever manuell gjennomgang. Menneskeovervåking forblir essensiell for å fange opp subtile feil, hallusinerte referanser og etiske bekymringer som modeller ikke kan oppnå.
Konklusjon
Store språkmodeller viser lovende resultater på tekstekstraksjon fra vitenskapelig litteratur, men sliter fortsatt med datavisualisering og hallusinerte referanser. Vi har utforsket ekspertpanel-testing, RAG-implementeringer og standardiserte benchmarks som gir pålitelige evalueringsresultater. Proprietære modeller som GPT-4 og Claude presterer best, men krever nøye validering. Ved å integrere vektordatabaser, definere klare evalueringskriterier og opprettholde menneskelig kvalitetssikring kan vi oppnå arbeidsbelastningsreduksjoner på opptil 93% samtidig som vi sikrer vitenskapelig nøyaktighet.
Energibransjen satser på datadrevet teknologi for fremtidens kraftnett
Ministre advarer bedrifter om cybersikkerhetstrusler fra AI-hackere
Urbane studier: Harvard introduserer bachelor-linje for studenter
Slik har teknologi endret verden i løpet av ett liv