Betrouwbare output met RAG: Het belang van originele bronnen

10 October, 2024

Het potentieel van generatieve AI voor bedrijven is algemeen bekend, maar de technologie kan nieuwe risico's met zich meebrengen als deze niet wordt gevoed door originele en betrouwbare gegevensbronnen. In de tweede blog van onze ‘RAGs to Riches’-serie onderzoeken we die risico’s, belichten we best practices rond het ophalen van gegevens voor generatieve AI met behulp van een Retrieval Augmented Generation (RAG) techniek, en stellen we de belangrijkste vragen die u aan uw gegevensleverancier moet stellen voor een betrouwbare en effectieve aanpak.

De gevaren van onvoldoende gegevensbronnen voor generatieve AI

Volgens het LexisNexis® Future of Work Report 2024 is 87% van de bedrijven van plan om generatieve AI-technologie te adopteren (als ze dat nog niet hebben gedaan). Maar in de afgelopen jaren zijn te veel bedrijfsinitiatieven rond AI mislukt. Een veelvoorkomende oorzaak hiervan is slechte gegevenskwaliteit – zoals het gezegde luidt: "garbage in, garbage out". De resultaten van generatieve AI-tools zullen alleen zo accuraat en relevant zijn als de gegevens waarop ze gebaseerd zijn.

Het probleem ligt vaak bij bedrijven die gegevens van lage kwaliteit van derden invoeren in hun generatieve AI-modellen. Dit kan gaan om een generatieve AI-tool van derden die een bedrijf gebruikt om zijn werk te ondersteunen, of om een gegevensaggregator van derden waaruit het bedrijf inhoud haalt om zijn eigen generatieve AI-oplossing aan te sturen. Als deze providers niet duidelijk kunnen aantonen waar en hoe ze hun gegevens hebben verzameld, brengt dit vijf grote risico's met zich mee:

1) Onethisch verzamelde gegevens: Sommige bedrijven hebben reputatieschade opgelopen omdat ze naar verluidt gegevens van individuele sociale mediagebruikers hebben gescrapet, wat leidde tot een consumentenreactie.

2) Schendingen van regelgeving: Er zijn recente rechtszaken aangespannen door uitgevers tegen aanbieders van generatieve AI vanwege het vermeende gebruik van hun gegevens zonder toestemming of betaling. Slechte gegevens kunnen leiden tot schendingen van privacy-, vertrouwelijkheids- en intellectuele eigendomsregels.

3) Gegevens zonder herkomst: Wanneer gegevens niet uit originele bronnen worden gehaald, is het voor bedrijven moeilijker te achterhalen waar elke onderdeel van een generatief AI-antwoord vandaan komt. Dit maakt het onmogelijk om de nauwkeurigheid van het antwoord te verifiëren of er met vertrouwen op te handelen.

4) Onnauwkeurigheden: Vage en ondoorzichtige gegevens van secundaire bronnen maken het moeilijk voor een bedrijf om te verifiëren of de gegevens juist en actueel zijn.

5) Hallucinaties: Een beperking van generatieve AI-oplossingen is dat een antwoord soms plausibel klinkt, maar geen basis heeft in feiten of onderliggende gegevens. Dit komt doordat het hulpmiddel leert van verouderde gegevens en doorlopend reageert op gebruikers, wat leidt tot resultaten die gebaseerd zijn op 'verzonnen' gegevens. Als het antwoord de oorspronkelijke bron voor elke claim niet vermeldt, is het moeilijk te ontdekken of een antwoord een hallucinatie is.

RAG is de beste verdediging tegen deze risico's

Retrieval Augmented Generation (RAG) is een techniek om een generatieve AI-tool te verbeteren om deze risico’s te beperken. Traditioneel leert een tool continu van zijn oorspronkelijke trainingsgegevens en de interacties met gebruikers. Retrieval Augmented Generation dwingt het model echter om informatie op te halen uit een extra laag gegevens die de eerder geleerde gegevens overtreft. Deze gegevens moeten geloofwaardig en autoritatief zijn, en rechtstreeks uit originele bronnen worden gehaald, zoals de gegevens die door LexisNexis® zijn gelicentieerd voor gebruik in generatieve AI. Het generatieve AI-model moet vervolgens elk antwoord genereren door gebruik te maken van deze gegevens als context en de oorspronkelijke bron(nen) voor elk antwoord te vermelden.

Retrieval Augmented Generation biedt talloze voordelen, bijvoorbeeld:

Antwoorden zijn relevanter en gekoppeld aan geloofwaardige bronnen voor betere nauwkeurigheid.
Antwoorden bevatten de nieuwste wijzigingen, omdat de contextuele gegevens periodiek kunnen worden bijgewerkt als ze via een API worden geleverd.
De output van een generatieve AI-tool kan worden geverifieerd door verwijzingen naar de oorspronkelijke bron te volgen.

Het benutten van de voordelen van een RAG-aanpak voor generatieve AI vereist toegang tot betrouwbare gegevens die zijn geoptimaliseerd voor gebruik in deze specifieke technologie. Het LexisNexis® Future of Work Report 2024 vond dat 9 van de 10 professionals de kwaliteit en nauwkeurigheid van de output het belangrijkste criterium vinden bij het kiezen van een generatieve AI-tool. Terwijl 7 van de 10 aangeven dat betrouwbare, nauwkeurige gegevensbronnen de sleutel zijn tot het opbouwen van vertrouwen in hun gebruik van generatieve AI. Hoe kunnen bedrijven dan deze contextuele gegevens voor hun generatieve AI-modellen ophalen met een RAG-aanpak vanuit originele bronnen?

Een betrouwbare gegevens- en technologieleverancier vinden

Het ophalen van originele bronnen om generatieve AI-initiatieven te ondersteunen, houdt in dat men naar individuele, betrouwbare uitgevers gaat en vraagt om hun gegevens te gebruiken. Bedrijven die wereldwijd opereren, moeten dit mogelijk doen voor bronnen in meerdere rechtsgebieden en talen. Dit zou zeer tijdrovend zijn, zowel om de gegevens te verkrijgen als om te zorgen voor naleving van de verschillende regelgevingen in de loop van de tijd.

Daarom is het veel efficiënter om het verkrijgen van gegevensbronnen uit te besteden aan een gespecialiseerde derde partij. Afhankelijk van uw budget zijn er twee benaderingen die u kunt volgen:

1) Meld u aan om een betrouwbare generatieve AI-tool van een derde partij te gebruiken die transparant is over de gegevensbronnen die het gebruikt.

2) Werk samen met een goed aangeschreven derde partij die gegevens levert die u kunt gebruiken om uw eigen generatieve AI-tool te voeden met contextuele gegevens, die voor elk antwoord worden opgehaald via de Retrieval Augmented Generation-techniek. Deze inhoud kan worden geleverd via een API.

Welke aanpak u ook kiest, het is van cruciaal belang dat de derde partij ervoor zorgt dat elke gegevensbron die het gebruikt, is gelicentieerd en goedgekeurd voor specifiek gebruik in generatieve AI en voldoet aan alle relevante regelgeving en ethische normen rond gegevensbescherming en privacy. Uw bedrijf zal verantwoordelijk worden gehouden voor eventuele tekortkomingen op dit gebied. Vragen die u een potentiële aanbieder kunt stellen zijn onder andere:

Wat zijn de gegevensbronnen die u heeft verzameld?
Wie is de oorspronkelijke uitgever van elke bron?
Hoe betrouwbaar is elke uitgever?
Hoe heeft u de gegevens verzameld?
Heeft elke uitgever zijn inhoud gelicentieerd en goedgekeurd voor gebruik in generatieve AI-tools?
Hoe heeft u ervoor gezorgd dat de gegevens voldoen aan de regelgeving rond gegevensbescherming en hoge ethische normen?
Hoe garandeert u dat de gegevens actueel zijn en regelmatig worden vernieuwd?
Hoe worden de gegevens aan mijn bedrijf geleverd? Is het mogelijk om ze via een enkele, flexibele API te integreren?

LexisNexis® biedt gegevens en technologie voor een succesvolle RAG-aanpak

Het toepassen van Retrieval Augmented Generation in uw generatieve AI-ontwikkeling is alleen effectief als de contextuele gegevens die het binnenhaalt accuraat, betrouwbaar en goedgekeurd zijn voor gebruik in generatieve AI-tools. LexisNexis biedt gelicentieerde inhoud en geoptimaliseerde technologie om uw generatieve AI- en RAG-ambities te ondersteunen:

Gegevens voor generatieve AI: Onze uitgebreide nieuwsdekking, verrijkt met robuuste metadata, is direct beschikbaar voor integratie in uw generatieve AI-projecten met Nexis® Data+. Duizenden bronnen zijn al beschikbaar voor gebruik met generatieve AI-technologie.

Generatieve AI voor onderzoek: Nexis+ AI is een nieuw, AI-aangedreven onderzoeksplatform dat tijdsbesparende generatieve AI-tools combineert met onze uitgebreide bibliotheek van betrouwbare bronnen. Nexis+ AI kan niet alleen tijd besparen bij kerntaken zoals documentanalyse, artikeloverzicht en rapportgeneratie, maar maakt ook gebruik van Retrieval Augmented Generation en citaten die transparant de bronnen tonen die zijn gebruikt voor AI-gegenereerde inhoud.

Neem contact met ons op

E-mail: support@lexisnexis.eu
Telefoonnummer: +31 (0) 20 485 3456

Actuele blogs

AI voor risico-analyse

Zes onmisbare criteria voor betrouwbare data in AI

LLM en Generatieve AI op de werkvloer

LexisNexis 2025 Future of Work Report onthult actief onderzoek...

API-first: Best practices