Toegepaste artificial intelligence: Classificatie en foutcorrectie

Toegepaste artificial intelligence: automatische document classificatie en correctie indexatie fouten

In de werkprocessen van onze klanten zit altijd de behoefte om documenten van externe bron op te nemen in het DMS-systeem. Deze documenten dienen geclassificeerd en geïndexeerd te worden; in de meeste processen zijn dit handmatige acties. Vanwege het manuele karakter zijn de kosten voor het indexeren en classificeren hoog. Daarnaast is een handmatig proces foutgevoelig. De behoefte om dit proces te automatiseren is dus hoog.

In 2005 is Hyarchis begonnen met testen rond automatische classificatie, destijds met een extern systeem. Het nadeel van dit systeem was dat het niet geschikt was voor de grote variatie aan documenten, daarmee liep je al snel tegen de beperkingen van het systeem aan. Door de jaren heeft Hyarchis verschillende systemen onderzocht en voor deelgebieden ingezet. Ieder systeem heeft weer zijn eigen voor- en nadelen.

Met de kennis van alle verschillende pakketten en vooral de kennis van wat wel en niet succesvol werkt, is Hyarchis een Proof-of-Concept (PoC) begonnen voor het classificeren van documenten en datamining van belangrijke informatie binnen het hypotheek proces. Belangrijk aspect binnen deze PoC was het onderscheid kunnen maken tussen aktes voor een vaste hypotheek en aktes voor een bankhypotheek. Het verschil tussen deze twee documenten is minimaal en kan alleen met zeer intelligente logica worden vastgesteld.

Hyarchis heeft haar eigen technieken en logica ontwikkeld voor deze PoC. Hiervoor werden alle drie miljoen documenten (13.000.000 pagina’s totaal) door de verschillende processen heen gehaald. Na vaststellen van de hypotheeksoort zijn we op zoek naar de ingangsdatum van de akte en het bijbehorende contractnummer. De gevonden waarden toetsten we tegen reeds bekende gegevens van externe klantsystemen. Hiermee konden we bijvoorbeeld reeds bestaande gegevens vergelijken met de gevonden informatie en daarmee met extra logica de betrouwbaarheid van de gevonden informatie garanderen.

Waarvoor kan dit proces worden ingezet?

In deze PoC hebben we het proces ingezet om bestaande data te verrijken. Evengoed zou het proces gebruikt kunnen worden om reeds verkregen data te verifiëren. In dat geval wordt het systeem ingezet om classificatie en indexatie fouten te corrigeren.

Hoe groter het aantal te analyseren documenten, hoe logischer het is om automatische verwerking te overwegen. Het inzetten van mankracht om handmatig 13.000.000 pagina’s te bekijken is onbegonnen werk. Daarnaast kunnen er dan nog steeds fouten gemaakt worden die door automatisering uitgesloten kunnen worden.

Welke voordelen heeft dit proces voor de klant?

Twee grote voordelen die dit proces met zich meebrengt zijn een verlaging van de kosten en tijdbesparing. Voor extra tijdsbesparing kunnen meerdere processen parallel uitgevoerd worden. Maar naast de in de bovenstaande POC genoemde toepassingen, zijn er nog veel meer. Alles wat te maken heeft met classificatie, data-extractie, look-up, controle en verbanden leggen met achterliggende logica kan automatisch worden uitgevoerd.

Kan dit ook uitgevoerd worden met de ‘full text’ zoekmogelijkheid in DMS?

Het antwoord is nee. Het zoeken op tekst is maar een onderdeel van het proces. Het gaat met name om een systeem dat nog veel meer logica en processtappen bevat. De resultaten van de POC waren zo succesvol dat we hebben besloten om de gebruikte tooling door te ontwikkelen tot een nieuwe module in onze Hyarchis DMS oplossing. Mocht u vragen hebben, wij staan altijd open voor een vrijblijvend gesprek.