Google Document AI och automatiserad fakturahantering

Manuella fakturahanteringar kostar – mycket. Lägg till att det inte brukar vara en uppskattad uppgift hos medarbetare som hellre skulle lägga sin tid på annat så har du ett utomordentligt use case för automatisering med AI.

Effektivitet i centrum – Google Document AI 

 En av våra kunder inom försäkringsbranschen var just i den situationen; fakturahanteringen sköttes manuellt, vilket motsvarade arbetstimmar jämförbart med flera heltidsanställda. Vi såg en möjlighet att hjälpa dem med en AI-baserad lösning som hade potentialen att drastiskt minska det manuella arbetet.   

Vi bestämde oss för att bygga ett system på Google Cloud Platform (GCP), där två huvudkomponenter utgjorde grunden: en backend-funktion som hämtar upp fakturorna, och Googles Document AI för att hantera AI-processen. Med hjälp av hundratals tidigare fakturor och en del manuell annotering lärde vi upp en AI-processor i Document AI som kunde extrahera specifika fält från fakturorna. Idag krävs endast en manuell verifiering och rättning av de få fall där AI-modellen gör fel (det finns ingen AI som garanterar 100 % träffsäkerhet idag), vilket har besparat vår kund många timmar av manuellt arbete.

Vad är Document AI? 

Document AI, eller dokumentförståelse AI, använder artificiell intelligens för att analysera och bearbeta textbaserade dokument. För vårt projekt fokuserade vi på automatiserad dataextraktion. Men tekniken kan även användas för dokumentklassificering och summering. 

Traditionella bildbehandlingslösningar som "computer vision" och OCR (Object Character Recognition) extraherar text eller segment ur bilder med hjälp av prediktiva modeller. Googles Document AI levererar dessutom modeller som hanterar dokumenthanteringen med hjälp av generativ AI. Som ni alla säkert redan vet, kan generativa AI-modeller skapa nytt innehåll eller ny data istället för att bara analysera och tolka data. Detta gör att vi kan använda en modell som redan är tränad på en stor mängd data, vilket innebär att den kan förstå nya kontexter med endast några få exempel. 

Googles Document AI erbjuder många möjligheter för att omvandla ostrukturerade dokument till strukturerad data. I vårt fall använde vi Googles Custom Extractor. Genom att definiera ett schema och ladda upp exempel dokument kunde vi snabbt lära upp en modell redo för användning.  

Träffsäkerhet på 98 % (!)  

Med vår setup nådde vi en träffsäkerhet på 98 % över alla fält för en av modellerna. Den generativa modellen presterade cirka 20 % bättre än den traditionella prediktiva modellen, särskilt på komplexa strukturer med rubriker och underrubriker. Det är dock viktigt att poängtera att AI aldrig kan ersätta en mänsklig process helt. AI, som det fungerar i skrivande stund, är ett hjälpmedel, eller en assistent – inte en total ersättare för människan.  

Tillämpningsområden för Document AI 

Att använda Document AI för att automatisera företags datahantering är ett praktexempel på hur AI kan underlätta det mänskliga arbetet och frigöra tid för mer värdeskapande aktiviteter. Andra tillämpningsområden som omfattar många verksamheter skulle kunna vara: 

Kvittohantering

Extrahera och kategorisera utgiftsdata från kvitton och rapporter för snabbare och mer exakt utgiftsrapportering. 

Fraktdokument

Extrahera data från fraktsedlar och andra transportdokument för att automatisera logistikhanteringen. 

Vad kan du automatisera? 

Fördelarna med Google Document AI är att det är en färdig, användarvänlig produkt som även mindre tekniska personer kan använda. Självklart krävs mer tekniskt arbete för att integrera produkten med andra system, men potentialen för effektivisering är stor

Generativ AI är ett otroligt hett område just nu, och nya modeller släpps hela tiden. Vi kan förvänta oss att framtida lösningar blir ännu bättre. Document AI bygger på Googles Gemini 1.5, och relativt nyligen (men kanske inte i teknikens mått mätt) släppte OpenAI sin nya chatbot ChatGPT-4o, som är en multimodal modell som inte endast kan ta text som input utan även bilder och ljud. OpenAI har utlovat att denna modell ska prestera bättre specifikt på bild- och ljudförståelse​​. Även Googles senaste versioner av Gemini har förbättrad bildförståelse​​. 

Det är fantastiskt att se hur vi som team kunde implementera en så kraftfull lösning, på en så kort tid. Vi ser fram emot att fortsätta utforska möjligheterna med AI och hjälpa fler kunder att effektivisera sina processer. 

/Mikaela Funkquist, Data Analyst på Forefront

Nyfiken på oss?

Kul! Vi är nyfikna på dig med. Hör av dig så lär vi känna varandra.