Denna version av användarhandledningen gäller för uppdateringen maj 2020 och tidigare. För det senaste innehållet, besök vår engelska användarhandledning.

Definiera en OCR-värdekälla

Du kan extrahera text eller streckkoder från ett skannat dokument med hjälp av OCR (Optical Character Recognition) och använda som automatiska egenskapsvärden för filer som importerats från en extern källa, en skanner i det här fallet. OCR-värdekällan är en zon som definieras för en skannad sida. Definiera metadata för en extern filkälla innehåller mer information om att definiera olika egenskaper för objekt som importeras från externa filkällor.

Optisk teckenigenkänning kan utföras i följande filformat

TIF
TIFF
JPG
JPEG
BMP
PNG
PDF

TIFF-filer som använder en alfakanal eller JPEG-komprimering stöds inte.

Det går bara att använda ett OCR-värde när du använder en extern källa. OCR-värdekällan kan inte definieras i M-Files Desktop.

Notera: M-Files OCR-modulen är en M-Files-tilläggsprodukt som kan köpas till en extra kostnad. Den kan aktiveras med en licenskod. För mer information, se Enabling the M-Files OCR Module och Hantera serverlicenser. M-Files använder en OCR-motor från IRIS. Om du har frågor som rör köp av M-Files OCR-modulen ber vi dig att kontakta vårt säljteam på [email protected].

Notera: Du kan använda OCR-värdekällan utan att aktivera alternativet Använd OCR för att kunna fulltextsöka skannade dokument på fliken Sökbar PDF.

Gör följande för att definiera en OCR-värdekälla:

Öppna M-Files Admin.
I trädvyn på vänster sida visar du den önskade anslutningen till M-Files Server.
I trädvyn på vänster sida visar du Dokumentvalv och sedan önskat valv.
I trädvyn på vänster sida visar du Anslutningar till externa källor och väljer sedan Filkällor.
I listan Filkällor dubbelklickar du på den filkälla som du vill redigera.
Resultat:Dialogrutan Anslutningsegenskaper öppnas.
Klicka på fliken Metadata.
Resultat:Fliken Metadata öppnas.
Klicka på Lägg till... för att definiera en ny egenskap och ett nytt värde som ska läggas till automatiskt för objekt som skapas från externa filer. Du kan även välja en av de befintliga egenskaperna och klicka på Redigera.. för att redigera den befintliga egenskapen.
Resultat:Dialogrutan Definiera egenskap öppnas.
Välj alternativet Använd OCR-värdekälla och klicka på Definiera....
Resultat:Dialogrutan Definition av OCR-värdekälla öppnas.
I avsnittet Zontyp väljer du något av följande:
- Text: Välj det här alternativet om OCR-zonen innehåller text.
  eller
- Streckkod: Välj det här alternativet om OCR-zonen innehåller en streckkod.
  Notera: Information om vilka strekkodstyper som stöds finns i Strekkodstyper som stöds.
I avsnittet Zonplacering definierar du en zon från vilken du ska extrahera ett värde för den valda egenskapen. Det kan vara bokstäver, siffror eller skiljetecken. Ett fakturanummer som visas på en sida kan till exempel läggas till som egenskapsvärdet Fakturanummer för det skannade dokumentet.
Exempel:Ett exempel på en zondefinition:

Om du lägger till en streckkod och det bara finns en på sidan kan du ange hela sidan som zon. Om det finns flera streckkoder begränsar du zonen så att den bara innehåller den streckkod du vill använda. Med QR-koder bör du ange en zon som är större än själva streckkoden. Om den angivna zonen innehåller flera streckkoder ska alla anses vara ett egenskapsvärde.
1. I fältet Sida anger du sidnummer för det skannade dokumentet som du vill använda som OCR-värdekälla.
2. Med alternativen för Enhet väljer du lämplig enhet för att definiera zonplaceringen.
3. I fältet Vänster anger du var det vänstra hörnet ska vara i OCR-zonen. Det vänstra hörnet av det skannade dokumentet anses vara “0”.
4. I fältet Höger anger du var det högra hörnet ska vara i OCR-zonen.
5. I fältet Upptill anger du var det övre hörnet ska vara i OCR-zonen. Det övre hörnet av det skannade dokumentet anses vara “0”.
6. I fältet Nedtill anger du var det nedre hörnet ska vara i OCR-zonen.
Använd de nedrullningsbara menyerna Primärt språk och Sekundärt språk och välj primärt och sekundärt språk för de dokument som har skannats via den här externa anslutningen. Det leder till bättre resultat för igenkänningen. Listan över sekundära språk innehåller bara språk som kan användas med det valda primära språket.
Även om OCR automatiskt känner igen alla västerländska språk och kyrilliska tecken blir kvaliteten på textigenkänningen ofta bättre om du väljer språk. I tvetydiga fall kan ett problematiskt resultat lösas av en språkspecifik faktor, till exempel igenkänning av bokstaven Ä på finska. Listan över sekundära språk innehåller bara språk som kan användas tillsammans med det valda primära språket.
Klicka på OK för att stänga dialogrutan Definition av OCR-värdekälla.
Tillbaka i dialogrutan Definiera egenskap väljer du något av följande:
- Använd värdet läst som ID för objektet: Välj det här alternativet om du vill använda det insamlade värdet som en identifierare för elementet i värdelistan med ett namn som definierats separat.
  eller
- Använd värdet läst som namn för objektet: Välj det här alternativet om du vill använda det insamlade värdet som namn för elementet i värdelistan. Du kan markera kryssrutan Lägg till ett nytt objekt i listan om ett matchande objekt inte hittas om du vill lägga till ett nytt element i värdelistan när ett nytt värde samlas in.
Klicka på OK för att stänga dialogrutan Definiera egenskap.

Den zon som du just har definierat används för att automatiskt extrahera ett värde för den valda egenskapen med OCR varje gång ett objekt skapas via den valda externa filkällan.

För att säkerställa att den definierade zonen är korrekt placerad bör du i de flesta fall placera det dokument som ska skannas på skannerglaset för hand istället för att du använder den automatiska pappersmataren.

I vissa fall kan OCR ge ett felaktigt resultat, till exempel kan siffran 1 tolkas som bokstaven I på grund av teckensnitt eller -storlek. För att vara säker på att alla tecken blir rätt i dokumentets metadata kan du kontrollera egenskapsvärdena med händelsehanterare och VBScript. Du kan sedan använda VBScript för att exempelvis kontrollera att alla tillagda tecken är siffror. Mer information finns i Händelsehanterare.

Strekkodstyper som stöds

M-Files OCR-modulen har stöd för följande streckkodstyper:

QR-kod
EAN-13
EAN-8
EAN-5
EAN-2
MSI Plessley
MSI Pharma
UPC-A
UPC-E
Codabar
Interleaved 2 of 5
Discrete 2 of 5
Code 39
Code 39 Extended
Code 39 HIBC
Code 93
Code 128
PDF 417
Postnet
Postnet 32
Postnet 52
Postnet 62
Patchcode
UCC-128
UPCE Extended
IATA 2 of 5
Datalogic 2 of 5
Reverse 2 of 5
Code 39 (out-of-spec)
Code 128 (out-of-spec)
Codabar (out-of-spec)