OCR-arvolähteen määritys

Voit tunnistaa tekstiä tai viivakoodeja skannatusta dokumentista käyttämällä optista tekstintunnistusta (OCR) ja käyttää niitä ulkoisesta lähteestä, tässä tapauksessa skannerista, tuotujen tiedostojen automaattisina ominaisuusarvoina. OCR-arvolähde on skannattavalle sivulle määriteltävä alue. Katso lisätietoja erilaisten ominaisuuksien määrittämisestä ulkoisista tiedostolähteistä tuotaville objekteille kohdasta Metatietojen määrittäminen ulkoiselle tiedostolähteelle.

Voit käyttää optista tekstintunnistusta seuraavien tiedostomuotojen kanssa:
  • TIF
  • TIFF
  • JPG
  • JPEG
  • BMP
  • PNG
  • PDF
Alfakanavaa ja JPEG-pakkausta käyttäviä TIFF-tiedostoja ei tueta.

OCR-arvolähteen käyttö on mahdollista ainoastaan ulkoista lähdettä käyttämällä. OCR-arvolähdettä ei voida määritellä M-Files Desktop -ohjelman puolella.

Huomaa: OCR-arvolähdettä voidaan käyttää ilmankin, että Hakukelpoinen PDF -välilehdellä on otettu käyttöön Käytä OCR:ää, jotta skannatuille dokumenteille voidaan tehdä sisältöhakuja -vaihtoehto.

Määritä OCR-arvolähde seuraavasti:

  1. Avaa M-Files Admin.
  2. Laajenna vasemman reunan puunäkymässä M-Files-palvelinyhteys.
  3. Laajenna Dokumenttivarastot.
  4. Laajenna varasto.
  5. Laajenna Yhteydet ulkoisiin lähteisiin.
  6. Valitse Tiedostot.
  7. Kaksoisnapsauta Tiedostot-luettelosta tiedostoa, jota haluat muokata.
    Tulos:Yhteysominaisuudet-ikkuna avautuu.
  8. Napsauta Metatiedot-välilehteä.
    Tulos:Metatiedot-välilehti avautuu.
  9. Määritä ulkoisista tiedostoista luoduille kohteille automaattisesti lisättävä uusi ominaisuus ja arvo napsauttamalla Lisää... tai valitse jokin olemassa olevista ominaisuuksista ja muokkaa ominaisuutta napsauttamalla Muokkaa....
    Tulos:Määrittele ominaisuus -ikkuna avautuu.
  10. Valitse vaihtoehto Käytä OCR-arvolähdettä ja napsauta Määritä...-painiketta.
    Tulos:OCR-arvolähteen määrittely -ikkuna avautuu.
  11. Valitse Alueen tyyppi kohdassa jompikumpi seuraavista:
    • Teksti: Valitse tämä vaihtoehto, jos OCR-alue sisältää tekstiä.
      tai
    • Viivakoodi: Valitse tämä vaihtoehto, jos OCR-alue sisältää viivakoodin.
      Huomaa: Jos haluat lisätietoa tuetuista viivakoodityypeistä, katso Tuetut viivakoodityypit.
  12. Määritä Alueen sijainti -kohdassa alue, josta valitun ominaisuuden arvo tunnistetaan. Merkit voivat olla mitä tahansa kirjaimia, numeroita tai välimerkkejä. Esimerkiksi paperilla näkyvä laskun numero voidaan lisätä Laskun numero -ominaisuuden arvoksi skannattavalle dokumentille.
    Esimerkki:Esimerkki alueen määrityksestä:
    Jos kohteena on viivakoodi ja sivulla on ainoastaan yksi tunnistettava viivakoodi, voit määritellä alueeksi koko sivun. Mikäli sivulla on useampia viivakoodeja, rajaa alue sisältämään ainoastaan haluamasi viivakoodi. QR-koodeja käytettäessä on määritettävä suurempi alue kuin varsinaista viivakoodia käytettäessä. Mikäli määritellyllä alueella on useampia viivakoodeja, luetaan nämä kaikki ominaisuuden arvoksi.
    1. Anna Sivu-kenttään OCR-arvolähteenä käytettäväksi haluamasi skannatun dokumentin sivunumero.
    2. Valitse Yksikkö-vaihtoehdoilla alueen sijainnin määrittämiseen sopiva vaihtoehto.
    3. Anna Vasen-kenttään OCR-alueen vasemman kulman sijainti. Skannatun dokumentin vasen kulma on ”0”-piste.
    4. Anna Oikea-kenttään OCR-alueen oikean kulman sijainti.
    5. Anna Ylä-kenttään OCR-alueen yläkulman sijainti. Skannatun dokumentin yläkulma on ”0”-piste.
    6. Anna Ala-kenttään OCR-alueen alakulman sijainti.
  13. Valitse Ensisijainen kieli- ja Toissijainen kieli -pudotusvalikoista ensi- ja toissijainen kieli skannatuille dokumenteille. Se parantaa tunnistustulosten laatua. Toissijaisten kielten lista sisältää vain ne kielet, jotka on sallittu käytettäväksi valitsemasi ensisijaisen kielen kanssa.
    Tekstintunnistus tunnistaa kaikkia länsimaisia kieliä sekä kyrillisiä merkistöjä, mutta käytettävien kielten valinta parantaa usein tunnistustulosten laatua. Esimerkiksi epäselvässä rajatapauksessa tunnistuksen tulos voidaan tällöin ratkaista kieleen liittyvän sanaston perusteella (esim. Ä-kirjaimen tunnistus suomen kielessä). Toissijaisten kielten lista sisältää vain ne kielet, jotka on sallittu käytettäväksi valitsemasi ensisijaisen kielen kanssa.
  14. Sulje OCR-arvolähteen määrittely -ikkuna napsauttamalla OK.
  15. Valitse Määrittele ominaisuus -ikkunassa jompikumpi seuraavista:
    • Käytä luettua arvoa ID-arvona: Valitse tämä vaihtoehto, jos haluat käyttää haettua arvoa arvolistan arvon tunnisteena erikseen määritettävällä nimellä.
      tai
    • Käytä luettua arvoa nimenä: Valitse tämä vaihtoehto, jos haluat käyttää haettua arvoa arvolistan arvon nimenä. Merkitse Lisää uusi arvo listaan, jos vastaavaa arvoa ei löydy -valintaruutu, jos haluat lisätä uuden arvon listaan aina, kun uusi arvo poimitaan.
  16. Napsauta OK, kun haluat sulkea Määrittele ominaisuus -valintaikkunan.
Juuri määrittämääsi aluetta käytetään tunnistamaan valitun ominaisuuden arvo automaattisesti tekstintunnistuksen avulla aina, kun uusi kohde luodaan valitun ulkoisen tiedostolähteen kautta.

Skannattava dokumentti pitää yleensä asetella käsin lasilevylle, jotta määritelty alue osuu varmasti oikeaan kohtaan paperin skannausvaiheessa.

Joissakin tapauksissa tekstintunnistus voi tunnistaa tekstin virheellisesti. Esimerkiksi fontin tyypin tai koon vuoksi numero 1 voidaan tulkita kirjaimeksi I. Jos halutaan varmistaa, että merkit lisätään oikein metatietoihin, voidaan ominaisuuksien arvojen tarkistus tehdä tapahtumakäsittelijöiden ja VBScriptin avulla. Tällöin VBScriptin avulla voidaan tarkistaa esimerkiksi, että kaikki lisätyt merkit ovat numeroita. Katso lisätietoja artikkelista Tapahtumakäsittelijät.

Tuetut viivakoodityypit

M-Filesin OCR-moduuli tukee seuraavia viivakoodityyppejä:

  • QR-koodi
  • Data Matrix
  • Aztec Code
  • EAN-13
  • EAN-8
  • EAN-5
  • EAN-2
  • MSI Plessley
  • MSI Pharma
  • UPC-A
  • UPC-E
  • Codabar
  • Interleaved 2 of 5
  • Discrete 2 of 5
  • Code 39
  • Code 39 Extended
  • Code 39 HIBC
  • Code 93
  • Code 128
  • PDF 417
  • Postnet
  • Postnet 32
  • Postnet 52
  • Postnet 62
  • Patchcode
  • UCC-128
  • UPCE Extended
  • IATA 2 of 5
  • Datalogic 2 of 5
  • Reverse 2 of 5
  • Code 39 (out-of-spec)
  • Code 128 (out-of-spec)
  • Codabar (out-of-spec)