perjantai 23. maaliskuuta 2012

Tiedostomuoto itseskannatuille kirjoille: DjVu

Kyselin Slashdotissa, mikä olisi paras tapa/tekniikka digitoida vanhoja kirjoja nettiin. Toisin kuin viimeksi, Slashdot ei pitänyt kysymystä julkaisemisen arvoisena. Mutta joku kommentoija sentään auttoi:
Mathematicians are starting to use a file format called DjVu for scanned documents. It's much more compact than pdf-converted bitmaps. It's even supported by common browsers.
Ihan uusi juttu minulle tuo DjVu. Ja pakkohan sitä oli päästä kokeilemaan. Olen skannannut muutaman oppikirjan itselleni (kopiokoneen pdf-skannerilla), ja kokeilin niihin DjVu:ta. Homma eteni näin:
  • Surffailin osoitteeseen DjVu.org.
  • Sieltä Downsloads-osion alta asensin selaimeen Caminovan DjVu-pluginin. Samalla asentui myös työpöytäsofta, jolla saa djvu-tiedostot auki.
  • Sivustolta löytyy myös muuntimia, joilla voi muuntaa omia tiedostoja djvu-muotoon. En kuitenkaan lähtenyt asentelemaan tällaisia, koska sivustolta löytyi online-muunnin.
  • Heitin online-muuntimelle pureskeltavaksi skannaamani 86-sivuisen mustavalko-oppikirjan. 300 dpi:n mustavalkotarkkuudella pdf-tiedosto vie 2,16 megatavua. DjVu-tiedosto vei tilaa 558 kilotavua! Eli koko kutistui neljäsosaan, silmämääräisen laadun kärsimättä. Muuntimen asetuksista olin valinnut tarkkuudeksi 300 dpi ja lossy-pakkauksen, ilman OCR:ää.
  • Eikä tässä vielä kaikki: tuo djvu-katselin on mielettömän nopea. Siinä missä pdf-tiedoston skrollailu Adobe Acrobatilla tökkii ainakin minun koneellani, djvu-katselin - niin selaimessa kuin irtosovelluksenakin - on nopea kuin ajatus.
Pitääpä skannata kaikki työssä tarpeelliset kirjat omalle koneelle, ja lahjoittaa alkuperäiskappaleet kirjastoon. Työhuoneestakin tulee siistimpi.

Seuraavaksi kokeilin vielä OCR:ää. Varoittelevat, että toimii luotettavasti vain enkunkieliselle tekstille. Mutta hyvin se toimii suomellekin, paitsi että äät ja ööt vain jäävät tunnistamatta, mikä kyllä estää sen käytön suomenkielisiin dokumentteihin. Tämä saattaa olla helppo korjata, tai sitten ei.

Tiedätkö sinä toimivaa djvu-muunninta, jossa toimisi myös suomenkielinen ocr?

3 kommenttia:

  1. Käytin viime vuonna semmoista OCR-ohjelmaa kuin ABBYY FineReader 6.0 Sprint. Syksyllä sain Epson-tulostimen mukana ABBYY:stä 9.0 version, sen 6.0:n löysin ilmatteeksi ja luvallisena netistä, molemmat toimivat hyvin suomeksi. Pitää katella tuota DjVu:ta.

    VastaaPoista
  2. Adobe Acrobat on hidas. Kokeile ilmaista Foxit Readeriä, niin pdf:tkin aukeavat mukavan nopeasti.

    VastaaPoista
  3. Ainakin Androidille löytyy kymmeniä VALO-pohjaisia e-kirjalukuohjelmia, jotka nielevät DjVU:ta, PDF:ää ja mahdollisesti esoteerisempiäkin XPS, cbz, cbr, fb2, yms. formaatteja. Eli näyttäisi olevan ihan kypsää tekniikkaa.

    XPS on muuten Microsoftin PDF-kilpailija: http://en.wikipedia.org/wiki/Comparison_of_OpenXPS_and_PDF

    VastaaPoista