Ajuda:Gestió de fitxers DjVu

De Viquitexts

Aquesta pàgina d'ajuda pretén recolzar i donar pistes i consells per a manipular els fitxers DjVu utilitzats a Viquitexts.

Què és un DjVu?[modifica]

Un fitxer DjVu és un tipus d'arxiu que permet emmagatzemar text i imatges de forma semblant als fitxers PDF. És un format lliure, i una mica més lleuger que el PDF. Més informació a la Viquipèdia, a l'article DjVu.

El DjVu és el tipus de format sobre el què s'ha desenvolupat l'extensió Proofread que té activat Viquitexts, què és la que permet tenir el sistema de qualitat de pàgines de transcripció.

Vegeu l'ajuda de Viquipèdia si voleu saber com es poden fer servir a altres projectes de Wikimedia.

On trobar-los[modifica]

És un format encara poc extés, i d'entre tots els recursos lliures localitzats per a Viquitexts, només Internet Archive en proporciona lliurement, amb el valor afegit d'incorporar metadades (com el text capturat pel sistema d'Optical Character Recognition, o OCR).

La majoria dels programes per a veure'ls, crear-los o manipular pàgines es troben en enllaços a http://djvu.org/resources.

Com veure'ls[modifica]

  • El més recomanable és instal·lar-se el programa GNU Djvuview.
  • El programa DjVuSolo de vegades pot ser útil però no sap llegir les noves versions de DjVu.
  • Els disponibles a Commons només necessiten un navegador d'Internet compatible, com per exemple Mozilla Firefox.
  • A Internet Archive es poden veure online per un sistema desenvolupat per LizardTech.

Programari per crear fitxers DjVu[modifica]

La millor forma de crear fitxers DjVu és amb l'OCR incorporat, però això només ho fan programes comercials.

Any2DjVu[modifica]

La web http://any2djvu.djvuzone.org/ permet crear de forma online un DjVu, amb OCR o no segons ho especifiquem, a partir d'un fitxer PDF o de fitxers d'imatge.

Acostuma a estar saturat, però.

Djvuview[modifica]

És un visor lliure de fitxers DjVu desenvolupat per Léon Bottou, de la comunitat DjVuLibre. Consulteu http://djvulibre.djvuzone.org.

Permet crear un DjVu a partir de part d'un altre prèviament obert, mitjançant l'opció del menú "File, Save as". Podem desar-lo com un fitxer únic (bundled djvu document) o un per a cada pàgina (unbundled). Podem especificar un rang de pàgines.

També podem convertir un DjVu a PDF, JPG, TIFF i altres formats d'imatge, mitjançant l'opció del menú "File, Export".

El programa "djvm" també té opcions per a crear-ne (...).

DjVuSolo[modifica]

És un altre visor lliure de fitxers DjVu, desenvolupat per LizardTech. Està una mica antiquat (versió 3.1), ja que no sap llegir les versions més modernes de DjVu.

És útil quan volem crear una pàgina en blanc:

  1. Primer crearem una imatge JPG, GIFF, BMP, etc. sense res. Per exemple amb el programa Paint que porta Windows.
  2. Després obrim el programa, i obrim la imatge (File, Open).
  3. Finalment, ho desem com a DjVu (File, Save as).

PDFtoDjVu[modifica]

És un programa lliure de comandaments (sense finestres com les de Windows) desenvolpat per Jakub Wilk. Permet convertir fitxers PDF a DjVu. No obstant, amb moltíssims del PDFs de Google Books dóna errors.

Pas a pas per convertir moltes imatges en un DjVu[modifica]

Obtenció de les imatges[modifica]

El primer pas és, obviament l'obtenció de les imatges. Aquestes poden provindre o bé d'un escàner propi o bé d'una biblioteca virtual (com ara Cervantes Virtual o la Biblioteca Lluís Vives). Si les imatges es descarreguen, es recomana seguir els passos següents:

  • Instal·lar el programa JDownloader. Aquest programa pren tots els enllaços que copiem i permet descarregar tot el contingut a la vegada.
  • Copiar l'enllaç a la primera i a l'ultima imatge en un arxiu de text.
  • Dividir l'enllaç en tres parts (part inicial, número i part final) i enganxar el contingut en tres columnes d'un full de càlcul MS Excel o OpenOffice
  • En la fulla de càlcul, per a la columna amb la part numèrica, seleccionar l'opció reomplir amb zeros.
  • Seleccionar les tres cel·les i arrastrar el contingut de les tres columnes per a generar tans enllaços com calga (el nombre exacte ens l'indica l'ultim fitxer d'imatge que haguem copiat). Si els nombres de la columna numèrica no s'incrementen automàticament, crear manualment dues fileres (per a la primera i segona imatge), seleccionar les dues fileres i arrastrar cap avall des de el cantó inferior dret de la selecció.
  • Una vegada ja hem generat els enllaços, copiar el contingut del full de càlcul en un fitxer de text.
  • En el fitxer de text eliminar automàticament tots els espais en blanc (amb l'opció reemplaçar)
  • Copiar tots els enllaços. En el JDownloader ens apareixerá l'opció de descarregar el contingut.

Creació de l'arxiu DjVu[modifica]

  • Amb el programa DjVuSolo seleccionar "File -> Open". Canviar el tipus de format al format d'imatge que hi corresponga.
  • Obir la primera imatge que havem descarregat.
  • En el menú "Edit" seleccionar "Append page(s)..."
  • Seleccionar amb ctrl+E (o ctrl+A) tots els arxius. Desmarcar amb Ctrl+clic l'arxiu que ja tenim obert.
  • Verificar que les pàgines estan correctament organitzades.
  • Seleccionar "File-> Encode as DjVu" amb el tipus de resolució adient.
  • Una vegada finalitzat el procés comprovar que les imatges tenen una qualitat suficient.

Afegir la capa OCR a l'arxiu[modifica]

Pujar l'arxiu a Any2DjVu i descarregar l'enllaç resultant.

Com eliminar i afegir pàgines[modifica]

De vegades és recomanable eliminar i/o afegir pàgines.

Les instruccions que venen a continuació estan pensades per al sistema operatiu Windows.

Eliminar[modifica]

Pot ser escaient eliminar les pàgines d'avís que afegeix Google Books, cobertes de biblioteca que també s'han digitalitzat, pàgines repetides per digitalitzacions defectuoses, publicitat, etc.

El Djvuview incorpora un conjunt de programes a part del propi Djvuview, que acostuma a instal·lar al mateix directori. Per eliminar pàgines necessitem el djvm.exe.

  1. Fer còpia de seguretat del fitxer DjVu del què esborrarem pàgines, potser ens equivoquem.
  2. Obrir la interfície de comandaments (Inici, Executar..., posar "cmd" i fer intro). Apareixerà una pantalla de color negre.
  3. Situar-nos al directori on tenim el programa djvm.exe mitjançant els comandaments "cd" (change directory). Per exemple, si la finestra que s'ha obert posa "C:Documents and Settings\Admin" i tenim el djvm.exe a "C:Djvulibre" hem de teclejar "cd.." per pujar al directori "C:Documents and Settings", "cd.." per pujar al directori "C:", "cd djvulibre" per situar-nos al directori de treball. Per saber si ho hem fet bé, podem teclejar "djvm help" i ens haurà d'aparèixer l'ajuda de dit programa.
  4. Moure el DjVu al directori on tenim el djvm.exe. Tancar-lo si el tenim obert abans de començar a esborrar.
  5. Teclejar l'ordre d'esborrat amb "djvm -d fitxer_que_sigui.djvu numero_de_pàgina". Per exemple, si vull esborrar les pàgines 1 i 2, teclejarè "djvm -d fitxer.djvu 1" i després el mateix "djvm -d fitxer.djvu 1". Ull: si el que faig és "djvm -d fitxer.djvu 1" i després "djvm -d fitxer.djvu 2" hauré esborrat la pàgina 1 i la 3, perquè cada cop que s'esborra una pàgina, té lloc una repaginació. Si vull esborrar les pàgines 300 a 303 ambdúes incloses, puc fer "djvm -d fitxer.djvu 300" quatre vegades seguides.
  6. Obrir el DjVu per a comprobar com ha quedat.

Afegir[modifica]

De vegades el procés de digitalització s'oblida d'algunes pàgines per la raó que sigui. Pot ser escaient en aquests casos afegir una pàgina en blanc per a mantenir la numeració de les pàgines, i si alguna vegada s'aconsegueix la pàgina, en tornar a carregar el llibre sencer a Commons no farà malbé la numeració que s'hagi pogut fer servir a Viquitexts.

  1. Fer còpia de seguretat del fitxer DjVu al qual afegirem pàgines, potser ens equivoquem.
  2. Obrir la interfície de comandaments (Inici, Executar..., posar "cmd" i fer intro). Apareixerà una pantalla de color negre.
  3. Situar-nos al directori on tenim el programa djvm.exe mitjançant els comandaments "cd" (change directory). Per exemple, si la finestra que s'ha obert posa "C:Documents and Settings\Admin" i tenim el djvm.exe a "C:Djvulibre" hem de teclejar "cd.." per pujar al directori "C:Documents and Settings", "cd.." per pujar al directori "C:", "cd djvulibre" per situar-nos al directori de treball. Per saber si ho hem fet bé, podem teclejar "djvm help" i ens haurà d'aparèixer l'ajuda de dit programa.
  4. Moure el DjVu al directori on tenim el djvm.exe. Tancar-lo si el tenim obert abans de començar a afegir pàgines.
  5. Teclejar l'ordre d'addició amb "djvm -i fitxer_destí.djvu fitxer_origen.djvu número_de_pàgina". El fitxer_destí serà el nostre DjVu; fitxer_origen és la pàgina en blanc que volem intercalar; número_de_pàgina és la pàgina que volem asignar. Ull perquè el número de pàgina del fitxer no sempre és el número de pàgina del llibre de paper. Per exemple, el fitxer té la pàgina 20 com a pàgina 10, i la següent pàgina 21 resulta que té la 12 en comptes de l'11, haurem d'afegir la pàgina 11 com a pàgina 21. Farem "djvm -i fitxer.djvu pàgina.djvu 21".
  6. Obrir el DjVu per a comprobar com ha quedat.

Ordenar[modifica]

De vegades hi ha pàgines en un ordre incorrecte, fruit d'una digitalització defectuosa. Cal exportar, eliminar i afegir pàgines en format DjVu al lloc adient segons els mètodes descrits anteriorment.

Altres utilitats[modifica]

  • El programa freeware DjVuToy per a Windows (descarregar zip) té moltes opcions per a manipular fitxers DjVu, com per exemple, extreure tota la capa d'OCR a un fitxer .txt.