Omvandla till text

För att kunna göra om ett pappersdokument med text till ett digitalt dokument behöver du en skanner och ett program i datorn som kan göra om det.Jag hade redan en skanner som kunde läsa in pdf:er.

I korta ordalag gjorde jag som det står nedan, men tänk på att du kan köra fast eftersom du kanske inte kan installera python-paket med pip. Men jag gör guiden kortfattad. Kör du fast får du googla på hur man gör. Jag har alltså tidigare skannat in ett dokument som heter dokument.pdf. Skanna gärna in med en upplösning på minst 300 dpi.

1. Installera tesseract - dns install tesseract Det är alltså programmet som gör om bildfilen till text.

2. pip install --user pytesseract

3. pip install --user opencv-python

4. pip install --user pillow

5. ghostscript -o begravning.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw dokument.pdf
Det här gör om dokumentet till en för tesseract läsbar tiff-fil. Programmet tesseract klarar tyvärr inte av pdf-formatet vad jag vet.

6. tesseract dokument.tiff dokument -l eng Nu ska det bli ett digitalt dokument. Växeln -l betyder language och eng är engelska. Utskriften blir dokument.txt. Öppna det i en ordbehandlare och spara i till exempel docx-formatet eller i odt som finns för Libreoffice och Openoffice.

7. Svenska språkpaketet finns och går att installera. Testa nu gärna att omvandla inskannade textdokument från papper till digitala dokument. Helt perfekt blir det inte. Man får gå in och ändra manuellt. Men ju bättre kvalitet på pappersdokumentet desto bättre klarar programmet av att läsa av rätt.

tesseract-langpack