Jak vyextrahovat obrázky z PDF bez ztráty kvality

tl;dr: Stáhnout Xpdf Tools a potom: pdfimages -j zdrojove.pdf cesta_vysledneho_obrazku
(pdfimages -j c:\xyz.pdf c:\images\xyz)

Existuje plno způsobů a programů, které slibují, že dostanou obrázky z PDF. Jenže to má jednu dost podstatnou nevýhodu. Takto extrahované obrázky (většinou) ztrátovým re-enkódováním, takže dochází ke ztrátě kvality.

Přitom často jsou obrázky (např. scany) vložené v PDF jako JPG, což je naprosto běžný formát a dobrá zpráva je, že se od tam dá celkem jednoduše dostat.

Popíšeme si postup, jak to udělat na Windows se skvělou utilitou pdfimages z balíku Xpdf.

  • Stáhnout Xpdf command line tools pro Windows (Windows 32/64-bit (Win 7 and newer))
  • Ze staženého ZIPu budeme potřebovat pouze pdfimages.exe, který si zkopírujeme někam na disk (pro potřeby tohoto návodu do C:\Moje programy\pdfimages.exe)
  • Ve složce, kde máme PDF si otevřeme konzoli PowerShellu (Soubor > Spustit prostředí Windows PowerShell)
  • Spustíme příkaz cmd /u a potvrdíme Enterem
  • Potom stačí zadat příkaz
    „C:\Moje programy\pdfimages.exe“ -j „název_pdf.pdf“ „název_pdf“
    Kde
    • C:\Moje programy\pdfimages.exe vede tam, kde je v počítači uložený pdfimages.exe
    • název_pdf.pdf je název pdf souboru, z kterého chceme dostat obrázky
    • název_pdf je základ názvu výsledných obrázků (název_pdf-0001.jpg, název_pdf-0002.jpg…)
  • A po potvrzení enterem se ve složce s PDF objeví obrázky.

Pokud byly obrázky vložené do PDF ve formátu JPG, budou JPG. Ale taky se může stát, že budou mít jiný formát. Takové soubory půjdou otevřít a potom exportovat do požadovaného formátu pomocí GIMPu.