Jak vyextrahovat obrázky z PDF bez ztráty kvality

tl;dr: Stáhnout Xpdf Tools a potom: pdfimages -j zdrojove.pdf cesta_vysledneho_obrazku
(pdfimages -j c:\xyz.pdf c:\images\xyz)

Existuje plno způsobů a programů, které slibují, že dostanou obrázky z PDF. Jenže to má jednu dost podstatnou nevýhodu. Takto extrahované obrázky (většinou) ztrátovým re-enkódováním, takže dochází ke ztrátě kvality.

Přitom často jsou obrázky (např. scany) vložené v PDF jako JPG, což je naprosto běžný formát a dobrá zpráva je, že se od tam dá celkem jednoduše dostat.

Popíšeme si postup, jak to udělat na Windows se skvělou utilitou pdfimages z balíku Xpdf.

  • Stáhnout Xpdf command line tools pro Windows (Windows 32/64-bit (Win 7 and newer))
  • Ze staženého ZIPu budeme potřebovat pouze pdfimages.exe, který si zkopírujeme někam na disk (pro potřeby tohoto návodu do C:\Moje programy\pdfimages.exe)
  • Ve složce, kde máme PDF si otevřeme konzoli PowerShellu (Soubor > Spustit prostředí Windows PowerShell)
  • Spustíme příkaz cmd /u a potvrdíme Enterem
  • Potom stačí zadat příkaz
    „C:\Moje programy\pdfimages.exe“ -j „název_pdf.pdf“ „název_pdf“
    Kde
    • C:\Moje programy\pdfimages.exe vede tam, kde je v počítači uložený pdfimages.exe
    • název_pdf.pdf je název pdf souboru, z kterého chceme dostat obrázky
    • název_pdf je základ názvu výsledných obrázků (název_pdf-0001.jpg, název_pdf-0002.jpg…)
  • A po potvrzení enterem se ve složce s PDF objeví obrázky.

Pokud byly obrázky vložené do PDF ve formátu JPG, budou JPG. Ale taky se může stát, že budou mít jiný formát. Takové soubory půjdou otevřít a potom exportovat do požadovaného formátu pomocí GIMPu.

Jak ve Windows spolehlivě převést HEIC na JPG (JPEG) a zachovat metadata (EXIF)

tl;dr: CopyTrans HEIC for Windows

Nebyl by to Apple, aby nemusel mít něco extra, co je nekompatibilní se zbytkem světa. A tak se v Cupertinu rozhodli, že nebudou ukládat obrázky do „zastaralého“ JPEGu, ale použijí nový a lepší High Efficiency Image File Format. Což o to, obrázky jsou o něco menší, ale hlavně, když je stáhnete přímo přes kabel, tak BFU nebude vědět co s nimi a můžou mu nabídnout řešení tohoto problému – třeba nahrávat fotky do (placeného) iCloudu a odtud stahovat ty hnusné zastaralé JPG.

A protože v Cupertinu myslí jinak, tak třeba při odeslání obrázku pomocí formuláře na webu/aplikace servíruje opět kompatibilní, JPG, ale během konverze z něj odstraní všechna metadata (v JPG se tomu říká EXIF), takže ani nezjistíte, kdy byla fotka pořízena.

Takže co dělat, když potřebujete dostat fotky z nějakého novějšího zařízení začínající na i, z kterého už leze HEIC? Není to tak tragické. Windows 10 už umí HEIC normálně zobrazit i ve výchozí aplikaci, ale pokud byste tyto fotky rádi dali dohromady s jinými a měli je v kompatibilním formátu JPG, budeme muset konvertovat.

Původně tu měla být stať s porovnáním různých programů, ale budu to muset zkrátit. Vyvarujte se programu FonePaw HEIC Converter – sice konvertoval, ale u více než poloviny souborů chyběla metadata. A potom se ještě často v článcích objevuje další program, pod jiným jménem, ale vzhledem vypadá úplně stejně (to nebude náhoda).

Mně se osvědčil tl;dr: CopyTrans HEIC for Windows. Sice nemá žádné nastavení, ale s výsledkem jsem byl spokojen (úroveň komprese odpovídá 90 % v GIMPu). Použití je jednoduché – stáhnout instalátor (pro osobní užití zdarma), nainstalovat a potom v prohlížeči kliknout pravým myšítkem na jeden nebo více vybraných souborů HEIC a z kontextové nabídky vybrat Convert to JPG with CopyTrans.

Dodatek: Během psaní článku jsem narazil na zkazky, že by se dal použít i IrfanView. Nemám s tím zkušenost a nevím, jestli dojde k zachování metadat. A taky jsem na tento program před lety zanevřel, protože měl velmi špatnou kvalitu výstupních JPG. Při stejné velikosti mi z XnView lezly o poznání hezčí obrázky.

PS: Pokud byste věděli o nějakém dalším SW (a nejlépe OpenSource), určitě se podělte v diskuzi!

Jak najít zdroj obrázku vloženého obrázku ve Wordu?

tl;dr: Alternativní text

Znáte to, vytváříte dokument ve Wordu obsahující různé obrázky z různých zdrojů. Nemáte na to moc času, takže si neukládáte všechny související dokumenty do nějaké předem určené složky. Když tu najednou byste potřebovali původní soubor obrázku vloženého v tomto dokumentu. Jenže jak ho najít?

Naštěstí to jde celkem jednoduše (pokud víte jak – samozřejmě). Při vkládání obrázků z počítače ukládá Word (alespoň 2013) jejich umístění jako alternativní text (to je text, který se ukazuje, když se nepodaří načíst obrázek). Dá se ručně upravit (a tím také zobrazit) následujícím postupem:

Kliknout na obrázek druhým myšítkem a vybrat Formát obrázku

word-src-obrazkuToto vyvolá boční panel s volbami formátu. Tam kliknout na ikonku rozměrů a rozbalit položku Alternativní text.

word-src-obrazku2Hotovo :)

PS: Postup bohužel nefunguje u obrázků vkládaných přímo z webu. To se zde objeví stejný alternativní text jako byl nastavený na webu (alespoň při kopírování z Firefoxu).