Как извлечь и сохранить изображения из файла PDF в Linux

Как извлечь и сохранить изображения из файла PDF в Linux
Как извлечь и сохранить изображения из файла PDF в Linux

Видео: Как извлечь и сохранить изображения из файла PDF в Linux

Видео: Как извлечь и сохранить изображения из файла PDF в Linux
Видео: Я научу тебя пользоваться macOS за 25 минут! Мастер-класс по переходу с Windows ПК на Mac! - YouTube 2024, Май
Anonim
Вы можете легко конвертировать PDF-файлы в редактируемый текст в Linux с помощью инструмента командной строки «pdftotext». Однако, если в исходном файле PDF есть какие-либо изображения, они не извлекаются. Чтобы извлечь изображения из файла PDF, вы можете использовать другой инструмент командной строки под названием «pdfimages».
Вы можете легко конвертировать PDF-файлы в редактируемый текст в Linux с помощью инструмента командной строки «pdftotext». Однако, если в исходном файле PDF есть какие-либо изображения, они не извлекаются. Чтобы извлечь изображения из файла PDF, вы можете использовать другой инструмент командной строки под названием «pdfimages».

ПРИМЕЧАНИЕ. Когда мы говорим, чтобы напечатать что-то в этой статье, и есть кавычки вокруг текста, НЕ вводите кавычки, если мы не укажем иначе.

Инструмент «pdfimages» является частью пакета poppler-utils. Вы можете проверить, установлен ли он в вашей системе, и при необходимости установить его, используя шаги, описанные в этой статье.

Чтобы извлечь изображения из файла PDF с помощью pdfimages, нажмите «Ctrl + Alt + T», чтобы открыть окно терминала. Введите в командной строке следующую команду.

pdfimages /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

ПРИМЕЧАНИЕ. Для всех команд, показанных в этой статье, замените первый путь в команде и имя файла PDF на путь и имя файла для исходного файла PDF. Второй путь должен быть путь к корневой папке, в которую вы хотите сохранить извлеченные изображения. Слово «изображение» в конце второго пути представляет собой то, что вы хотите предисловие к имени вашего файла. Имена файлов изображений нумеруются автоматически (000, 001, 002, 003 и т. Д.). Если вы хотите добавить текст в начало каждого изображения, введите этот текст в конце второго пути. В нашем примере каждое имя файла изображения начинается с «изображения», такого как image-001.ppm, image-002.ppm и т. Д. Между указанным вами текстом и номером добавляется тире.

Формат изображения по умолчанию - PPM (переносная pixmap) для немонохромных изображений или PBM (переносное растровое изображение) для монохромных изображений. Эти форматы предназначены для простого обмена между платформами.
Формат изображения по умолчанию - PPM (переносная pixmap) для немонохромных изображений или PBM (переносное растровое изображение) для монохромных изображений. Эти форматы предназначены для простого обмена между платформами.

ПРИМЕЧАНИЕ. Вы можете получить два файла изображения для каждого изображения в файле PDF. Второе изображение для каждого изображения пуст, поэтому вы сможете указать, какие изображения содержат изображения из файла, с помощью миниатюры в файле в диспетчере файлов.

Чтобы создать файлы изображений.jpg, добавьте параметр «-j» в команду, как показано ниже.
Чтобы создать файлы изображений.jpg, добавьте параметр «-j» в команду, как показано ниже.

pdfimages -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

ПРИМЕЧАНИЕ. Вы также можете изменить вывод по умолчанию в PNG с помощью опции «-png» или TIFF с использованием опции «-tiff».

Основной файл изображения для каждого изображения сохраняется как файл.jpg. Второе пустое изображение по-прежнему является файлом.ppm или.pbm.
Основной файл изображения для каждого изображения сохраняется как файл.jpg. Второе пустое изображение по-прежнему является файлом.ppm или.pbm.
Если вы хотите конвертировать изображения только на определенную страницу, используйте параметр «-f» с номером, указывающим первую страницу для преобразования, как показано в приведенной ниже команде примера.
Если вы хотите конвертировать изображения только на определенную страницу, используйте параметр «-f» с номером, указывающим первую страницу для преобразования, как показано в приведенной ниже команде примера.

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

ПРИМЕЧАНИЕ. Мы объединили опцию «-j» с опцией «-f», чтобы мы получили.jpg изображения и сделали то же самое с опцией «-l», упомянутой ниже.

Чтобы преобразовать все изображения до и на определенной странице, используйте «-l» (нижний регистр «L», а не номер «1») с номером, указывающим последнюю страницу для преобразования, как показано ниже.
Чтобы преобразовать все изображения до и на определенной странице, используйте «-l» (нижний регистр «L», а не номер «1») с номером, указывающим последнюю страницу для преобразования, как показано ниже.

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

ПРИМЕЧАНИЕ. Вы можете использовать опции «-f» и «-l» для преобразования изображений в определенный диапазон страниц в середине документа.

Если в файле PDF есть пароль владельца, используйте параметр «-opw» и пароль в одинарных кавычках, как показано ниже. Если пароль в файле PDF является паролем пользователя, используйте опцию «-upw» вместо этого с паролем.
Если в файле PDF есть пароль владельца, используйте параметр «-opw» и пароль в одинарных кавычках, как показано ниже. Если пароль в файле PDF является паролем пользователя, используйте опцию «-upw» вместо этого с паролем.

ПРИМЕЧАНИЕ. Убедитесь, что в команде есть одинарные кавычки.

pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

Рекомендуемые: