Як конвертувати PDF-файл у редагований текст за допомогою командного рядка в Linux
Існує багато причин, чому ви можете конвертувати PDF-файл у редагований текст. Можливо, вам потрібно переглянути старий документ, і все, що у вас є, це версія PDF. Перетворення файлів PDF у Windows просте, але що робити, якщо ви використовуєте Linux?
Не турбуйтеся. Ми покажемо вам, як легко конвертувати PDF-файли в редагований текст за допомогою інструмента командного рядка pdftotext, який є частиною пакета «poppler-utils». Цей інструмент може бути вже встановлено. Щоб перевірити, чи встановлено pdftotext у вашій системі, натисніть "Ctrl + Alt + T", щоб відкрити вікно терміналу. Введіть у команді таку команду та натисніть "Enter".
dpkg -s poppler-utils
ПРИМІТКА. Коли ми скажемо, що введіть щось у цій статті, і навколо тексту є лапки, НЕ вводите лапки, якщо не вказано інше.
Якщо pdftotext не встановлено, введіть у відповідь наступну команду і натисніть "Enter".
sudo apt-get встановлює poppler-utils
Введіть пароль під час запиту та натисніть "Enter".
У пакунку poppler-utils є кілька інструментів для перетворення PDF у різні формати, маніпулювання файлами PDF та вилучення інформації з файлів.
Нижче наведено основну команду для перетворення PDF-файлу у редагований текстовий файл. Натисніть "Ctrl + Alt + T", щоб відкрити вікно терміналу, введіть команду під запрошенням і натисніть "Enter".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Змініть шлях до кожного файлу, щоб він відповідав розташуванню та назві оригінального файлу PDF, і куди потрібно зберегти отриманий текстовий файл. Крім того, змініть імена файлів, щоб відповідати іменам ваших файлів.
Текстовий файл створюється і може бути відкритий так само, як і будь-який інший текстовий файл у Linux.
Перетворений текст може мати розриви рядків у місцях, які ви не хочете. Розриви рядків вставляються після кожного рядка тексту у файлі PDF.
Ви можете зберегти макет вашого документа (заголовки, колонтитули, пейджинговий зв'язок тощо) з оригінального файлу PDF у перетвореному текстовому файлі за допомогою прапора "-layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Якщо ви хочете конвертувати лише ряд сторінок у файл PDF, використовуйте прапорці "-f" і "-l" (нижній регістр "L"), щоб вказати першу і останню сторінки в діапазоні, який потрібно конвертувати.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Щоб перетворити захищений PDF-файл, який захищено паролем власника, використовуйте прапорець "-opw" (перший символ у прапорі - це літера “O”, а не нуль).
pdftotext -pw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Змініть пароль на той, який використовується для захисту оригінального конвертованого PDF-файлу. Переконайтеся, що є одинарні лапки, а не подвійні, біля "пароля".
Якщо файл PDF захищений і зашифрований паролем користувача, використовуйте прапор "-upw" замість прапора "-opw". Решта команди однакова.
Ви також можете вказати тип символу кінця рядка, який застосовується до перетвореного тексту. Це особливо корисно, якщо ви плануєте отримати доступ до файлу на іншій операційній системі, наприклад Windows або Mac. Для цього скористайтеся прапором "-eol" (середній символ у прапорі - це літера "O", а не нуль), за яким слід пробіл і тип символу кінця рядка, який потрібно використовувати (" unix ”,“ dos ”або“ mac ”).
ПРИМІТКА: Якщо ви не вкажете назву файлу для текстового файлу, pdftotext автоматично використовує основу імені файлу PDF і додає розширення «.txt». Наприклад, файл “file.pdf” буде перетворений у “file.txt”. Якщо текстовий файл вказано як "-", перетворений текст надсилається у stdout, що означає, що текст відображається у вікні терміналу і не зберігається у файлі.
Щоб закрити вікно терміналу, натисніть кнопку «X» у верхньому лівому куті.
Для отримання додаткової інформації про команду pdftotext введіть "man page pdftotext" у рядку терміналу..