como converter um arquivo pdf em texto editável usando a linha de comando no linux

Existem várias razões pelas quais você pode querer converter um arquivo PDF em texto editável. Talvez você precisa de rever um documento antigo e tudo que você tem é a versão PDF do mesmo. Convertendo arquivos PDF no Windows é fácil, mas o que se você estiver usando Linux?

Não se preocupe. Nós vamos mostrar-lhe como facilmente converter arquivos PDF em texto editável usando uma ferramenta de linha de comando chamado pdftotext, que é parte do pacote “poppler-utils”. Esta ferramenta pode já ser instalado. Para verificar se pdftotext está instalado no seu sistema, pressione “Ctrl + Alt + T” para abrir uma janela de terminal. Digite o seguinte comando no prompt e pressione “Enter”.

dpkg -s Poppler-utils

NOTA: Quando dizemos que digitar algo neste artigo e há aspas em torno do texto, não digite as aspas, a menos que especifique o contrário.

Se pdftotext não está instalado, digite o seguinte comando no prompt e pressione “Enter”.

sudo apt-get install Poppler-utils

Digite sua senha quando solicitado e pressione “Enter”.

Existem várias ferramentas disponíveis no pacote poppler-utils para a conversão de PDF para diferentes formatos, manipulação de arquivos PDF e extrair informações de arquivos.

O que se segue é o comando básico para converter um arquivo PDF para um arquivo de texto editável. Pressione “Ctrl + Alt + T” para abrir uma janela de terminal, digite o comando no prompt e pressione “Enter”.

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Altere o caminho para cada arquivo para corresponder à localização e nome do seu arquivo PDF original e onde você deseja salvar o arquivo de texto resultante. Além disso, altere os nomes dos arquivos para corresponder aos nomes dos seus arquivos.

O arquivo de texto é criado e pode ser aberto da mesma forma que abriria qualquer outro arquivo de texto no Linux.

O texto convertido pode ter quebras de linha em lugares que você não quer. Quebras de linha são inseridas depois de cada linha de texto no arquivo PDF.

Você pode preservar o layout do seu documento (cabeçalhos, rodapés, paginação, etc.) a partir do arquivo PDF original no arquivo de texto convertido usando o sinalizador “-layout”.

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Se você quiser converter apenas um intervalo de páginas em um arquivo PDF, use as bandeiras “-f” e “l” (a letra minúscula “L”) para especificar a primeira e última páginas no intervalo que você deseja converter.

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Para converter um arquivo PDF que está protegido e criptografado com uma senha de proprietário, utilize o sinalizador “-opw” (o primeiro caractere da bandeira é uma letra minúscula “O”, e não um zero).

pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Change “senha” ao utilizado para proteger o arquivo PDF original que está sendo convertido. Certifique-se que são aspas simples, não duplos, cerca de “password”.

Se o arquivo PDF é protegido e criptografado com uma senha de usuário, use o sinalizador “-upw” em vez de a bandeira “-opw”. O resto do comando é o mesmo.

Você também pode especificar o tipo de caractere de fim-de-linha que é aplicado ao texto convertido. Isto é especialmente útil se você planeja para acessar o arquivo em um sistema operacional diferente, como Windows ou Mac. Para fazer isso, use o “-eol” bandeira (o caráter médio na bandeira é uma letra minúscula “O”, e não um zero) seguido por um espaço eo tipo de caractere de fim-de-linha que deseja usar ( ” unix “,” dos “ou” Mac “).

NOTA: Se você não especificar um nome para o arquivo de texto, pdftotext utiliza automaticamente a base do nome do arquivo PDF e acrescenta a extensão “.txt”. Por exemplo, “file.pdf” será convertido para “file.txt”. Se o arquivo de texto é especificado como “-“, o texto convertido é enviado para stdout, o que significa que o texto é exibido na janela do Terminal e não salvos em um arquivo.

Para fechar a janela Terminal, clique no botão “X” no canto superior esquerdo.

Para mais informações sobre o comando pdftotext, digite “man page pdftotext” no prompt de uma janela do Terminal.

Embora existam apenas dois mamíferos que põem ovos, ou monotremados, à esquerda na, o mundo ornitorrinco ea equidna (equidna) -Estes animais curiosos e seus parentes já foram numerosos em todo o continente australiano.