Capturando Texto de PDF com Python

Capturando Texto de PDF com Python

Olá me chamo Jorel Magatti, sou desenvolvedor (c# .net, python) e neste artigo, quero deixar uma dica de biblioteca python para leitura de PDF, testei algumas e esta foi a que mais me atendeu em meus testes.

A biblioteca usada é a PyPDF2, segue abaixo o link oficial do projeto:

A instalação via pip, segue abaixo:

pip install PyPDF2

Após a instalação basta referencia-lo em seu código, segue abaixo uma implementação simples de leitura de um arquivo PDF chamado “teste.pdf”:


from PyPDF2 import PdfFileReader

def read_pdf_path(path: str) -> str:
pdf: str = ''
pdfFileObject = open(path, 'rb')
pdfReaderObject = PdfFileReader(pdfFileObject)
pageObject = pdfReaderObject.getPage(0)
pdf = pageObject.extractText()
pdfFileObj.close()
return pdf

print(read_pdf_path('teste.pdf'))


Espero que este artigo te ajude na sua demanda Dev 😎🖖

Recentes