Capturando Texto de PDF com Python

Jorel Magatti JorelDev outubro 09, 2023

Capturando Texto de PDF com Python

Olá me chamo Jorel Magatti, sou desenvolvedor (c# .net, python) e neste artigo, quero deixar uma dica de biblioteca python para leitura de PDF, testei algumas e esta foi a que mais me atendeu em meus testes.

A biblioteca usada é a PyPDF2, segue abaixo o link oficial do projeto:

PyPDF2

A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files

pypi.org

A instalação via pip, segue abaixo:

pip install PyPDF2

Após a instalação basta referencia-lo em seu código, segue abaixo uma implementação simples de leitura de um arquivo PDF chamado “teste.pdf”:


from PyPDF2 import PdfFileReader
 
def read_pdf_path(path: str) -> str:
    pdf: str = ''
    pdfFileObject = open(path, 'rb')
    pdfReaderObject = PdfFileReader(pdfFileObject)
    pageObject = pdfReaderObject.getPage(0)
    pdf = pageObject.extractText()
    pdfFileObj.close()
    return pdf

print(read_pdf_path('teste.pdf'))

Espero que este artigo te ajude na sua demanda Dev 😎🖖

Pesquisar este blog

JorelDev

Capturando Texto de PDF com Python

Capturando Texto de PDF com Python

PyPDF2

A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files

Recentes

Instalando .Net 5 no Ubuntu Linux

Gerando URL Pré Assinada para upload de arquivos AWS S3 com Asp.Net Core c#

Use ActionFilterAttribute com C#

Aplicações com interface Grafica para VPN Wireguard em Linux