In [16]:
import pytesseract
from PIL import Image
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.probability import FreqDist
import spacy

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# Carregar modelo de linguagem do SpaCy
nlp = spacy.load('pt_core_news_sm')

# Baixar as stopwords do NLTK
import nltk
nltk.download('stopwords')
nltk.download('punkt')

# Função para realizar OCR em uma imagem
def perform_ocr(image_path):
    # Abrir a imagem
    image = Image.open(image_path)
    # Realizar OCR usando Tesseract
    text = pytesseract.image_to_string(image, lang='por')
    return text

# Função para realizar a sumarização de texto
def perform_summarization(text):
    # Tokenize o texto em frases, divide o texto em frases usando a função sent_tokenize da biblioteca NLTK, considerando o idioma ingles padrao.
    sentences = sent_tokenize(text)
    # Tokenize as palavras, divide o texto em palavras usando a função word_tokenize da biblioteca NLTK.
    words = word_tokenize(text)
    # Remova stopwords, remove as palavras irrelevantes (stop words) do texto.
    stop_words = set(stopwords.words("portuguese"))
    words = [word for word in words if word.lower() not in stop_words]
    # Calcule a frequência das palavras, calcula a frequência das palavras no texto usando a classe FreqDist da biblioteca NLTK.
    freq_dist = FreqDist(words)
    # Calcule a frequência máxima, calcula a frequência máxima entre todas as palavras no texto.
    max_freq = max(freq_dist.values())
    # Normalizar as frequências, normaliza as frequências das palavras dividindo a frequência de cada palavra pela frequência máxima.
    for word in freq_dist.keys():
        freq_dist[word] = (freq_dist[word]/max_freq)
    # Calcule a pontuação das frases
    sentence_scores = {}
    for sentence in sentences:
        #Divide a frase em palavras, converte para minúsculas
        for word in word_tokenize(sentence.lower(), language='portuguese'):  
            #Verifica se a palavra está presente nas palavras relevantes (que não são stop words).
            if word in freq_dist.keys():
                #Verifica se a frase tem menos de 30 palavras.
                if len(sentence.split(' ')) < 30: 
                    #Verifica se a frase não está presente no dicionário de pontuações das frases.
                    if sentence not in sentence_scores.keys(): 
                        #Atribui a pontuação da palavra à frase no dicionário de pontuações das frases.
                        sentence_scores[sentence] = freq_dist[word] 
                    #Se a frase já estiver presente no dicionário de pontuações das frases.
                    else:
                        #Incrementa a pontuação da frase com a pontuação da palavra.
                        sentence_scores[sentence] += freq_dist[word] 
    # Obtenha as frases mais importantes
    #Ordena as frases com base em suas pontuações, do maior para o menor, e seleciona as três primeiras frases.
    summarized_sentences = sorted(sentence_scores, key=sentence_scores.get, reverse=True)[:3]
    #Une as frases selecionadas em um único resumo, separadas por espaço.
    summary = ' '.join(summarized_sentences) 
    return summary

# Caminho da imagem
image_path = "./texto.png"

# Realizar OCR
print("Performing OCR...")
ocr_text = perform_ocr(image_path)
print("OCR Result:")
print(ocr_text)
print()

# Realizar sumarização
print("Performing Summarization...")
summary_text = perform_summarization(ocr_text)
print("Summary:")
print(summary_text)
print()



[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Performing OCR...
OCR Result:
21
Introdução

Na maioria das aplicações reais de classificação, previsão, aproximação e
otimização, as bases de dados contêm um grande número de caraterísticas, muitas
delas introduzidas para obter uma melhor representação do problema, tais como,
por exemplo, nome, identidade, endereço, etc. Entretanto, na maioria dos casos,
grande parte destas caraterísticas são irrelevantes e/ou redundantes. Deste modo,

um problema comum nestas aplicações reais é a seleção das características.

AA seleção de características se refere a um processo no qual um espaço de
dados é transformado em um espaço de características, de menor dimensão, mas
que ainda retenha a maior parte da  informação intrínseca dos dados; em outras
palavras, o conjunto de dados sofre uma redução de dimensionalidade. Os
métodos de seleção de características tratam exatamente da escolha, dentre todos
os atributos da base de dados, daqueles mais relevantes do ponto de vista da

informação [MARD79], 