In [None]:
import nltk
import spacy
from nltk.stem import PorterStemmer #radicalizar texto
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist #ajuda no calculo da frequencia
import re
import string
from collections import Counter #contador
nltk.download('punkt') #ajuda a dividir um texto em uma lista de frases

In [None]:
def tokenizar_arquivo(arq):
    #ler arquivo txt
    with open(arq, 'r', encoding='utf-8') as arquivo:
        texto = arquivo.read().replace("\uFEFF", "")
    #retorna o token
    tokens = word_tokenize(texto)
    return tokens

arquivo = 'The-Iliad-of-Homer.txt'
tokenizado = tokenizar_arquivo(arquivo)

print(tokenizado)

In [None]:
#funções para limpar o texto

nlp = spacy.load("en_core_web_sm") #especificar idioma

#carrega arquivo text com stopwords
def carregar_stopwords(nome_arquivo):
    with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
        stopwords = set([linha.strip() for linha in arquivo])
    return stopwords

def lower_case(text):
    # Converte todos os caracteres para minusculo
    return text.lower()

def remove_punctuation(text):
    # Remove pontuacao e outros caracteres especiais usando regex
    text = re.sub(r'[^\w\s]', '', text)
    return text

def remove_stopwords(text, stopwords):
    # Remove as stopwords 
    tokens = text.split()
    filtered_tokens = [word for word in tokens if word not in stopwords]
    return ' '.join(filtered_tokens)

def remove_numbers(text):
    text = re.sub(r'\d+', '', text)
    return text 

def processar_txt(nome_arquivo, nome_arquivo_stopwords, language='english'):
    # Le o texto do arquivo
    with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
        texto = arquivo.read()
        
    # Carrega as stopwords do arquivo
    stopwords = carregar_stopwords(nome_arquivo_stopwords)
    # Aplicacao das etapas de normalizacao e limpeza
    texto = lower_case(texto)
    texto = remove_punctuation(texto)
    texto = remove_stopwords(texto, stopwords)
    texto = remove_numbers(texto)

    return texto

nome_arquivo = 'The-Iliad-of-Homer.txt'  
arquivo_stopwords = 'stoplist-ingles.txt' 
texto_processado = processar_txt(nome_arquivo, arquivo_stopwords)
print(texto_processado)

In [None]:
doc = nlp(texto_processado)
tokens = word_tokenize(texto_processado)
print(tokens)

#1

In [None]:
# Inicializar uma lista para armazenar os lemas
lemmas = []

# Aplicar lematização para cada palavra na lista de tokens
for token in tokens:
    doc = nlp(token)
    for tok in doc:
        lemmas.append(tok.lemma_)

print(lemmas)

#2

In [None]:
# Criar um objeto Stemmer
stemmer = PorterStemmer()

# Inicializar uma lista para armazenar os stems
stems = []

# Aplicar stemming para cada token no texto
for token in tokens:
    docs = nlp(token)
    for tok in docs:
        stem = stemmer.stem(tok.text)
        stems.append(stem)

print(stems)

#3

In [None]:
# Contar a frequência dos tokens
lema_counts = Counter(lemmas)

# Obter os 20 mais frequentes
top20_lema = lema_counts.most_common(20)

print(top20_lema)

In [None]:
# Contar a frequência dos tokens
raiz_counts = Counter(stems)

# Obter os 20 mais frequentes
top20_raiz = lema_counts.most_common(20)

print(top20_raiz)

#4

In [None]:
'''
Funcao distancia_Levenshtein(X, Y, m, n):
    Se m igual a 0:
        Retorna n
    
    Se n igual a 0:
        Retorna m
    
    Se X[m-1] igual a Y[n-1]:
        custo recebe 0
    Senão:
        custo recebe 1
    
    opcao1 recebe distancia_Levenshtein(X, Y, m-1, n) + 1  # Deletar
    opcao2 recebe distancia_Levenshtein(X, Y, m, n-1) + 1  # Inserir
    opcao3 recebe distancia_Levenshtein(X, Y, m-1, n-1) + custo  # Substituir

    
    Retorna mínimo(opcao1, opcao2, opcao3)
'''