In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist #ajuda no calculo da frequencia
import re
import string
from collections import Counter #contador
nltk.download('punkt') #ajuda a dividir um texto em uma lista de frases

#1

In [None]:
def tokenizar_arquivo(arq):
    #ler arquivo txt
    with open(arq, 'r', encoding='utf-8') as arquivo:
        texto = arquivo.read().replace("\uFEFF", "")
    #retorna o token
    tokens = word_tokenize(texto)
    return tokens

arquivo = 'The-Iliad-of-Homer.txt'
tokens = tokenizar_arquivo(arquivo)

print(tokens)

#2

In [None]:
#2a
def lower_case(text):
    # Converte todos os caracteres para minusculo
    return text.lower()

#2b
def remove_punctuation(text):
    # Remove pontuacao e outros caracteres especiais usando regex
    text = re.sub(r'[^\w\s]', '', text)
    return text

#2c
def remove_stopwords(text, stopwords):
    # Remove as stopwords 
    tokens = text.split()
    filtered_tokens = [word for word in tokens if word not in stopwords]
    return ' '.join(filtered_tokens)

#2d.1
def remove_mais_frequente(text, n):
    # Remove as n palavras mais frequentes do texto
    words = text.split()
    word_counts = Counter(words)
    most_common_words = [word for word, count in word_counts.most_common(n)]
    filtered_words = [word for word in words if word not in most_common_words]
    return ' '.join(filtered_words)

#2d.2
def remove_n_mais(text, n):
    # Remove as palavras que ocorreram mais de n vezes no texto
    words = text.split()
    word_counts = Counter(words)
    filtered_words = [word for word in words if word_counts[word] <= n]
    return ' '.join(filtered_words)

#2e.1
def remove_menos_frequente(text, n):
    # Remove as n palavras menos frequentes do texto
    words = text.split()
    word_counts = Counter(words)
    least_common_words = [word for word, count in word_counts.most_common()[:-n-1:-1]]
    filtered_words = [word for word in words if word not in least_common_words]
    return ' '.join(filtered_words)

#2e.2
def remove_n_menos(text, n):
    # Remove as palavras que ocorreram menos de n vezes no texto
    words = text.split()
    word_counts = Counter(words)
    filtered_words = [word for word in words if word_counts[word] >= n]
    return ' '.join(filtered_words)

#carrega arquivo text com stopwords
def carregar_stopwords(nome_arquivo):
    with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
        stopwords = set([linha.strip() for linha in arquivo])
    return stopwords

def processar_txt(nome_arquivo, nome_arquivo_stopwords, language='english'):
    # Le o texto do arquivo
    with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
        texto = arquivo.read()
        
    # Carrega as stopwords do arquivo
    stopwords = carregar_stopwords(nome_arquivo_stopwords)
    # Aplicacao das etapas de normalizacao e limpeza
    texto = lower_case(texto)
    texto = remove_punctuation(texto)
    texto = remove_stopwords(texto, stopwords)
    #texto = remove_mais_frequente(texto,2)
    #texto = remove_n_mais(texto,2)
    #texto = remove_menos_frequente(texto, 2)
    #texto = remove_n_menos(texto,2)

    return texto

nome_arquivo = 'The-Iliad-of-Homer.txt'  
arquivo_stopwords = 'stoplist-ingles.txt' 
texto_processado = processar_txt(nome_arquivo, arquivo_stopwords)
print(texto_processado)

#3

In [None]:
def contar_types_e_tokens(texto):
    with open(arquivo, 'r') as file:
        texto = file.read()
    # Remover pontuacao usando regex
    tokens = re.findall(r'\w+', texto.lower())
    # Calcula o numero de types e tokens usando um contador
    contador_tokens = Counter(tokens)
    # Pega o numero de types com chaves unicas no Counter
    numero_de_types = len(contador_tokens)
    # Pega o numero de tokens na soma de valores no Counter
    numero_de_tokens = sum(contador_tokens.values())

    return numero_de_types, numero_de_tokens

texto = "The-Iliad-of-Homer.txt"
types, tokens = contar_types_e_tokens(texto)

print("Número de Types:", types)
print("Número de Tokens:", tokens)

#4

In [None]:
def ranking_types_frequentes(nome_arquivo, stopwords_file='stoplist-ingles.txt', top_n=20):
    with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
        texto = arquivo.read()

    palavras = word_tokenize(texto.lower())
    stopwords = carregar_stopwords(stopwords_file)
    # Remocao de stopwords e pontuacao
    palavras = [palavra for palavra in palavras if palavra not in stopwords and re.match(r'^\w+$', palavra)]

    # Calcula a frequencia das palavras
    freq_dist = Counter(palavras)

    # Obtendo os tipos mais frequentes
    tipos_frequentes = freq_dist.most_common(top_n)

    return tipos_frequentes

nome_arquivo = 'The-Iliad-of-Homer.txt'
tipos_frequentes = ranking_types_frequentes(nome_arquivo)

print("Ranking dos 20 tipos mais frequentes:")
for tipo, frequencia in tipos_frequentes:
    print(f"{tipo}: {frequencia}")