In [1]:
import os
from funcoes_de_contagem import lista_de_mais_frequentes_calibrada, itera_ou_abre_arquivos

In [2]:
corpus_especifico = "corpus_comentarios_elis"

In [6]:
mais_frequentes = lista_de_mais_frequentes_calibrada(corpus_especifico, "pt.txt", 1220)
mais_frequentes.most_common(100)

Nº Caracteres corpora: corpus_comentarios_elis - 
411650
Nº Caracteres corpora: pt.txt - 
17034654


[('.', 2970),
 ('parabéns', 1044),
 ('propaganda', 841),
 ('comercial', 801),
 ('elis', 580),
 ('lindo', 559),
 ('...', 530),
 ('emocionante', 441),
 ('volkswagen', 406),
 ('❤', 405),
 ('linda', 389),
 ('vw', 380),
 ('kombi', 213),
 ('ditadura', 210),
 ('sensacional', 199),
 ('regina', 194),
 ('rita', 187),
 ('homenagem', 164),
 ('belchior', 161),
 ('fusca', 142),
 ('chorei', 139),
 ('..', 126),
 ('....', 126),
 ('você', 29),
 ('tom', 2)]

In [None]:
def cascata_de_lista_de_mais_frequentes_calibradas(corpus_especifico, corpus_geral, limiar_1, limiar_2, n=10):
    """
    Gera listas em cascata de palavras mais frequentes a partir de um corpus específico.
    É necessário que o corpus se um conjunto de arquivos, cada um com um comentário.
    Depois,a funcão cria sublistas relacionadas.

    A função executa duas etapas principais:
    1. Cria uma lista de palavras mais frequentes no corpus específico, calibrada
       com base em um corpus geral (limiar_1), e limpa elementos indesejados
       como pontuação.
    2. Para cada uma das N palavras mais frequentes dessa lista, varre os arquivos
       do corpus específico em busca de textos que contenham essa palavra. Com os
       textos encontrados, gera uma nova lista de palavras frequentes (sublista),
       também calibrada com base no corpus geral (limiar_2).

    Parâmetros:
        corpus_especifico (str): Caminho para a pasta contendo arquivos .txt do corpus de interesse.
        corpus_geral (str): Caminho para o corpus geral (ou nome do arquivo) usado para calibragem.
        limiar_1 (int): Limiar de frequência mínima no corpus geral para a 1ª filtragem.
        limiar_2 (int): Limiar de frequência mínima no corpus geral para as sublistas.
        n (int, opcional): Número de palavras mais frequentes a serem analisadas e exibidas (default é 10).

    Retorno:
        Nenhum (a função imprime no console as palavras mais frequentes e suas respectivas sublistas).

    Observação:
        A função depende de outra chamada `lista_de_mais_frequentes_calibrada`, que deve estar definida
        no mesmo escopo ou importada de outro módulo.
    """

    def popador_de_porcarias(objeto_freq_dist):
        lista_popaveis = [".",",","...","!",]
        for p in lista_popaveis:
            try:
                objeto_freq_dist.pop(p)
            except KeyError:
                pass  # A chave não existia — segue o baile

    # PARTE 1 - geraa primeira lista de mais frequentes
    mais_frequentes = lista_de_mais_frequentes_calibrada(corpus_especifico, corpus_geral, limiar_1)
    # excluir pontos, virgulas e outras cositas mais

    # Função que popa os pontos e outros sinais gráficos
    popador_de_porcarias(mais_frequentes)
    print(mais_frequentes.most_common(n))

    # PARTE 2 - Gera as sublistas de mais frequentes
    # Itera a lista das N palvras mais frequentes
    for palavra_mais_frequente in mais_frequentes.most_common(n):
        print(f"\n{palavra_mais_frequente[0]}\n")
        frases_alvos = ""
        # Itera os arquivos e seleciona somente aqueles que possuam a palavra mais frequente da vez
        for arquivo in os.listdir(corpus_especifico):
            if arquivo.endswith(".txt"):
                caminho_arquivo = os.path.join(corpus_especifico, arquivo)

                # Abre e lê o arquivo
                with open(caminho_arquivo, "r", encoding="utf-8") as f:
                    texto = f.read().strip()  # Remove espaços extras

                # Verifica se o comentário tem a palavra alvo
                if palavra_mais_frequente[0].lower() in texto.lower():
                    frases_alvos = frases_alvos + " " + texto
        #  Geral sub lista de mais frequente da vez
        sublista_mais_frequentes = lista_de_mais_frequentes_calibrada(frases_alvos, "pt.txt", limiar_2, False)
        popador_de_porcarias(sublista_mais_frequentes)
        print(sublista_mais_frequentes.most_common(n))


cascata_de_lista_de_mais_frequentes_calibradas(corpus_especifico, "pt.txt", 1200, 300, 16)

Nº Caracteres corpora: corpus_comentarios_elis - 
411650
Nº Caracteres corpora: pt.txt - 
17034654


KeyError: '.'

In [31]:
mais_frequentes.most_common(10)

[('parabéns', 1044),
 ('propaganda', 841),
 ('comercial', 801),
 ('elis', 580),
 ('lindo', 559),
 ('emocionante', 441),
 ('volkswagen', 406),
 ('❤', 405),
 ('linda', 389),
 ('vw', 380)]