# 📦 INSTALAÇÃO DAS BIBLIOTECAS (Somente no Google Colab)
# Essa linha instala a biblioteca "wordcloud" no ambiente do Google Colab

In [None]:
# Essa linha instala a biblioteca "wordcloud" no ambiente do Google Colab
!pip install -q wordcloud

# IMPORTAÇÃO DAS BIBLIOTECAS NECESSÁRIAS


In [None]:
import string                       # Para manipulação de pontuação
import collections                  # Para contar frequência das palavras
from wordcloud import WordCloud     # Para gerar a nuvem de palavras
import matplotlib.pyplot as plt     # Para plotar gráficos
from nltk.corpus import stopwords   # Lista de palavras comuns a serem removidas
import nltk                         # Toolkit para processamento de linguagem natural
from google.colab import files      # Para upload de arquivos no Colab
import io                           # Para manipular arquivos

# DOWNLOAD DAS STOPWORDS (Necessário na primeira execução)

In [None]:
nltk.download('stopwords')

# ENTRADA DE DADOS

In [None]:
# O usuário pode digitar manualmente ou fazer upload de um arquivo .txt
modo = input("Digite 1 para inserir frases manualmente ou 2 para enviar um arquivo .txt: ")

if modo == "1":
    # Entrada manual
    texto = input("Digite suas frases: ")
elif modo == "2":
    # Upload do arquivo
    uploaded = files.upload()  # Abre o seletor de arquivos no Colab
    for file in uploaded.values():
        texto = file.decode("utf-8")  # Converte o conteúdo para string
else:
    print("Opção inválida. Reinicie e digite 1 ou 2.")
    texto = ""

# PRÉ-PROCESSAMENTO DO TEXTO

In [None]:
# Criação de um "tradutor" para remover pontuações
tradutor = str.maketrans('', '', string.punctuation)

# Remove pontuação e coloca tudo em minúsculas
texto_limpo = texto.translate(tradutor).lower()

# Separa o texto em palavras
palavras = texto_limpo.split()

# REMOÇÃO DE STOPWORDS

In [None]:
# Carrega a lista de stopwords em português
stop_words = set(stopwords.words('portuguese'))

# Remove palavras comuns (ex: "de", "a", "e", etc.)
palavras_filtradas = [palavra for palavra in palavras if palavra not in stop_words]

# CONTAGEM DE FREQUÊNCIA DAS PALAVRAS

In [None]:
frequencia = collections.Counter(palavras_filtradas)

# Pergunta ao usuário quantas palavras mais frequentes ele deseja visualizar
n = int(input("Quantas palavras mais frequentes você quer ver? "))

# Obtém as N palavras mais comuns
mais_comuns = frequencia.most_common(n)

# Exibe as palavras e suas quantidades
print("\nPalavras mais frequentes:")
for palavra, contagem in mais_comuns:
    print(f"{palavra}: {contagem}")

# GERAÇÃO DA NUVEM DE PALAVRAS

In [None]:
# Cria a nuvem com base nas frequências
wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(frequencia)

# Exibe a nuvem de palavras
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title("Nuvem de Palavras")
plt.show()

# GRÁFICO DE BARRAS DAS PALAVRAS MAIS FREQUENTE

In [None]:
# Extrai os dados para o gráfico
palavras_top = [item[0] for item in mais_comuns]
contagens_top = [item[1] for item in mais_comuns]

# Plota o gráfico de barras
plt.figure(figsize=(10, 5))
plt.bar(palavras_top, contagens_top, color='skyblue')
plt.title("Frequência das Palavras Mais Comuns")
plt.xlabel("Palavras")
plt.ylabel("Frequência")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()