In [5]:
# 📦 Importação das bibliotecas necessárias
import pandas as pd                    # Manipulação de dados e dataframes
import re                              # Expressões regulares (para limpar texto)
from sklearn.feature_extraction.text import TfidfVectorizer  # Vetorização TF-IDF
from sklearn.cluster import KMeans      # Algoritmo de clustering K-Means
import numpy as np                      # Biblioteca para operações numéricas

# 📥 Carregar o dataset
# Lê o arquivo CSV com os filmes e seus plots
df = pd.read_csv('movies_plot.csv')

# 🔍 Função para pré-processamento dos textos
def remove_noise(text):
    """
    Esta função recebe um texto e faz:
    - Coloca todo o texto em minúsculo
    - Remove pontuações, números e caracteres especiais
    - Separa o texto em tokens (palavras)
    """
    text = text.lower()  # Coloca em minúsculas
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Remove tudo que não for letra ou espaço
    tokens = text.split()  # Quebra o texto em palavras (tokens) por espaço
    return tokens  # Retorna a lista de tokens limpos

# 🧠 Vetorização com TF-IDF
# Transforma os textos em vetores numéricos baseados na frequência das palavras
vectorizer = TfidfVectorizer(
    max_df=0.8,              # Ignora palavras que aparecem em mais de 80% dos documentos (são pouco informativas)
    min_df=0.2,              # Ignora palavras que aparecem em menos de 20% dos documentos (muito raras)
    max_features=50,         # Limita a 50 as palavras mais importantes (top 50 features)
    tokenizer=remove_noise,  # Usa a função criada acima para limpar e tokenizar os textos
    stop_words='english'     # Remove automaticamente as stopwords em inglês
)

# Transforma a coluna 'Plot' (enredo dos filmes) em uma matriz numérica TF-IDF
X = vectorizer.fit_transform(df['Plot'])



# 🔗 Aplicação do K-Means
num_clusters = 3  # Número de clusters (agrupamentos) desejados — pode testar com 2, 3, 4...
kmeans = KMeans(n_clusters=num_clusters, random_state=42)  # Cria o modelo K-Means
kmeans.fit(X)  # Treina o modelo com os dados TF-IDF

# 🔖 Atribuição dos rótulos (clusters) a cada documento
df['Cluster'] = kmeans.labels_  # Adiciona uma nova coluna no dataframe com o número do cluster

# 🔑 Obtenção dos termos principais por cluster
terms = vectorizer.get_feature_names_out()  # Obtém os nomes dos termos (palavras)
# Ordena os centróides dos clusters do mais relevante para o menos
order_centroids = kmeans.cluster_centers_.argsort()[:, ::-1]  # ::-1 significa ordem decrescente

# 📌 Imprimir os principais termos de cada cluster
print("📌 Principais termos por cluster:\n")
for i in range(num_clusters):
    print(f"Cluster {i}: ", end='')  # Imprime qual cluster está mostrando
    top_terms = [terms[ind] for ind in order_centroids[i, :10]]  # Pega os 10 termos mais relevantes
    print(', '.join(top_terms))  # Mostra os termos separados por vírgula
print("\n")

# 🗂️ Mostrar os documentos (filmes) agrupados por cluster
for i in range(num_clusters):
    print(f"===================== Cluster {i} =====================")
    # Filtra os títulos dos filmes que pertencem a este cluster
    titles = df[df['Cluster'] == i]['Title'].values
    for title in titles:
        print(f"- {title}")  # Mostra o título do filme
    print("\n")




📌 Principais termos por cluster:

Cluster 0: father, home, tells, family, house, mother, life, new, later, goes
Cluster 1: film, police, man, wife, killed, new, help, takes, finds, death
Cluster 2: love, young, new, man, finds, does, time, soon, life, meets


- The Ballad of Cable Hogue
- Monsters vs. Aliens
- The Bandit Queen
- The Astounding She-Monster
- Conan the Barbarian
- Star Kid
- Halloween
- Seven Chances
-  The Jacket
- Out Cold
- Eagle Squadron
- Big Money Rustlas
- A Lady Takes a Chance
- The Savage Is Loose
- The Truth About Charlie
- Pleasantville
- A Shot in the Dark
- Dragonslayer
- Disturbing Behavior
- The Twelve Chairs
- The Preacher's Wife
- Kidnapped
- The Black Shield of Falworth
- Eaten Alive
- Oculus
- The Desert Hawk
- Hulk
- Killers from Space
- The Bad Seed
- Sniper
- Rover Dangerfield
- Run for Cover
- Boomerang
- The Lego Ninjago Movie
- Black Beauty
- Eight Iron Men
- The Girl on the Train
- Going Ape!
- Queen Bee
- Coach Carter
- Munster, Go Home!
- Clue

In [4]:

print("\n📊 Matriz TF-IDF:\n")
print(tfidf_df)  # Exibe a matriz TF-IDF


📊 Matriz TF-IDF:

      arrives      away    begins       day     death   decides      does  \
0    0.399615  0.000000  0.000000  0.121248  0.268422  0.379329  0.255096   
1    0.187554  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
2    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
3    0.488023  0.000000  0.000000  0.000000  0.245854  0.231625  0.000000   
4    0.000000  0.000000  0.000000  0.550585  0.000000  0.000000  0.000000   
..        ...       ...       ...       ...       ...       ...       ...   
995  0.110830  0.281727  0.000000  0.000000  0.000000  0.105204  0.000000   
996  0.000000  0.235235  0.000000  0.252701  0.000000  0.000000  0.000000   
997  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
998  0.000000  0.000000  0.149713  0.137544  0.304500  0.000000  0.000000   
999  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   

       family    father  film  ...  returns      soon   