In [5]:
# üì¶ Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd                    # Manipula√ß√£o de dados e dataframes
import re                              # Express√µes regulares (para limpar texto)
from sklearn.feature_extraction.text import TfidfVectorizer  # Vetoriza√ß√£o TF-IDF
from sklearn.cluster import KMeans      # Algoritmo de clustering K-Means
import numpy as np                      # Biblioteca para opera√ß√µes num√©ricas

# üì• Carregar o dataset
# L√™ o arquivo CSV com os filmes e seus plots
df = pd.read_csv('movies_plot.csv')

# üîç Fun√ß√£o para pr√©-processamento dos textos
def remove_noise(text):
    """
    Esta fun√ß√£o recebe um texto e faz:
    - Coloca todo o texto em min√∫sculo
    - Remove pontua√ß√µes, n√∫meros e caracteres especiais
    - Separa o texto em tokens (palavras)
    """
    text = text.lower()  # Coloca em min√∫sculas
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Remove tudo que n√£o for letra ou espa√ßo
    tokens = text.split()  # Quebra o texto em palavras (tokens) por espa√ßo
    return tokens  # Retorna a lista de tokens limpos

# üß† Vetoriza√ß√£o com TF-IDF
# Transforma os textos em vetores num√©ricos baseados na frequ√™ncia das palavras
vectorizer = TfidfVectorizer(
    max_df=0.8,              # Ignora palavras que aparecem em mais de 80% dos documentos (s√£o pouco informativas)
    min_df=0.2,              # Ignora palavras que aparecem em menos de 20% dos documentos (muito raras)
    max_features=50,         # Limita a 50 as palavras mais importantes (top 50 features)
    tokenizer=remove_noise,  # Usa a fun√ß√£o criada acima para limpar e tokenizar os textos
    stop_words='english'     # Remove automaticamente as stopwords em ingl√™s
)

# Transforma a coluna 'Plot' (enredo dos filmes) em uma matriz num√©rica TF-IDF
X = vectorizer.fit_transform(df['Plot'])



# üîó Aplica√ß√£o do K-Means
num_clusters = 3  # N√∫mero de clusters (agrupamentos) desejados ‚Äî pode testar com 2, 3, 4...
kmeans = KMeans(n_clusters=num_clusters, random_state=42)  # Cria o modelo K-Means
kmeans.fit(X)  # Treina o modelo com os dados TF-IDF

# üîñ Atribui√ß√£o dos r√≥tulos (clusters) a cada documento
df['Cluster'] = kmeans.labels_  # Adiciona uma nova coluna no dataframe com o n√∫mero do cluster

# üîë Obten√ß√£o dos termos principais por cluster
terms = vectorizer.get_feature_names_out()  # Obt√©m os nomes dos termos (palavras)
# Ordena os centr√≥ides dos clusters do mais relevante para o menos
order_centroids = kmeans.cluster_centers_.argsort()[:, ::-1]  # ::-1 significa ordem decrescente

# üìå Imprimir os principais termos de cada cluster
print("üìå Principais termos por cluster:\n")
for i in range(num_clusters):
    print(f"Cluster {i}: ", end='')  # Imprime qual cluster est√° mostrando
    top_terms = [terms[ind] for ind in order_centroids[i, :10]]  # Pega os 10 termos mais relevantes
    print(', '.join(top_terms))  # Mostra os termos separados por v√≠rgula
print("\n")

# üóÇÔ∏è Mostrar os documentos (filmes) agrupados por cluster
for i in range(num_clusters):
    print(f"===================== Cluster {i} =====================")
    # Filtra os t√≠tulos dos filmes que pertencem a este cluster
    titles = df[df['Cluster'] == i]['Title'].values
    for title in titles:
        print(f"- {title}")  # Mostra o t√≠tulo do filme
    print("\n")




üìå Principais termos por cluster:

Cluster 0: father, home, tells, family, house, mother, life, new, later, goes
Cluster 1: film, police, man, wife, killed, new, help, takes, finds, death
Cluster 2: love, young, new, man, finds, does, time, soon, life, meets


- The Ballad of Cable Hogue
- Monsters vs. Aliens
- The Bandit Queen
- The Astounding She-Monster
- Conan the Barbarian
- Star Kid
- Halloween
- Seven Chances
-  The Jacket
- Out Cold
- Eagle Squadron
- Big Money Rustlas
- A Lady Takes a Chance
- The Savage Is Loose
- The Truth About Charlie
- Pleasantville
- A Shot in the Dark
- Dragonslayer
- Disturbing Behavior
- The Twelve Chairs
- The Preacher's Wife
- Kidnapped
- The Black Shield of Falworth
- Eaten Alive
- Oculus
- The Desert Hawk
- Hulk
- Killers from Space
- The Bad Seed
- Sniper
- Rover Dangerfield
- Run for Cover
- Boomerang
- The Lego Ninjago Movie
- Black Beauty
- Eight Iron Men
- The Girl on the Train
- Going Ape!
- Queen Bee
- Coach Carter
- Munster, Go Home!
- C

In [4]:

print("\nüìä Matriz TF-IDF:\n")
print(tfidf_df)  # Exibe a matriz TF-IDF


üìä Matriz TF-IDF:

      arrives      away    begins       day     death   decides      does  \
0    0.399615  0.000000  0.000000  0.121248  0.268422  0.379329  0.255096   
1    0.187554  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
2    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
3    0.488023  0.000000  0.000000  0.000000  0.245854  0.231625  0.000000   
4    0.000000  0.000000  0.000000  0.550585  0.000000  0.000000  0.000000   
..        ...       ...       ...       ...       ...       ...       ...   
995  0.110830  0.281727  0.000000  0.000000  0.000000  0.105204  0.000000   
996  0.000000  0.235235  0.000000  0.252701  0.000000  0.000000  0.000000   
997  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
998  0.000000  0.000000  0.149713  0.137544  0.304500  0.000000  0.000000   
999  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   

       family    father  film  ...  returns      soon