<a href="https://colab.research.google.com/github/jrctechmind/data-science-portfolio/blob/main/Clustering_e_Recomenda%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Importando bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics.pairwise import cosine_similarity

# Suponha que você tenha um conjunto de dados disponível, por exemplo, em um arquivo CSV
# Aqui estamos apenas criando um DataFrame fictício para ilustrar o exemplo
dados = {
    'filme': ['A', 'B', 'C', 'D', 'E'],
    'genero': ['Ação', 'Comédia', 'Drama', 'Ação', 'Comédia'],
    'ator_principal': ['Tom', 'Emma', 'Tom', 'Emma', 'Tom'],
    'diretor': ['X', 'Y', 'X', 'Y', 'X'],
    'idade': [120, 100, 90, 80, 110],
    'avaliacao': [4.5, 3.5, 4.0, 4.0, 3.5],
    'receita': [1000000, 800000, 600000, 900000, 700000]
}

df = pd.DataFrame(dados)

# Limpeza de dados (se necessário)
# Por exemplo, lidar com valores ausentes, converter tipos de dados, etc.

# Selecionando features relevantes para o clustering
X_clustering = df[['idade', 'avaliacao', 'receita']]

# Normalizando os dados
scaler = StandardScaler()
X_clustering_scaled = scaler.fit_transform(X_clustering)

# Aplicando PCA para redução de dimensionalidade
pca = PCA(n_components=2)
X_clustering_pca = pca.fit_transform(X_clustering_scaled)

# Clustering com KMeans
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X_clustering_pca)
df['cluster_kmeans'] = kmeans.labels_

# Clustering Hierárquico
agglomerative = AgglomerativeClustering(n_clusters=2)
agglomerative.fit(X_clustering_pca)
df['cluster_hierarchical'] = agglomerative.labels_

# Sistema de Recomendação (Content Based Filtering)
# Calculando similaridade de cosseno entre os filmes com base em seus recursos
X_recomendacao = df[['idade', 'avaliacao', 'receita']]
similaridade = cosine_similarity(X_recomendacao)

# Função para obter recomendações para um filme específico
def get_recomendacoes(filme):
    indice_filme = df[df['filme'] == filme].index[0]
    sim_scores = list(enumerate(similaridade[indice_filme]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:4]
    indices_filmes_similares = [i[0] for i in sim_scores]
    return df['filme'].iloc[indices_filmes_similares]

# Testando o sistema de recomendação
print("Recomendações para o filme 'A':")
print(get_recomendacoes('A'))


Recomendações para o filme 'A':
1    B
2    C
3    D
Name: filme, dtype: object


