In [None]:
#Análise exploratória dos resultados da clusterização
#Importando bibliotecas
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

In [None]:
#Carregando dados
dataset = pd.read_parquet("dataset_com_clusters.parquet")

In [None]:
#Explorando os clusters provenientes do KModes (clusterização dos dados categóricos)
cores_cinema = [
    "#1F77B4", "#FF7F0E", "#2CA02C", "#D62728", "#9467BD", 
    "#8C564B", "#E377C2", "#7F7F7F", "#BCBD22", "#17BECF"
]

cluster0kmodes = dataset[dataset['cluster'] == 0]
cluster1kmodes = dataset[dataset['cluster'] == 1]
cluster2kmodes = dataset[dataset['cluster'] == 2]
cluster3kmodes = dataset[dataset['cluster'] == 3]
cluster4kmodes = dataset[dataset['cluster'] == 4]
cluster5kmodes = dataset[dataset['cluster'] == 5]

In [None]:
def grafico_barras(cluster, data, coluna, qtd):
    contagem = data.groupby(coluna).size()
    top_10_contagem = contagem.nlargest(qtd)
    top_10_contagem = top_10_contagem.sort_values(ascending=True)
    fig = px.bar(top_10_contagem, x=top_10_contagem.values, y=top_10_contagem.index, title=f"{coluna} mais presentes no cluster {cluster}", labels={"x": "Contagem", coluna: coluna})
    fig.update_traces(marker=dict(color=cores_cinema))
    return fig

In [None]:
#Gêneros mais presentes no cluster 0
fig = grafico_barras('0', cluster0kmodes, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 1
fig = grafico_barras('1', cluster1kmodes, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 2
fig = grafico_barras('2', cluster2kmodes, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 3
fig = grafico_barras('3', cluster3kmodes, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 4
fig = grafico_barras('4', cluster4kmodes, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 5
fig = grafico_barras('5', cluster5kmodes, 'genres', 5)
fig.show()

In [None]:
#Línguas mais faladas no cluster 0
fig = grafico_barras('0', cluster0kmodes, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 1
fig = grafico_barras('1', cluster1kmodes, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 2
fig = grafico_barras('2', cluster2kmodes, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 3
fig = grafico_barras('3', cluster3kmodes, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 4
fig = grafico_barras('4', cluster4kmodes, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 5
fig = grafico_barras('5', cluster5kmodes, 'spoken_languages', 8)
fig.show()

In [None]:
#Páises mais presentes no cluster 0
fig = grafico_barras('0', cluster0kmodes, 'production_countries', 8)
fig.show()

In [None]:
#Páises mais presentes no cluster 1
fig = grafico_barras('1', cluster1kmodes, 'production_countries', 8)
fig.show()

In [None]:
#Páises mais presentes no cluster 2
fig = grafico_barras('2', cluster2kmodes, 'production_countries', 8)
fig.show()

In [None]:
#Páises mais presentes no cluster 3
fig = grafico_barras('3', cluster3kmodes, 'production_countries', 8)
fig.show()

In [None]:
#Páises mais presentes no cluster 4
fig = grafico_barras('4', cluster4kmodes, 'production_countries', 8)
fig.show()

In [None]:
#Páises mais presentes no cluster 5
fig = grafico_barras('5', cluster5kmodes, 'production_countries', 8)
fig.show()

In [None]:
#Comparação de existência de lucro
def contar_lucro (df):
    return (df['revenue'] > df['budget']).sum() / ((df['revenue'] > df['budget']).sum() + (df['revenue'] < df['budget']).sum())

In [None]:
#Quantidades de filmes que lucraram por cluster
lucrou0 = contar_lucro(cluster0kmodes)
lucrou1 = contar_lucro(cluster1kmodes)
lucrou2 = contar_lucro(cluster2kmodes)
lucrou3 = contar_lucro(cluster3kmodes)
lucrou4 = contar_lucro(cluster4kmodes)
lucrou5 = contar_lucro(cluster5kmodes)

In [None]:
#Porcentagem de filmes que lucraram por cluster

dic_lucrou = {'Cluster' : ['0', '1', '2', '3', '4', '5'], 'Quantidade' : [lucrou0, lucrou1, lucrou2, lucrou3, lucrou4, lucrou5]}

fig = go.Figure(
    data=[go.Bar(
        x=dic_lucrou['Cluster'], 
        y=dic_lucrou['Quantidade'], 
        marker_color=cores_cinema
    )]
)

fig.update_layout(
    title="Porcentagem de Filmes que Lucraram por Cluster",
    xaxis_title="Clusters",
    yaxis_title="Quantidade de Filmes",
    yaxis=dict(range=[0, 1])
)

fig.update_traces(hovertemplate='%{y:.1%}')

fig.show()

In [None]:
#Investigando o cluster 5
cluster5kmodes.describe()

In [None]:
# Dispersão K-Modes
fig = px.scatter(dataset, x='budget', y='revenue', color=dataset['cluster'].astype(str),
                 title="Clusters identificados pelo KModes",
                 labels={'cluster': 'Cluster', 'budget': 'Orçamento', 'revenue': 'Receita', 'color': 'Cluster'},
                 hover_data=dataset.columns,
                 color_discrete_sequence=cores_cinema)

fig.show()

In [None]:
# Boxplot K-Modes
fig = px.box(dataset, x='cluster', y='revenue', color='cluster',
             title="Box Plot dos Clusters identificados pelo KModes",
             labels={'cluster': 'Cluster', 'revenue': 'Receita', 'color': 'Cluster'},
             hover_data=dataset.columns,
             color_discrete_sequence=cores_cinema)

fig.show()

In [None]:
#Explorando os clusters provenientes do KMeans (clusterização dos dados numéricos)
cluster0kmeans = dataset[dataset['clusters_n'] == 0]
cluster1kmeans = dataset[dataset['clusters_n'] == 1]
cluster2kmeans = dataset[dataset['clusters_n'] == 2]

In [None]:
#Gêneros mais presentes no cluster 0
fig = grafico_barras('0', cluster0kmeans, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 1
fig = grafico_barras('1', cluster1kmeans, 'genres', 5)
fig.show()

In [None]:
#Gêneros mais presentes no cluster 2
fig = grafico_barras('2', cluster2kmeans, 'genres', 5)
fig.show()

In [None]:
#Línguas mais faladas no cluster 0
fig = grafico_barras('0', cluster0kmeans, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 1
fig = grafico_barras('1', cluster1kmeans, 'spoken_languages', 8)
fig.show()

In [None]:
#Línguas mais faladas no cluster 2
fig = grafico_barras('2', cluster2kmeans, 'spoken_languages', 8)
fig.show()

In [None]:
#Países mais presentes no cluster 0
fig = grafico_barras('0', cluster0kmeans, 'production_countries', 8)
fig.show()

In [None]:
#Países mais presentes no cluster 1
fig = grafico_barras('1', cluster1kmeans, 'production_countries', 8)
fig.show()

In [None]:
#Países mais presentes no cluster 2
fig = grafico_barras('2', cluster2kmeans, 'production_countries', 8)
fig.show()

In [None]:
#Porcentagem de filmes que lucraram por cluster
lucrou0kmeans = contar_lucro(cluster0kmeans)
lucrou1kmeans = contar_lucro(cluster1kmeans)
lucrou2kmeans = contar_lucro(cluster2kmeans)

In [None]:
#Porcentagem de filmes que lucraram por cluster

dic_lucrou = {'Cluster' : ['0', '1', '2', '3', '4', '5'], 'Quantidade' : [lucrou0kmeans, lucrou1kmeans, lucrou2kmeans]}

fig = go.Figure(
    data=[go.Bar(
        x=dic_lucrou['Cluster'], 
        y=dic_lucrou['Quantidade'], 
        marker_color=cores_cinema
    )]
)

fig.update_layout(
    title="Porcentagem de Filmes que Lucraram por Cluster",
    xaxis_title="Clusters",
    yaxis_title="Quantidade de Filmes",
    yaxis=dict(range=[0, 1]),
)

fig.update_traces(hovertemplate='%{y:.1%}')

fig.show()

In [None]:
# Contando quantos registros pertencem a cada combinação de clusters
heatmap_data = dataset.groupby(['cluster', 'clusters_n']).size().reset_index(name='Contagem')

colorscale_cinema = [
    [0.0, "#0D0D0D"],
    [0.2, "#383838"],
    [0.4, "#FFC300"],
    [0.6, "#E25822"],
    [0.8, "#8B0000"],
    [1.0, "#FF0000"]
]

# Criando um heatmap para melhor observar a relação entre a clusterização categórica e a numérica

heatmap_data['cluster'] = heatmap_data['cluster'].astype(str)
heatmap_data['cluster_n'] = heatmap_data['clusters_n'].astype(str)

fig = px.density_heatmap(
    heatmap_data, 
    x='clusters_n', 
    y='cluster', 
    z='Contagem', 
    text_auto=True,
    color_continuous_scale=colorscale_cinema,
    category_orders={"cluster": sorted(heatmap_data['cluster'].unique())}  # Mantém a ordem correta
)

fig.show()

In [None]:
#Porcentagem de lucro nas regiões do heatmap
contagem_lucro_regioes = dataset.groupby(['cluster', 'clusters_n'], group_keys=False).apply(contar_lucro, include_groups=False).reset_index(name='porcentagem_lucro')

In [None]:
contagem_lucro_regioes['categoria'] = contagem_lucro_regioes['cluster'].astype(str) + '-' + contagem_lucro_regioes['clusters_n'].astype(str)

fig = px.bar(
    contagem_lucro_regioes, 
    x='categoria', 
    y='porcentagem_lucro', 
    text='porcentagem_lucro',
    labels={'categoria': 'Região do Heatmap', 'porcentagem_lucro': 'Porcentagem de Lucro'},
    title='Porcentagem de Lucro por região no Heatmap',
    color = 'categoria',
    color_discrete_sequence = cores_cinema
)

fig.update_traces(texttemplate='%{text:.1%}', hovertemplate='%{y:.1%}')

fig.show()

In [None]:
#Dispersão KMeans
fig = px.scatter(dataset, x='budget', y='revenue', color=dataset['clusters_n'].astype(str),
                 title="Clusters identificados pelo K-Means",
                 labels={'cluster_n': 'Cluster', 'budget': 'Orçamento', 'revenue': 'Receita', 'color': 'Cluster'},
                 hover_data=dataset.columns,
                 color_discrete_sequence=cores_cinema)


fig.show()

In [None]:
#Boxplot KMeans
fig = px.box(dataset, x='clusters_n', y='revenue', color=dataset['clusters_n'].astype(str),
                 title="Clusters identificados pelo K-Means",
                 labels={'cluster_n': 'Cluster', 'revenue': 'Receita', 'color': 'Cluster'},
                 hover_data=dataset.columns,
                 color_discrete_sequence=cores_cinema)

fig.show()