In [1]:
#Criando os clusters
#Importando bibliotecas
import pandas as pd
import numpy as np
from kmodes.kmodes import KModes
from kmodes.util.dissim import jaccard_dissim_binary
import plotly.graph_objects as go

In [2]:
#Carregando os dados
dataset = pd.read_parquet("TMDB_movie_dataset_v11_tratado2.parquet")

In [3]:
#Pareto paises
def diagrama_pareto(data_frame, coluna, titulo):

    #Contando as aparições de dados
    dados_separados = data_frame[coluna].str.split(', ').explode()
    aparicoes_dados = dados_separados.value_counts().sort_values(ascending=False)
    agrupado = aparicoes_dados.reset_index(name='Contagem')
    agrupado = agrupado.sort_values('Contagem', ascending=False)

    #Criando a série do somas acumulativas
    agrupado['Acumulado'] = agrupado['Contagem'].cumsum() / agrupado['Contagem'].sum() * 100

    #Criando a barra 'outros' após a linha atingir os 70%
    agrupado_principal = agrupado[agrupado['Acumulado'] <= 70]
    agrupado_outros = agrupado[agrupado['Acumulado'] > 70]
    outros_contagem = agrupado_outros['Contagem'].sum()
    linha_outros = pd.DataFrame({coluna: ['Outros'], 'Contagem': [outros_contagem], 'Acumulado': [100]})
    agrupado_principal = pd.concat([agrupado_principal, linha_outros], ignore_index=True)
    return agrupado_principal


paises_principais= diagrama_pareto(dataset, 'production_countries', 'Produção por País')

print(paises_principais)

        production_countries  Contagem   Acumulado
0   United States of America    120888   27.443298
1                    Germany     29870   34.224213
2                     France     28750   40.750872
3             United Kingdom     27147   46.913628
4                      Japan     20002   51.454367
5                      India     16662   55.236878
6                     Canada     15221   58.692262
7                      Italy     14029   61.877045
8                      Spain     11051   64.385779
9                     Mexico      9183   66.470451
10                    Brazil      7857   68.254102
11              Soviet Union      6862   69.811873
12                    Outros    132979  100.000000


In [4]:
# Pareto linguas
def diagrama_pareto_linguas(data_frame, coluna, titulo):

    # Contando as aparições de dados
    dados_separados = data_frame[coluna].str.split(', ').explode()
    aparicoes_dados = dados_separados.value_counts().sort_values(ascending=False)
    agrupado = aparicoes_dados.reset_index(name='Contagem')
    agrupado = agrupado.sort_values('Contagem', ascending=False)

    # Criando a série do somas acumulativas
    agrupado['Acumulado'] = agrupado['Contagem'].cumsum() / agrupado['Contagem'].sum() * 100

    # Criando a barra 'outros' após a linha atingir os 70%
    agrupado_principal = agrupado[agrupado['Acumulado'] <= 70]
    agrupado_outros = agrupado[agrupado['Acumulado'] > 70]
    outros_contagem = agrupado_outros['Contagem'].sum()
    linha_outros = pd.DataFrame({coluna: ['Outros'], 'Contagem': [outros_contagem], 'Acumulado': [100]})
    agrupado_principal = pd.concat([agrupado_principal, linha_outros], ignore_index=True)
    return agrupado_principal

linguas_principais = diagrama_pareto_linguas(dataset, 'spoken_languages', 'Línguas Faladas')

print(linguas_principais)


  spoken_languages  Contagem   Acumulado
0          English    167946   37.546781
1           French     31462   44.580570
2          Spanish     29796   51.241901
3           German     25192   56.873941
4         Japanese     20151   61.378991
5      No Language     17882   65.376773
6          Italian     14670   68.656466
7           Outros    140199  100.000000


In [5]:
#onehotencoding paises
def onehotencoding(df, coluna):
    a_clusterizar = ['id', 'title', coluna]
    dataset_cluster = df[a_clusterizar].copy()
    
    # Fill None values with an empty string
    dataset_cluster[coluna] = dataset_cluster[coluna].fillna('')
    
    # Obtendo os valores únicos da coluna
    valores = paises_principais['production_countries'].values
    
    # Criando um DataFrame com todas as colunas de uma vez para evitar erro de defragmentação
    one_hot_data = {
        valor: dataset_cluster[coluna].apply(lambda x: 1 if valor in x else 0)
        for valor in valores
    }
    dataset_coluna = pd.DataFrame(one_hot_data, index=dataset_cluster.index)
    
    return dataset_coluna

onehotpaises = onehotencoding(dataset, 'production_countries')

print(onehotpaises.columns)

Index(['United States of America', 'Germany', 'France', 'United Kingdom',
       'Japan', 'India', 'Canada', 'Italy', 'Spain', 'Mexico', 'Brazil',
       'Soviet Union', 'Outros'],
      dtype='object')


In [6]:
#Teste para checar se a tabela binária que passará pela clusterização foi feita corretamente
onehotpaises.head()

Unnamed: 0,United States of America,Germany,France,United Kingdom,Japan,India,Canada,Italy,Spain,Mexico,Brazil,Soviet Union,Outros
0,1,0,0,1,0,0,0,0,0,0,0,0,0
1,1,0,0,1,0,0,0,0,0,0,0,0,0
2,1,0,0,1,0,0,0,0,0,0,0,0,0
3,1,0,0,1,0,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,0,0,0


In [7]:
# onehotencoding linguas
def onehotencoding_linguas(df, coluna):
    a_clusterizar = ['id', 'title', coluna]
    dataset_cluster = df[a_clusterizar].copy()
    
    # Fill None values with an empty string
    dataset_cluster[coluna] = dataset_cluster[coluna].fillna('')
    
    # Obtendo os valores únicos da coluna
    valores = linguas_principais['spoken_languages'].values
    
    # Criando um DataFrame com todas as colunas de uma vez para evitar erro de defragmentação
    one_hot_data = {
        valor: dataset_cluster[coluna].apply(lambda x: 1 if valor in x else 0)
        for valor in valores
    }
    dataset_coluna = pd.DataFrame(one_hot_data, index=dataset_cluster.index)
    
    return dataset_coluna

onehotlinguas = onehotencoding_linguas(dataset, 'spoken_languages')

print(onehotlinguas.columns)

Index(['English', 'French', 'Spanish', 'German', 'Japanese', 'No Language',
       'Italian', 'Outros'],
      dtype='object')


In [8]:
#Teste para checar se a tabela binária que passará pela clusterização foi feita corretamente
onehotlinguas.head()

Unnamed: 0,English,French,Spanish,German,Japanese,No Language,Italian,Outros
0,1,1,0,0,1,0,0,0
1,1,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0
3,1,0,1,0,0,0,0,0
4,1,0,0,0,0,0,0,0


In [9]:
#onehotencoding
def onehotencoding(df, coluna):
    a_clusterizar = ['id', 'title', coluna]
    dataset_cluster = df[a_clusterizar].copy()
    
    # Obtendo os valores únicos da coluna
    valores = dataset_cluster[coluna].str.split(', ').explode().unique()
    
    # Criando um DataFrame com todas as colunas de uma vez para evitar erro de defragmentação
    one_hot_data = {
        valor: dataset_cluster[coluna].apply(lambda x: 1 if valor in x else 0)
        for valor in valores
    }
    dataset_coluna = pd.DataFrame(one_hot_data, index=dataset_cluster.index)
    
    return dataset_coluna

In [10]:
#Clusterização
#Criando a tabela utilizando one-hot encoding
#Criando a tabela binária com os gêneros
bin_generos = onehotencoding(dataset, 'genres')

In [11]:
#Teste para checar se a tabela binária que passará pela clusterização foi feita corretamente
bin_generos.head()

Unnamed: 0,Action,Science Fiction,Adventure,Drama,Crime,Thriller,Fantasy,Comedy,Romance,Western,Mystery,War,Animation,Family,Horror,Music,History,TV Movie,Documentary,nulo
0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,1,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,1,1,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0
4,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [12]:
# Juntando os atributos spoken_languages, production_countries e genres
combined_attributes = pd.concat([onehotlinguas, onehotpaises, bin_generos], axis=1)

# Exibindo as primeiras linhas do dataframe combinado
print(combined_attributes.head())

   English  French  Spanish  German  Japanese  No Language  Italian  Outros  \
0        1       1        0       0         1            0        0       0   
1        1       0        0       0         0            0        0       0   
2        1       0        0       0         0            0        0       0   
3        1       0        1       0         0            0        0       0   
4        1       0        0       0         0            0        0       0   

   United States of America  Germany  ...  Mystery  War  Animation  Family  \
0                         1        0  ...        0    0          0       0   
1                         1        0  ...        0    0          0       0   
2                         1        0  ...        0    0          0       0   
3                         1        0  ...        0    0          0       0   
4                         1        0  ...        0    0          0       0   

   Horror  Music  History  TV Movie  Documentary  nulo  

In [16]:
#elbowmethod
def elbowmethod(tabela_binaria):
    #Lista para preencher com a série de wcss
    wcss = []

    #Preenchendo a lista
    for k in range(1, 11):
        km = KModes(n_clusters=k, init='random', n_init=10, verbose=1, max_iter = 100, cat_dissim = jaccard_dissim_binary, random_state = 42)
        km.fit(tabela_binaria)
        wcss.append(km.cost_)
        
    #Criando o gráfico com a Plotly para demonstrar o resultado do Elbow Method
    fig = go.Figure()
    
    fig.add_trace(go.Scatter(
        x=list(range(1, 11)),
        y=wcss,
        mode='lines+markers',
        name='WCSS',
        line=dict(color='royalblue', dash='dash'),
        marker=dict(size=8)
    ))
    
    fig.update_layout(
        title='Elbow Method',
        xaxis_title='Número de Clusters (k)',
        yaxis_title='WCSS',
        xaxis=dict(tickmode='linear', tick0=1, dtick=1),
        template='plotly_white'
    )
    
    return fig

In [None]:
#Aplicando o elbowmethod
serie_wcss = elbowmethod(bin_generos)
serie_wcss.show()

In [None]:
#Criando os clusters com o valor ideal de k
clusters_generos = KModes(n_clusters=6, init='random', n_init=10, verbose=2, max_iter = 100, cat_dissim = jaccard_dissim_binary, random_state = 42)
clusters_generos.fit(bin_generos)

In [17]:
#Adicionando a coluna 'cluster'
dataset['cluster'] = clusters_generos.labels_

In [None]:
#Exibindo o dataframe agora com uma coluna 'cluster' apresentando o cluster em que cada registro ficou
dataset.head(10)

In [None]:
# Lista dos países principais
selected_countries = ['United States of America', 'France', 'Germany', 'Japan', 'United Kingdom', 'Canada', 'India', 'Italy', 'Brazil', 'Spain', 'Mexico', 'China']

# Função para criar as colunas dos países principais e a coluna 'Outros'
def create_country_columns(df, countries):
    # Fill None values with an empty string
    df['production_countries'] = df['production_countries'].fillna('')
    for country in countries:
        df[country] = df['production_countries'].apply(lambda x: 1 if country in x else 0)
    df['Outros'] = df['production_countries'].apply(lambda x: 1 if not any(country in x for country in countries) else 0)
    return df

# Aplicando a função ao dataset
dataset = create_country_columns(dataset, selected_countries)

# Exibindo as primeiras linhas do dataframe atualizado
dataset.head()