# Clusterização: K-Means - Pagamentos de Dívida

## Importação das bibliotecas

In [None]:
# Pacotes de preparação dos dados
import numpy as np
import pandas as pd

# Pacotes gráficos
import matplotlib.pyplot as plt
import seaborn as sns

# Pacotes de modelagem
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

## Importação da base de dados

In [None]:
df_pag = pd.read_csv('pagamento.csv')
df_pag.head()

## Preparação dos Dados

### Missing Values

In [None]:
df_pag.isnull().sum()

### Duplicações

In [None]:
df_pag.info()

In [None]:
df_pag.duplicated().sum()

In [None]:
df_pag.loc[df_pag.duplicated()].sort_values('Renda_Presumida')

In [None]:
df_pag.drop_duplicates(inplace=True)

In [None]:
df_pag.duplicated().sum()

### Tipos de Variáveis

In [None]:
df_pag.info()

## Análise Exploratória dos Dados

### Dispersão por Classe

In [None]:
sns.pairplot(df_pag, 
             hue='Pagou_Divida');

In [None]:
sns.pairplot(df_pag);

## Desenvolvimento do Modelo: K-Means

### Padronização da Escala

In [None]:
# Seleção das variáveis
df_modelo = df_pag[['Renda_Presumida', 
                    'Idade']].copy()

# Padronização da Escala
x_scaler = StandardScaler()
x_scaler.fit(df_modelo)

df_modelo_scaled = pd.DataFrame(x_scaler.transform(df_modelo),
                                index=df_modelo.index,
                                columns=df_modelo.columns)

In [None]:
# Plotando Renda Presumida por Idade
plt.scatter(df_modelo_scaled['Renda_Presumida'],
            df_modelo_scaled['Idade']);

### Treinamento do Modelo
`Dica:` Utilize a função treina_modelo_kmeans para facilitar o treinamento e avaliação dos modelos com diferentes quantidades de clusters.

In [None]:
def treina_modelo_kmeans(df_scaled, k, plota_grafico=False):
    
    # Define e treina um modelo K-means
    modelo_km = KMeans(n_clusters=k, 
                       random_state=42)
    modelo_km.fit(df_scaled)
    
    # Obtém os clusters preditos
    cluster_predito = modelo_km.predict(df_scaled)
    
    # Plota os gráficos
    if plota_grafico:
        fig = plt.figure(figsize=(8,8))
        sns.scatterplot(df_scaled.iloc[:,0],                    
                        df_scaled.iloc[:,1],                    
                        hue=cluster_predito)
        
        sns.scatterplot(x=modelo_km.cluster_centers_[:,0],
                        y=modelo_km.cluster_centers_[:,1], 
                        marker='x', s=300, 
                        linewidth=4, color='red', zorder=10);

    return modelo_km , cluster_predito

#### Modelo com K=2

In [None]:
treina_modelo_kmeans(df_scaled=df_modelo_scaled, 
                     k=2,
                     plota_grafico=True);

#### Modelo com K=5

In [None]:
treina_modelo_kmeans(df_scaled=df_modelo_scaled, 
                     k=5,
                     plota_grafico=True);

#### Modelo com K=10

In [None]:
treina_modelo_kmeans(df_scaled=df_modelo_scaled, 
                     k=10,
                     plota_grafico=True);

### Identificação do número de clusters

In [None]:
# Utilizando o Método do Cotovelo (Elbow-curve)
range_n_clusters = np.arange(1, 11)
inercia = []
n_clust = []

for num_clusters in range_n_clusters:
    n_clust.append(num_clusters)
    modelo, clust_pred = treina_modelo_kmeans(df_modelo_scaled, 
                                              k=num_clusters)
    inercia.append(modelo.inertia_)

fig = plt.figure(figsize=(8,5))
graf = sns.lineplot(x=n_clust, y=inercia);
graf.figure.suptitle('Inércia por Número de Clusters');
graf.set_xlabel('Número de Clusters');
graf.set_ylabel('Inércia');

### Novo Modelo K-Means com 3 Clusters (K=3)

In [None]:
modelo_km3, cluster_predito = treina_modelo_kmeans(df_scaled=df_modelo_scaled, 
                                                   k=3, 
                                                   plota_grafico=True)

### Interpretação e Caracterização dos Clusters
**ATENÇÃO**: deve-se utilizar o método `predict` do modelo desenvolvido sobre o **DataFrame com as variáveis padronizadas** para identificar os clusters das observações no DataFrame original.

In [None]:
df_modelo['cluster'] = cluster_predito

In [None]:
df_modelo.groupby('cluster').describe().T

In [None]:
# Análise dos clusters em relação a Renda Presumida
fig = plt.figure(figsize=(8,5))
sns.boxplot(x='cluster',
            y='Renda_Presumida', 
            data=df_modelo);

In [None]:
# Análise dos clusters em relação a Idade
fig = plt.figure(figsize=(8,5))
sns.boxplot(x='cluster',
            y='Idade', 
            data=df_modelo);

### Avaliação dos Clusters em relação ao Pagamento
Como nesta base foram fornecidas as informações de Pagamento, avaliou-se também o percentual de clientes que pagou as dívidas em cada um dos clusters.

In [None]:
df_cluster_divida = pd.concat([df_modelo[['cluster']],
                               df_pag[['Pagou_Divida']]], 
                              axis=1)
df_cluster_divida.head()

In [None]:
df_cluster_divida.pivot_table(values='Pagou_Divida', 
                              index='cluster')