In [2]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Dados fictícios: características dos empréstimos
data = pd.DataFrame({
    "valor_divida": [5000, 20000, 7500, 12000, 8000, 15000, 30000, 40000],
    "tipo_devedor": [0, 1, 0, 1, 0, 1, 1, 1],  # 0 = pessoa física, 1 = pessoa jurídica
    "tempo_divida": [1, 5, 2, 4, 3, 6, 8, 10],  # Tempo vencido em anos
    "origem": [1, 2, 1, 3, 2, 3, 1, 2],  # Segmento/indústria (codificado)
    "default": [0, 1, 0, 1, 0, 0, 1, 1],  # 1 = Default, 0 = Não Default
})

# Selecionar variáveis para clusterização
X = data[["valor_divida", "tipo_devedor", "tempo_divida", "origem"]]

# Padronizar os dados (para melhorar a clusterização)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar K-Means
kmeans = KMeans(n_clusters=3, random_state=42)  # Escolher 3 clusters como exemplo
data["cluster"] = kmeans.fit_predict(X_scaled)

# Calcular a probabilidade de default para cada cluster
cluster_default_rates = data.groupby("cluster").apply(
    lambda x: x["default"].mean()
).reset_index(name="PD")

# Exibir resultados
print("\nProbabilidade de Default por Cluster:")
print(cluster_default_rates)

#Exibe os dados com a coluna cluster
print("\nDados com a coluna cluster:")
print(data)

# Exemplo de uso: atribuir um cluster e a PD correspondente para novos empréstimos
new_loans = pd.DataFrame({
    "valor_divida": [10000, 25000],
    "tipo_devedor": [0, 1],
    "tempo_divida": [3, 7],
    "origem": [2, 1],
})

# Padronizar novos empréstimos e atribuir cluster
new_loans_scaled = scaler.transform(new_loans)
new_loans["cluster"] = kmeans.predict(new_loans_scaled)





Probabilidade de Default por Cluster:
   cluster        PD
0        0  1.000000
1        1  0.000000
2        2  0.666667

Dados com a coluna cluster:
   valor_divida  tipo_devedor  tempo_divida  origem  default  cluster
0          5000             0             1       1        0        1
1         20000             1             5       2        1        2
2          7500             0             2       1        0        1
3         12000             1             4       3        1        2
4          8000             0             3       2        0        1
5         15000             1             6       3        0        2
6         30000             1             8       1        1        0
7         40000             1            10       2        1        0
