# K-Means analysis 

Los datos para este trabajo fueron tomados de la plataforma Kaggle:
https://www.kaggle.com/datasets/nanditapore/credit-risk-analysis?resource=download

## ¿Qué es K-means?
**K-means** es un algoritmo de clustering (agrupamiento) que se utiliza en aprendizaje no supervisado para dividir un conjunto de datos en grupos o clústeres basados en la similitud de sus elementos. El objetivo del algoritmo K-means es particionar los datos en K clústeres de tal manera que cada punto de datos pertenezca al clúster cuyo centroide (punto central) es el más cercano. En resumen, K-means busca encontrar K centroides que minimicen la suma de las distancias cuadradas entre los puntos de datos y sus centroides asignados.

**K-means++**, por otro lado, es una mejora del algoritmo K-means que se utiliza para inicializar los centroides de manera más eficiente y efectiva. En K-means tradicional, la inicialización de los centroides puede ser aleatoria, lo que puede llevar a soluciones subóptimas o convergencia a mínimos locales. K-means++ aborda este problema seleccionando los centroides iniciales de una manera que aumenta las posibilidades de converger a una solución de alta calidad.

Dentro del código de estre trabajo no se especifica de manera explícita que se está trabajando con K-Means++, pero por default sklearn.cluster.KMeans trabaja con la versión optimizada de este método de clustering.

## ¿En qué consiste la información del dataset seleccionado?
La descripción que se proporciona en la plataforma de Kaggle para este set de datos menciona lo siguiente: 
_"This dataset offers a simplified view of the factors that contribute to credit risk, making it an excellent opportunity for data scientists ..."_

## ¿Qué se busca analizar a través del uso de K-Means?
A través del uso de K-Means, se busca analizar y agrupar a los individuos o elementos en categorías o **clústeres que compartan similitudes en sus perfiles de riesgo crediticio**. Esto permitirá una comprensión más profunda de los factores que contribuyen al riesgo crediticio y facilitará la toma de decisiones informadas en el ámbito financiero. Los clústeres obtenidos pueden representar grupos de individuos con características crediticias similares, lo que puede ser útil para segmentar la clientela, identificar tendencias y patrones, y mejorar la gestión de riesgos crediticios.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans

# Cargamos el dataset
df = pd.read_csv('credit_risk.csv')

#Informacion del dataset
print(df.head())
print(df.info())
print(df.describe())

   Id  Age  Income      Home  Emp_length     Intent  Amount   Rate  Status  \
0   0   22   59000      RENT       123.0   PERSONAL   35000  16.02       1   
1   1   21    9600       OWN         5.0  EDUCATION    1000  11.14       0   
2   2   25    9600  MORTGAGE         1.0    MEDICAL    5500  12.87       1   
3   3   23   65500      RENT         4.0    MEDICAL   35000  15.23       1   
4   4   24   54400      RENT         8.0    MEDICAL   35000  14.27       1   

   Percent_income Default  Cred_length  
0            0.59       Y            3  
1            0.10       N            2  
2            0.57       N            3  
3            0.53       N            2  
4            0.55       Y            4  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32581 entries, 0 to 32580
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Id              32581 non-null  int64  
 1   Age             32581 non-null  int6

## Preparación de los datos

Se normalizan y limpian los datos, para después poder ser utilizados para el modelo de K-Means.

## Prueba de K-Means

Se generan distintos modelos de K-Means, variando el número de centroides utilizado. A través de esto logramos visualizar cómo es que se comporta la classificación para disntito número de agrupaciones, y determinar el optimo.

In [None]:
kmax   = 16
grupos = range(2, kmax)
wcss   = []
sil_score = []

# Ciclo para calcular K-Means para diferentes k
for k in grupos:
    # Clustering
    model = KMeans(n_clusters=k, random_state = 47)

    # Obtener las etiquetas
    clusters = model.fit_predict(X_norm)

    # Guardar WCSS
    wcss.append(model.inertia_)

    # Guardar Silhouette Score
    sil_score.append(silhouette_score(X_norm, clusters))

# Graficaremos el codo y silhouette score en la misma gráfica. Recorda que 
# subplots nos permite tener más gráficas en la misma figura.
fig, axs = plt.subplots(1, 2, figsize=(15, 6))

# Primera figura es el codo
axs[0].plot(grupos, wcss)
axs[0].set_title('Método del codo')

# La segunda es el Silhouette Score
axs[1].plot(grupos, sil_score)
axs[1].set_title('Silhouette Score')

## 'Predicción' o classificación de los datos

A traves de esta sección se busca poder visualizar las relaciones encontradas por el método de machine learning, para poder determinar cuales características definen los distintos perfiles de riesgo crediticio.

In [None]:
# Generamos los 6 grupos
model = KMeans(n_clusters=6, random_state=47)
clusters = model.fit_predict(X_norm)

# Agregamos los clusters a nuestros DATOS ORIGINALES
df['Grupo'] = clusters.astype('str')
df.head()