# Práctica Guiada de Laboratorio 6 - Curso IA 2025-1 Grupo 3 EPIS
# Implementación de técnicas de Machine Learning - c-means
### Prof. Rolando A. Maguiña Pérez

# Introducción
En la presente práctica, a realizarse el 05 de Abril del 2025, se presentará, a manera de ejemplo, el problema denominado “Predicción de préstamo” mediante la técnica  del  `Machine Learning` denominada `c-means`, la cual corresponde al aprendizaje no supervisado. Luego de la presentación del problema, se ajustarán los datos de modo que se formen agrupamientos mediante su respectivo algoritmo; luego, se evaluará sobre un conjunto de datos de validación si se han determinado correctamente dichos agrupamientos (modelo predictivo). Posteriormente podremos usar los agrupamientos formados para resolver el problema de clasificación subyacente.

En estas actividades no se usará la biblioteca de aprendizaje automático para el lenguaje de programación Python llamada  [scikit-learn](https://scikit-learn.org/stable/) para construir el algoritmo c-means. Este se construirá desde cero. Para el ejercicio propuesto (PGL6_IA_2025-1_c-means_EjercicioPropuesto.ipynb) sí deberá usarse dicha herramienta computacional.

Las principales actividades a desarrollar en esta práctica son:
* Instalación de la biblioteca llamada scikit-learn.
* Construcción de un par de algoritmos del área de la IA denominada  `Machine Learning` mediante el scikit-learn.
* Entrenamiento para obtener el modelo.
* Validación del modelo.
* Evaluación del modelo.

Luego de realizar estas actividades, se plantearán algunas preguntas que los alumnos deberán resolver.

# Objetivos
Los objetivos de esta Práctica son:
- Conocer la biblioteca de aprendizaje automático llamada `scikit-learn`.
- Conocer la implementación de un par de técnicas de Machine Learning con `scikit-learn`.
- Aprender las etapas del procesamiento de una data: entrenamiento/validación.
- Obtener el mejor modelo predictivo que resuelva el problema planteado.

**Nota: esta Práctica podrá desarrollarse en grupos de tres alumnos.**

# scikit-learn
## Introducción al scikit-learn
[scikit-learn](https://scikit-learn.org/stable/) es una de las herramientas computacionales más populares y usadas en Machine Learning. Incluye algoritmos para abordar problemas de clasificación, regresión y clustering; asimismo, para otras tareas relacionadas, tales como, reducción de dimensionalidad, preprocesamiento del dataset, entre otras.

Para esta Práctica se deberá instalar previamente, para luego ser usada en la resolución de un ejercicio.

## Instalación del scikit-learn
Instalar el scikit-learn siguiendo lo indicado en [Installing the latest release](https://scikit-learn.org/stable/install.html#install-official-release).

Se puede usar el sistema de gestión de paquetes llamado `pip` o el `conda`. Se recomienda usar el segundo de los nombrados.

# Predicción de préstamo
## Introducción al problema
La empresa `Dream Housing Finance` gestiona todo tipo de préstamos hipotecarios. Tiene presencia en zonas urbanas, semiurbanas y rurales. El cliente solicita un préstamo hipotecario después de que la empresa valide su elegibilidad. La empresa busca automatizar el proceso de elegibilidad para
préstamos (en tiempo real) basándose en los datos del cliente proporcionados al completar el formulario de solicitud en línea. Estos datos incluyen Género, Estado Civil, Educación, Número de Dependientes, Ingresos, Montos de los Préstamos, Historial Crediticio, entre otros. Para automatizar este proceso, se ha implementado un problema para identificar los segmentos de clientes elegibles para el préstamo, de modo que se pueda identificar específicamente a estos clientes.

## Planteamiento del problema ejm
Se trata del problema de la predicción de préstamos, un problema bastante conocido en esta área. La predicción de préstamos es un problema muy común en la vida real que todo banco minorista enfrenta al menos una vez en su vida. Si se realiza correctamente, puede ahorrar muchas horas de trabajo al final de la operación de un banco minorista.

A pesar de que abordaremos el problema como uno de agrupamiento o clustering, posteriormente permitirá resolver el problema de clasificación subyacente en el que tenemos que predecir si un préstamo será aprobado o no.

El dataset consta de 9 atributos (entradas):

1. Género.
2. Estado Civil.
3. Educación.
4. Número de Dependientes.
5. Ingresos.
6. Montos de los Préstamos,
7. Historial Crediticio
8. Área de la propiedad
9. Estado_préstamo

## Solución del problema ejm
Los pasos que vamos a dar para resolver este problema son los siguientes:  
  - Carga de los datos y módulos/bibliotecas necesarias para este ejemplo.
  - Exploración de los datos.
  - Ajuste de los datos mediaante algoritmo c-means.
  - Aplicación de los modelos para hacer predicciones a partir de lo «aprendido» y su respectiva evaluación para seleccionar el modelo más adecuado para este caso.

In [1]:
from IPython.display import Image, display
Image(filename=r"C:\Users\Laboratorio05\Downloads\dataset_cinco-filas.jpg")

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Laboratorio05\\Downloads\\dataset_cinco-filas.jpg'

### Carga de los módulos/bibliotecas y la data
Hay una gran variedad de bibliotecas (librerías) que tenemos disponibles y en cada una de ellas, a su vez, hay módulos distintos.  Pero para poder utilizar, tanto las librerías como los módulos,  hay que importarlos explícitamente.

Para el problema ejemplo importaremos primero los módulos/librerías que necesitamos para este experimento en particular.  A continuación, se cargará la data que está en el archivo CSV y leeremos las cinco primeras filas.

In [None]:
#import libraries
import pandas as pd
import numpy as np
import random as rd
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv(r"C:\Users\Laboratorio05\Downloads\clustering.csv")
data.head()

### Exploración de los datos

En esta etapa se analizarán las características de los datos, tales como su dimensión, qué aspecto tienen, se hará también un pequeño análisis estadístico de sus atributos y se les agrupará por clases. Cada una de estas acciones implica la ejecución  de un solo comando que, además se podrá reutilizar en proyectos futuros. En particular, se usará la función `shape`, que proporcionará las dimensiones del dataset, la función `head`, que mostrará los datos (se le puede indicar incluso el número de registros que se desea, muestre), y la función `describe`, que dará valores estadísticos sobre el dataset.

Verificamos las características del dataset. Usamos la clave `DESCR`, la cual proporciona una explicación de la estructura del conjunto de datos. Para leerlo, use la función print():

In [None]:
print('Características del dataset:')
print(data.describe)

Para esta Práctica, tomaremos sólo dos variables de los datos: `LoanAmount` ("Importe del Préstamo") y `ApplicantIncome` ("Ingresos del Solicitante"). Esto también facilitará la visualización de los pasos. Seleccionemos estas dos variables y visualicemos los puntos de datos:

In [None]:
X = data[["LoanAmount","ApplicantIncome"]]
#Visualise data points
plt.scatter(X["ApplicantIncome"],X["LoanAmount"],c='black')
plt.xlabel('AnnualIncome')
plt.ylabel('Loan Amount (In Thousands)')
plt.show()

Los pasos 1 y 2 de c-means consisten en elegir el número de clústeres (k) y seleccionar centroides aleatorios para cada clúster. Seleccionaremos tres clústeres y luego seleccionaremos observaciones aleatorias de los datos como centroides:   

In [None]:
# Step 1 and 2 - Choose the number of clusters (k) and select random centroid for each cluster

#number of clusters
K=3

# Select random observation as centroids
Centroids = (X.sample(n=K))
plt.scatter(X["ApplicantIncome"],X["LoanAmount"],c='black')
plt.scatter(Centroids["ApplicantIncome"],Centroids["LoanAmount"],c='red')
plt.xlabel('AnnualIncome')
plt.ylabel('Loan Amount (In Thousands)')
plt.show()

Aquí, los puntos rojos representan los 3 centroides de cada clúster. Tenga en cuenta que hemos elegido estos puntos aleatoriamente y, por lo tanto, cada vez que ejecute este código, podría obtener diferentes centroides.

A continuación, definiremos algunas condiciones para implementar el algoritmo de agrupamiento c-means. Veamos primero el código:

In [None]:
# Step 3 - Assign all the points to the closest cluster centroid
# Step 4 - Recompute centroids of newly formed clusters
# Step 5 - Repeat step 3 and 4

diff = 1
j=0

while(diff!=0):
    XD=X
    i=1
    for index1,row_c in Centroids.iterrows():
        ED=[]
        for index2,row_d in XD.iterrows():
            d1=(row_c["ApplicantIncome"]-row_d["ApplicantIncome"])**2
            d2=(row_c["LoanAmount"]-row_d["LoanAmount"])**2
            d=np.sqrt(d1+d2)
            ED.append(d)
        X[i]=ED
        i=i+1

    C=[]
    for index,row in X.iterrows():
        min_dist=row[1]
        pos=1
        for i in range(K):
            if row[i+1] < min_dist:
                min_dist = row[i+1]
                pos=i+1
        C.append(pos)
    X["Cluster"]=C
    Centroids_new = X.groupby(["Cluster"]).mean()[["LoanAmount","ApplicantIncome"]]
    if j == 0:
        diff=1
        j=j+1
    else:
        diff = (Centroids_new['LoanAmount'] - Centroids['LoanAmount']).sum() + (Centroids_new['ApplicantIncome'] - Centroids['ApplicantIncome']).sum()
        print(diff.sum())
    Centroids = X.groupby(["Cluster"]).mean()[["LoanAmount","ApplicantIncome"]]

Estos valores pueden variar cada vez que ejecutamos esto. En este caso, detenemos el entrenamiento cuando los centroides no cambian después de dos iteraciones. Inicialmente, definimos  *diff* como 1 y, dentro del bucle while, calculamos esta *diff* como la diferencia entre los centroides de la iteración anterior y la iteración actual.

Cuando esta diferencia es 0, detenemos el entrenamiento. Visualicemos ahora los clústeres obtenidos:


In [None]:
color=['blue','green','cyan']
for k in range(K):
    data=X[X["Cluster"]==k+1]
    plt.scatter(data["ApplicantIncome"],data["LoanAmount"],c=color[k])
plt.scatter(Centroids["ApplicantIncome"],Centroids["LoanAmount"],c='red')
plt.xlabel('Income')
plt.ylabel('Loan Amount (In Thousands)')
plt.show()

Aquí se puede visualizar claramente tres grupos. Los puntos rojos representan el centroide de cada grupo. Con el ejemplo presentado se espera que los alumnos hayan comprendido cómo funciona c-means.