[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ManuelEspejo/Machine-Learning-Bases/blob/main/notebooks/01_Aprendizaje-Supervisado.ipynb) üëàüèª‚Äã **Pulsar para abrir en Colab‚Äã**

# ¬øC√≥mo usar estos notebooks?

Si este es el primer notebook que abres en este repositorio, te recomiendo que antes leas el [Manual de uso de estos notebooks](https://github.com/ManuelEspejo/Machine-Learning-Bases/blob/main/docs/manual-notebooks.md) que he creado para que te familiarices con el proyecto y las distintas rutas que puedes seguir, luego puedes volver aqu√≠ y continuar.

En este notebook, vamos a profundizar en par de ejemplos pr√°cticos de aprendizaje supervisado.

Por otra parte, si a√∫n no has revisado el notebook "[00_Empieza-aqu√≠.ipynb](https://github.com/ManuelEspejo/Machine-Learning-Bases/blob/main/notebooks/00_Empieza-aqu√≠.ipynb)", te sugiero que le eches un vistazo primero para conocer los conceptos b√°sicos. Pero si ya tienes una idea clara de qu√© es el aprendizaje no supervisado y quieres verlo en acci√≥n, ¬°est√°s en el lugar correcto!

# 01. Aprendizaje No Supervisado

El **Aprendizaje No Supervisado** es un tipo de Machine Learning donde el modelo trabaja con datos que no tienen etiquetas predefinidas para encontrar patrones, relaciones y estructuras en los datos. Es como explorar un bosque sin un mapa, dejando que los datos "hablen por s√≠ mismos".

- En el aprendizaje supervisado, sabes cu√°l es la respuesta correcta (datos etiquetados).
- En el aprendizaje no supervisado, simplemente intentas encontrar una estructura significativa en los datos.

## ¬øPor qu√© es importante?

En muchos casos del mundo real, los datos no vienen con etiquetas. Imagina los millones de interacciones de clientes en un sitio web: ser√≠a inviable etiquetar manualmente cada una. Aqu√≠ es donde entra el aprendizaje no supervisado para ayudarnos a:

- Agrupar clientes con comportamientos similares (clustering).
- Reducir la complejidad de datos con cientos de variables (reducci√≥n de dimensionalidad).
- Identificar comportamientos an√≥malos, como transacciones fraudulentas (detecci√≥n de anomal√≠as).

## ¬øQu√© vamos a ver?

A lo largo de este notebook, exploraremos las t√©cnicas m√°s comunes de aprendizaje no supervisado:

- **Clustering con K-Means**: C√≥mo agrupar datos seg√∫n su similitud.
- **Reducci√≥n de Dimensionalidad con PCA**: C√≥mo simplificar datos complejos sin perder informaci√≥n clave.
- **Detecci√≥n de Anomal√≠as**: C√≥mo identificar datos que no siguen patrones normales.

> **üìö Recurso:** Si a√∫n no has explorado el aprendizaje supervisado, te recomiendo revisar el notebook anterior: [01_Aprendizaje-Supervisado.ipynb](https://github.com/ManuelEspejo/Machine-Learning-Bases/blob/main/notebooks/01_Aprendizaje-Supervisado.ipynb). Esto te ayudar√° a entender mejor las diferencias y complementar ambas t√©cnicas en tus proyectos.


**Empecemos**üöÄ

# √çndice de Contenidos

1. **Clustering: Segmentaci√≥n de Clientes**
   
   1.1. Descripci√≥n del Problema  
   1.2. Descargar el Dataset  
   1.3. Exploraci√≥n y Preprocesamiento de Datos  
   1.4. Selecci√≥n de Caracter√≠sticas  
   1.5. Escalado de los Datos  
   1.6. Visualizaci√≥n Inicial
   1.7. Aplicar K-Means  
   1.8. Evaluar la Calidad de los Clusters  
   1.9. Visualizaci√≥n de Clusters  
   1.10. Reflexiones y Mejoras  

2. **Reducci√≥n de Dimensionalidad: Visualizaci√≥n de Datos con PCA**
   
   2.1. Introducci√≥n a PCA  
   2.2. Aplicar PCA a los Datos  
   2.3. Visualizar los Resultados en 2D  
   2.4. Interpretaci√≥n de los Componentes Principales  
   2.5. Reflexiones sobre el uso de PCA  

3. **Detecci√≥n de Anomal√≠as: Identificaci√≥n de Transacciones At√≠picas**
   
   3.1. Descripci√≥n del Problema  
   3.2. Exploraci√≥n de Datos  
   3.3. Aplicar un Modelo de Detecci√≥n de Anomal√≠as  
   3.4. Visualizaci√≥n de los Resultados  
   3.5. Reflexiones sobre la Interpretaci√≥n de Anomal√≠as  

4. **Exploraciones Avanzadas**
   
   4.1. Combinaci√≥n de Clustering y PCA  
   4.2. Otros Algoritmos de Clustering (DBSCAN)  
   4.3. Visualizaci√≥n con T-SNE y UMAP  

5. **Ejercicios y Retos**
   
   5.1. Clustering con Datos Reales  
   5.2. Implementaci√≥n de PCA en un Dataset Propio  
   5.3. Experimentar con Detecci√≥n de Anomal√≠as  
   5.4. Preguntas para Reflexionar  



## 1.1. Descripci√≥n del Problema

Imagina que trabajas en un centro comercial y quieres mejorar las estrategias de marketing personalizadas. Por ejemplo, podr√≠as ofrecer promociones exclusivas seg√∫n el tipo de cliente. Sin embargo, no tienes etiquetas predefinidas para identificar a tus clientes (como "comprador frecuente" o "cliente ocasional").

Aqu√≠ es donde entra en juego el **Clustering** con **K-Means**, que nos ayudar√° a encontrar patrones y agrupar a los clientes seg√∫n sus similitudes. Una vez definidos estos grupos, podr√°s dise√±ar estrategias espec√≠ficas para cada segmento, como:

- Crear ofertas especiales para los clientes con alto potencial de gasto.
- Dise√±ar programas de fidelizaci√≥n para clientes con ingresos altos pero gasto moderado.

### Objetivos Espec√≠ficos

1. **Dividir autom√°ticamente a los clientes en grupos (clusters)** basados en su comportamiento de ingresos y gasto.
2. **Entender los patrones de comportamiento dentro de cada cluster**.
3. **Visualizar los resultados** para obtener insights √∫tiles.

## 1.2. Descargar el Dataset

Para este ejemplo pr√°ctico, utilizaremos el dataset de [clientes de un centro comercial](https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation-tutorial-in-python), que est√° disponible p√∫blicamente en Kaggle.

Los datos que tenemos en este dataset son los siguientes:

- **Identificador del cliente**: Un identificador √∫nico para cada cliente.
- **Edad**: Edad del cliente.
- **G√©nero**: G√©nero del cliente.
- **Ingresos Anuales (k$)**: Los ingresos anuales en miles de d√≥lares.
- **Puntuaci√≥n de Gasto (1-100)**: Una m√©trica de qu√© tan activamente gasta un cliente en el centro comercial.

Para descargar el dataset, necesitas estar registrado en Kaggle. Para simplificar las cosas, he subido este dataset a una carpeta compartida de Google Drive, puedes descargarla ejecutando el c√≥digo de abajo.


> **Nota:** Si est√°s usando Google Colab, los archivos se descargan en tu equipo de manera temporal mientras dure la sesi√≥n en el entorno de ejecuci√≥n, luego se borrar√°n y todo quedar√° limpio, si quieres guardarlos en tu sistema, tienes que descargarlos manualmente.

In [6]:
# Importar librer√≠as

import os
import sys

import pandas as pd


In [2]:
# Detectar si estamos en Colab
in_colab = 'google.colab' in str(get_ipython())

if in_colab:
    # Descargar el archivo helper_functions.py desde el repositorio de GitHub
    !mkdir -p /content/utils # Creamos una carpeta utils para que coincida con la estructura del repositorio
    !wget -O utils/helper_functions.py "https://raw.githubusercontent.com/ManuelEspejo/Machine-Learning-Bases/main/utils/helper_functions.py"
    data_dir = '/content/data' # Ruta de los datos
else:
    # Agregar el directorio ra√≠z al path de Python (Para ejecutar en local)
    notebook_dir = os.path.dirname(os.path.abspath('__file__'))
    project_dir = os.path.dirname(notebook_dir)
    sys.path.append(project_dir)
    data_dir = '../data/raw'

In [3]:
from utils.helper_functions import *  # noqa: F403

# Descargamos los datos desde el enlace compartido de google Drive
download_data('https://drive.google.com/uc?id=1J0xQpKr-UWiA7dxnIFfyOL0i9gR1wefd')

Descargando desde Google Drive...
Tama√±o del archivo ZIP: 1583 bytes
Contenido del ZIP: ['Mall_Customers.csv']

Archivos disponibles:
- bike_buyers.csv (87182 bytes)
- bike_buyers_clean.csv (86348 bytes)
- CC GENERAL.csv (902879 bytes)
- customer_feedback_satisfaction.csv (1963795 bytes)
- Mall_Customers.csv (3981 bytes)


In [7]:
# Cargar el dataset
data = pd.read_csv(data_dir + '/Mall_Customers.csv')

# Mostrar las primeras filas del dataset
data.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


En este dataset, dos variables destacan como especialmente relevantes para nuestro an√°lisis de clustering:

- **Annual Income (k$)**: Representa los ingresos anuales del cliente en miles de d√≥lares. Esta variable nos ayuda a identificar diferentes niveles de capacidad adquisitiva.
- **Spending Score (1-100)**: Una puntuaci√≥n asignada a cada cliente basada en su comportamiento de gasto en el centro comercial. Muestra qu√© tan activamente invierte un cliente en productos o servicios.

Juntas, estas variables nos permiten crear un mapa de segmentaci√≥n basado en la capacidad econ√≥mica y el comportamiento de consumo, dos pilares clave en la personalizaci√≥n de estrategias de marketing.

### **Comprobaci√≥n Inicial del Dataset**

Para entender mejor los datos, haremos una inspecci√≥n r√°pida de su estructura y contenido:

In [11]:
# Informaci√≥n general del dataset
print("Informaci√≥n general del dataset:")
data.info()
print("*" * 50)

# Resumen estad√≠stico de las columnas num√©ricas
print("Resumen estad√≠stico de las columnas num√©ricas:")
print(data.describe())
print("*" * 50)

# Verificar si hay valores faltantes
print("Valores faltantes por columna:")
print(data.isnull().sum())


Informaci√≥n general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   CustomerID              200 non-null    int64 
 1   Gender                  200 non-null    object
 2   Age                     200 non-null    int64 
 3   Annual Income (k$)      200 non-null    int64 
 4   Spending Score (1-100)  200 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 7.9+ KB
**************************************************
Resumen estad√≠stico de las columnas num√©ricas:
       CustomerID         Age  Annual Income (k$)  Spending Score (1-100)
count  200.000000  200.000000          200.000000              200.000000
mean   100.500000   38.850000           60.560000               50.200000
std     57.879185   13.969007           26.264721               25.823522
min      1.000000   18.000000           15.000000   

### Resumen de los datos

- **Informaci√≥n General**