# <font color="#3A40A2">📘 Introducción al Aprendizaje No Supervisado - Parte práctica </font>

**Materia: Ciencia de Datos aplicada a los Negocios - Universidad de San Andrés**

**Autor: [Lucas BALDEZZARI](https://www.linkedin.com/in/lucasbaldezzari/)**

**2025**

---

## <font color="#004eb3">Temas de la Colab</font>

Para esta clase, los temas que veremos son:

- Repaso de Aprendisaje Supervisado (AS)
- Introducción al Aprendizaje No Supervisado
- Introducción a algoritmos de aprendizaje no supervisado.
- Introducción a técnicas de evaluación y validación de algoritmos no supervisados.

Es importante prestar atención a los siguientes íconos o emojis que aparezcan a lo largo de la Colab.

- 📘 **Teoría**: Conceptos teóricos.
- 📚 **Lectura**: Material adicional que puedes consultar para profundizar en el tema.
- 📊 **Ejemplo**: Ejemplo para demostrar y/o reforzar conceptos.
- 🔗 **Enlace**: Recursos externos que puedes visitar para obtener más información.
- ❓ **Pregunta**: Preguntas disparadas a lo largo del contenido para reflexionar sobre los ejemplos y conceptos tratados.
- 💻 **Código**: Indica que la celda de abajo es una celda con código y debe ser ejecutada para ver su contenido.

---

### 📘 <font color="#00b351">Repaso de Aprendisaje Supervisado (AS)</font>.

> El *Aprendizaje Supervisado* es una técnica de aprendizaje automático donde el modelo se entrena con un conjunto de datos etiquetados. Esto significa que cada entrada del conjunto de datos tiene una etiqueta o resultado conocido, lo que permite al modelo aprender a predecir resultados para nuevas entradas.

¿Por qué es importante el Aprendizaje Supervisado? El AS es fundamental en muchas aplicaciones prácticas, como la clasificación de correos electrónicos, el reconocimiento de voz, la predicción de precios o resolver problemas de clasificación. Permite a los modelos (máquina) aprender patrones a partir de datos históricos y hacer predicciones en situaciones futuras.

Ejemplos de Aprendizaje Supervisado incluyen:
- *Clasificación*: Asignar una etiqueta a una entrada, como clasificar correos electrónicos como "spam" o "no spam".
- **Regresión**: Predecir un valor continuo, como el precio de una casa basado en características como el tamaño, la ubicación y el número de habitaciones.
- **Detección de Anomalías**: Identificar datos que se desvían significativamente del comportamiento normal, como detectar fraudes en transacciones financieras.
- *Reconocimiento de Imágenes*: Identificar objetos o características en imágenes, como reconocer rostros en fotos.
- *Procesamiento de Lenguaje Natural (NLP)*: Analizar y comprender el lenguaje humano, como la clasificación de sentimientos en reseñas de productos.
- **Recomendación de Productos**: Sugerir productos a los usuarios basándose en sus preferencias y comportamientos anteriores.
- **Predicción de Series Temporales**: Predecir valores futuros basándose en datos históricos, como pronosticar la demanda de un producto.
- **Análisis de Sentimientos**: Evaluar opiniones o emociones expresadas en texto, como determinar si una reseña es positiva o negativa.
- Entre otros.

#### 📊 **<font color="#d6b302">Prediciendo precios de casas</font>**

Un problema clásico de regresión en el aprendizaje supervisado es la predicción del precio de una casa. En este caso, el modelo se entrena con un conjunto de datos que incluye características de las casas (como tamaño, ubicación, número de habitaciones) y sus precios correspondientes. Una vez entrenado, el modelo puede predecir el precio de una nueva casa basándose en sus características.


#### Set de datos

En este caso usaremos el set de datos llamado *"California Housing"*, que contiene información sobre casas en California, incluyendo características como el número de habitaciones, el tamaño del terreno y el precio de la casa. Este set de datos es ampliamente utilizado para demostrar técnicas de regresión en aprendizaje supervisado.

*IMPORTANTE*: Cada fila del set de datos representa un distrito de California.

💻 **Analizando nuestros datos** 💻

Lo primero que se debe hacer en cualquier problema, es analizar los datos que tenemos. Vamos a cargar el set de datos y a generar algunas tablas y gráficos para entender mejor la distribución de los datos y algunas características de las casas.

Para ver esto, deberás ejecutar las celdas de código que se encuentra debajo.

In [None]:
## **** CÓDIGO PYTHON ****

##Clonamos el repositorio para poder usar las funciones
## Esperar unos segundos hasta ver un 100% de descarga
# !git clone https://github.com/lucasbaldezzari/cdan.git

##importamos las funciones a usar
from funciones.intro_ans import *
from sklearn.model_selection import train_test_split

In [None]:
housing = get_housingdata()

print("La cantidad de datos es:", len(housing))

print("Primeras 5 filas del set de datos:")
housing.head()

❓ ¿Qué caracaterísticas (columnas) conforman nuestro set de datos? ❓

Como podemos ver, tenemos varias columnas que representan diferentes características de las casas, como el número de habitaciones, la media de la edad de las casas, y el precio medio de las casas para un distrito. Estas características son las que utilizaremos para entrenar nuestro modelo de regresión.

💻 Información resumida 💻

Vamos a analizar algunas columnas de nuestro set de datos de manera rápida.

Por favor, ejecuta la siguiente celda de código.

In [None]:
housing[["housing_median_age","total_rooms","median_income","median_house_value"]].describe()

La tabla anterior nos muestra algunas estadísticas descriptivas de las columnas seleccionadas. Por ejemplo, podemos ver que la edad media de las casas es de 28.6 años, el número total de habitaciones varía entre 2 y 39, y el ingreso medio es de aproximadamente 3.87 (en miles de USD). Además, el valor medio de las casas es de aproximadamente 206855 (en USD).

💻 Histogramas para analizar distribuciones 💻

Dicen que una imagen vale más que mil palabras, y en este caso, un gráfico puede ayudarnos a entender mejor la distribución de los datos. Vamos a generar algunos histogramas para visualizar la distribución de las características más importantes de las casas.

Por favor, ejecuta la siguiente celda de código.

In [None]:
plot_histograms(housing,(10,8))

--- ❓ ---

- ¿Qué información podemos obtener de los histogramas anteriores?
- Hemos visto que la media de la columna `median_house_value` es de aproximadamente $206855$ U$D. ¿Está bien este valor si miramos la distribución? ¿Recomendarías usar la media como una medida representativa del precio de las casas? ¿Por qué?
- ¿Crees que hay alguna característica que podría ser más relevante para predecir el precio de una casa? ¿Por qué?
- ¿Hay alguna característica que crees que no es relevante para predecir el precio de una casa? ¿Por qué?

--- ❓ ---

💻 **Visualizando datos geográficos** 💻

Ahora vamos a generar un gráfico del tipo "dispersión" para visualizar la distribución de las casas en California. En este gráfico, cada punto representará una casa y su color indicará el precio de la casa. Esto nos permitirá ver cómo se distribuyen los precios de las casas en diferentes áreas geográficas.

Por favor, ejecuta la siguiente celda de código.

In [None]:
makeSimpleScatterHousing(housing, (8,6))

💻 **Mejorando la visualización geográfica** 💻

Vamos a generar un gráfico que muestre el mapa de California con la distribución de los distritos como puntos en el mapa, además, cada punto tendrá un color que representa el precio de la casa, finalmente, el diámetro de cada punto será proporcional a la población dentro del distrito. Esto nos permitirá visualizar la distribución geográfica de los precios de las casas en California.

In [None]:
makeBetterScatterHousing(housing, (8,6))

El gráfico anterior es mucho más informativo. Podemos ver, que en general, os distritos más están sobre la costa (lo cual es lo esperable).

💻 **Entrenando un regresor** 💻

Queremos predecir el precio de una casa en función de sus características. Para esto, vamos a entrenar un modelo de regresión lineal utilizando el set de datos de California Housing. Este modelo aprenderá a predecir el precio de una casa basándose en las características que hemos analizado anteriormente.

Por favor, ejecuta la siguiente celda de código.

In [None]:
regresor = makeLinearRegressionPipeline(housing) ##cargamos el modelo

strat_train_set, strat_test_set = train_test_split(housing, test_size=0.2, stratify=housing["income_cat"], random_state=42)

training_set = strat_train_set.drop("median_house_value", axis=1)
training_labels = strat_train_set["median_house_value"].copy()
test_set = strat_test_set.drop("median_house_value", axis=1)
test_labels = strat_test_set["median_house_value"].copy()

##entrenamos el modelo
regresor.fit(training_set, training_labels)

Ahora que hemos entrenado el modelo, podemos hacer algunas predicciones. Veamos los valores de predicción para las primeras 3 casas del set de test.

Por favor, ejecuta la siguiente celda de código.

In [None]:
##hacemos algunas predicciones
print("Predicciones para las primeras 3 casas del set de test:")
predicciones = regresor.predict(test_set.head(3))
print(predicciones,end="\n\n")

print("Valores reales para las primeras 3 casas del set de test:")
print(test_labels.head(3).values)
print("Valores reales para las primeras 3 casas del set de test:",end="\n\n")

print("Errores de las predicciones:")
errores = (((predicciones / test_labels.head(3).values) - 1) * 100).round(2)
print(", ".join([f"{ratio:.1f}%" for ratio in errores]))

📚

Si estás interesado en profundizar cómo se entreno el modelo de regresión podes consultar el capítulo 2 del libro *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow* de Aurélien Géron.

También puedes consultar el siguiente artículo: [Regresión lineal con Scikit-learn](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares).

📚

---

### 📘 <font color="#00b351">Introducción al Aprendizaje No Supervisado (ANS)</font>

¿Qué es el Aprendizaje No Supervisado?

> El *Aprendizaje No Supervisado* es una técnica de aprendizaje automático donde el modelo se entrena con un **conjunto de datos no etiquetados**. Esto significa que el modelo debe encontrar patrones y estructuras en los datos sin ninguna guía externa.


¿Qué buscamos con el Aprendizaje No Supervisado?

> El objetivo del ANS es descubrir patrones ocultos en los datos, como grupos o clusters de datos similares, o reducir la dimensionalidad de los datos para facilitar su análisis. Esto es especialmente útil cuando no tenemos etiquetas o resultados conocidos para nuestros datos.

❓ **Preguntas para debatir con tus compañeroas/os** ❓

- ¿Cuáles son los objetivos principales del Aprendizaje No Supervisado?
- ¿Qué aplicaciones prácticas del ANS conoces o crees que podes usar?
- ¿Te ha tocado trabajar con ANS en algún proyecto? ¿Cómo fue tu experiencia?

---

### 📘 <font color="#00b351">Introducción a algoritmos de ANS para agrupamiento o clustering</font>

¿Qué es el clustering?

> El *clustering* es una técnica de ANS que agrupa datos similares en clusters o grupos. El objetivo es identificar estructuras subyacentes en los datos y agruparlos de manera que los datos dentro de un mismo grupo sean más similares entre sí que a los datos de otros grupos.

Existen muchos algoritmos de ANS para agrupamiento o clustering, pero algunos de los más comunes son:
- **K-means**: Agrupa datos similares en clusters o grupos. Utiliza la media de los puntos en cada cluster para representar el centro del cluster.
- **K-medoids**: Similar a K-means, pero utiliza medoids (puntos centrales y reales) en lugar de la media para representar los clusters.
- **DBSCAN**: Agrupa datos basándose en la densidad de puntos en el espacio.
- **Hierarchical Clustering**: Crea una jerarquía de clusters, permitiendo visualizar la relación entre ellos.

#### 📘 **<font color="#1eb59cff">Clustering con *K-means* </font>**

¿Qué es K-means?
> K-means es un algoritmo de agrupamiento que busca dividir un conjunto de datos en K

💻 ¿Cuantos grupos crees que hay en el siguiente gráfico? 💻

A continuación generaremos un gráfico de dispersión para visualizar la distribución de los datos y ver cuántos grupos podemos identificar visualmente. 

Este set de datos contiene las siguientes características:

| **Nombre de característica** | **Descripción de negocio**                                           |
|------------------------------|----------------------------------------------------------------------|
| media_visitas_diarias        | Cantidad promedio de visitas diarias al producto (popularidad)      |
| precio_unitario              | Precio en USD del producto (en cientos)                                           |
| unidades_vendidas_mensual    | Unidades vendidas por mes (en cientos)                               |
| valoracion_media             | Valoración media de usuarios (1 a 5).

Por favor, ejecuta la siguiente celda de código para cargar y ver las primeras filas del set de datos.

In [None]:
from funciones import utils ##importo funciones a usar

data = utils.transform_and_get_iris()
features = data.drop(columns="segmento")
segmentos = data["segmento"]
features.head()

Ahora, ejecuta la siguiente celda del código para generar un gráfico de dispersión que muestre la cantidad de visitas diarias y el precio unitario de los productos.

In [None]:
makeScatterForFakeData(features, col1="media_visitas_diarias",col2="precio_unitario", figsize=(8,6))

--- ❓ ---

Observando el gráfico anterior, ¿cuántos grupos crees que hay en los datos? ¿Puedes identificar visualmente los grupos?

--- ❓ ---

💻 Agrupando con K-means 💻

Ahora, vamos a aplicar el algoritmo K-means para agrupar los datos en K clusters. Para esto, primero debemos elegir el número de clusters K. En este caso, vamos a usar K=3, ya que es un valor comúnmente utilizado y parece adecuado para los datos que estamos analizando.

Si queres, podes cambiar el valor de K en la celda de código de abajo y probar que pasa para otros valores de K. NOTA: No es posible usar valores de K menores a 1, y te recomiendo que no uses valores mayores a 10 para este ejercicio.

Por favor, ejecuta la siguiente celda de código.

In [None]:
K = 3
makeKmeansAndPlot(features, n_clusters=K, col1="media_visitas_diarias",col2="precio_unitario", figsize=(8,6))

--- ❓ ---

Observando el gráfico anterior:

- ¿Crees que el número de clusters K=3 es adecuado para los datos? ¿Por qué? ¿Usarías otro valor de K? ¿Por qué?
- ¿Qué sucede cuando cambias el valor de K? ¿Cómo afecta esto a la visualización y a la agrupación de los datos?

--- ❓ ---

💻 Graficando con centroides 💻

Como hemos dicho, K-means agrupa los datos en K clusters y calcula un centroide para cada cluster. Vamos a graficar los centroides de los clusters junto con los datos originales para ver cómo se distribuyen los clusters y sus centroides.

Por favor, ejecuta la siguiente celda de código.

In [None]:
K = 3
makeKmeansAndPlot(features, n_clusters=K, col1="media_visitas_diarias",col2="precio_unitario", figsize=(8,6), centroides=True)

--- ❓ ---

Observando el gráfico anterior:

- ¿Qué podes decir acerca de los centroides de los clusters? En tu opinión, ¿son representativos de los datos en cada cluster?

--- ❓ ---