<a href="https://colab.research.google.com/github/yuli206/mi-proyecto/blob/main/3_taller_pca.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/4_Aprendizaje_no_supervisado/3_Taller_PCA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# **Taller: An√°lisis de Componentes Principales - PCA**

**IMPORTANTE**: Guarda una copia de este notebook en tu Google Drive o computador.

**Taller en parejas**

**Nombres estudiantes:**

-Yuli Fernanda Esquivel Martinez

-Mar√≠a Jos√© Gonz√°lez Serrano

**Forma de entrega**

Jupyter Notebook publicado en su cuenta de Github con el nombre ‚ÄúTaller_PCA_apellidos_estudiantes.ipynb‚Äù.

**Plazo de entrega**

Hoy, 21 de octubre, m√°ximo a las 11:59 p.m., debes enviar link del notebook al correo lina.castro6@uexternado.edu.co, de lo contrario, no ser√° tenido en cuenta.

**Instrucciones Generales**

Completa el c√≥digo en las celdas marcadas con `### TU C√ìDIGO AQU√ç ###`. Puedes a√±adir m√°s celdas si lo requieres.

**Caso de Estudio: Consultor√≠a para "Inversiones Inmobiliarias S.A."** üè¢

**El Escenario:**

Acaban de ser contratados como analistas de datos en **"Inversiones Inmobiliarias S.A."**, una firma l√≠der en el sector de bienes ra√≠ces en la regi√≥n. La firma est√° buscando expandir sus operaciones, pero se enfrenta a un desaf√≠o com√∫n: el mercado inmobiliario es complejo y est√° influenciado por una multitud de factores.

**El Problema:**

El equipo de valoraci√≥n de propiedades actualmente utiliza modelos basados principalmente en metros cuadrados y n√∫mero de habitaciones. Sin embargo, saben que factores como la **ubicaci√≥n** (proximidad a parques, hospitales, transporte), la **seguridad** (tasa de criminalidad) y las **caracter√≠sticas intr√≠nsecas** de la propiedad (ba√±os, tama√±o) interact√∫an de formas complejas. Tienen muchos datos (`houses.csv`), pero les cuesta extraer una visi√≥n clara y concisa de qu√© define realmente el "atractivo" de una propiedad m√°s all√° de lo obvio. Comparar propiedades con perfiles multidimensionales diferentes es dif√≠cil y propenso a errores.

**Su Misi√≥n (como consultores):**

La direcci√≥n les ha encargado aplicar t√©cnicas avanzadas de *machine learning* para abordar este problema. Espec√≠ficamente, quieren que utilicen el **An√°lisis de Componentes Principales (PCA)** para:

1.  **Reducir la Complejidad:** Tomar las m√∫ltiples caracter√≠sticas de las propiedades y destilarlas en un n√∫mero menor de "factores" o "√≠ndices" clave que capturen la esencia de lo que impulsa el valor.
2.  **Crear √çndices Interpretables:** No basta con reducir dimensiones; deben poder explicar qu√© significan estos nuevos √≠ndices en t√©rminos de negocio (ej. "√çndice de Tama√±o y Comodidades", "√çndice de Calidad de Ubicaci√≥n").

**Su Entregable:**

Deber√°n completar este Jupyter Notebook, realizando el an√°lisis de PCA sobre el dataset `houses.csv`, interpretando los componentes principales y creando las visualizaciones solicitadas. Sus conclusiones ser√°n presentadas al comit√© de inversiones para ayudarles a tomar decisiones m√°s informadas.

# 1. Importa las librer√≠as necesarias

In [None]:
### TU C√ìDIGO AQU√ç ###
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA

### Mejorar visualizaci√≥n de dataframes y gr√°ficos

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

# Configuraciones para una mejor visualizaci√≥n
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

# 2 Carga el dataset "houses.csv" que se encuentra en el repositorio del curso, carpeta "datasets" y muestra las primeras 5 filas.

In [None]:
### TU C√ìDIGO AQU√ç ###
dataset=pd.read_csv('houses.csv')

In [None]:
dataset.head()

Unnamed: 0,Id,Region,Bedrooms,Bathrooms,Square_Meters,Dist_to_Park,Dist_to_Hospital,Dist_to_Underground,Dist_to_School,Crime_Rate,Price
0,0,South,1,1,53,592,2436,2663,963,High,550353
1,1,East,3,2,70,640,652,2532,510,High,780430
2,2,North,2,2,79,1831,1485,7837,586,Medium,455771
3,3,West,6,5,189,255,974,2523,1152,Low,766631
4,4,West,7,6,199,1602,584,9690,615,Medium,757092


# 3. An√°lisis Exploratorio y Preprocesamiento de Datos

PCA tiene dos requisitos fundamentales:
1.  **Solo funciona con variables num√©ricas.**
2.  **Es muy sensible a la escala de las variables.**

Por lo tanto, nuestro trabajo en esta secci√≥n es: identificar las variables relevantes, convertirlas a un formato num√©rico y estandarizarlas.

## 3.1. Revisa si hay valores nulos y muestra el tipo de dato de cada una de las columnas

In [None]:
### TU C√ìDIGO AQU√ç ###
dataset.isna().sum()

Unnamed: 0,0
Id,0
Region,0
Bedrooms,0
Bathrooms,0
Square_Meters,0
Dist_to_Park,0
Dist_to_Hospital,0
Dist_to_Underground,0
Dist_to_School,0
Crime_Rate,0


In [None]:
dataset.dtypes

Unnamed: 0,0
Id,int64
Region,object
Bedrooms,int64
Bathrooms,int64
Square_Meters,int64
Dist_to_Park,int64
Dist_to_Hospital,int64
Dist_to_Underground,int64
Dist_to_School,int64
Crime_Rate,object


## 3.2. Codifica las Variables Categ√≥ricas Region y Crime_Rate

* **Region:** Es una variable nominal (no hay un orden inherente). Por tanto, usa **One-Hot Encoding**. Incluye en el c√≥digo drop_first=True y dtype=int.
* **Crime_Rate:** Es una variable ordinal (Low < Medium < High). Por tanto, dale un valor num√©rico seg√∫n este diccionario: mapping = {'High': 3, 'Medium': 2, 'Low': 1}

In [None]:
dataset['Region'].value_counts(dropna=False)

Unnamed: 0_level_0,count
Region,Unnamed: 1_level_1
South,406
West,353
North,125
East,116


In [None]:
### TU C√ìDIGO AQU√ç ###
dummies = pd.get_dummies(dataset['Region'], prefix='Region', drop_first=True, dtype=int, dummy_na=True)
dataset = pd.concat([ dataset, dummies], axis=1)
dummies.head()


Unnamed: 0,Region_North,Region_South,Region_West,Region_nan
0,0,1,0,0
1,0,0,0,0
2,1,0,0,0
3,0,0,1,0
4,0,0,1,0


## 3.3. Selecci√≥n y Estandarizaci√≥n de Variables

Ahora seleccionaremos todas las variables predictoras (features) y las estandarizaremos. La estandarizaci√≥n (dejar cada variable con media 0 y desviaci√≥n est√°ndar 1) es **crucial**. Si no lo hici√©ramos, la variable con la mayor escala (por ejemplo, `Square_Meters`) dominar√≠a el an√°lisis de PCA, ya que PCA busca maximizar la varianza.

In [None]:
# Seleccionamos las columnas que usaremos para PCA
# Excluimos el ID, las categ√≥ricas originales y el precio (nuestra variable respuesta)
features = ['Bedrooms', 'Bathrooms', 'Square_Meters', 'Dist_to_Park',
            'Dist_to_Hospital', 'Dist_to_Underground', 'Dist_to_School',
            'Crime_Rate_Encoded', 'Region_North', 'Region_South', 'Region_West']

X = df_houses[features]
y = df_houses['Price']

Estandariza las variables que se encuentran en X. Llama al nuevo objeto X_scaled.

In [None]:
### TU C√ìDIGO AQU√ç ###

print('Dimensiones de los datos estandarizados:', X_scaled.shape)

## 3.4. Grafica un mapa de calor para ver las correlaciones entre las variables predictoras (features).

In [None]:
### TU C√ìDIGO AQU√ç ###


## 3.5. Escribe un an√°lisis sobre las correlaciones observadas. Haz √©nfasis en las correlaciones m√°s altas (positivas o negativas).

# 4. Aplicando el An√°lisis de Componentes Principales (PCA)

Con los datos limpios y estandarizados, es hora de aplicar PCA. Nuestro objetivo es determinar cu√°ntos componentes principales necesitamos para capturar una cantidad significativa de la "informaci√≥n" (varianza) de nuestros datos originales.

## 4.1. Instancia PCA. No especifiques n_components para calcularlos todos. Ajusta PCA a los datos escalados.

In [None]:
### TU C√ìDIGO AQU√ç ###


## 4.2. Varianza Explicada

El aspecto m√°s importante de PCA es la **varianza explicada**. Cada componente principal explica un porcentaje de la varianza total de los datos. El primer componente siempre explica la mayor parte, el segundo un poco menos, y as√≠ sucesivamente.

Grafica la varianza explicada acumulada para decidir cu√°ntos componentes son suficientes.

In [None]:
### TU C√ìDIGO AQU√ç ###


Este gr√°fico es nuestra herramienta de decisi√≥n. Nos muestra el **trade-off entre simplicidad e informaci√≥n**.
- Si queremos el modelo m√°s simple posible, podr√≠amos usar 2 o 3 componentes, pero solo explicar√≠amos 40-50% de la variabilidad en los datos (perder√≠amos mucha informaci√≥n).
- Una regla com√∫n en la industria es mantener suficientes componentes para explicar entre el 90% y el 95% de la varianza.

## 4.3. ¬øCon cu√°ntos componentes se captura el 90% de la informaci√≥n contenida en nuestras 11 variables originales?

# 5. Re-aplicando PCA indicando el N√∫mero de Componentes Deseados

Corre PCA de nuevo, pero esta vez especificando que queremos quedarnos con 4 componentes.

In [None]:
### TU C√ìDIGO AQU√ç ###


Hemos reducido las dimensiones, pero ¬øqu√© significan estas nuevas 4 variables? Para un economista, esta es la parte m√°s importante. Debemos "bautizar" a nuestros componentes entendiendo qu√© variables originales los componen.

Esto lo hacemos analizando los **loadings** (cargas o pesos) de cada variable original en cada componente.

## 5.1. Grafica el mapa de calor de los loadings

In [None]:
### TU C√ìDIGO AQU√ç ###


## 5.2. Realiza una interpretaci√≥n de los componentes. ¬øCu√°les variables tienen las cargas altas y positivas y cu√°les las cargas altas y negativas? De acuerdo con este an√°lisis, ¬øqu√© nombre le dar√≠as a cada componente?