# Reducción de Dimensionalidad con PCA: Comprar o Alquilar

## Introducción
En este notebook, se aplica el algoritmo de Análisis de Componentes Principales (PCA) para reducir la dimensionalidad del conjunto de datos `comprar_alquilar.csv`. El objetivo es identificar las componentes principales que explican al menos el 80% de la varianza, facilitando la interpretación y análisis de los datos.

## Carga y Preprocesamiento de Datos
En esta sección, se cargan los datos y se estandarizan las características numéricas para garantizar que todas las variables contribuyan equitativamente al modelo.

In [None]:

# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Cargar el conjunto de datos
data = pd.read_csv('comprar_alquilar.csv')

# Separar características y variable objetivo
X = data.drop(columns=['comprar'])
y = data['comprar']

# Estandarizar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Mostrar un resumen de los datos estandarizados
pd.DataFrame(X_scaled, columns=X.columns).head()


## Análisis de Componentes Principales
Se aplica PCA para calcular las componentes principales y analizar la proporción de varianza explicada. El objetivo es determinar cuántas componentes son necesarias para retener al menos el 80% de la varianza.

In [None]:

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Aplicar PCA y calcular la varianza explicada
pca = PCA()
X_pca = pca.fit_transform(X_scaled)
explained_variance_ratio = pca.explained_variance_ratio_
cumulative_variance = explained_variance_ratio.cumsum()

# Gráfica de varianza acumulada
plt.figure(figsize=(8, 5))
plt.plot(range(1, len(cumulative_variance) + 1), cumulative_variance, marker='o', linestyle='--')
plt.title('Varianza Acumulada por Componentes Principales')
plt.xlabel('Número de Componentes Principales')
plt.ylabel('Varianza Acumulada')
plt.grid(True)
plt.show()

# Determinar el número de componentes necesarias para alcanzar el 80% de varianza explicada
num_components_80 = (cumulative_variance >= 0.80).argmax() + 1
print(f"Número óptimo de componentes: {num_components_80}")


## Reducción de Dimensionalidad
Se reduce la dimensionalidad del conjunto de datos utilizando las componentes principales óptimas calculadas anteriormente.

In [None]:

# Aplicar PCA con el número óptimo de componentes
pca_optimal = PCA(n_components=num_components_80)
X_reduced = pca_optimal.fit_transform(X_scaled)

# Mostrar la proporción de varianza explicada por las componentes seleccionadas
explained_variance_optimal = pca_optimal.explained_variance_ratio_.sum()
print(f"Varianza explicada por las {num_components_80} componentes: {explained_variance_optimal:.2f}")


## Visualización e Interpretación de Resultados
Se genera una gráfica de las dos primeras componentes principales para analizar la distribución de los datos.

In [None]:

# Visualizar las dos primeras componentes principales
plt.figure(figsize=(10, 6))
scatter = plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='viridis', alpha=0.7)
plt.title('Visualización de las Primeras Dos Componentes Principales')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.colorbar(scatter, label='Comprar (0 = No, 1 = Sí)')
plt.grid(True)
plt.show()
