In [None]:
# Ejemplo sencillo de PCA en un conjunto de datos bivariado

## Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Generar un conjunto de datos bivariado
np.random.seed(42)
x = np.random.normal(0, 1, 100)
y = 2 * x + np.random.normal(0, 1, 100)
data = np.column_stack((x, y))

# Visualización inicial de los datos
plt.figure(figsize=(8, 6))
plt.scatter(data[:, 0], data[:, 1], alpha=0.7, label='Datos originales')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Conjunto de datos original')
plt.legend()
plt.grid()
plt.show()

# Escalar los datos
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# Aplicar PCA
pca = PCA(n_components=2)
data_pca = pca.fit_transform(data_scaled)

# Visualizar los datos transformados (componentes principales)
plt.figure(figsize=(8, 6))
plt.scatter(data_pca[:, 0], data_pca[:, 1], alpha=0.7, label='Datos transformados (PCA)')
plt.axhline(0, color='red', linestyle='--', label='Ejes principales')
plt.axvline(0, color='blue', linestyle='--')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('Datos reducidos con PCA')
plt.legend()
plt.grid()
plt.show()

# Interpretación de los resultados
print("Varianza explicada por cada componente principal:", pca.explained_variance_ratio_)
print("Varianza total explicada:", np.sum(pca.explained_variance_ratio_))

# Conclusión
print("La reducción de dimensionalidad con PCA ha proyectado los datos en un nuevo espacio donde la mayor varianza está en la primera componente principal.")


# Notebook: PCA aplicado a Segmentación de Clientes

## Introducción
En este notebook, exploraremos cómo aplicar PCA (Análisis de Componentes Principales) para reducir la dimensionalidad del "Mall Customer Segmentation Data" y visualizar el impacto de esta técnica en el análisis de datos.

### Objetivos
1. Comprender cómo PCA transforma los datos para reducir dimensiones mientras conserva la varianza principal.
2. Aplicar PCA al conjunto de datos de segmentación de clientes.
3. Visualizar los datos reducidos y analizar los resultados.

---

## Estructura de la Clase

### 1. Introducción al PCA (30 minutos)

#### ¿Qué es PCA?
- Técnica de reducción de dimensionalidad.
- Proyección de datos en un espacio de menor dimensión preservando la máxima varianza.

#### Motivación
- Manejo de conjuntos de datos con muchas variables.
- Reducción de ruido y mejora de la interpretabilidad.

#### Conceptos clave
- **Varianza**: Representa la información de los datos.
- **Autovectores y autovalores**: Determinan las direcciones principales y su importancia.
- **Componentes principales**: Nuevas variables no correlacionadas.

---

## Implementación Práctica

### Paso 1: Importar bibliotecas necesarias
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
```

### Paso 2: Cargar los datos
```python
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mall_customers.csv"
data = pd.read_csv(url)
data.head()
```

### Paso 3: Explorar los datos
```python
print(data.info())
print(data.describe())

# Convertir género en valores numéricos para simplificar
data['Gender'] = data['Gender'].map({'Male': 0, 'Female': 1})

# Seleccionar características relevantes
df_features = data[['Gender', 'Age', 'Annual Income (k$)', 'Spending Score (1-100)']]
```

### Paso 4: Escalar los datos
```python
scaler = StandardScaler()
data_scaled = scaler.fit_transform(df_features)
```

### Paso 5: Aplicar PCA
```python
pca = PCA()
principal_components = pca.fit_transform(data_scaled)

# Variancia explicada acumulativa
explained_variance = np.cumsum(pca.explained_variance_ratio_)

plt.figure(figsize=(8, 5))
plt.plot(range(1, len(explained_variance) + 1), explained_variance, marker='o', linestyle='--')
plt.xlabel('Número de Componentes Principales')
plt.ylabel('Varianza Explicada Acumulativa')
plt.title('Método del Codo para PCA')
plt.show()

# Seleccionar las dos primeras componentes principales
pca = PCA(n_components=2)
principal_components_2d = pca.fit_transform(data_scaled)
```

### Paso 6: Visualizar los datos reducidos
```python
pca_df = pd.DataFrame(data=principal_components_2d, columns=['PC1', 'PC2'])
pca_df['Spending Score'] = data['Spending Score (1-100)']

plt.figure(figsize=(8, 6))
sns.scatterplot(x='PC1', y='PC2', hue='Spending Score', data=pca_df, palette='viridis')
plt.title('Visualización de Datos Reducidos con PCA')
plt.show()
```

### Paso 7: Conclusión
```python
print("Reducción de dimensionalidad completada. Visualización lista para análisis.")
```

---

## Ejercicio
- Cambiar el número de componentes principales y observar el impacto en la varianza explicada.
- Intentar aplicar clustering (como KMeans) sobre los datos reducidos para segmentar los clientes.

---

## Preguntas del Quiz
1. ¿Qué significa PCA y cuál es su propósito principal?
2. ¿Por qué es útil reducir la dimensionalidad en un conjunto de datos?
3. ¿Qué representan los autovectores en PCA?
4. ¿Qué se entiende por varianza explicada acumulativa?
5. ¿Cuál es el criterio para elegir el número óptimo de componentes principales?
6. ¿Cómo se preprocesan los datos antes de aplicar PCA?
7. ¿Qué ventaja tiene la reducción de ruido al usar PCA?
8. ¿Qué relación tiene PCA con los datos originales después de la transformación?
9. ¿Cómo se visualizan típicamente los datos después de aplicar PCA?
10. ¿Cuál es el impacto de no escalar los datos antes de aplicar PCA?


# Notebook: PCA aplicado a Segmentación de Clientes

## Introducción
En este notebook, exploraremos cómo aplicar PCA (Análisis de Componentes Principales) para reducir la dimensionalidad del "Mall Customer Segmentation Data" y visualizar el impacto de esta técnica en el análisis de datos.

### Objetivos
1. Comprender cómo PCA transforma los datos para reducir dimensiones mientras conserva la varianza principal.
2. Aplicar PCA al conjunto de datos de segmentación de clientes.
3. Visualizar los datos reducidos y analizar los resultados.

---

# Paso 1: Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Paso 2: Cargar los datos
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mall_customers.csv"
data = pd.read_csv(url)
data.head()

# Paso 3: Explorar los datos
print(data.info())
print(data.describe())

# Convertir género en valores numéricos para simplificar
data['Gender'] = data['Gender'].map({'Male': 0, 'Female': 1})

# Seleccionar características relevantes
df_features = data[['Gender', 'Age', 'Annual Income (k$)', 'Spending Score (1-100)']]

# Paso 4: Escalar los datos
scaler = StandardScaler()
data_scaled = scaler.fit_transform(df_features)

# Paso 5: Aplicar PCA
pca = PCA()
principal_components = pca.fit_transform(data_scaled)

# Variancia explicada acumulativa
explained_variance = np.cumsum(pca.explained_variance_ratio_)

plt.figure(figsize=(8, 5))
plt.plot(range(1, len(explained_variance) + 1), explained_variance, marker='o', linestyle='--')
plt.xlabel('Número de Componentes Principales')
plt.ylabel('Varianza Explicada Acumulativa')
plt.title('Método del Codo para PCA')
plt.show()

# Seleccionar las dos primeras componentes principales
pca = PCA(n_components=2)
principal_components_2d = pca.fit_transform(data_scaled)

# Paso 6: Visualizar los datos reducidos
pca_df = pd.DataFrame(data=principal_components_2d, columns=['PC1', 'PC2'])
pca_df['Spending Score'] = data['Spending Score (1-100)']

plt.figure(figsize=(8, 6))
sns.scatterplot(x='PC1', y='PC2', hue='Spending Score', data=pca_df, palette='viridis')
plt.title('Visualización de Datos Reducidos con PCA')
plt.show()

# Paso 7: Conclusión
print("Reducción de dimensionalidad completada. Visualización lista para análisis.")

---

# Ejercicio
- Cambiar el número de componentes principales y observar el impacto en la varianza explicada.
- Intentar aplicar clustering (como KMeans) sobre los datos reducidos para segmentar los clientes.
