<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Modulo_3_Ejercicio_5_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 5: Reducción de Dimensionalidad con PCA en Envases

## Objetivo
En este ejercicio aplicarás el Análisis de Componentes Principales (PCA) al dataset **control_calidad_envases.csv** para reducir la dimensionalidad de los datos a dos componentes. Esto te permitirá visualizar y comprender la estructura subyacente del conjunto de datos y evaluar qué tanta información se conserva tras la reducción.

### Pasos a seguir:
- Cargar el dataset de envases.
- Seleccionar las variables numéricas relevantes (por ejemplo, `Calidad`, `Defectos`, `Consistencia` y `Durabilidad`).
- Escalar las variables usando `StandardScaler` para que todas tengan la misma importancia.
- Aplicar PCA para reducir la dimensionalidad a 2 componentes.
- Visualizar los datos proyectados en un scatter plot.
- Validar que la reducción de dimensionalidad se realizó correctamente.

¡Manos a la obra!

## 1. Importación de Librerías y Carga del Dataset

Importa las librerías necesarias y carga el archivo **control_calidad_envases.csv**. Se asume que el archivo se encuentra en el mismo directorio que este notebook.

In [None]:
# Importar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Cargar el dataset de calidad de envases
df_envases = pd.read_csv('control_calidad_envases.csv')

# Mostrar las primeras filas para verificar la carga
print("Primeras filas del dataset de envases:")
display(df_envases.head())

# Información general del DataFrame
print("Información del dataset de envases:")
display(df_envases.info())

# Estadísticas descriptivas
print("Estadísticas descriptivas del dataset de envases:")
display(df_envases.describe())

## 2. Selección y Escalado de Variables Numéricas

Selecciona las variables numéricas relevantes para el análisis. En este ejercicio utilizaremos las columnas **Calidad**, **Defectos**, **Consistencia** y **Durabilidad**. Luego, aplicaremos escalado para homogenizar la importancia de cada variable.

In [None]:
# Seleccionar las variables numéricas
numeric_features = ['Calidad', 'Defectos', 'Consistencia', 'Durabilidad']
df_numeric = df_envases[numeric_features].copy()

# Aplicar StandardScaler
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df_numeric), columns=numeric_features)

print("Variables numéricas escaladas:")
display(df_scaled.head())

## 3. Aplicación de PCA para Reducción de Dimensionalidad

Ahora aplicarás PCA para reducir la dimensionalidad del conjunto de datos escalado a 2 componentes. Esto te ayudará a visualizar los datos en un espacio bidimensional y a entender cuánta variación se conserva.

In [None]:
# Aplicar PCA para reducir a 2 componentes
pca = PCA(n_components=2)
df_pca = pd.DataFrame(pca.fit_transform(df_scaled), columns=['PC1', 'PC2'])

# Mostrar la varianza explicada por cada componente
print("Varianza explicada por cada componente:")
print(pca.explained_variance_ratio_)

# Visualizar los datos proyectados en 2D
plt.figure(figsize=(8,6))
sns.scatterplot(x='PC1', y='PC2', data=df_pca, alpha=0.8)
plt.title('Visualización de los datos mediante PCA')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.show()

## 4. Sistema de Testeo Automático

Este bloque verificará que:

- El DataFrame original de envases no esté vacío.
- Existan las columnas numéricas utilizadas en el análisis.
- La lista de variables escaladas tenga la longitud correcta.
- El DataFrame resultante del PCA tenga 2 columnas (PC1 y PC2).

In [None]:
# Test 1: Verificar que el DataFrame original no está vacío
assert df_envases.shape[0] > 0, "Test fallido: El DataFrame original de envases está vacío."

# Test 2: Verificar que existen las columnas numéricas
for col in numeric_features:
    assert col in df_envases.columns, f"Test fallido: La columna {col} no se encontró en el DataFrame."

# Test 3: Verificar que el DataFrame escalado tiene el mismo número de columnas que numeric_features
assert df_scaled.shape[1] == len(numeric_features), "Test fallido: El número de columnas escaladas es incorrecto."

# Test 4: Verificar que el DataFrame PCA tiene 2 columnas
assert df_pca.shape[1] == 2, "Test fallido: El DataFrame del PCA no tiene 2 componentes."

print("Todos los tests se han pasado correctamente.")

## 5. Reflexión Final

1. ¿Qué porcentaje de la varianza total capturan los dos primeros componentes?
2. ¿Qué conclusiones puedes extraer sobre la estructura de los datos a partir de la visualización PCA?
3. ¿Crees que la reducción de dimensionalidad puede ayudar a simplificar el análisis en este contexto? ¿Por qué?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._