<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%203/Modulo_3_Ejercicio_6_PCA_3_Componentes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Ejercicio 6: Reducción de Dimensionalidad con PCA para Análisis de Calidad**
#### Aplicación de Análisis de Componentes Principales (PCA) para reducir la dimensionalidad en control de calidad

### **Introducción**
En este ejercicio, aplicaremos Análisis de Componentes Principales (PCA) para reducir la dimensionalidad de un conjunto de datos de control de calidad en empaques de alimentos. El objetivo es mantener la mayor cantidad de información relevante mientras se reduce el número de variables, facilitando el análisis y mejorando la eficiencia de los modelos de clasificación.

In [None]:
# Celda 1
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Configuración de gráficos
sns.set(style='whitegrid')

### **Descripción del dataset**
Se utilizará el dataset "Control de calidad en empaques de alimentos", que contiene información sobre las propiedades físicas de los envases y su calidad. Este conjunto de datos es ideal para aplicar PCA, ya que permite analizar la reducción de dimensionalidad sin perder información crítica sobre los defectos detectados en los empaques.

In [None]:
# Celda 2
dataset_path = 'https://github.com/dtoralg/IE_Calidad_ML/raw/main/Data/control_calidad_empaques.csv'
...

# Mostrar las primeras filas del dataset
...

In [None]:
# Celda 3
# Información general del dataset
...

In [None]:
# Celda 4
# Resumen estadístico
...

In [None]:
# Celda 5
# Distribución de la variable objetivo 'Defecto_detectado'
...

### **Preprocesamiento de los datos**
Se seleccionan las variables numéricas y se normalizan antes de aplicar PCA.

In [None]:
# Celda 6
# Seleccionar solo las variables numéricas para PCA
...

# Normalización de los datos
...


### **Aplicación de PCA**
Se aplica PCA para reducir la dimensionalidad del dataset y se analiza la varianza explicada.

In [None]:
# Celda 7
# Aplicar PCA con 5 componentes
...

# Visualizar la varianza explicada
...

### **Comparación del modelo de clasificación antes y después de PCA**
Se entrena un modelo de clasificación antes y después de aplicar PCA, utilizando solo los 3 primeros componentes. Usaremos un modelo RandomForest muy básico para testear como la reducción de dimensionalidad mejora los cálculos.

In [None]:
# Celda 8
# Preparar la variable objetivo
y = ...

# Seleccionar solo los 3 primeros componentes de PCA, ya que con ellos explicamos el 60% de la varianza
# y nos permiten reducir un 40% el numero de parámetros, y por tanto la carga computacional.
X_pca_3 = ...

# Dividir datos originales en entrenamiento y prueba
X_train, X_test, y_train, y_test = ...

# Dividir datos transformados por PCA en entrenamiento y prueba
X_train_pca, X_test_pca, _, _ = ...

# Modelo de clasificación sin PCA
clf_original = RandomForestClassifier(random_state=42)
clf_original.fit(X_train, y_train)
y_pred_original = clf_original.predict(X_test)
accuracy_original = accuracy_score(y_test, y_pred_original)

# Modelo de clasificación con PCA (3 componentes principales)
clf_pca = RandomForestClassifier(random_state=42)
clf_pca.fit(X_train_pca, y_train)
y_pred_pca = clf_pca.predict(X_test_pca)
accuracy_pca = accuracy_score(y_test, y_pred_pca)

print(f'Precisión del modelo sin PCA: {accuracy_original:.2f}')
print(f'Precisión del modelo con PCA (3 componentes): {accuracy_pca:.2f}')

### **Conclusiones**
En este ejercicio, aplicamos PCA para reducir la dimensionalidad del dataset de control de calidad en empaques de alimentos. Se analizó la varianza explicada por cada componente y se comparó el desempeño de un modelo de clasificación antes y después de la reducción de dimensionalidad.

Se observó que PCA permite reducir la cantidad de variables mientras conserva la mayor parte de la información, aunque puede haber una ligera pérdida de precisión en el modelo de clasificación. Este compromiso entre dimensionalidad y precisión es clave en el análisis de datos en control de calidad.