<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_5_Feature_Engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Ejercicio 5: Feature Engineering y Transformación Avanzada de Datos**
## Creación de nuevas variables y reducción de dimensionalidad sin modelos supervisados.



## Introducción

En este ejercicio, exploraremos técnicas avanzadas de **Feature Engineering y Transformación de Datos** para mejorar la calidad y utilidad de la información en un dataset de control de calidad industrial.  
El **Feature Engineering** es un proceso clave en cualquier pipeline de análisis de datos, ya que permite extraer información relevante, reducir la dimensionalidad y mejorar la interpretabilidad de los datos.

### Objetivos del ejercicio:
- Crear nuevas variables a partir de transformaciones matemáticas y categóricas.
- Generar agregaciones sobre datos categóricos y temporales (media, suma, conteo por grupo).
- Aplicar técnicas de reducción de dimensionalidad sin modelos supervisados (selección de variables con varianza baja).
- Estandarizar las características del dataset para futuras aplicaciones.
- Comparar la distribución de los datos antes y después de la transformación.

### Conceptos clave:
- Feature engineering sin modelos de Machine Learning - llegaremos más adelante.
- Agregaciones de datos  
- Reducción de dimensionalidad con técnicas estadísticas  


In [None]:

# Celda 1: Importación de librerías necesarias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.feature_selection import VarianceThreshold

# Configuración de estilos para visualización
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)

print("Librerías importadas correctamente.")



## Descripción del Dataset

Para este ejercicio, utilizaremos el dataset **"Control de calidad en empaques de alimentos"**, alojado en GitHub.  
Este dataset contiene información sobre la calidad de empaques utilizados en la industria alimentaria.

### **Fuente del dataset:**  
- **CSV:** [Control de calidad en empaques de alimentos](https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_empaques.csv)

### **Estructura del dataset:**
| Columna               | Descripción |
|-----------------------|-------------|
| ID_envase            | Identificador único del envase |
| Peso_envase          | Peso del envase en gramos |
| Espesor_material     | Espesor del material en mm |
| Dureza_superficie    | Dureza de la superficie en N/mm² |
| Temperatura_sellado  | Temperatura de sellado en °C |
| Tiempo_prensado      | Tiempo de prensado en segundos |
| Proveedor_material   | Nombre del proveedor (categórico) |
| Tipo_envase          | Tipo de envase (categórico) |
| Color_material       | Color del material (categórico) |
| Defecto_detectado    | Tipo de defecto presente (multiclase) |


In [None]:

# Celda 2: Cargar el dataset desde GitHub

url_csv = "https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_empaques.csv"
...

# Mostrar las primeras filas del dataset
...


In [None]:

# Celda 3: Creación de nuevas variables

# Crear una variable de relación entre peso y espesor llamada "Densidad_material"
...

# Crear una variable "Eficiencia_proceso" (temperatura de sellado entre tiempo de prensado)
...

print("Nuevas variables creadas correctamente.")
...


In [None]:

# Celda 4: Generación de agregaciones sobre datos categóricos

# Calcular la media de dureza por cada proveedor de material
df_agg = ...

print("Agregaciones calculadas correctamente.")
...


In [None]:

# Celda 5: Aplicación de reducción de dimensionalidad con varianza baja

# Aplicar MinMaxScaler para normalizar los datos antes de la reducción en variables numéricas
scaler = ...
df_scaled = scaler.fit_transform(...)

# Aplicar selección de características con umbral de varianza baja (0.01 con VarianceThreshold)
selector = ...
df_reduced = ...

print(f"Dimensión original: {df_scaled.shape[1]} variables")
print(f"Dimensión después de la reducción: {df_reduced.shape[1]} variables")


In [None]:

# Celda 6: Comparación de la distribución de datos antes y después de la transformación

# Histograma de la variable Dureza_superficie antes y después de la normalización
...



## Conclusiones

En este ejercicio hemos aplicado técnicas avanzadas de **Feature Engineering y Transformación de Datos** para mejorar la calidad del dataset de control de calidad en envases de plástico.

### Puntos clave:
- Se crearon **nuevas variables** basadas en transformaciones matemáticas para mejorar la representación de los datos.
- Se generaron **agregaciones** sobre datos categóricos para analizar tendencias en proveedores de material.
- Se aplicó **reducción de dimensionalidad** utilizando la varianza baja como criterio de selección.
- Se comparó la **distribución de variables** antes y después de la normalización para evaluar los efectos de la transformación.

### Posibles mejoras:
- Explorar más transformaciones basadas en funciones logarítmicas y exponenciales.
- Aplicar técnicas avanzadas de reducción de dimensionalidad como PCA.
- Incorporar información temporal en futuras transformaciones de datos.
