<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_3_ETL_Transformacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Ejercicio 3: Integración y Transformación de Datos con ETL**
## Aplicación de un proceso ETL para consolidación de datos de múltiples fuentes.



## Introducción

En este ejercicio, aprenderemos a realizar un **proceso ETL (Extracción, Transformación y Carga)** utilizando datos provenientes de diferentes fuentes.  
La integración de datos es un paso crucial en cualquier pipeline de análisis, ya que permite consolidar información y prepararla para futuros análisis o modelos de Machine Learning.

### Objetivos del ejercicio:
- Cargar datasets desde distintas fuentes (CSV y JSON).
- Unificar y combinar los datasets utilizando operaciones de **merge** y **join**.
- Crear nuevas columnas a partir de los datos originales.
- Convertir variables categóricas a formato numérico con **one-hot encoding** y **label encoding**.
- Guardar el dataset transformado en un nuevo archivo para futuros análisis.

### Conceptos clave:
- Procesos ETL  
- Integración de datos  
- Transformación de variables  


In [None]:

# Celda 1: Importación de librerías necesarias

import pandas as pd
import numpy as np
import json

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# Configuración de opciones de visualización
pd.set_option("display.max_columns", None)

print("Librerías importadas correctamente.")



## Descripción de los Datos

Para este ejercicio, utilizaremos dos datasets de control de calidad industrial:
1. **Dataset principal (CSV):** "Control de calidad en empaques de alimentos".  
2. **Dataset complementario (JSON):** "Información adicional de proveedores".  

Estos datos nos permitirán realizar un proceso de integración para consolidar información relevante.

### **Fuente de los datasets:**  
- **CSV:** [Control de calidad en empaques de alimentos](https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_empaques.csv)  
- **JSON:** Dataset simulado con información de proveedores  

### **Estructura del dataset principal (CSV):**
| Columna               | Descripción |
|-----------------------|-------------|
| ID_envase            | Identificador único del envase |
| Peso_envase          | Peso del envase en gramos |
| Espesor_material     | Espesor del material en mm |
| Dureza_superficie    | Dureza de la superficie en N/mm² |
| Temperatura_sellado  | Temperatura de sellado en °C |
| Tiempo_prensado      | Tiempo de prensado en segundos |
| Proveedor_material   | Proveedor del material del envase (categoría) |
| Tipo_envase          | Tipo de envase (categoría) |
| Color_material       | Color del material (categoría) |
| Defecto_detectado    | Tipo de defecto detectado en el envase (multiclase) |

### **Estructura del dataset complementario (JSON):**
| Columna               | Descripción |
|-----------------------|-------------|
| Proveedor_material   | Nombre del proveedor |
| País_origen         | País de origen del proveedor |
| Calidad_certificada | Indica si el proveedor tiene certificación de calidad |


In [None]:

# Celda 2: Cargar el dataset principal desde GitHub (CSV)

url_csv = "https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_empaques.csv"
...

# Mostrar las primeras filas del dataset
...


In [None]:

# Celda 3: Crear y cargar el dataset complementario (JSON)

# Definimos un conjunto de datos ficticio en formato JSON para simular la información de proveedores
json_data = '''
[
    {"Proveedor_material": "Proveedor_1", "País_origen": "España", "Calidad_certificada": "Sí"},
    {"Proveedor_material": "Proveedor_2", "País_origen": "Francia", "Calidad_certificada": "No"},
    {"Proveedor_material": "Proveedor_3", "País_origen": "Alemania", "Calidad_certificada": "Sí"},
    {"Proveedor_material": "Proveedor_4", "País_origen": "Italia", "Calidad_certificada": "No"}
]
'''

# Cargar el JSON como un DataFrame
...

# Mostrar las primeras filas del dataset
...


In [None]:

# Celda 4: Unificación de los datasets

# Realizamos un merge entre el dataset principal y el dataset complementario en base a la columna "Proveedor_material"
...

# Mostrar las primeras filas del dataset unificado
...


In [None]:

# Celda 5: Creación de nuevas columnas

# Crear una columna binaria llamada Calidad_certificada indicando si el proveedor tiene certificación de calidad usando una función map
...

# Extraer información adicional de "Tipo_envase"
df_merged["Tipo_envase_num"] = df_merged["Tipo_envase"].str.extract("(\d+)").astype(float)

print("Nuevas columnas creadas correctamente.")
...


In [None]:

# Celda 6: Transformación de variables categóricas

# Aplicar Label Encoding a la columna "País_origen" nombrando la nueva columna "País_origen_encoded"
label_encoder = ...
...

# Aplicar One-Hot Encoding a la columna "Color_material"
...

print("Transformaciones aplicadas correctamente.")
...


In [None]:

# Celda 7: Guardar el dataset transformado en un archivo CSV

output_file = "control_calidad_empaques_transformado.csv"
...

print(f"Dataset transformado guardado como {output_file}.")



## Conclusiones

...

### Posibles mejoras:
- Implementar validaciones para la limpieza de datos antes de la integración.
- Aplicar estrategias de manejo de valores faltantes en datasets más complejos.
- Explorar la normalización o escalado de variables para mejorar la preparación de datos.
