<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_2_Limpieza_Preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Ejercicio 2: Limpieza y Preprocesamiento de Datos**
## Identificación y tratamiento de valores atípicos, duplicados y valores faltantes.



## Introducción

En este ejercicio, aprenderemos a **limpiar y preprocesar datos** en un dataset industrial.  
Los datos del mundo real a menudo contienen valores duplicados, valores atípicos y valores faltantes, los cuales pueden afectar la calidad de los análisis y los modelos predictivos.  

 **Objetivos del ejercicio:**  
- Identificar y eliminar valores duplicados en el dataset.  
- Detectar outliers utilizando el **rango intercuartílico (IQR)**.  
- Aplicar técnicas de imputación de valores nulos (media, mediana y forward-fill).  
- Normalizar y estandarizar variables numéricas para mejorar la comparación de datos.  

**Conceptos clave:**  
- Detección y eliminación de duplicados  
- Manejo de valores nulos  
- Normalización y estandarización  


In [None]:
# Celda 1: Importación de librerías necesarias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilos para gráficos
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)

print("Librerías importadas correctamente.")



## Descripción del Dataset

Para este ejercicio, utilizaremos el dataset **"Control de calidad en circuitos electrónicos"**, alojado en GitHub.  
Este dataset contiene información sobre circuitos electrónicos y su funcionamiento en condiciones de prueba.

📂 **Fuente del dataset:**  
[GitHub - Control de calidad en circuitos electrónicos](https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_circuitos_electronicos.csv)

### **Estructura del dataset:**
| Columna               | Descripción |
|-----------------------|-------------|
| ID_componente        | Identificador único del componente |
| Voltaje_operación    | Voltaje de operación en V |
| Corriente_fuga      | Corriente de fuga en mA |
| Resistencia_circuito | Resistencia en Ohmios |
| Frecuencia_operación | Frecuencia de operación en MHz |
| Temperatura_prueba  | Temperatura de prueba en °C |
| Horas_operación     | Horas de funcionamiento del circuito |
| Proveedor_material  | Nombre del proveedor (categórico) |
| Modelo_chip         | Modelo del chip (categórico) |
| Método_prueba       | Método de prueba aplicado (categórico) |
| Fallo_circuito      | Variable objetivo (OK / KO) |


In [None]:
# Celda 2: Cargar el dataset desde GitHub

url_csv = "https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_circuitos_electronicos.csv"
...

# Mostrar las primeras filas del dataset
...


In [None]:
# Celda 3: Identificación y eliminación de duplicados
print(f"Número de registros duplicados: {duplicados}")
...

# Eliminar duplicados si existen
print("Duplicados eliminados.")
...

In [None]:
# Celda 4: Detección de valores atípicos (Outliers) usando IQR

def detectar_outliers_iqr(data, columna):
    Q1 = ...
    Q3 = ...
    IQR = Q3 - Q1
    umbral_inferior = ...
    umbral_superior = ...
    outliers = ...
    return outliers

# Detectar outliers en "Voltaje_operación"
outliers_voltaje = ...
print(f"Valores atípicos en Voltaje_operación: {len(outliers_voltaje)}")


In [None]:
# Celda 5: Identificación y manejo de valores nulos

print("Valores nulos por columna antes de la imputación:")
...

# Aplicación de técnicas de imputación
...

print("Valores nulos imputados correctamente.")


In [None]:

# Celda 6: Normalización y estandarización de datos

from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Aplicar MinMaxScaler a todas las variables numéricas
scaler = ...
df[[...]] = scaler.fit_transform(df[[...]])

# Aplicar StandardScaler a variables numéricas
std_scaler = ...
...

print("Normalización y estandarización aplicadas correctamente.")


In [None]:

# Celda 7: Visualización de la distribución de los datos

# Histograma de la variable Voltaje_operación después de la normalización
...

# Gráfico de barras para la variable objetivo "Fallo_circuito"
...



## Conclusiones

En este ejercicio hemos aplicado distintas técnicas de limpieza y preprocesamiento de datos en un dataset industrial.  


**¿Qué podríamos hacer a continuación?**  
- Aplicar métodos de eliminación de outliers para mejorar la calidad del dataset.  
- Evaluar otras técnicas de imputación de valores nulos, como KNN Imputer.  
- Preparar el dataset para un modelo de Machine Learning de clasificación de fallos en circuitos electrónicos.  
