<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_4_EDA_Visualizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Ejercicio 4: Análisis Exploratorio de Datos (EDA) y Visualización**
## Aplicación de técnicas de EDA y visualización para comprender la estructura de los datos.



## Introducción

En este ejercicio, realizaremos un **Análisis Exploratorio de Datos (EDA)** para comprender la estructura y relaciones de los datos en un contexto de control de calidad industrial.  
El análisis exploratorio permite identificar patrones, anomalías y relaciones entre variables antes de aplicar modelos de Machine Learning.

### Objetivos del ejercicio:
- Calcular estadísticas avanzadas: **percentiles, kurtosis, skewness**.
- Analizar la distribución de las variables mediante **histogramas y boxplots**.
- Identificar correlaciones entre variables utilizando una **matriz de correlación y un heatmap**.
- Explorar la evolución de los datos en el tiempo con **gráficos de líneas**.
- Generar **insights y conclusiones** a partir de las visualizaciones.

### Conceptos clave:
- Análisis exploratorio (EDA)  
- Matriz de correlación  
- Interpretación de visualizaciones  


In [None]:

# Celda 1: Importación de librerías necesarias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import kurtosis, skew

# Configuración de estilos para visualización
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)

print("Librerías importadas correctamente.")



## Descripción del Dataset

Para este ejercicio, utilizaremos el dataset **"Control de calidad en motores industriales"**, alojado en GitHub.  
Este dataset contiene información sobre la vida útil y desempeño de motores industriales.

### **Fuente del dataset:**  
- **CSV:** [Control de calidad en motores industriales](https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_motores_industriales.csv)

### **Estructura del dataset:**
| Columna                | Descripción |
|------------------------|-------------|
| ID_motor              | Identificador único del motor |
| Horas_operación       | Horas de funcionamiento |
| Temperatura_núcleo    | Temperatura del núcleo en °C |
| Vibración            | Frecuencia de vibración en Hz |
| Consumo_energía      | Consumo energético en kWh |
| Presión_sistema      | Presión del sistema en bar |
| Corriente_motor      | Corriente en Amperios |
| Velocidad_rotación   | Velocidad de rotación en RPM |
| Desgaste_rodamientos | Desgaste medido en mm |
| Fecha_instalación    | Fecha en la que se instaló el motor |
| Vida_util_restante   | Variable objetivo: estimación de la vida útil restante en horas |


In [None]:

# Celda 2: Cargar el dataset desde GitHub
# Importante parsear las fechas de "Fecha_instalación" con pandas

url_csv = "https://raw.githubusercontent.com/dtoralg/IE_Calidad_ML/refs/heads/main/Data/control_calidad_motores_industriales.csv"
...

# Mostrar las primeras filas del dataset
...


In [None]:

# Celda 3: Cálculo de estadísticas avanzadas

# Seleccionar solo las columnas numéricas (excluyendo datetime)
...

# Calcular estadísticas avanzadas solo para variables numéricas
estadisticas = df[numerical_cols].describe(percentiles=[0.25, 0.5, 0.75])
estadisticas.loc["kurtosis"] = ...
estadisticas.loc["skewness"] = ...

print("Estadísticas avanzadas calculadas.")
...


In [None]:

# Celda 4: Análisis de la distribución con histogramas y boxplots

# Histograma de la variable Vida_util_restante
...

# Boxplot de la variable Vibración
...


In [None]:

# Celda 5: Matriz de correlación con One-Hot Encoding

# Aplicar One-Hot Encoding a las variables categóricas antes de calcular la correlación
...

# Calcular la matriz de correlación
correlacion = ...

# Crear un heatmap de correlaciones
...
plt.title("Matriz de Correlación entre Variables (One-Hot Encoded)")
plt.show()


In [None]:

# Celda 6: Análisis de la evolución temporal de la vida útil restante

# Convertir fecha de instalación a datetime y ordenar por fecha
df["Fecha_instalación"] = ...
df_sorted = df.sort_values("Fecha_instalación")

# Filtrar fechas posteriores a 2021-01-01
df_filtered = ...

# Graficar la evolución de la vida útil restante en el tiempo
...



## Conclusiones

En este ejercicio hemos aplicado técnicas de **Análisis Exploratorio de Datos (EDA)** para comprender la estructura de los datos en motores industriales.

### Puntos clave:
- Se calcularon **estadísticas avanzadas** como percentiles, kurtosis y skewness para evaluar la distribución de los datos.
- Se analizaron **distribuciones** con histogramas y boxplots, identificando posibles valores atípicos.
- Se generó una **matriz de correlación** para explorar relaciones entre variables clave.
- Se realizó un **análisis temporal** para evaluar la evolución de la vida útil restante en el tiempo.

### Posibles mejoras:
- Aplicar técnicas para la detección y eliminación de valores atípicos en variables críticas.
- Descomponer la variable de fecha de instalación en componentes (año, mes, día) para análisis más detallados.
- Explorar relaciones no lineales entre variables con técnicas de Machine Learning.
