# 🧪 Ejemplo de Flujo de Trabajo de Ingeniería de Datos

Este notebook demuestra un flujo básico de ingeniería de datos: carga, limpieza, transformación y visualización de datos.

In [None]:
# 📥 Carga de datos desde un archivo CSV
import pandas as pd

# Reemplaza 'datos.csv' con el nombre de tu archivo
df = pd.read_csv('datos.csv')
df.head()

## 🧹 Limpieza de datos
- Revisión de valores nulos
- Conversión de tipos de datos

In [None]:
# Verificar valores nulos
df.isnull().sum()

In [None]:
# Eliminar filas con valores nulos
df_clean = df.dropna()
df_clean.info()

## 🔄 Transformación de datos
- Crear nuevas columnas
- Aplicar filtros

In [None]:
# Crear una nueva columna de ejemplo
df_clean['nueva_columna'] = df_clean.select_dtypes(include='number').sum(axis=1)
df_clean.head()

In [None]:
# Filtrar datos (ejemplo: valores mayores a cierto umbral)
df_filtrado = df_clean[df_clean['nueva_columna'] > 100]
df_filtrado.head()

## 📊 Visualización de datos
- Histogramas
- Gráficos de dispersión

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma
plt.figure(figsize=(8, 4))
sns.histplot(df_clean['nueva_columna'], bins=20, kde=True)
plt.title('Distribución de nueva_columna')
plt.show()

In [None]:
# Gráfico de dispersión entre dos columnas numéricas
plt.figure(figsize=(8, 4))
sns.scatterplot(data=df_clean, x=df_clean.select_dtypes(include='number').columns[0], y='nueva_columna')
plt.title('Relación entre columnas numéricas')
plt.show()