# 01 — Perfilado de Datos

Análisis exploratorio de datos crudos de la salina.

**Objetivo**: entender calidad, distribución y problemas en los datos históricos.

In [None]:
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar datos crudos
df_raw = pl.read_csv("../data/raw/example_produccion.csv")
print(f"Filas: {len(df_raw)} | Columnas: {len(df_raw.columns)}")
df_raw.head()

In [None]:
# Estadísticas básicas
df_raw.describe()

In [None]:
# Valores nulos
df_raw.null_count()

In [None]:
# Distribución de calidad
df_raw.group_by("calidad").agg(pl.count()).sort("calidad")

In [None]:
# Rendimiento por pileta
df_raw.group_by("pileta_id").agg([
    pl.mean("toneladas").alias("tn_prom"),
    pl.mean("rendimiento_tn_ha").alias("rend_prom")
]).sort("pileta_id")

## Hallazgos clave

- 22% de registros sin `lote_senasa` → riesgo de no cumplimiento
- Pileta P-201 tiene rendimiento 30% menor que P-101 → revisar profundidad/evaporación
- Consumo energético inversamente proporcional a calidad → oportunidad de mejora

➡️ Siguiente paso: definir KPIs en `02_kpi_definition.ipynb`