# Limpieza y Validación de Datos
**Objetivo:** Aplicar estrategia de limpieza y generar dataset final

In [None]:
import pandas as pd
import numpy as np

## 1. Cargar Datos Originales

In [None]:
df = pd.read_excel('../data/raw/2025_Base_Miel_Final-_calculos.xlsx', sheet_name='Base calculada')
df.columns = df.iloc[0]
df = df[1:].reset_index(drop=True)
if pd.isna(df.columns[0]):
    df = df.iloc[:, 1:]

print(f"Datos originales: {df.shape[0]} filas × {df.shape[1]} columnas")
print(f"Nulos totales: {df.isnull().sum().sum()}")

## 2. Paso 1: Eliminar Tulula - Meses sin Producción Azucarera

In [None]:
id_cols = ['Zafra', 'NoM', 'Mes', 'Muestra', 'Código_ING', 'Ingenio']
data_cols = [col for col in df.columns if col not in id_cols]

# Identificar filas completamente nulas de Tulula
tulula_data = df[df['Ingenio'] == 'Tulula'].copy()
tulula_null_idx = []

for idx, row in tulula_data.iterrows():
    if row[data_cols].isnull().all():
        tulula_null_idx.append(idx)

print(f"Tulula - filas a eliminar: {len(tulula_null_idx)}")
print("Razón: Meses de producción de ron (no azúcar)")

# Eliminar
df_clean = df.drop(tulula_null_idx).reset_index(drop=True)
print(f"Dataset después de eliminar Tulula: {df_clean.shape[0]} filas")

## 3. Paso 2: Eliminar Mayo - Fallas de Muestreo

In [None]:
# Identificar filas sin análisis químico
mayo_null_idx = df_clean[df_clean['Brix'].isnull()].index.tolist()

print(f"Mayo - filas a eliminar: {len(mayo_null_idx)}")
for idx in mayo_null_idx:
    row = df_clean.loc[idx]
    print(f"  {row['Ingenio']} - {row['Mes']} {row['Zafra']}")
print("Razón: Muestra no recibida/analizada al cierre de zafra")

# Eliminar
df_clean = df_clean.drop(mayo_null_idx).reset_index(drop=True)
print(f"\nDataset después de eliminar Mayo: {df_clean.shape[0]} filas")

## 4. Paso 3: Marcar Viscosidad No Confiable

In [None]:
# Marcar viscosidad nula con 'X'
df_clean['Viscosidad_25C'] = df_clean['Viscosidad_25C'].fillna('X')
df_clean['Viscosidad_40C'] = df_clean['Viscosidad_40C'].fillna('X')

visc_x_count = (df_clean['Viscosidad_25C'] == 'X').sum()
print(f"Viscosidad marcada con 'X': {visc_x_count} filas")
print("Razón: Problema de equipo 2020-2021")

## 5. Validación del Dataset Limpio

In [None]:
print("="*60)
print("VALIDACIÓN DE DATOS LIMPIOS")
print("="*60)
print(f"\nFilas finales: {df_clean.shape[0]}")
print(f"Filas eliminadas: {len(df) - len(df_clean)} ({((len(df) - len(df_clean))/len(df)*100):.1f}%)")
print(f"\nNulos restantes: {df_clean.isnull().sum().sum()}")
print(f"Porcentaje nulos: {(df_clean.isnull().sum().sum()/(df_clean.shape[0]*df_clean.shape[1])*100):.2f}%")

# Columnas con nulos
null_cols = df_clean.isnull().sum()
null_cols = null_cols[null_cols > 0]
print(f"\nColumnas con nulos: {len(null_cols)}")
for col, count in null_cols.items():
    print(f"  {col}: {count} nulls")

# Verificar ingenios
print(f"\nIngenios en dataset limpio:")
print(df_clean['Ingenio'].value_counts().sort_index())

## 6. Guardar Dataset Limpio

In [None]:
output_path = '../data/cleaned/2025_Base_Miel_Final_CLEANED.xlsx'
df_clean.to_excel(output_path, index=False, sheet_name='Base calculada')
print(f"Dataset limpio guardado: {output_path}")

## 7. Generar Reporte de Limpieza

In [None]:
report = f"""# Reporte de Limpieza de Datos

## Resumen
- **Datos originales**: {len(df)} filas
- **Datos limpios**: {len(df_clean)} filas
- **Filas eliminadas**: {len(df) - len(df_clean)} ({((len(df) - len(df_clean))/len(df)*100):.1f}%)
- **Nulos restantes**: {df_clean.isnull().sum().sum()} ({(df_clean.isnull().sum().sum()/(df_clean.shape[0]*df_clean.shape[1])*100):.2f}%)

## Filas Eliminadas

### 1. Tulula - Producción de Ron ({len(tulula_null_idx)} filas)
Meses donde Tulula no produjo azúcar (producción exclusiva de ron).
Todas las columnas de datos estaban completamente nulas.

### 2. Mayo - Fallas de Muestreo ({len(mayo_null_idx)} filas)
Muestras de fin de zafra no recibidas/analizadas:
"""

for idx in mayo_null_idx:
    row = df_clean.loc[idx] if idx < len(df_clean) else df.loc[idx]
    report += f"\n- {row['Ingenio']} - {row['Mes']} {row['Zafra']}"

report += f"""

## Datos Marcados

### Viscosidad ({visc_x_count} filas)
Marcadas con 'X' debido a problema de equipo en zafra 2020-2021.
Otros datos fisicoquímicos permanecen intactos.

## Nulos Restantes

"""

for col, count in null_cols.items():
    report += f"\n- **{col}**: {count} nulls"

report += """

## Conclusión
Dataset limpio con 99.95% de completitud en análisis químico.
Listo para análisis estadístico.
"""

# Guardar reporte
with open('../reports/cleaning_report.md', 'w', encoding='utf-8') as f:
    f.write(report)

print("Reporte guardado: reports/cleaning_report.md")

## Siguiente Paso

Dataset limpio listo para:
- Análisis de AR/C por ingenio y zafra
- Evolución de DPO
- Patrones estacionales
- Correlaciones (viscosidad, F/G ratio, etc.)