# Análisis Exploratorio y Limpieza de Datos (Refactorizado)

## 1. Configuración de Entorno y Carga de Datos

Se importan las librerías necesarias, se configura el entorno y se cargan los datos crudos desde el archivo CSV.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
import sys
from google.colab import drive

# Add src directory to path to import our custom module
sys.path.insert(0, '../src')
from data_cleaner import run_cleaning_pipeline

# Set plotting style
sns.set_theme(style="whitegrid")

# Mount Google Drive and define file path
drive.mount('/content/drive')
file_path = "/content/drive/My Drive/Colab Notebooks/test/rentabilidad_productos.csv"

In [None]:
# Load the raw dataset
df_raw = pd.read_csv(file_path)
print(f"DataFrame crudo cargado con {df_raw.shape[0]} filas y {df_raw.shape[1]} columnas.")
display(df_raw.head())

## 2. Análisis Exploratorio de Datos Crudos (EDA)

Se explora el DataFrame original para identificar problemas de calidad de datos antes de la limpieza.

### 2.1. Tipos de Datos y Resumen General

In [None]:
df_raw.info()

### 2.2. Análisis de Valores Nulos

In [None]:
missing_values = df_raw.isnull().sum()
missing_percentage = (missing_values / len(df_raw)) * 100
missing_df = pd.DataFrame({'count': missing_values, 'percentage': missing_percentage})
missing_df = missing_df[missing_df['count'] > 0].sort_values(by='count', ascending=False)

print(f"Se encontraron {len(missing_df)} columnas con valores nulos en los datos crudos.")
display(missing_df)

msno.matrix(df_raw)
plt.show()

### 2.3. Análisis de Duplicados en Clave Primaria (SKU)

In [None]:
# We need to normalize column names first to access 'sku' reliably
temp_df = df_raw.copy()
temp_df.columns = temp_df.columns.str.strip().str.lower()

sku_counts = temp_df.sku.value_counts()
duplicated_skus = sku_counts[sku_counts > 1]

print(f"Análisis de duplicados de SKU:")
print(f"- Hay {len(sku_counts)} SKUs únicos de un total de {len(temp_df)} registros.")
print(f"- Se encontraron {len(duplicated_skus)} SKUs con registros duplicados.")

## 3. Proceso de Limpieza de Datos

Se invoca el pipeline de limpieza definido en el módulo `data_cleaner` para procesar el DataFrame.

In [None]:
df_cleaned = run_cleaning_pipeline(df_raw)

## 4. Verificación y Análisis de Datos Limpios

Se realizan una serie de verificaciones y visualizaciones sobre el DataFrame limpio para asegurar la calidad del proceso.

### 4.1. Verificación de Tipos de Datos y Nulos

In [None]:
print("--- Tipos de datos después de la limpieza ---")
df_cleaned.info()

print("\n--- Conteo de Nulos Restantes ---")
print(df_cleaned.isnull().sum())

### 4.2. Verificación de Integridad de Datos (Cálculo de Margen)

In [None]:
df_cleaned['margen_calculado'] = df_cleaned['precio_venta'] - df_cleaned['precio_compra']
df_cleaned['margen_diferencia'] = (df_cleaned['margen'] - df_cleaned['margen_calculado']).abs()

discrepancies = df_cleaned[df_cleaned['margen_diferencia'] > 0.01] # Use tolerance for float precision

print(f"Se encontraron {len(discrepancies)} filas con una diferencia mayor a 0.01 entre el margen reportado y el calculado.")

### 4.3. Resumen Estadístico del DataFrame Limpio

In [None]:
display(df_cleaned.describe(include='all').T)

### 4.4. Distribución de Variables Numéricas Limpias

In [None]:
for col in ['precio_compra', 'precio_venta', 'margen']:
    fig, axes = plt.subplots(1, 2, figsize=(15, 4))
    fig.suptitle(f"Análisis de la columna numérica limpia: '{col}'", fontsize=16)

    sns.histplot(df_cleaned[col], kde=True, ax=axes[0])
    axes[0].set_title('Distribución (Histograma)')

    sns.boxplot(x=df_cleaned[col], ax=axes[1])
    axes[1].set_title('Diagrama de Caja (Boxplot)')

    plt.tight_layout(rect=[0, 0.03, 1, 0.95])
    plt.show()

## 5. Almacenamiento del DataFrame Limpio

Se guarda el DataFrame limpio y validado en formato Parquet, que es eficiente para almacenamiento y análisis.

In [None]:
# Drop temporary columns used for verification before saving
final_df_to_save = df_cleaned.drop(columns=['margen_calculado', 'margen_diferencia'])
output_path = "/content/drive/My Drive/Colab Notebooks/famiq_test/rentabilidad_productos_limpio.parquet"

# Ensure the pyarrow engine is installed for parquet support
!pip install pyarrow -q

final_df_to_save.to_parquet(output_path, index=False, engine='pyarrow')

print(f"DataFrame limpio con {len(final_df_to_save)} filas guardado exitosamente en: {output_path}")