# Data Wrangling
En este notebook realizo las tareas identificadas en el **EDA**, entre ellas:
- Asignación de columnas que me interesan del INDEC (`Variedad`, `Unidad de medida` y `Octubre de 2025`)
- Limpieza de valores nulos
- Traducción al español del dataset de Kaggle
- Formateo a `snake_case` y eliminación de tildes
- Pasado de USD a pesos

**Y, además:**
- Realización de gráficos básicos para detectar outliers
- Cálculo del desperdicio
- Identificación y cálculo de diversas KPIs

## 1. Lectura de archivos _staging_ e importación de librerias
- Importación de librerias

In [1]:
from utils import pasar_snake_case, aplicar_funcion_df, transformar_unidades, traductor_cols
import pandas as pd
from deep_translator import GoogleTranslator

- Lectura de archivos

In [2]:
dir_staging = r'data\staging'

# Lectura de CSVs 
df_orders = pd.read_csv(dir_staging + r'\orders.csv')
df_items = pd.read_csv(dir_staging + r'\items.csv')
df_indec_temporal = pd.read_csv(dir_staging + r'\indec.csv')

- Asignación de columnas

In [3]:
df_indec = pd.DataFrame()

# Asignación de columnas
df_indec['variedad'] = df_indec_temporal.iloc[:, 0]
df_indec['unidad_de_medida'] = df_indec_temporal.iloc[:, 1]
df_indec['precio'] = df_indec_temporal.iloc[:, 3]

# Revisión rápida
print(df_indec.isnull().sum().sum()) 

9


- Eliminación de valores nulos

In [4]:
df_items = df_items.dropna()
df_indec = df_indec.dropna() 

print(df_indec)

                                   variedad unidad_de_medida     precio
5                   Pan francés tipo flauta               Kg   3.833,99
6                               Pan de mesa            390 g   3.194,04
7   Galletitas dulces envasadas sin relleno            150 g   1.245,56
8              Galletitas de agua envasadas            250 g   1.223,11
9                 Harina de trigo común 000               Kg     914,65
10                      Arroz blanco simple               Kg   1.745,29
11                Fideos secos tipo guisero            500 g   1.499,24
12                                    Asado               Kg  11.190,54
13                       Carne picada común               Kg   7.071,04
14                                   Paleta               Kg  11.643,72
15                                  Cuadril               Kg  14.247,87
16                                    Nalga               Kg  14.598,47
17                  Hamburguesas congeladas         Env. 4 u   5

- Traducción del inglés al español de DataFrames

In [5]:
# Traduzco las columnas
for df in [df_orders, df_items]:
    df.columns = [traductor_cols(col) for col in df.columns.tolist()]

# Creo el traductor una única vez
traducir = GoogleTranslator(source="en", target="es").translate

# Traduzco el único DataFrame con texto en inglés
aplicar_funcion_df(df_items, ["categoria", "subcategoria", "nombre_producto"], traducir)

- Pasado a `snake_case` con una función auxiliar

In [6]:
# Convertir valores a snake_case solo para ciertas columnas
aplicar_funcion_df(df_items, ["categoria", "subcategoria", "nombre_producto"], pasar_snake_case)
aplicar_funcion_df(df_indec, ["variedad", "unidad_de_medida", "precio"], pasar_snake_case) # la columna precio es una string, reemplazo "," y "."

- Conversión de precios y unidades de medida a kilogramos

In [7]:
# Conversión a float
df_indec["precio"] = df_indec["precio"].astype(float)

# Utilizo función auxiliar que se encarga de pasar precios de diversas unidades/medidas a kg
df_indec = transformar_unidades(df_indec)



- Paso de dólares a pesos y traducción al español

In [8]:

aplicar_funcion_df(df_items, ["variedad", "unidad_de_medida"], traducir)


KeyError: 'variedad'