# Data Wrangling – Consigna práctica

Dataset: ventas_desordenadas_sucias.csv

## 1. Cargar datos

In [42]:
import pandas as pd

path = 'ventas_sucias_500_registros.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,fecha,monto,producto,region,vendedor,canal
0,2023-07-17,35849.0,Laptop,Norte,,Distribuidor
1,2022-07-21,91813.0,Monitor,Norte,Ana,Tienda
2,2022-06-30,129059.0,Laptop,Sur,Luis,Online
3,2022-12-14,126446.0,Monitor,,Juan,Online
4,2023-10-09,34971.0,Monitor,,Pedro,Online


In [43]:
df.isnull().sum()

fecha        0
monto        0
producto    69
region      81
vendedor    46
canal       18
dtype: int64

## 2. Conversión de tipos (fecha y monto)

In [44]:
# Fecha
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

# Monto
monto = df['monto'].astype(str)
monto = monto.str.replace('$','', regex=False)
monto = monto.str.replace('.', '', regex=False)
monto = monto.str.replace(',', '.', regex=False)
df['monto'] = pd.to_numeric(monto, errors='coerce')

df.dtypes

fecha       datetime64[ns]
monto                int64
producto            object
region              object
vendedor            object
canal               object
dtype: object

## 3. Reemplazar valores vacíos

In [45]:
df = df.fillna('Desconocido')
df.head()

Unnamed: 0,fecha,monto,producto,region,vendedor,canal
0,2023-07-17,358490,Laptop,Norte,Desconocido,Distribuidor
1,2022-07-21,918130,Monitor,Norte,Ana,Tienda
2,2022-06-30,1290590,Laptop,Sur,Luis,Online
3,2022-12-14,1264460,Monitor,Desconocido,Juan,Online
4,2023-10-09,349710,Monitor,Desconocido,Pedro,Online


## 4. Crear categoría según monto

In [46]:
def categoria_monto(x):
    try:
        x = float(x)
        if x < 500:
            return 'Bajo'
        elif x < 2000:
            return 'Medio'
        else:
            return 'Alto'
    except:
        return 'Desconocido'

df['categoria_Monto'] = df['monto'].apply(categoria_monto)
df[['monto','categoria_Monto']].head()

Unnamed: 0,monto,categoria_Monto
0,358490,Alto
1,918130,Alto
2,1290590,Alto
3,1264460,Alto
4,349710,Alto


## 5. Ordenar por fecha y monto

In [47]:
df = df.sort_values(by=['fecha','monto'])
df.head()

Unnamed: 0,fecha,monto,producto,region,vendedor,canal,categoria_Monto
56,2022-01-02,372120,Monitor,Centro,Pedro,Distribuidor,Alto
456,2022-01-02,445940,Teclado,Sur,Pedro,Distribuidor,Alto
186,2022-01-05,1303260,Laptop,Centro,María,Online,Alto
108,2022-01-09,1350420,Monitor,Centro,Desconocido,Tienda,Alto
107,2022-01-12,953280,Laptop,Norte,Pedro,Online,Alto


## 6. Renombrar columnas

In [48]:
df = df.rename(columns={
    'fecha':'Fecha',
    'vendedor':'Nombre_vendedor',
    'Producto':'Nombre_producto',
    'region':'Región',
    'monto':'Monto_venta',
    'canal': 'Canal',
    'categoria_Monto': 'Categoria_monto'
})

df.head()

Unnamed: 0,Fecha,Monto_venta,producto,Región,Nombre_vendedor,Canal,Categoria_monto
56,2022-01-02,372120,Monitor,Centro,Pedro,Distribuidor,Alto
456,2022-01-02,445940,Teclado,Sur,Pedro,Distribuidor,Alto
186,2022-01-05,1303260,Laptop,Centro,María,Online,Alto
108,2022-01-09,1350420,Monitor,Centro,Desconocido,Tienda,Alto
107,2022-01-12,953280,Laptop,Norte,Pedro,Online,Alto


## Dataset final listo para análisis