#### Análisis de datos de ventas - Limpieza de datos.

Al intentar cargar el archivo 'Ventas.csv' en Power BI, tuve algunos problemas relacionados con el formato de los datos en la columna de **ventas**. 

1. **Problema de formato**: La columna **ventas** contenía inconsistencias en los formatos numéricos. La mayoría de los registros estaban en formato limpio (números sin separadores de miles ni decimales), pero 5 filas contenían valores formateados con puntos como separadores de miles y comas como separadores de decimales. Estó me resultó en errores al intentar convertir los valores a numérico en Power BI.

2. **Problemas de valores nulos**: Se detectaron muchas filas con valores completamente nulos en todas sus columnas.

In [1]:
import pandas as pd

In [10]:
# Cargamos los datos.
df = pd.read_csv(r'C:\Users\rodri\Desktop\ID for Ideas - SERVICIO AUTOMOTRIZ “AUTO MOTORS”\Ventas.csv', sep = ';') 

  df = pd.read_csv(r'C:\Users\rodri\Desktop\ID for Ideas - SERVICIO AUTOMOTRIZ “AUTO MOTORS”\Ventas.csv', sep = ';')


In [11]:
# Vemos los valores nulos del dataset.
df.isnull().sum()

IdCliente        921320
NombreCliente    921320
Fecha            921320
Empleado         921320
Referencia       921320
Descripcion      921320
CodigoFamilia    921320
Familia          921320
Cantidad         921320
Ventas           921320
Localidad        921320
Sede             921319
Area             921320
dtype: int64

Todas las columnas tienen 921320 valores faltantes, excepto 'Sede', que contiene un espacio dentro de los registros y es detectada como tipo string al ser una columna de tipo object. Antes de eliminar los datos nulos, es importante verificar que no se esté eliminando información valiosa, en ese caso se deberían realizar técnicas de imputación. En este caso, los 921320 registros nulos son de filas completas, por lo que en esta ocasión, se van a eliminar.

In [12]:
# Eliminamos los datos nulos del dataset.
df = df.dropna()

In [13]:
df.isnull().sum() # Corroboramos que el dataset ya no tenga valores nulos.

IdCliente        0
NombreCliente    0
Fecha            0
Empleado         0
Referencia       0
Descripcion      0
CodigoFamilia    0
Familia          0
Cantidad         0
Ventas           0
Localidad        0
Sede             0
Area             0
dtype: int64

---

Ya que el dataset no presenta valores nulos, vamos a trabajar el problema que teníamos con el formato de la columna 'Ventas'.

In [14]:
df['Ventas'] = df['Ventas'].str.replace('.', '', regex = False) # Eliminamos puntos (separador de miles).
df['Ventas'] = df['Ventas'].str.replace(',', '', regex = False) # Eliminamos comas (separador de decimales).

In [15]:
df['Ventas'] = pd.to_numeric(df['Ventas'], errors = 'coerce') # Convertimos la columna a numérica.

In [16]:
# Gurdamos los datos.
df.to_csv(r'C:\Users\rodri\Desktop\ID for Ideas - SERVICIO AUTOMOTRIZ “AUTO MOTORS”\Ventas2.csv')