## Pre-procesamiento y limpieza


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [16]:
# importamos csv
dataset = pd.read_csv(r'/Users/jorgeemiliano/Desktop/Segementacion/ventas-por-factura.csv')
print(dataset.head())

  N° de factura     Fecha de factura  ID Cliente            País  Cantidad  \
0        548370   3/30/2021 16:14:00     15528.0  United Kingdom       123   
1        575767  11/11/2021 11:11:00     17348.0  United Kingdom       163   
2       C570727  10/12/2021 11:32:00     12471.0         Germany        -1   
3        549106    4/6/2021 12:08:00     17045.0  United Kingdom         1   
4        573112  10/27/2021 15:33:00     16416.0  United Kingdom       357   

    Monto  
0  229,33  
1  209,73  
2   -1,45  
3   39,95  
4  344,83  


Después de revisar con mayor detalle las variables que tiene el dataset, es posible que este contenga ciertos registros vacíos o nulos y también registros duplicados, que podrían ensuciar nuestro análisis. Pasamos a eliminar estos mismos.

In [17]:
# Eliminamos los duplicados
dataset.drop_duplicates(inplace=True)

# Identificamos registros con valores nulos
null_counts = dataset.isnull().sum()
print('Registros con valores nulos: ', null_counts)

Registros con valores nulos:  N° de factura          0
Fecha de factura       0
ID Cliente          3722
País                   0
Cantidad               0
Monto                  0
dtype: int64


Cómo podemos observar, identificamos que la columna 'ID Cliente' tiene 3722 valores nulos, lo que podría ensuciar nuestro análisis.

In [18]:
# Eliminamos los registros con valores nulos
dataset.dropna(inplace=True)
print(dataset)

      N° de factura     Fecha de factura  ID Cliente            País  \
0            548370   3/30/2021 16:14:00     15528.0  United Kingdom   
1            575767  11/11/2021 11:11:00     17348.0  United Kingdom   
2           C570727  10/12/2021 11:32:00     12471.0         Germany   
3            549106    4/6/2021 12:08:00     17045.0  United Kingdom   
4            573112  10/27/2021 15:33:00     16416.0  United Kingdom   
...             ...                  ...         ...             ...   
25947       C553519   5/17/2021 14:16:00     18218.0  United Kingdom   
25948       C556518   6/13/2021 10:53:00     16794.0  United Kingdom   
25949        553060   5/13/2021 10:44:00     15826.0  United Kingdom   
25950        577049  11/17/2021 13:58:00     17397.0  United Kingdom   
25951        550122   4/14/2021 12:39:00     12931.0  United Kingdom   

       Cantidad    Monto  
0           123   229,33  
1           163   209,73  
2            -1    -1,45  
3             1    39,95  


## Detección y eliminación de cantidades Negativas

Como podemos observar las columnas 'Monto' y 'Cantidad' poseen valores negativos. Estos valores negativos no necesariamente están incorrectos. De hecho, aquellas facturas que comienzan con la letra 'C' corresponden a devoluciones y, por lo tanto, podríamos asumir que estos valores negativos son por esa razón. Como solo queremos analizar las ventas del negocio (y no las devoluciones), vamos a eliminar estos valores de nuestro dataset.

In [20]:
# Filtramos las filas que no corresponden a devoluciones
dataset = dataset[~dataset['N° de factura'].str.startswith('C')]

dataset['Monto'] = dataset['Monto'].str.replace(',', '.')
# Convertimos las columnas 'Monto' y 'Cantidad' a tipo numérico
dataset['Monto'] = dataset['Monto'].astype(float)
dataset['Cantidad'] = dataset['Cantidad'].astype(int)

# Verificamos que los valores negativos hayan sido eliminados
neg_values = dataset[(dataset['Monto'] < 0) | (dataset['Cantidad']< 0)]
print('Registros con valores negativos después de eliminar devoluciones: ')
print(neg_values)

Registros con valores negativos después de eliminar devoluciones: 
Empty DataFrame
Columns: [N° de factura, Fecha de factura, ID Cliente, País, Cantidad, Monto]
Index: []


In [21]:
print(dataset.head())

  N° de factura     Fecha de factura  ID Cliente            País  Cantidad  \
0        548370   3/30/2021 16:14:00     15528.0  United Kingdom       123   
1        575767  11/11/2021 11:11:00     17348.0  United Kingdom       163   
3        549106    4/6/2021 12:08:00     17045.0  United Kingdom         1   
4        573112  10/27/2021 15:33:00     16416.0  United Kingdom       357   
5        576630   11/16/2021 8:38:00     13816.0         Germany        91   

    Monto  
0  229.33  
1  209.73  
3   39.95  
4  344.83  
5  199.98  


Vemos ahora que nuestro dataset ya no tiene los valores negativos en las columnas 'Cantidad' y 'Monto'

Ahora pasamos a guardar estos datos limpios en un dataset nuevo para empezar nuestro análisis.

In [None]:
dataset_modificado = 'dataset_modificado.csv'
dataset.to_csv(dataset_modificado, index=False)