# Limpieza de Datos Dataset Movimientos-20190716

In [14]:
import pandas as pd
from utils_functions import convert_file

# Importar Dataset

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [29]:
movimientos_col_names = [
    'idb', 'id_producto', 'fecha_trans', 'stock_unidades', 'venta_unidades', 'precio_unitario',
    'cd_abast', 'is_prod_rol_local'
]

In [30]:
path = '../data/VMI_Movimientos-20190716.txt'
movimientos_df = pd.read_csv(path,
                 delimiter = '\t',
                 header=None,
                 names=movimientos_col_names)

In [31]:
movimientos_df.head()

Unnamed: 0,idb,id_producto,fecha_trans,stock_unidades,venta_unidades,precio_unitario,cd_abast,is_prod_rol_local
0,242,228217,20160715,24.0,0.0,13.63,0,SI
1,242,228217,20160716,24.0,0.0,13.63,0,SI
2,242,228217,20160717,24.0,0.0,13.63,0,SI
3,242,228217,20160718,24.0,0.0,13.63,0,SI
4,242,228217,20160719,24.0,0.0,13.63,0,SI


In [32]:
movimientos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8347817 entries, 0 to 8347816
Data columns (total 8 columns):
 #   Column             Dtype  
---  ------             -----  
 0   idb                int64  
 1   id_producto        int64  
 2   fecha_trans        int64  
 3   stock_unidades     float64
 4   venta_unidades     float64
 5   precio_unitario    float64
 6   cd_abast           int64  
 7   is_prod_rol_local  object 
dtypes: float64(3), int64(4), object(1)
memory usage: 509.5+ MB


#### Ajustes al dataframe
- Convertir la columna fecha_trans a tipo de dato datetime.
- Convertir la columna is_prod_rol_local a tipo de dato string.
- Verificar por valores nulos y repetidos.
- Convertir la columna is_prod_rol_local a variable numerica donde 1 corresponde a SI y 0 corresponde a NO.
- Obtener las fechas máximas y minimas de transaciones
- Obtener una análisis descriptivo de los datos.

In [33]:
movimientos_df = convert_file(movimientos_df, col_name='fecha_trans', data_type='date')

In [34]:
movimientos_df.isnull().sum(axis=0)

idb                  0
id_producto          0
fecha_trans          0
stock_unidades       0
venta_unidades       0
precio_unitario      0
cd_abast             0
is_prod_rol_local    0
dtype: int64

In [35]:
movimientos_df.duplicated().sum()

0

In [36]:
movimientos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8347817 entries, 0 to 8347816
Data columns (total 8 columns):
 #   Column             Dtype         
---  ------             -----         
 0   idb                int64         
 1   id_producto        int64         
 2   fecha_trans        datetime64[ns]
 3   stock_unidades     float64       
 4   venta_unidades     float64       
 5   precio_unitario    float64       
 6   cd_abast           int64         
 7   is_prod_rol_local  object        
dtypes: datetime64[ns](1), float64(3), int64(3), object(1)
memory usage: 509.5+ MB


In [37]:
movimientos_df['is_prod_rol_local'] = movimientos_df['is_prod_rol_local'].str.lower().apply(lambda x: 1 if x == 'si' else 0)

In [38]:
max_date = movimientos_df['fecha_trans'].max()
min_date = movimientos_df['fecha_trans'].min()

print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

Minimum date: 2016-07-15 00:00:00
Maximum date: 2019-07-14 00:00:00


In [39]:
movimientos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8347817 entries, 0 to 8347816
Data columns (total 8 columns):
 #   Column             Dtype         
---  ------             -----         
 0   idb                int64         
 1   id_producto        int64         
 2   fecha_trans        datetime64[ns]
 3   stock_unidades     float64       
 4   venta_unidades     float64       
 5   precio_unitario    float64       
 6   cd_abast           int64         
 7   is_prod_rol_local  int64         
dtypes: datetime64[ns](1), float64(3), int64(4)
memory usage: 509.5 MB


In [40]:
movimientos_df.describe()

Unnamed: 0,idb,id_producto,stock_unidades,venta_unidades,precio_unitario,cd_abast,is_prod_rol_local
count,8347817.0,8347817.0,8347817.0,8347817.0,8347817.0,8347817.0,8347817.0
mean,6988.555,378548.9,20.65585,0.3133696,64.2605,5435.286,0.9609797
std,3300.353,91593.73,148.8001,0.8950359,65.82745,4533.729,0.1936432
min,242.0,164146.0,-542.0,-45.0,0.0,0.0,0.0
25%,5208.0,292945.0,6.0,0.0,22.51,0.0,1.0
50%,9026.0,415268.0,10.0,0.0,38.23,9217.0,1.0
75%,9159.0,458393.0,17.0,0.0,76.73,9217.0,1.0
max,9977.0,511326.0,16218.0,612.0,423.81,9217.0,1.0


In [41]:
# Verificar cuantos valores negativos tenemos en la columna venta_unidades
ventas_unidades_negativas = movimientos_df[movimientos_df['venta_unidades'] < 0]
ventas_unidades_negativas

Unnamed: 0,idb,id_producto,fecha_trans,stock_unidades,venta_unidades,precio_unitario,cd_abast,is_prod_rol_local
36280,247,242232,2017-03-16,9.0,-1.0,17.60,0,0
68252,247,454775,2017-03-16,5.0,-1.0,17.60,0,1
69533,247,454813,2019-04-01,2.0,-2.0,90.15,9217,1
114239,249,450347,2018-12-28,4.0,-1.0,67.73,9217,1
155981,257,240911,2016-10-18,7.0,-1.0,15.82,0,1
...,...,...,...,...,...,...,...,...
8289141,9977,249486,2017-09-02,10.0,-1.0,34.82,0,1
8297424,9977,342682,2017-07-21,5.0,-2.0,19.63,0,1
8301405,9977,342745,2018-07-28,7.0,-1.0,23.98,9217,1
8302475,9977,342762,2019-03-28,2.0,-1.0,71.12,9217,1


In [42]:
# Verificar cuantos valores negativos tenemos en la columna stock unidades
stock_unidades_negativas = movimientos_df[movimientos_df['stock_unidades'] < 0]
print(stock_unidades_negativas)
stock_unidades_negativas.stock_unidades.sum()

          idb  id_producto fecha_trans  stock_unidades  venta_unidades  \
998       242       228683  2018-08-15            -1.0             0.0   
999       242       228683  2018-08-16            -1.0             1.0   
2757      242       240911  2016-09-20            -6.0             1.0   
2758      242       240911  2016-09-21            -6.0             6.0   
2759      242       240911  2016-09-22            -6.0             0.0   
...       ...          ...         ...             ...             ...   
8340073  9977       470446  2016-12-23            -1.0             0.0   
8340080  9977       470446  2016-12-30            -2.0             0.0   
8340081  9977       470446  2016-12-31            -2.0             2.0   
8340082  9977       470446  2017-01-01            -2.0             0.0   
8340083  9977       470446  2017-01-02            -2.0             0.0   

         precio_unitario  cd_abast  is_prod_rol_local  
998                40.26      9217                  1  

-172870.0

#### Observaciones dataset Movimientos-20190716

1. El dataset contiene la información referente a los movimientos de productos comprendidos entre Julio 15 de 2016 hasta el día 14 de Julio de 2019.
2. El dataset contiene 8347817 registros y 8 columnas identificadas así:
    - idb: Identificador interno de Boca
    - id_producto: Identificador interno de Artículo
    - fecha: Fecha de la Transacción,  1 dia menos que la fecha actual
    - stock_unidades: Stock en unidades del Artículo en la Boca
    - venta_unidades: Venta en unidades
    - precio_unitario: Precio de venta unitario
    - cd_abast: Que CD de la region del local abastece este producto al local para productos almacenados.
    - is_prod_rol_local: SI= sigue en Rol, NO= no esta en Rol el producto en el local.
3. No se observan valores NAN ó valores repetidos.
4. El valor medio de inventario en unidades es de 20.65585 unidades.
5. El valor medio de ventas en unidades es de 0.3133696 unidades.
6. La media del precio unitario es de 64.26050 pesos.
7. Se observan 580 registros que contienen valores de ventas en unidades con valores negativos.
8. Se observan 45483 registros que contienen valores de stock en unidades negativos, como se observa en la columna stock_unidades.

### Guardar el dataset limpio

In [43]:
movimientos_df.to_csv('../clean_data/movimientos_clean.csv', index=False)