### Se presentan los pasos a seguir para la extracción y transformación de los datasets propuestos.

Se importa pandas para el tratamiento y limpieza de los datos.

In [26]:
import os
import pandas as pd

Se importan las rutas donde se cargan y guardan los datasets.

In [27]:
from common.paths import path_data,path_data_clean

Se procede a importar los datasets y a realizar la limpieza de los mismos.

### Precios Semana 20200413

In [256]:
precios_semana_413 = pd.read_csv(os.path.join(path_data,'precios_semana_20200413.csv'),encoding='UTF-16 LE')

El formato de producto_id debería tener 13 números.<br>
Se ve que varios datos no cumplen con esta condición por lo que se deben normalizar.

In [4]:
precios_semana_413[precios_semana_413.producto_id.str.len()>13]

Unnamed: 0,precio,producto_id,sucursal_id
11540,59.00,10-1-2300073000005,10-1-25
11541,7.49,10-1-2300073000005,10-1-48
11542,59.00,10-1-2300075000003,10-1-25
11543,279.90,10-1-2300160000000,10-1-8
11544,1274.00,10-1-2300175000002,10-1-6
...,...,...,...
472008,387.00,9-3-0000000994002,9-3-5222
472009,509.00,9-3-0000000995696,9-3-628
472010,90.99,9-3-0000000997096,9-3-5222
472011,219.00,9-3-0000000997126,9-3-5222


Se normalizan.

In [5]:
precios_semana_413.producto_id = precios_semana_413.producto_id.astype(str).apply(lambda x: x.split('-')[-1])

Se eliminan las filas duplicadas

In [8]:
precios_semana_413.drop_duplicates(inplace=True)

Se observa que el dataset contiene valores nulos.<br>

In [9]:
precios_semana_413.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 472128 entries, 0 to 472165
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       472127 non-null  float64
 1   producto_id  472128 non-null  object 
 2   sucursal_id  472125 non-null  object 
dtypes: float64(1), object(2)
memory usage: 14.4+ MB


Se eliminan las filas con valores nulos.<br>
Un valor nulo en el precio no sirve ya que es el único dato del producto en el dataset (además de sus identificadores).<br>
Las filas con valores nulos en las columnas de id de producto y sucursal tampoco sirven ya que se necesitan para identificar el producto.

In [10]:
precios_semana_413.dropna(inplace=True)

Se exportan los datos en formato csv.

In [12]:
precios_semana_413.to_csv(os.path.join(path_data_clean,'precios_semana_20200413.csv'),columns = ['producto_id','sucursal_id','precio'] ,header=['IdProducto','IdScursal','Precio'],index=False)

### Precios Semana 20200503

In [156]:
precios_semana_503 = pd.read_json(os.path.join(path_data,"precios_semana_20200503.json"))

Los strings vacíos de la columna precio se reemplazan por None.

In [157]:
precios_semana_503.precio = precios_semana_503.precio.apply(lambda x: None if x == "" else x )

Se normaliza la columna producto_id.

In [158]:
precios_semana_503.producto_id = precios_semana_503.producto_id.astype(str).apply(lambda x: x.split('-')[-1])

Se eliminan las filas duplicadas.

In [159]:
precios_semana_503.drop_duplicates(inplace=True)

Se puede ver que este dataset presenta valores nulos.

In [160]:
precios_semana_503.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 397728 entries, 0 to 397733
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       395604 non-null  float64
 1   producto_id  397728 non-null  object 
 2   sucursal_id  397728 non-null  object 
dtypes: float64(1), object(2)
memory usage: 12.1+ MB


In [161]:
precios_semana_503.dropna(inplace=True)

Se exportan los datos en formato csv.

In [162]:
precios_semana_503.to_csv(os.path.join(path_data_clean,'precios_semana_20200503.csv'),columns = ['producto_id','sucursal_id','precio'] ,header=['IdProducto','IdScursal','Precio'],index=False)

### Precios Semana 20200518

In [92]:
precios_semana_518 = pd.read_csv(os.path.join(path_data,"precios_semana_20200518.txt"),sep="|")

Se normaliza columna producto_id.

In [93]:
precios_semana_518.producto_id = precios_semana_518.producto_id.astype(str).apply(lambda x: x.split('-')[-1])

Se eliminan los duplicados.

In [97]:
precios_semana_518.drop_duplicates(inplace=True)

In [98]:
precios_semana_518.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 415098 entries, 0 to 415292
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       413141 non-null  float64
 1   producto_id  415098 non-null  object 
 2   sucursal_id  415095 non-null  object 
dtypes: float64(1), object(2)
memory usage: 12.7+ MB


Se eliminan las filas con valores nulos.

In [99]:
precios_semana_518.dropna(inplace=True)

Se exportan los datos.

In [100]:
precios_semana_518.to_csv(os.path.join(path_data_clean,'precios_semana_20200518.csv'),columns = ['producto_id','sucursal_id','precio'] ,header=['IdProducto','IdScursal','Precio'],index=False)

### Precios semana 20200426

In [261]:
precios_semana_426 = pd.read_excel(os.path.join(path_data,"precios_semanas_20200419_20200426.xlsx"),sheet_name=0,converters={'producto_id':str})

In [102]:
precios_semana_426.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478909 entries, 0 to 478908
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       477173 non-null  float64
 1   sucursal_id  478909 non-null  object 
 2   producto_id  465390 non-null  object 
dtypes: float64(1), object(2)
memory usage: 11.0+ MB


Hay id de productos que no tienen el formato correcto

In [103]:
precios_semana_426[precios_semana_426.producto_id.str.len()<13]

Unnamed: 0,precio,sucursal_id,producto_id
0,399.0,2-1-092,2288
1,299.0,2-1-206,2288
2,399.0,2-2-241,2288
3,49999.0,9-1-430,205870
4,53999.0,9-2-4,205870
...,...,...,...
11429,39999.0,25-1-1,867677045662
11430,2470.0,10-2-216,875213000600
11431,10863.0,47-1-3,878434000510
11432,1650.0,10-1-48,884394000026


Se normalizan.

In [104]:
precios_semana_426.producto_id = precios_semana_426.producto_id.astype(str).apply(lambda x: x.zfill(13))

In [105]:
precios_semana_426.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,399.0,2-1-092,2288
1,299.0,2-1-206,2288
2,399.0,2-2-241,2288
3,49999.0,9-1-430,205870
4,53999.0,9-2-4,205870


Se eliminan los duplicados.

In [106]:
precios_semana_426.drop_duplicates(inplace=True)

In [107]:
precios_semana_426.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 474692 entries, 0 to 478908
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       473053 non-null  float64
 1   sucursal_id  474692 non-null  object 
 2   producto_id  474692 non-null  object 
dtypes: float64(1), object(2)
memory usage: 14.5+ MB


Se borran las filas con valores nulos.

In [108]:
precios_semana_426.dropna(inplace=True)

Se exportan los datos.

In [109]:
precios_semana_426.to_csv(os.path.join(path_data_clean,'precios_semana_20200426.csv'),columns = ['producto_id','sucursal_id','precio'] ,header=['IdProducto','IdScursal','Precio'],index=False)

### Precios Semana 20200419

In [13]:
precios_semana_419 = pd.read_excel(os.path.join(path_data,"precios_semanas_20200419_20200426.xlsx"),sheet_name=1)

In [6]:
precios_semana_419.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458543 entries, 0 to 458542
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       456736 non-null  float64
 1   sucursal_id  458543 non-null  object 
 2   producto_id  458543 non-null  object 
dtypes: float64(1), object(2)
memory usage: 10.5+ MB


In [9]:
precios_semana_419.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,29.9,2-1-184,2288
1,39.9,2-1-206,2288
2,499.99,9-1-430,205870
3,539.99,9-2-107,205870
4,539.99,9-3-5218,205870


Se normalizan los datos de sucursal_id.

In [8]:
from datetime import datetime
precios_semana_419.sucursal_id = precios_semana_419.sucursal_id.apply(lambda x: str(x.day) + '-' + str(x.month) + '-' + str(x.year) if type(x)==datetime else x)

Se normalizan los datos de producto_id.

In [181]:
precios_semana_419.producto_id = precios_semana_419.producto_id.astype(str).apply(lambda x: x.split('-')[-1])

A continuación se muestran datos con un precio excesivamente alto para el año 2020 en Argentina.

In [182]:
precios_semana_419[precios_semana_419.precio > 100000]

Unnamed: 0,precio,sucursal_id,producto_id
21649,2.649910e+05,36-3-25,0200000300000
21650,2.749890e+16,36-3-26,0200000300000
21651,3.099910e+05,36-3-25,0200000500000
21654,4.399890e+16,36-3-25,0200001000000
21655,4.199910e+05,36-3-26,0200001000000
...,...,...,...
22120,4.299910e+05,36-6-40,0200013200000
22137,3.999910e+05,36-6-40,0200114300000
200491,1.299910e+05,36-3-26,7790895000997
200492,1.299910e+05,36-4-51,7790895000997


Se los considera ouliers y se eliminan.

In [183]:
precios_semana_419 = precios_semana_419[precios_semana_419.precio < 100000]

Se eliminan los duplicados.

In [184]:
precios_semana_419.drop_duplicates(inplace=True)

Se ve que el dataset ahora no posee valores nulos.

In [185]:
precios_semana_419.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 456661 entries, 0 to 458542
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       456661 non-null  float64
 1   sucursal_id  456661 non-null  object 
 2   producto_id  456661 non-null  object 
dtypes: float64(1), object(2)
memory usage: 13.9+ MB


Se exportan los datos.

In [186]:
precios_semana_419.to_csv(os.path.join(path_data_clean,'precios_semana_20200419.csv'),columns = ['producto_id','sucursal_id','precio'] ,header=['IdProducto','IdScursal','Precio'],index=False)

### Producto

In [66]:
producto = pd.read_parquet(os.path.join(path_data,'producto.parquet'))

Se normaliza la columna producto_id.

In [67]:
producto.id = producto.id.astype(str).apply(lambda x: x.split('-')[-1].zfill(13))

Se normaliza el nombre y la marca de los productos a formato 'title'.

In [68]:
producto.nombre = producto.nombre.astype(str).apply(lambda x: x.title())

In [69]:
producto.marca = producto.marca.astype(str).apply(lambda x: x.title())

Se ve que la columna de id no tiene datos nulos.

In [70]:
producto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72038 entries, 0 to 72037
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            72038 non-null  object
 1   marca         72038 non-null  object
 2   nombre        72038 non-null  object
 3   presentacion  72036 non-null  object
 4   categoria1    4 non-null      object
 5   categoria2    4 non-null      object
 6   categoria3    4 non-null      object
dtypes: object(7)
memory usage: 3.8+ MB


Se eliminan las columnas de categoria ya que a los sumo 12 productos de 72038 tienen un dato no nulo.<br> Son tres columnas prácticamente sin información.

In [58]:
producto.drop(['categoria1','categoria2','categoria3'],axis=1,inplace=True)

Sólo hay 2 datos nulos en la columna de presentación y se les asigna el valor 'Sin Dato'

In [59]:
producto.fillna('Sin Dato',inplace=True)

Se eliminan los productos duplicados.

In [61]:
producto.drop_duplicates(subset='id',keep="last",inplace=True)

Se exportan los datos.

In [65]:
producto.to_csv(os.path.join(path_data_clean,'producto.csv'),header=['IdProducto','Marca','Nombre','Presentacion'],index=False)

### Sucursal

In [71]:
sucursal = pd.read_csv(os.path.join(path_data,'sucursal.csv'))

Normalización de columnas a formato title.

In [72]:
columns = ['banderaDescripcion','comercioRazonSocial','localidad', 'direccion','sucursalNombre', 'sucursalTipo']

In [73]:
for column in columns:
    sucursal[column] = sucursal[column].astype(str).apply(lambda x: x.title())

Los datos de la columna provincia deben estar en mayúscula.

In [74]:
sucursal.provincia = sucursal.provincia.astype(str).apply(lambda x: x.upper())

In [75]:
sucursal.drop_duplicates(subset='id',inplace=True)

El dataset no posee datos nulos.

In [76]:
sucursal.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2333 entries, 0 to 2332
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   2333 non-null   object 
 1   comercioId           2333 non-null   int64  
 2   banderaId            2333 non-null   int64  
 3   banderaDescripcion   2333 non-null   object 
 4   comercioRazonSocial  2333 non-null   object 
 5   provincia            2333 non-null   object 
 6   localidad            2333 non-null   object 
 7   direccion            2333 non-null   object 
 8   lat                  2333 non-null   float64
 9   lng                  2333 non-null   float64
 10  sucursalNombre       2333 non-null   object 
 11  sucursalTipo         2333 non-null   object 
dtypes: float64(2), int64(2), object(8)
memory usage: 236.9+ KB


No tiene id repetidos.

In [77]:
len(sucursal.id.unique()) == sucursal.shape[0]

True

Se exportan los datos.

In [250]:
sucursal.to_csv(os.path.join(path_data_clean,'sucursal.csv'),header=['IdSucursal','ComercioId','BanderaId','BanderaDescripcion','ComercioRazonSocial','Provincia','Localidad','Direccion','Lat','Lng','SucursalNombre','SucursalTipo'],index=False)