## Tratamiento Precios

In [1]:
# Importando
import pandas as pd
import unidecode
import numpy as np

Adoptaremos la misma notación utilizada en el análisis preliminar.

In [2]:
# precios_semana_20200413.csv
df_0413 = pd.read_csv('precios_semana_20200413.csv')
df_0413.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248


In [6]:
# Completamos los valores producto_id
df_0413.producto_id = df_0413.producto_id.str.zfill(13)
df_0413.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248


In [7]:
# Creamos una tabla auxiliar para los valores nulos.
precios_auxiliar = df_0413.loc[(df_0413.producto_id.isnull()) | (df_0413.sucursal_id.isnull())].copy()
precios_auxiliar.head()

Unnamed: 0,precio,producto_id,sucursal_id
246393,,,
246748,,,
246882,,,
246978,,,
247033,,,


In [9]:
# Descartamos valores nulos.
indices_nulos = df_0413.loc[(df_0413.producto_id.isnull()) | (df_0413.sucursal_id.isnull())].index.to_list()
df_0413.drop(indices_nulos, axis='index', inplace=True)

In [10]:
# Verificando si existen valores nulos.
df_0413.loc[(df_0413.producto_id.isnull()) | (df_0413.sucursal_id.isnull())]

Unnamed: 0,precio,producto_id,sucursal_id


In [12]:
# Creamos un identificador para la semana. Esto nos permitirá identificar la procedencia de los datos
# una vez los unamos en una sola tabla.
archivo = 'precios_semana_20200413.csv'
archivo_split = archivo.split('_')[2].split('.')
semana = archivo_split[0]
extension = archivo_split[1]

In [13]:
# Agregamos la columna 'semanaId'
df_0413['semanaId'] = semana
df_0413.head()

Unnamed: 0,precio,producto_id,sucursal_id,semanaId
0,29.9,1663,2-1-014,20200413
1,29.9,2288,2-1-032,20200413
2,39.9,2288,2-1-096,20200413
3,499.99,205870,9-1-686,20200413
4,519.99,205870,9-2-248,20200413


In [15]:
# Creamos un id para los precios.
df_0413.reset_index(drop=True, inplace=True)
df_0413['precioId'] = df_0413.index + 1
df_0413.head()

Unnamed: 0,precio,producto_id,sucursal_id,semanaId,precioId
0,29.9,1663,2-1-014,20200413,1
1,29.9,2288,2-1-032,20200413,2
2,39.9,2288,2-1-096,20200413,3
3,499.99,205870,9-1-686,20200413,4
4,519.99,205870,9-2-248,20200413,5


In [16]:
# Guardamos la tabla
df_0413.to_csv('precios_0413.csv', index=False)

In [17]:
# precios_semana_20200419_20200426.csv
xlsx = pd.ExcelFile('precios_semanas_20200419_20200426.xlsx')
df_0426 = pd.read_excel(xlsx, 'precios_20200426_20200426')
df_0419 = pd.read_excel(xlsx, 'precios_20200419_20200419')

In [18]:
# Creamos un identificador para la semana. Esto nos permitirá identificar la procedencia de los datos
# una vez los unamos en una sola tabla.
archivo = 'precios_semanas_20200419_20200426.xlsx'
semana_0419 = archivo.split('_')[2]
archivo_split = archivo.split('_')[3].split('.')
semana_0426 = archivo_split[0]
extension = archivo_split[1]

In [21]:
# Arreglamos el producto_id para que sea un codigo EAN
df_0419.producto_id = df_0419.producto_id.astype(str).str.replace('.0', '', regex=False)
df_0419.producto_id = df_0419.producto_id.str.zfill(13)
df_0419.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,29.9,2-1-184,2288
1,39.9,2-1-206,2288
2,499.99,9-1-430,205870
3,539.99,9-2-107,205870
4,539.99,5218-03-09 00:00:00,205870


In [24]:
# En la columna sucursal_id hay unas identificadas como timestamp
df_0419.sucursal_id = df_0419.sucursal_id.astype(str)
df_0419.sucursal_id.apply(lambda col: col.find('00:00:00'))
df_0419.loc[df_0419.sucursal_id.str.split(expand=True)[1].notnull(),'sucursal_id'] = 'Sin dato'

In [25]:
# Agregamos el id de semana
df_0419['semanaId'] = semana_0419
df_0419

Unnamed: 0,precio,sucursal_id,producto_id,semanaId
0,29.90,2-1-184,0000000002288,20200419
1,39.90,2-1-206,0000000002288,20200419
2,499.99,9-1-430,0000000205870,20200419
3,539.99,9-2-107,0000000205870,20200419
4,539.99,Sin dato,0000000205870,20200419
...,...,...,...,...
458538,139.99,Sin dato,9569753142128,20200419
458539,34.99,Sin dato,9795403001143,20200419
458540,312.50,Sin dato,9990385651922,20200419
458541,312.50,Sin dato,9990385651939,20200419


In [26]:
# precios_semana_20200503.json
df_0503 = pd.read_json('precios_semana_20200503.json')
df_0503.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-187
1,39.9,2288,2-3-247
2,499.99,205870,9-1-685
3,539.99,205870,9-2-22
4,519.99,205870,9-2-59


In [30]:
# revisamos los idproducto
df_0503.loc[df_0503.producto_id.str.len() != 13]
# agregamos el idSemana
archivo = 'precios_semana_20200503.json'
# Lo obtenemos del nombre del archivo
archivo_split = archivo.split('_')[2].split('.')
semana = archivo_split[0]
extension = archivo_split[1]
# agregamos la columna semanaId
df_0503['semanaId'] = semana
df_0503

Unnamed: 0,precio,producto_id,sucursal_id,semanaId
0,29.9,0000000002288,2-1-187,20200503
1,39.9,0000000002288,2-3-247,20200503
2,499.99,0000000205870,9-1-685,20200503
3,539.99,0000000205870,9-2-22,20200503
4,519.99,0000000205870,9-2-59,20200503
...,...,...,...,...
397729,139.99,9569753142128,25-1-1,20200503
397730,34.99,9795403001143,25-1-1,20200503
397731,312.5,9990385651922,5-1-5,20200503
397732,312.5,9990385651939,5-1-5,20200503


In [31]:
# precios_semana_20200518.txt
df_0518 = pd.read_csv('precios_semana_20200518.txt', sep='|')
# elimino filas con nulos en sucursal y producto
indice = df_0518.loc[(df_0518.producto_id.isnull()) & (df_0518.sucursal_id.isnull())].index
df_0518.drop(indice, axis='index', inplace=True)
# agregamos el idSemana
archivo = 'precios_semana_20200518.txt'
# Lo obtenemos del nombre del archivo
archivo_split = archivo.split('_')[2].split('.')
semana = archivo_split[0]
extension = archivo_split[1]
# agregamos la columna semanaId
df_0518['semanaId'] = semana
df_0518

Unnamed: 0,precio,producto_id,sucursal_id,semanaId
0,29.90,0000000002288,2-1-009,20200518
1,32.90,0000000002288,2-1-037,20200518
2,36.90,0000000002288,2-1-090,20200518
3,39.90,0000000002288,2-3-247,20200518
4,499.99,0000000205870,9-1-430,20200518
...,...,...,...,...
415288,149.99,9569753142128,25-1-1,20200518
415289,34.99,9795403001143,25-1-1,20200518
415290,312.50,9990385651922,5-1-4,20200518
415291,312.50,9990385651939,5-1-4,20200518


### Tratamiento de datos nulos