# Transformaciones
En este notebook se harán las transformaciones que se discuten en el notebook de exploración de datasets.

In [1]:
import pandas as pd
import unidecode

## Producto.parquet

In [2]:
prod = pd.read_parquet('../datasets/producto.parquet')
prod.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [3]:
# ids unicos
prod.id.unique().shape

(72038,)

In [4]:
'''
# empezamos con los id
# son EAN, deberian ser de 13 digitos
# el otro formato de EAN que hallé (por ejemplo): 1-1-0000000205955
# nos quedamos con la ultima parte despues del segundo -
prod.id.loc[prod.id.str.len() != 13] = prod.id.loc[prod.id.str.len() != 13].str.split('-').str[2]
''' 

# chequeamos los id distintos
prod.id.loc[prod.id.str.len() != 13]

# hacemos un id de producto que si sirva
prod.insert(0, 'productoId', range(1, 1 + len(prod)))
prod

Unnamed: 0,productoId,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1,0000000001663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2,0000000002288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,3,0000000205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,4,0000000205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,5,0000000205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,
...,...,...,...,...,...,...,...,...
72033,72034,9569753142128,DELI-SITAS,Milhojas Cobertura de Chocolate Blanco Deli-Si...,500.0 gr,,,
72034,72035,9795403001143,MAYO,Mini Pizzetas Mayo 12 Un,12.0 un,,,
72035,72036,9990385651922,DANA,Te Negro en Hebras Lata Dana 50 Gr,50.0 gr,,,
72036,72037,9990385651939,DANA,Te Verde en Hebras Lata Dana 50 Gr,50.0 gr,,,


In [5]:
# espacios en blanco y primera letra mayuscula
prod.marca = prod.marca.str.strip().str.capitalize()
prod.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1,1663,La anónima,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2,2288,La anónima,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,3,205870,Sin marca,Ojo de Bife 1 Kg,1.0 kg,,,
3,4,205894,Sin marca,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,5,205955,Sin marca,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [6]:
# Eliminamos la presentacion del nombre
prod.nombre = prod.nombre.str.split('(\d+)', expand=True)[0]
# Espacios en blanco y letra mayuscula
prod.nombre = prod.nombre.str.strip().str.capitalize()
prod.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1,1663,La anónima,Radicheta atada la anonima,1.0 un,,,
1,2,2288,La anónima,Perejil atado la anonima,1.0 un,,,
2,3,205870,Sin marca,Ojo de bife,1.0 kg,,,
3,4,205894,Sin marca,Milanesa de peceto novillito,1.0 kg,,,
4,5,205955,Sin marca,Chiquizuela novillito,1.0 kg,,,


In [7]:
# dropeamos columnas inutiles
prod_aux = prod.loc[prod.categoria1.notnull()].copy()
prod_aux['tipoError'] = 0
prod_aux.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion,categoria1,categoria2,categoria3,tipoError
14903,14904,7501001165260,Pantene,Acondicionador liso y sedoso pantene,400.0 ml,Perfumería y Cuidado Personal,Cuidado Capilar,Acondicionadores,0
53619,53620,7798024299045,,,,Almacén,Aceites,Aerosol,0
55798,55799,7798061190213,,,,Almacén,Aceites,Oliva,0
65297,65298,7798183771123,Grido,Helado en pote tentacion,1.0 lt,Alimentos Congelados,Helados,Helados,0


In [8]:
# columnas
prod.drop(['categoria1','categoria2','categoria3'],axis='columns', inplace=True)
prod.head()

# filas (coinciden con las filas que se copiaron a aux)
prod.drop(prod.loc[(prod.nombre.isnull()) | (prod.marca.isnull())].index, axis='index', inplace=True)

prod.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion
0,1,1663,La anónima,Radicheta atada la anonima,1.0 un
1,2,2288,La anónima,Perejil atado la anonima,1.0 un
2,3,205870,Sin marca,Ojo de bife,1.0 kg
3,4,205894,Sin marca,Milanesa de peceto novillito,1.0 kg
4,5,205955,Sin marca,Chiquizuela novillito,1.0 kg


In [9]:
# tipos de unidades que hay
prod.presentacion.str.split(expand=True)[1].unique()

# puedo disminuir la cantidad de unidades
# 1000 ml =  1000 cc = 1 lt
# 1000 gr = 1 kg 

array(['un', 'kg', 'gr', 'ml', 'cc', 'lt', 'mt'], dtype=object)

In [10]:
# Hacemos split y creamos una columna para cantidad y unidad
prod['cantidad'] = prod.presentacion.str.split(expand=True)[0].astype(float)
prod['unidad'] = prod.presentacion.str.split(expand=True)[1]
prod.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion,cantidad,unidad
0,1,1663,La anónima,Radicheta atada la anonima,1.0 un,1.0,un
1,2,2288,La anónima,Perejil atado la anonima,1.0 un,1.0,un
2,3,205870,Sin marca,Ojo de bife,1.0 kg,1.0,kg
3,4,205894,Sin marca,Milanesa de peceto novillito,1.0 kg,1.0,kg
4,5,205955,Sin marca,Chiquizuela novillito,1.0 kg,1.0,kg


In [11]:
prod.loc[prod.unidad == 'kg', 'cantidad'] = prod.cantidad * 1000
prod.loc[prod.unidad == 'kg', 'unidad'] = 'gr'

prod.loc[prod.unidad == 'lt', 'cantidad'] = prod.cantidad * 1000
prod.loc[prod.unidad == 'lt', 'unidad'] = 'ml'
prod.loc[prod.unidad == 'cc', 'unidad'] = 'ml'

# Tenemos menos unidades
prod.unidad.unique()

array(['un', 'gr', 'ml', 'mt'], dtype=object)

In [12]:
prod

Unnamed: 0,productoId,id,marca,nombre,presentacion,cantidad,unidad
0,1,0000000001663,La anónima,Radicheta atada la anonima,1.0 un,1.0,un
1,2,0000000002288,La anónima,Perejil atado la anonima,1.0 un,1.0,un
2,3,0000000205870,Sin marca,Ojo de bife,1.0 kg,1000.0,gr
3,4,0000000205894,Sin marca,Milanesa de peceto novillito,1.0 kg,1000.0,gr
4,5,0000000205955,Sin marca,Chiquizuela novillito,1.0 kg,1000.0,gr
...,...,...,...,...,...,...,...
72033,72034,9569753142128,Deli-sitas,Milhojas cobertura de chocolate blanco deli-sitas,500.0 gr,500.0,gr
72034,72035,9795403001143,Mayo,Mini pizzetas mayo,12.0 un,12.0,un
72035,72036,9990385651922,Dana,Te negro en hebras lata dana,50.0 gr,50.0,gr
72036,72037,9990385651939,Dana,Te verde en hebras lata dana,50.0 gr,50.0,gr


In [13]:
# juntamos cantidad y unidad y sustituimos presentacion
prod['presentacion'] = prod.cantidad.astype(str) + ' ' + prod.unidad
prod.drop(['cantidad','unidad'], axis='columns', inplace=True)
prod.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion
0,1,1663,La anónima,Radicheta atada la anonima,1.0 un
1,2,2288,La anónima,Perejil atado la anonima,1.0 un
2,3,205870,Sin marca,Ojo de bife,1000.0 gr
3,4,205894,Sin marca,Milanesa de peceto novillito,1000.0 gr
4,5,205955,Sin marca,Chiquizuela novillito,1000.0 gr


In [14]:
prod

Unnamed: 0,productoId,id,marca,nombre,presentacion
0,1,0000000001663,La anónima,Radicheta atada la anonima,1.0 un
1,2,0000000002288,La anónima,Perejil atado la anonima,1.0 un
2,3,0000000205870,Sin marca,Ojo de bife,1000.0 gr
3,4,0000000205894,Sin marca,Milanesa de peceto novillito,1000.0 gr
4,5,0000000205955,Sin marca,Chiquizuela novillito,1000.0 gr
...,...,...,...,...,...
72033,72034,9569753142128,Deli-sitas,Milhojas cobertura de chocolate blanco deli-sitas,500.0 gr
72034,72035,9795403001143,Mayo,Mini pizzetas mayo,12.0 un
72035,72036,9990385651922,Dana,Te negro en hebras lata dana,50.0 gr
72036,72037,9990385651939,Dana,Te verde en hebras lata dana,50.0 gr


In [15]:
# Quitamos la marca del nombre
prod['marca_st'] = prod.apply((lambda row : unidecode.unidecode(str(row['marca']).lower())), axis=1)
prod.nombre = prod.apply(lambda row: row['nombre'].replace(str(row['marca_st']),''), axis=1)

# Dropeamos la columna auxiliar
prod.drop('marca_st', axis='columns', inplace=True)
prod.head()

Unnamed: 0,productoId,id,marca,nombre,presentacion
0,1,1663,La anónima,Radicheta atada,1.0 un
1,2,2288,La anónima,Perejil atado,1.0 un
2,3,205870,Sin marca,Ojo de bife,1000.0 gr
3,4,205894,Sin marca,Milanesa de peceto novillito,1000.0 gr
4,5,205955,Sin marca,Chiquizuela novillito,1000.0 gr


In [16]:
# Para normalizar, hacemos una tabla de marcas
df_marca = prod.marca.to_frame().copy()
df_marca.drop_duplicates(inplace=True)
df_marca.insert(0, 'marcaId', range(1, 1 + len(df_marca)))
df_marca

Unnamed: 0,marcaId,marca
0,1,La anónima
2,2,Sin marca
24,3,Paladini
25,4,La paulina
26,5,Dulcor
...,...,...
70944,5561,La hacieda bandeja
71193,5562,Nexcare
72027,5563,Pez
72030,5564,Dilmah


In [17]:
# Mapping a producto
prod = pd.merge(prod, df_marca, on=['marca'])
prod.drop('marca', axis=True, inplace=True)
prod.reset_index(drop=True, inplace=True)

prod.head()

Unnamed: 0,productoId,id,nombre,presentacion,marcaId
0,1,1663,Radicheta atada,1.0 un,1
1,2,2288,Perejil atado,1.0 un,1
2,7301,2000957000007,Piña,1000.0 gr,1
3,7307,2001271000001,Carre de cerdo con hueso,1000.0 gr,1
4,7308,2001273000009,Pechito con hueso de cerdo,1000.0 gr,1


## sucursal.csv

In [18]:
suc = pd.read_csv('../datasets/sucursal.csv')
suc.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado


In [19]:
# Tabla de comercio-bandera
df_bandera = suc[['banderaId','comercioId', 'banderaDescripcion', 'comercioRazonSocial']].copy()
df_bandera.drop_duplicates(inplace=True)
df_bandera.reset_index(inplace=True, drop=True)
# agrego un id
df_bandera.insert(0, 'comecioBanderaId', range(1, 1 + len(df_bandera)))
df_bandera.head()

Unnamed: 0,comecioBanderaId,banderaId,comercioId,banderaDescripcion,comercioRazonSocial
0,1,1,1,Super MAMI,Dinosaurio S.A.
1,2,1,10,Hipermercado Carrefour,INC S.A.
2,3,2,10,Market,INC S.A.
3,4,3,10,Express,INC S.A.
4,5,2,11,Changomas,Wal Mart Argentina S.R.L.


In [20]:
# Mapeamos el id a sucursal
suc = pd.merge(suc, df_bandera, on = ['banderaId','comercioId', 'banderaDescripcion','comercioRazonSocial'])
suc.drop(['banderaId','comercioId', 'banderaDescripcion', 'comercioRazonSocial'], axis='columns', inplace=True)
suc.head()


Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo,comecioBanderaId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado,1
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado,2
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado,2
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado,2
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado,2


In [21]:
# Tabla tipo de sucursal
df_tipo_suc = suc['sucursalTipo'].copy()
df_tipo_suc.drop_duplicates(inplace=True)
df_tipo_suc = df_tipo_suc.to_frame()
df_tipo_suc.insert(0, 'tipoSucursalId', range(1, 1 + len(df_tipo_suc)))
df_tipo_suc.reset_index(inplace=True, drop=True)
df_tipo_suc

Unnamed: 0,tipoSucursalId,sucursalTipo
0,1,Hipermercado
1,2,Supermercado
2,3,Autoservicio
3,4,Minorista


In [22]:
# Mapeamos el id a sucursal
suc = pd.merge(suc, df_tipo_suc, on = ['sucursalTipo'])
suc.drop(['sucursalTipo'], axis='columns', inplace=True)
suc.head()

Unnamed: 0,id,provincia,localidad,direccion,lat,lng,sucursalNombre,comecioBanderaId,tipoSucursalId
0,1-1-7,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,1,1
1,10-1-1,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,2,1
2,10-1-10,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,2,1
3,10-1-11,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,2,1
4,10-1-112,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,2,1


In [23]:
# tabla de provincia y localidad
df_provincia = suc['provincia'].copy().to_frame()
df_provincia.drop_duplicates(inplace=True)
df_provincia.insert(0, 'provinciaId', range(1, 1 + len(df_provincia)))
df_provincia.reset_index(drop=True,inplace=True)

df_provincia

Unnamed: 0,provinciaId,provincia
0,1,AR-X
1,2,AR-B
2,3,AR-A
3,4,AR-U
4,5,AR-L
5,6,AR-R
6,7,AR-Q
7,8,AR-W
8,9,AR-V
9,10,AR-M


In [24]:
# tabla de localidad
df_localidad = suc[['provincia','localidad']].copy()
df_localidad.drop_duplicates(inplace=True)
# arreglamos strings
df_localidad.localidad = df_localidad.localidad.str.strip().str.capitalize()
# Mapeamos los id de provincia
df_localidad = pd.merge(df_localidad, df_provincia, on = ['provincia'])
df_localidad.drop(['provincia'], axis='columns', inplace=True)
# insetamos un index
df_localidad.insert(0, 'localidadId', range(1, 1 + len(df_localidad)))
df_localidad.reset_index(drop=True,inplace=True)

df_localidad


Unnamed: 0,localidadId,localidad,provinciaId
0,1,Salsipuedes,1
1,2,Jardin espinoza,1
2,3,Quintas de arguello,1
3,4,Villa allende lomas,1
4,5,Villa urquiza,1
...,...,...,...
686,687,Barrio rawson,24
687,688,San juan,24
688,689,Barrio rivadavia,24
689,690,San juan,24


In [25]:
# Mapeamos localidad a sucursal
df_localidad_map = pd.merge(df_localidad, df_provincia, on = ['provinciaId'])
suc = pd.merge(suc, df_localidad_map, on = ['localidad','provincia'])
suc.drop(['provincia','localidad','provinciaId'], axis='columns', inplace=True)
suc 

Unnamed: 0,id,direccion,lat,lng,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId
0,10-1-10,Av. Vergara 1910,-34.620610,-58.633769,Villa Tesei,2,1,68
1,10-1-10,Av. Vergara 1910,-34.620610,-58.633769,Villa Tesei,2,1,276
2,10-2-218,Av. Vergara 4121,-34.591972,-58.636447,Hurlingham,3,1,68
3,10-2-218,Av. Vergara 4121,-34.591972,-58.636447,Hurlingham,3,1,276
4,10-3-472,Jauretche 1125,-34.589617,-58.632800,Jauretche 1125,4,3,68
...,...,...,...,...,...,...,...,...
817,23-1-6284,Alvearn 831,-31.407600,-64.178600,Guzman,22,3,65
818,23-1-6286,Bulnes 1108,-31.399800,-64.175700,Bulnes,22,3,14
819,23-1-6286,Bulnes 1108,-31.399800,-64.175700,Bulnes,22,3,65
820,23-1-6265,Ruta 168. Km. 476 None,-31.641400,-60.659100,Santa Fe,22,3,552


In [26]:
# reordenamos
suc = suc[['id','sucursalNombre','comecioBanderaId','tipoSucursalId','localidadId', 'direccion','lat','lng']]
suc.head()

Unnamed: 0,id,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId,direccion,lat,lng
0,10-1-10,Villa Tesei,2,1,68,Av. Vergara 1910,-34.62061,-58.633769
1,10-1-10,Villa Tesei,2,1,276,Av. Vergara 1910,-34.62061,-58.633769
2,10-2-218,Hurlingham,3,1,68,Av. Vergara 4121,-34.591972,-58.636447
3,10-2-218,Hurlingham,3,1,276,Av. Vergara 4121,-34.591972,-58.636447
4,10-3-472,Jauretche 1125,4,3,68,Jauretche 1125,-34.589617,-58.6328


In [27]:
# strings de nombre y direccion
suc.sucursalNombre = suc.sucursalNombre.str.strip().str.capitalize()
suc.direccion = suc.direccion.str.strip().str.capitalize()

In [28]:
# renombramos columnas
suc.rename(columns={'id': "sucursalId", 'lat': 'latitud', 'lng': 'longitud'}, inplace=True)
suc.reset_index(drop=True, inplace=True)
suc

Unnamed: 0,sucursalId,sucursalNombre,comecioBanderaId,tipoSucursalId,localidadId,direccion,latitud,longitud
0,10-1-10,Villa tesei,2,1,68,Av. vergara 1910,-34.620610,-58.633769
1,10-1-10,Villa tesei,2,1,276,Av. vergara 1910,-34.620610,-58.633769
2,10-2-218,Hurlingham,3,1,68,Av. vergara 4121,-34.591972,-58.636447
3,10-2-218,Hurlingham,3,1,276,Av. vergara 4121,-34.591972,-58.636447
4,10-3-472,Jauretche 1125,4,3,68,Jauretche 1125,-34.589617,-58.632800
...,...,...,...,...,...,...,...,...
817,23-1-6284,Guzman,22,3,65,Alvearn 831,-31.407600,-64.178600
818,23-1-6286,Bulnes,22,3,14,Bulnes 1108,-31.399800,-64.175700
819,23-1-6286,Bulnes,22,3,65,Bulnes 1108,-31.399800,-64.175700
820,23-1-6265,Santa fe,22,3,552,Ruta 168. km. 476 none,-31.641400,-60.659100


## Precios
### precios_semana_20200413.csv

In [29]:
precios_0413 = pd.read_csv('../datasets/precios_semana_20200413.csv')
precios_0413.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248


In [30]:
# hacemos tabla auxiliar para los nulos
precios_aux = precios_0413.loc[(precios_0413.producto_id.isnull()) | (precios_0413.sucursal_id.isnull())].copy()
precios_aux['tipoError'] = 0 
precios_aux

Unnamed: 0,precio,producto_id,sucursal_id,tipoError
246393,,,,0
246748,,,,0
246882,,,,0
246978,,,,0
247033,,,,0
247079,451.0,,,0
247167,,,,0
247310,,,,0
247404,,,,0
247405,,,,0


In [31]:
# Dropeamos nulos 
index_nulls = precios_0413.loc[(precios_0413.producto_id.isnull()) | (precios_0413.sucursal_id.isnull())].index.to_list()
precios_0413.drop(index_nulls, axis='index', inplace=True)
# revisamos que no hayan nulos
precios_0413.loc[(precios_0413.producto_id.isnull()) | (precios_0413.sucursal_id.isnull())]

Unnamed: 0,precio,producto_id,sucursal_id


In [32]:
# hay productos con los productos id de más de 13 digitos
precios_0413.loc[precios_0413.producto_id.str.len() != 13]

Unnamed: 0,precio,producto_id,sucursal_id
11540,59.00,10-1-2300073000005,10-1-25
11541,7.49,10-1-2300073000005,10-1-48
11542,59.00,10-1-2300075000003,10-1-25
11543,279.90,10-1-2300160000000,10-1-8
11544,1274.00,10-1-2300175000002,10-1-6
...,...,...,...
472008,387.00,9-3-0000000994002,9-3-5222
472009,509.00,9-3-0000000995696,9-3-628
472010,90.99,9-3-0000000997096,9-3-5222
472011,219.00,9-3-0000000997126,9-3-5222


In [33]:
# por ahora parece estar bien
precios_0413.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 472151 entries, 0 to 472165
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       472151 non-null  float64
 1   producto_id  472151 non-null  object 
 2   sucursal_id  472151 non-null  object 
dtypes: float64(1), object(2)
memory usage: 14.4+ MB


### precios_semanas_20200419_20200426.xlsx

In [34]:
xls = pd.ExcelFile('../datasets/precios_semanas_20200419_20200426.xlsx')
precios_0426 = pd.read_excel(xls, 'precios_20200426_20200426')
precios_0419 = pd.read_excel(xls, 'precios_20200419_20200419')

In [35]:
precios_0419

Unnamed: 0,precio,sucursal_id,producto_id
0,29.90,2-1-184,2288.0
1,39.90,2-1-206,2288.0
2,499.99,9-1-430,205870.0
3,539.99,9-2-107,205870.0
4,539.99,5218-03-09 00:00:00,205870.0
...,...,...,...
458538,139.99,2001-01-25 00:00:00,9569753142128.0
458539,34.99,2001-01-25 00:00:00,9795403001143.0
458540,312.50,2003-01-05 00:00:00,9990385651922.0
458541,312.50,2003-01-05 00:00:00,9990385651939.0


In [36]:
# Arreglamos el producto_id para que sea un codigo EAN
precios_0419.producto_id = precios_0419.producto_id.astype(str).str.replace('.0', '', regex=False)
precios_0419.producto_id = precios_0419.producto_id.str.zfill(13)
precios_0419.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,29.9,2-1-184,2288
1,39.9,2-1-206,2288
2,499.99,9-1-430,205870
3,539.99,9-2-107,205870
4,539.99,5218-03-09 00:00:00,205870


In [37]:
# Hay timestamps en sucursal_id
precios_0419.sucursal_id = precios_0419.sucursal_id.astype(str)
#precios_0419.sucursal_id.apply(lambda col: col.find('00:00:00'))
# Hay muchas sucursales con timestamp 
precios_0419.loc[precios_0419.sucursal_id.str.split(expand=True)[1].notnull(),'sucursal_id'] = 'Sin dato'

In [38]:
precios_0419.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458543 entries, 0 to 458542
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       456736 non-null  float64
 1   sucursal_id  458543 non-null  object 
 2   producto_id  458543 non-null  object 
dtypes: float64(1), object(2)
memory usage: 10.5+ MB


In [39]:
# Tabla auxiliar con precios nulos
precios_aux = precios_0419.loc[precios_0419.precio.isnull()].copy()
precios_aux['tipoError'] = 0
precios_aux.head()

Unnamed: 0,precio,sucursal_id,producto_id,tipoError
10045,,65-1-341,643131504438,0
10426,,65-1-341,655257738062,0
10427,,65-1-341,655257738246,0
20608,,65-1-341,3014260014445,0
20640,,65-1-341,3014260019723,0


In [None]:
# pero el porcentaje de nulos es muy bajo
round((precios_0419.loc[precios_0419.precio.isnull()].shape[0]/precios_0419.shape[0])*100,2)

In [None]:
# los relleno con la moda
precios_0419.loc[precios_0419.precio.isnull(),'precio'] = precios_0419.precio.mode()[0]
precios_0419.loc[precios_0419.precio.isnull()]

In [40]:
# Arreglamos el producto_id para que sea un codigo EAN
precios_0426.producto_id = precios_0426.producto_id.astype(str).str.replace('.0', '', regex=False)
precios_0426.producto_id = precios_0426.producto_id.str.zfill(13)
precios_0426.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,399.0,2-1-092,2288
1,299.0,2-1-206,2288
2,399.0,2-2-241,2288
3,49999.0,9-1-430,205870
4,53999.0,9-2-4,205870


In [41]:
# agregamos los que tienen precios faltantes al aux
df = precios_0426.loc[precios_0426.precio.isnull()].copy()
df['tipoError'] = 0
precios_aux = pd.concat([precios_aux, df])
del df
precios_aux.head()

Unnamed: 0,precio,sucursal_id,producto_id,tipoError
10045,,65-1-341,643131504438,0
10426,,65-1-341,655257738062,0
10427,,65-1-341,655257738246,0
20608,,65-1-341,3014260014445,0
20640,,65-1-341,3014260019723,0


In [70]:
# pero el porcentaje de nulos es muy bajo
round((precios_0426.loc[precios_0426.precio.isnull()].shape[0]/precios_0426.shape[0])*100,2)

0.39

In [77]:
# los relleno con la moda
precios_0426.loc[precios_0426.precio.isnull(),'precio'] = precios_0426.precio.mode()[0]
precios_0426.loc[precios_0426.precio.isnull()]

Unnamed: 0,precio,sucursal_id,producto_id,precios


### precios_semana_20200503.json

In [42]:
precios_0503 = pd.read_json('../datasets/precios_semana_20200503.json')
precios_0503.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-187
1,39.9,2288,2-3-247
2,499.99,205870,9-1-685
3,539.99,205870,9-2-22
4,519.99,205870,9-2-59


In [43]:
precios_0503.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 397734 entries, 0 to 397733
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   precio       397734 non-null  object
 1   producto_id  397734 non-null  object
 2   sucursal_id  397734 non-null  object
dtypes: object(3)
memory usage: 9.1+ MB


In [44]:
precios_0503.producto_id = precios_0503.producto_id.astype(str)

In [45]:
# revisamos los idproducto
precios_0503.loc[precios_0503.producto_id.str.len() != 13]

Unnamed: 0,precio,producto_id,sucursal_id
9649,399.9,1-1-1500210000009,1-1-7
9650,522,1-1-2270004000001,1-1-7
9651,522,1-1-2270005000000,1-1-7
9652,690.9,1-1-2270006000009,1-1-7
9653,650.9,1-1-2270008000007,1-1-7
...,...,...,...
397600,409,9-3-0000000994002,9-3-5222
397601,509,9-3-0000000995696,9-3-138
397602,114.99,9-3-0000000997096,9-3-5222
397603,219,9-3-0000000997126,9-3-5222


### precios_semana_20200518.txt

In [46]:
# no hay nulos en esta
precios_0518 = pd.read_csv('../datasets/precios_semana_20200518.txt', sep='|')
precios_0518.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-009
1,32.9,2288,2-1-037
2,36.9,2288,2-1-090
3,39.9,2288,2-3-247
4,499.99,205870,9-1-430


In [78]:
precios_0518.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415293 entries, 0 to 415292
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       413333 non-null  float64
 1   producto_id  415287 non-null  object 
 2   sucursal_id  415287 non-null  object 
dtypes: float64(1), object(2)
memory usage: 9.5+ MB


In [68]:
(precios_0518.loc[precios_0518.precio.isnull()].shape[0]/precios_0518.shape[0])*100

0.4719559443573574

In [84]:
# elimino filas con nulos en sucursal y producto
index = precios_0518.loc[(precios_0518.producto_id.isnull()) & (precios_0518.sucursal_id.isnull())].index
precios_0518.drop(index, axis='index', inplace=True)

# reviso que no hay nulos
precios_0518.loc[(precios_0518.producto_id.isnull()) & (precios_0518.sucursal_id.isnull())]

Unnamed: 0,precio,producto_id,sucursal_id


In [91]:
precios_0518.loc[precios_0518.precio.isnull()]

Unnamed: 0,precio,producto_id,sucursal_id
8656,,0643131504438,65-1-328
8982,,0655257738062,65-1-328
8983,,0655257738246,65-1-328
18050,,3014260014445,65-1-328
18082,,3014260019723,65-1-328
...,...,...,...
409962,,8004200128702,65-1-328
410003,,8004200128801,65-1-328
410043,,8004200128900,65-1-328
410071,,8004200129006,65-1-328
