# Exploración de datasets
En este notebook voy a hacer una breve exploración de los datasets para tener una mejor idea de qué transformaciones son necesarias.

In [1]:
import pandas as pd

## Producto.parquet
En este archivo tenemos
```
    Productos.parquet  

    id: Código EAN del producto.
    marca: Marca del producto.
    nombre: Detalle del producto.
    Presentación: Unidad de presentación del producto.
    categoria1: categoria a la que pertenece el producto.
    categoria2: categoria a la que pertenece el producto.
    categoria3: categoria a la que pertenece el producto.
```

In [2]:
# Cargamos el archivo como dataframe
prod = pd.read_parquet('../datasets/producto.parquet')
prod.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [3]:
# Vemos el numero de filas y columnas
prod.shape

(72038, 7)

In [4]:
# Revisamos información sobre el tipo de dato y los nulos de cada fila
prod.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72038 entries, 0 to 72037
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            72038 non-null  object
 1   marca         72036 non-null  object
 2   nombre        72036 non-null  object
 3   presentacion  72036 non-null  object
 4   categoria1    4 non-null      object
 5   categoria2    4 non-null      object
 6   categoria3    4 non-null      object
dtypes: object(7)
memory usage: 3.8+ MB


Hay pocos nulos en marca nombre y presentación

In [5]:
prod.loc[(prod.marca.isnull()) | (prod.nombre.isnull())]

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
53619,7798024299045,,,,Almacén,Aceites,Aerosol
55798,7798061190213,,,,Almacén,Aceites,Oliva


Podría considerar eliminar estas dos filas sin marca ni nombre. Las columnas de categoria parecen estar vacias salvo por 4 filas:

In [6]:
prod.loc[prod['categoria1'].notnull()]

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
14903,7501001165260,PANTENE,Acondicionador Liso y Sedoso Pantene 400 Ml,400.0 ml,Perfumería y Cuidado Personal,Cuidado Capilar,Acondicionadores
53619,7798024299045,,,,Almacén,Aceites,Aerosol
55798,7798061190213,,,,Almacén,Aceites,Oliva
65297,7798183771123,GRIDO,Helado en Pote Tentacion 1 Lt,1.0 lt,Alimentos Congelados,Helados,Helados


Podría eliminar las columnas de categoria, ya que no parecen aportar información. Describimos brevemente los datos:

In [7]:
prod.describe()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
count,72038,72036,72036,72036,4,4,4
unique,72038,5653,63896,1168,3,3,4
top,1663,SIN MARCA,Mollejas 1 Kg,1.0 kg,Almacén,Aceites,Acondicionadores
freq,1,8649,26,12894,2,2,1


En este archivo, al menos a nivel general:
- Unificar el formato de los id (hay unos con un monton de ceros delante del numero).
- En marca y nombre formatear los strings.
- Revisar los únicos de la columna marca a ver si hay strings mal escritos.
- Revisar los únicos en nombre y eliminar de algunos nombres la información de presentación.
- Eliminar las columnas de categoria.
- EAN debería tener 13 dígitos.
### sucursal.csv
En este archivo se encuentra la siguiente información:
```
    Sucursales.csv  

    Id: Es el ID principal, compuesto por la concatenación de banderaId-comercioId-sucursalId.
    comercioId: es el identificador de la empresa controlante. Por ejemplo Hipermecado Carrefour y Express tienen mismo comercioId pero distinta banderaId
    banderaId: Diferencia las distintas "cadenas" de la misma empresa. Vea, Disco y jumbo pertenecen al mismo comercio pero tienen distinta bandera.
    banderaDescripcion: Nombre de fantasía de la Cadena
    comercioRazonSocial: Nombre con la que está registrada legalmente la empresa.
    provincia: Provincia donde está ubicado el comercio.
    localidad: Localidad donde está ubicado el comercio.
    direccion: Dirección del comercio,
    lat: Coordenadas de latitud de la ubicación del comercio
    lng: Coordenadas de longitud de la ubicación del comercio
```

In [8]:
sucursal = pd.read_csv('../datasets/sucursal.csv')
sucursal.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.62061,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado


In [9]:
sucursal.shape

(2333, 12)

In [10]:
sucursal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2333 entries, 0 to 2332
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   2333 non-null   object 
 1   comercioId           2333 non-null   int64  
 2   banderaId            2333 non-null   int64  
 3   banderaDescripcion   2333 non-null   object 
 4   comercioRazonSocial  2333 non-null   object 
 5   provincia            2333 non-null   object 
 6   localidad            2333 non-null   object 
 7   direccion            2333 non-null   object 
 8   lat                  2333 non-null   float64
 9   lng                  2333 non-null   float64
 10  sucursalNombre       2333 non-null   object 
 11  sucursalTipo         2333 non-null   object 
dtypes: float64(2), int64(2), object(8)
memory usage: 218.8+ KB


No hay valores nulos en este dataset. Veamos los únicos y el describe:

In [11]:
sucursal.describe()

Unnamed: 0,comercioId,banderaId,lat,lng
count,2333.0,2333.0,2333.0,2333.0
mean,12.025718,1.529361,-34.608169,-60.745506
std,5.763732,0.889533,3.878869,3.606071
min,1.0,1.0,-54.83064,-72.33617
25%,10.0,1.0,-34.73492,-63.296037
50%,11.0,1.0,-34.60496,-58.535853
75%,15.0,2.0,-34.436,-58.425651
max,65.0,6.0,-22.513508,-55.87668


In [12]:
sucursal.id.unique().shape

(2333,)

In [13]:
sucursal.sucursalTipo.unique()

array(['Hipermercado', 'Supermercado', 'Autoservicio', 'Minorista'],
      dtype=object)

In [14]:
sucursal.comercioRazonSocial.unique()

array(['Dinosaurio S.A.', 'INC S.A.', 'Wal Mart Argentina S.R.L.',
       'Coto Centro Integral de Comercialización S.A.',
       'Cooperativa Obrera Limitada de Consumo y Vivienda',
       'Miguel Becerra S.A.', 'DIA Argentina S.A', 'Libertad S.A',
       'Millan S.A.', 'Aiello Supermercados S.A.',
       'Operadora de Estaciones de Servicios S.A.',
       'S.A. Importadora y Exportadora de la Patagonia',
       'La Agricola Regional Cooperativa Limitada',
       'Supermercados Toledo S.A.', 'Pan American Energy LLC Argentina',
       'Farmacity S.A.',
       'Autoservicio La Amistad Cooperativa de Trabajo Limitada',
       'Josimar S.A.', 'Deheza S.A.I.C.F. e I.',
       'Asociación Mutual Socios y Adherentes de la Cooperativa Agrícola de Capitán Sarmiento',
       'SUPERCLC S.A.', 'Estación Lima S.A.', 'Supermercado El Nene S.A.',
       'Almacenes Pampas S.A. ', 'Almacenes de Marca S.A.',
       'Cooperativa Agrícola Ganadera e Industrial de Patagones y Viedma LTA.',
       'ARNALD

In [15]:
sucursal.banderaDescripcion.unique()

array(['Super MAMI', 'Hipermercado Carrefour', 'Market', 'Express',
       'Changomas', 'Mi Changomas', 'Walmart SuperCenter', 'COTO CICSA',
       'Cooperativa Obrera Limitada de Consumo y Vivienda',
       'Supermercados Becerra', 'Supermercados DIA',
       'Hipermercado Libertad', 'Mini Libertad', 'Atomo', 'Super Aiello',
       'FULL', 'La Anonima', 'Topsy', 'Bomba',
       'LA AGRICOLA REGIONAL COOPERATIVA LIMITADA', 'Toledo',
       'Axion Energy', 'Simplicity', 'LA AMISTAD',
       'JOSIMAR SUPERMERCADOS', 'DEHEZA S.A.I.C.F. e I.',
       'MUCOOP CAP.SARMIENTO', 'SuperCLC', 'ESTACION LIMA S.A.',
       'SUPERMERCADOS EL NENE', 'ALMACENES PAMPAS', 'ALMACENES DE MARCA',
       'Sup. Unicoop        ', 'Super Tuti1 y Super Tuti 3',
       'California Supermercados', 'Super Tuti2 y Super Todo',
       'Supermercados Comodin', 'Maxi Comodin', 'Diarco',
       'Supermercados Cordiez', 'Abastecimiento Mercamax', 'Mariano Max',
       'Vea', 'Disco', 'Jumbo'], dtype=object)

In [16]:
sucursal.sucursalNombre.unique().shape

(2241,)

Todos los id son únicos.

En general, para este conjunto:
- Formatear strings en provincia, localidad, dirección, sucursalNombre, sucursalTipo, banderaDescripción...
- Tabla aparte con comercioId, banderaId y banderaDescripción.
- Quizás crear tabla de provincia y tabla de localidad.
- Tabla aparte con comercioRazonSocial.

## precios
Hay varios dataset de precios, veamos un par a ver si se parecen. Poseen la siguiente información:
```
    Precio: Precio del producto en pesos argentinos.
    Vpn_keyproducto_id: Código EAN del producto.
    Text_formatsucursal_id: ID de la sucursal. Los dos primeros números determinan la cadena.
```
### precios_semana_20200413.csv

In [17]:
precios_0413 = pd.read_csv('../datasets/precios_semana_20200413.csv')
precios_0413.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248


In [18]:
precios_0413.shape

(472166, 3)

In [19]:
precios_0413.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 472166 entries, 0 to 472165
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       472153 non-null  float64
 1   producto_id  472151 non-null  object 
 2   sucursal_id  472151 non-null  object 
dtypes: float64(1), object(2)
memory usage: 10.8+ MB


`producto_id` y `sucursal_id` parecen tener la mayor cantidad de nulls, vamos a ver si coinciden:

In [20]:
precios_0413.loc[(precios_0413.producto_id.isnull()) | (precios_0413.sucursal_id.isnull())]

Unnamed: 0,precio,producto_id,sucursal_id
246393,,,
246748,,,
246882,,,
246978,,,
247033,,,
247079,451.0,,
247167,,,
247310,,,
247404,,,
247405,,,


In [21]:
precios_0413.describe()

Unnamed: 0,precio
count,472153.0
mean,183.644026
std,353.94888
min,0.12
25%,65.9
50%,117.0
75%,210.0
max,34417.15


En este archivo:
- Eliminar las filas de nulls.
- Revisar formato del productoId y sucursalId.

Vamos a seguir viendo los demás archivos de precios
### precios_semanas_20200419_20200426.xlsx

In [22]:
xls = pd.ExcelFile('../datasets/precios_semanas_20200419_20200426.xlsx')
precios_0426 = pd.read_excel(xls, 'precios_20200426_20200426')
precios_0419 = pd.read_excel(xls, 'precios_20200419_20200419')

In [23]:
precios_0419.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,29.9,2-1-184,2288.0
1,39.9,2-1-206,2288.0
2,499.99,9-1-430,205870.0
3,539.99,9-2-107,205870.0
4,539.99,5218-03-09 00:00:00,205870.0


In [24]:
precios_0426.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,399.0,2-1-092,2288.0
1,299.0,2-1-206,2288.0
2,399.0,2-2-241,2288.0
3,49999.0,9-1-430,205870.0
4,53999.0,9-2-4,205870.0


In [25]:
print(precios_0426.shape)
print(precios_0419.shape)

(478909, 3)
(458543, 3)


In [26]:
precios_0426.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478909 entries, 0 to 478908
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       477173 non-null  float64
 1   sucursal_id  478909 non-null  object 
 2   producto_id  465390 non-null  float64
dtypes: float64(2), object(1)
memory usage: 11.0+ MB


In [27]:
# vemos cuántas filas tienen nulos
precios_0426.loc[(precios_0426.producto_id.isnull()) | (precios_0426.sucursal_id.isnull()) | (precios_0426.precio.isnull())]

Unnamed: 0,precio,sucursal_id,producto_id
10277,,65-1-328,6.431315e+11
10673,,65-1-328,6.552577e+11
10674,,65-1-328,6.552577e+11
11434,3999.0,1-1-7,
11435,5599.0,1-1-7,
...,...,...,...
478738,4090.0,9-3-5222,
478739,5090.0,9-3-5277,
478740,11499.0,9-3-5227,
478741,2190.0,9-3-5222,


In [28]:
precios_0419.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458543 entries, 0 to 458542
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       456736 non-null  float64
 1   sucursal_id  458543 non-null  object 
 2   producto_id  458543 non-null  object 
dtypes: float64(1), object(2)
memory usage: 10.5+ MB


In [30]:
# vemos cuántas filas tienen nulos
precios_0419.loc[(precios_0419.producto_id.isnull()) | (precios_0419.sucursal_id.isnull()) | (precios_0419.precio.isnull())]

Unnamed: 0,precio,sucursal_id,producto_id
10045,,65-1-341,643131504438.0
10426,,65-1-341,655257738062.0
10427,,65-1-341,655257738246.0
20608,,65-1-341,3014260014445.0
20640,,65-1-341,3014260019723.0
...,...,...,...
453089,,65-1-341,8004200128702.0
453131,,65-1-341,8004200128801.0
453171,,65-1-341,8004200128900.0
453203,,65-1-341,8004200129006.0


In [31]:
# Las que solo tienen precio se puede sustituir por la moda o el precio del producto
precios_0419.loc[(precios_0419.precio.isnull())]

Unnamed: 0,precio,sucursal_id,producto_id
10045,,65-1-341,643131504438.0
10426,,65-1-341,655257738062.0
10427,,65-1-341,655257738246.0
20608,,65-1-341,3014260014445.0
20640,,65-1-341,3014260019723.0
...,...,...,...
453089,,65-1-341,8004200128702.0
453131,,65-1-341,8004200128801.0
453171,,65-1-341,8004200128900.0
453203,,65-1-341,8004200129006.0


En los datos del archivo de excel:
- Cambiar formato de producto id a int
- Crear tabla para guardar registros con problemas y luego eliminarlos de la tabla original
  - El precio es el único que se puede sustituir con la moda o el precio del producto
- sucursalid hay algunos timestamps, revisar tipo
### precios_semana_20200503.json

In [None]:
precios_0503 = pd.read_json('../datasets/precios_semana_20200503.json')
precios_0503.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-187
1,39.9,2288,2-3-247
2,499.99,205870,9-1-685
3,539.99,205870,9-2-22
4,519.99,205870,9-2-59


In [None]:
precios_0503.shape

(397734, 3)

In [None]:
precios_0503.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 397734 entries, 0 to 397733
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   precio       397734 non-null  object
 1   producto_id  397734 non-null  object
 2   sucursal_id  397734 non-null  object
dtypes: object(3)
memory usage: 9.1+ MB


No hay nulos en este dataset.

In [None]:
precios_0503.describe()

Unnamed: 0,precio,producto_id,sucursal_id
count,397734,397734,397734
unique,19617,61505,170
top,119,7793253001926,50-1-2
freq,2400,90,15134


### 

In [None]:
precios_0518 = pd.read_csv('../datasets/precios_semana_20200518.txt', sep='|')
precios_0518.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-009
1,32.9,2288,2-1-037
2,36.9,2288,2-1-090
3,39.9,2288,2-3-247
4,499.99,205870,9-1-430


En este conjunto no hay nulos. Se podría:
- Revisar el formato del producto_id.