<center>
<h4>Diplomatura en CDAAyA 2020 - FaMAF - UNC</h4>
<h1>¿Caro o Barato? Análisis de Precios de Almacen en un Contexto Inflacionario</h1>
<h3>Exploración y Curación</h3>
</center>
</left>
<h4>Sofía Luján y Julieta Bergamasco</h4>
</left>

__[Proyecto para Mentoría](https://sites.google.com/view/mentorias2020-diplodatos/caro-o-barato-an%C3%A1lisis-de-precios-de-almac%C3%A9n-en-un-contexto-inflacionari?authuser=0)__


### Introducción

En la siguiente notebook, se presentará la consigna a seguir para el segundo práctico de la materia Exploración y Curación. El objetivo consiste en identificar e implementar los pasos necesarios para la limpieza de la base de datos, así como también analizar cruces de datos con mayor profundidad y validando el sentido lógico. Para ello, comenzaremos con las importaciones pertinentes.

### Importaciones

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
from io import StringIO
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import plotly.express as px

  import pandas.util.testing as tm


In [None]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

## Consigna para Curación y Exploración del Dataset

### I. Rutina de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán futuros modelos de aprendizaje automático (ML), se propone seguir la siguiente __[checklist](https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning)__ para la limpieza de los datos de nuestro proyecto. Esta _checklist_ es la misma que utilizaron en el primer práctico de la materia y nos será de utilidad como guía para curar el dataset. A modo de ayuda, **en esta notebook encontrarán una especie de template** que sigue la _checklist_ y que deberán ir completando. **Cada decisión tomada deberá quedar registrada de manera explícita y clara.**

A los fines de realizar este práctico, se utilizará el dataset original. Es decir, por un lado, los 5 archivos de precios (que sí podemos unirlos para hacer la limpieza, ya que tienen la misma estructura), y, por otro lado, el txt de sucursales y el txt de productos. Cerca del final del procesamiento, se realizará el mismo join aplicado para obtener el dataset completo, con la misma estructura que el que utilizaron en el práctico de A&V. Además, se crearán nuevas features cuando lo consideren pertinente.

Recuerden que la ciencia de datos es un **proceso circular y continuo, no lineal**. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Análisis en Profundidad del Contenido

Una vez aplicada la _Checklist_, lo que vamos a hacer es profundizar aún más el análisis y tomar decisiones que se consideren pertinentes, si es que no lo han hecho aún en el desarrollo del primer apartado. Por supuesto, se deberán registrar todas las decisiones que tomen al respecto.

Al finalizar con el práctico, las preguntas o consignas listadas a continuación deberán quedar respondidas, mientras que si ya lo hicieron durante el desarrollo de la _checklist_, el objetivo es que se replanteen las decisiones tomadas al respecto:

1. Todas las variables tienen el tipo apropiado? Analizar las features con tipo `Objeto`. Qué decisiones tomarán al respecto?

2. Todos los `producto_id` en el dataset de precios se encuentran en la entidad de productos? Tomamos decisiones al respecto?

3. Todos los `sucursal_id` en el dataset de precios se encuentran en la entidad de sucursales? Tomamos decisiones al respecto?

4. Cuántos precios reporta cada sucursal? Todas las sucursales reportan precios en todas las fechas?

Gran parte (la mayoría) de las variables del dataset son categóricas y podemos trabajar muchas features antes de unir los datos.

5. En el dataset de **productos**:

    5.1. `presentacion`: a partir de esta característica, crear nuevas columnas que separen `cantidad` y `um`. Homogeneizar unidades de medida, al máximo posible, y crear nueva columna para indicar `um_homogenea` y el `factor` que sería necesario para homogeneizar el precio de esa presentación. A partir de `um_homogenea`, crear variables dummies (_Tip: Pueden usar pd.get_dummies()_).

    5.2. `nombre`: crear una nueva columna con el `nombre_depurado`. Esto es, llevar todo a minúsculas, quitar signos de puntuación, quitar unidad de medida, identificar dígitos numéricos. Utilizando esta columna, `nombre_depurado`, tokenizar los nombres y obtener las palabras más fecuentes. Eliminar palabras muy frecuentes en nombres que no nos dicen nada (‘de’, ‘en’, ‘con’, ‘para’, ‘la’, ‘el’, ‘&’, etc.). Convertir las **n** palabras más frecuentes en dummies. **n** es una decisión que deberán adoptar (_Tip: Pueden usar Series.str.find()_). Evaluar la posibilidad de crear una dummy `otras_palabras`, para aquellos nombres que contienen palabras poco frecuentes no incluidas.

    5.3. `marca`: obtener las **n** marcas más frecuentes y crear un nuevo campo 'marca_frecuente' que tenga la marca original si es de las más frecuentes y la categoría `OTRA` para aquellas menos frecuentes. Crear dummies a partir de este campo. _(Una opción viable podría ser unir el nombre con la marca en un campo y luego depurar las palabras duplicadas que queden en el nombre+marca. Cualquier otra técnica que se les ocurra puede ser válida)_

6. En el dataset de **sucursales**:

    6.1. `provincia` o `nom_provincia`: a partir de esta característica, crear las variables dummies correspondientes.

    6.2. `tipoSucursal`: a partir de esta característica, crear las variables dummies correspondientes.

    6.3. `banderaDescripcion`: a partir de esta característica, crear las variables dummies correspondientes. La misma descripción de sucursal tiene siempre el mismo tipo? En qué afecta esto?

7. Unir los precios con las entidades de productos y sucursales para obtener un dataset unificado y limpio. A partir del `precio` y del `factor`, crear el `precio_homogeneo`. **Volver a analizar outliers.**

8. Crear el `precio_relativo`, de acuerdo al producto seleccionado y la metodología implementada en el práctico de A&V.

Esta lista es extensa e intenta abarcar todas las posibles irregularidades en los datos, pero puede no ser exhaustiva. **Cualquier análisis adicional de consistencia que deseen agregar porque lo consideran pertinente, será bienvenido y valorado.**

Luego de pasar por todos los puntos de la _checklist_ propuesta y las consignas, deberán **almacenar en un nuevo archivo los datos resultantes luego de hacer los joins correspondientes**.

### Entregables

Los entregables de este práctico consisten en:
- **Esta misma Notebook, pero con la _checklist_ aplicada y el análisis de contenido completo**, explicando las decisiones tomadas en cada etapa.
- Además, deberán elaborar un **script** que contenga una función (o varias) para curar nuevos datos con la misma estructura.
- Finalmente, resumir las principales decisiones y conclusiones en un **documento de texto** (como para ir completando el informe, que formará parte de la presentación final).

**Fecha de Entrega: 27/07**

# Resolución

## I. Rutina de Curación

### 1. Importación de Datos

#### 1.1. Verificación de Inexistencia de Problemas en la Importación

Para comenzar, importamos los datos que vamos a procesar:

In [None]:
# Por un lado, cargamos los precios y los unimos en un único dataframe
precios_20200412_20200413 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200412_20200413.csv')
precios_20200419_20200419 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200419_20200419.csv')
precios_20200426_20200426 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200426_20200426.csv')
precios_20200502_20200503 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200502_20200503.csv')
precios_20200518_20200518 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200518_20200518.csv')

lista_df_px = [precios_20200412_20200413, precios_20200419_20200419, precios_20200426_20200426,
 precios_20200502_20200503, precios_20200518_20200518]
fecha_px = ['20200412', '20200419', '20200426', '20200502', '20200518']

precios = pd.DataFrame()
for df, fecha in zip(lista_df_px, fecha_px):
  df['fecha'] = fecha
  precios = pd.concat([precios,df])

precios.head()

Unnamed: 0,precio,producto_id,sucursal_id,fecha
0,29.9,1663,2-1-014,20200412
1,29.9,2288,2-1-032,20200412
2,39.9,2288,2-1-096,20200412
3,499.99,205870,9-1-686,20200412
4,519.99,205870,9-2-248,20200412


In [None]:
precios.shape

(2222418, 4)

In [116]:
# Cargamos los txt de productos y sucursales, para tener la información de cada campo
producto_url = 'https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/productos.csv'
productos = pd.read_csv(producto_url)
sucursal_url = 'https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/sucursales.csv'
sucursales = pd.read_csv(sucursal_url)

In [None]:
# A las sucursales, le agregamos la descripción de la provincia y la región
provincia_txt = """
provincia	nom_provincia	region
AR-A	Salta	Norte Grande
AR-B	Provincia de Buenos Aires	Centro
AR-C	Ciudad Autónoma de Buenos Aires	Centro
AR-D	San Luis	Cuyo
AR-E	Entre Ríos	Centro
AR-F	La Rioja	Cuyo
AR-G	Santiago del Estero	Norte Grande
AR-H	Chaco	Norte Grande
AR-J	San Juan	Cuyo
AR-K	Catamarca	Norte Grande
AR-L	La Pampa	Centro
AR-M	Mendoza	Cuyo
AR-N	Misiones	Norte Grande
AR-P	Formosa	Norte Grande
AR-Q	Neuquén	Patagonia
AR-R	Río Negro	Patagonia
AR-S	Santa Fe	Centro
AR-T	Tucumán	Norte Grande
AR-U	Chubut	Patagonia
AR-V	Tierra del Fuego	Patagonia
AR-W	Corrientes	Norte Grande
AR-X	Córdoba	Centro
AR-Y	Jujuy	Norte Grande
AR-Z	Santa Cruz	Patagonia
"""
provincia_csv = StringIO(provincia_txt)
entidad_provincia = pd.read_csv(provincia_csv, sep=('\t'))
sucursales = sucursales.merge(entidad_provincia, on = 'provincia')

In [None]:
sucursales.head()

Unnamed: 0,id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo,nom_provincia,region
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado,Córdoba,Centro
1,10-1-24,10,1,Hipermercado Carrefour,INC S.A.,AR-X,Jardin Espinoza,Av. O'Higgins 3765,-31.455534,-64.166095,Córdoba Jardín,Hipermercado,Córdoba,Centro
2,10-1-50,10,1,Hipermercado Carrefour,INC S.A.,AR-X,Quintas de Arguello,Recta Martinolli 7850,-31.346646,-64.269297,Córdoba Recta Martinolli,Hipermercado,Córdoba,Centro
3,10-1-54,10,1,Hipermercado Carrefour,INC S.A.,AR-X,Villa Allende Lomas,Av. Río De Janeiro 1787,-31.300019,-64.276462,Córdoba Villa Allende,Hipermercado,Córdoba,Centro
4,10-1-9,10,1,Hipermercado Carrefour,INC S.A.,AR-X,Villa Urquiza,Av. Colón 4880,-31.393915,-64.242835,Córdoba Colon,Hipermercado,Córdoba,Centro


In [None]:
sucursales.shape

(2333, 14)

In [None]:
productos.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [None]:
productos.shape

(72038, 7)

Tomamos una muestra aleatoria para ver valores más dispersos.

In [None]:
# Fijar seed para asegurar reproducibilidad
np.random.seed(0)
productos.sample(5)

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
4441,10-3-2302046000005,SIN MARCA,Picada Comun 1 Kg,1.0 kg,,,
35358,7791351130906,EL PEONCITO,Mix Frutas Secas El Peoncito 250 Gr,250.0 gr,,,
23477,7790360967824,SWIFT,Milanesa de Soja Prefrita Swift 4 Un,4.0 un,,,
49260,7794980938240,YUSPE,Condimento para Arroz Yuspe 25 Gr,25.0 gr,,,
4231,10-2-2308124000004,SIN MARCA,Papa Negra 1 Kg,1.0 kg,,,


Veamos los tipos de datos que tenemos

In [None]:
precios.dtypes

precio         float64
producto_id     object
sucursal_id     object
fecha           object
dtype: object

In [None]:
sucursales.dtypes

id                      object
comercioId               int64
banderaId                int64
banderaDescripcion      object
comercioRazonSocial     object
provincia               object
localidad               object
direccion               object
lat                    float64
lng                    float64
sucursalNombre          object
sucursalTipo            object
nom_provincia           object
region                  object
dtype: object

In [None]:
productos.dtypes

id              object
marca           object
nombre          object
presentacion    object
categoria1      object
categoria2      object
categoria3      object
dtype: object

Los datasets ya están **listos para trabajar!**

#### 1.2. Asegurar la Existencia de IDs o Claves Únicas

El siguiente paso implica chequear que no existen datos duplicados y que las claves, si existen, son únicas.

Esto debemos hacerlo sobre las **entidades de sucursales y de productos**. Deberíamos tener un único id por producto o sucursal en estos ficheros, respectivamente. 

#### 1.3. Despersonalizar Datos y Guardarlos en un Nuevo Archivo

En este caso, no es necesario despersonalizar ningún dato, dado que los mismos no incluyen información sensible.
En todo caso, nos interesan las sucursales y sus direcciones.

#### 1.4. Nunca Modificar los Datos Crudos u Originales

Al finalizar la limpieza, deberán guardar el dataset resultante, para asegurarse de no modificar los datos originales.

### 2. Pasos de Limpieza Necesarios

#### 2.1. Etiquetas de Variables/Columnas y Problemas de Codificación/Encoding

Antes que nada, verificar el encoding de la fuente de datos, leyendo en crudo los primeros 100000 caracteres, por ejemplo:

In [None]:
import chardet

In [None]:
import requests
rawdata = requests.get(producto_url)
result = chardet.detect(rawdata.content[:100000])
result

{'confidence': 0.99, 'encoding': 'utf-8', 'language': ''}

Analizar los nombres de columnas, utilizando por ejemplo `df.columns.str.extract(r'^(\w+)$')`.

In [None]:
precios.columns.values

array(['precio', 'producto_id', 'sucursal_id', 'fecha'], dtype=object)

In [None]:
productos.columns.values

array(['id', 'marca', 'nombre', 'presentacion', 'categoria1',
       'categoria2', 'categoria3'], dtype=object)

In [None]:
sucursales.columns.values

array(['id', 'comercioId', 'banderaId', 'banderaDescripcion',
       'comercioRazonSocial', 'provincia', 'localidad', 'direccion',
       'lat', 'lng', 'sucursalNombre', 'sucursalTipo', 'nom_provincia',
       'region'], dtype=object)

#### 2.2. Tratamiento de Valores Faltantes

Para analizar los valores faltantes, primero deberán saber cuántos existen por campo y cuánto representan del total. Por ejemplo, para el dataset de precios:

In [None]:
valores_faltantes = pd.DataFrame([precios.isnull().sum(),
                                   precios.isnull().sum()/len(precios)]).transpose().rename(
    columns = {0:'Cantidad_NaN',1:'Porcentaje_Nan_s_Total'})

valores_faltantes.loc[valores_faltantes['Cantidad_NaN']>0].style.format({'Porcentaje_Nan_s_Total':"{:.2%}"})

Unnamed: 0,Cantidad_NaN,Porcentaje_Nan_s_Total
precio,7623.0,0.34%


* Cuáles son los id de productos que vienen sin precio?
* Para qué sucursales ocurre? Para qué fecha?
* Se podría calcular o agregar los valores faltantes en precio?

In [None]:
precios[precios.producto_id=='8004200129006']

Unnamed: 0,precio,producto_id,sucursal_id,fecha
466089,175.5,8004200129006,11-2-1015,20200412
466090,179.0,8004200129006,11-2-1061,20200412
466091,196.6,8004200129006,11-2-1108,20200412
466092,191.3,8004200129006,11-2-1115,20200412
466093,168.5,8004200129006,11-2-1116,20200412
466094,168.5,8004200129006,11-4-1045,20200412
466095,175.5,8004200129006,11-5-1002,20200412
466096,173.8,8004200129006,11-5-1004,20200412
466097,187.8,8004200129006,11-5-1020,20200412
466098,200.1,8004200129006,11-5-1057,20200412


In [None]:
productos[productos.id=='8004200129006']

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
68611,8004200129006,MAPA,Guantes Extra Grandes Mapa Plisse 2 Un,2.0 un,,,


#### 2.3. Codificación de Variables Categóricas

Aplica?

#### 2.4. No Cambiar los Nombres de las Variables de la Fuente de Origen

#### 2.5. Verificación de Consistencia de Datos

Este es el paso más analítico, en donde se deben aplicar reglas de integridad.

#### 2.6. Identificar y Documentar Valores Atípicos/Outliers

Calcular estadísticos.

#### 2.7. Evaluar Cómo Comprimir los Datos Para su Almacenamiento Más Eficiente

#### 2.8. Guardar el Set de Datos con un Nombre Informativo

### 3. Pasos de Limpieza Deseables

#### 3.1. Ordenar Variables/Columnas

#### 3.2. Quitar Variables/Columnas Irrelevantes

Tenemos alguna en este caso?

#### 3.3. Renombrar Variables de Grillas

Esto se puede hacer de manera transparente a través de un diccionario.


#### 3.4. Categorizar Variables que Contengan “Otros”

#### 3.5. Agregar Metadata a los Datos

Cuando y como fueron obtenidos, limpieza realizada, decisiones implementadas, asunciones, etc.

## II. Análisis en Profundidad del Contenido

### 1. Features Tipo Objetos

Primero nos quedamos con las features cuyo tipo es 'Objeto'.

In [None]:
# Observamos los campos que tienen tipo 'Objeto'
precios.dtypes[precios.dtypes == 'object']

producto_id    object
sucursal_id    object
fecha          object
dtype: object

In [None]:
precios['fecha'] = pd.to_datetime(precios['fecha'], format="%Y%m%d")

In [None]:
precios.dtypes

precio                float64
producto_id            object
sucursal_id            object
fecha          datetime64[ns]
dtype: object

### 2. producto_id en Entidad Producto

### 3. sucursal_id en Entidad Sucursales

### 4. Precios Reportados por Sucursal

### 5. Transformación y Ampliación de Características de Productos

#### 5.1 Presentación

In [117]:
productos = productos.dropna(subset=['presentacion'])

In [118]:
productos['presentacion_depurada'] = productos['presentacion'].str.lower()
productos['presentacion_depurada']

0          1.0 un
1          1.0 un
2          1.0 kg
3          1.0 kg
4          1.0 kg
           ...   
72033    500.0 gr
72034     12.0 un
72035     50.0 gr
72036     50.0 gr
72037    150.0 gr
Name: presentacion_depurada, Length: 72036, dtype: object

In [119]:
productos['um'] = productos['presentacion_depurada'].str[-2:]
productos['um'].unique()

array(['un', 'kg', 'gr', 'ml', 'cc', 'lt', 'mt'], dtype=object)

In [128]:
productos['cantidad'] = productos['presentacion_depurada'].str[0:-3]
productos['cantidad']

0          1.0
1          1.0
2          1.0
3          1.0
4          1.0
         ...  
72033    500.0
72034     12.0
72035     50.0
72036     50.0
72037    150.0
Name: cantidad, Length: 72036, dtype: object

In [168]:
productos['presentacion_en_nombre'] = productos.apply(lambda x: str(int(float(x['cantidad']))) + ' ' + x['um']
                if int(float(x['cantidad']))-float(x['cantidad']) == 0.
                else str(float(x['cantidad'])) + ' ' + x['um'], axis=1)

productos['presentacion_en_nombre']

0          1 un
1          1 un
2          1 kg
3          1 kg
4          1 kg
          ...  
72033    500 gr
72034     12 un
72035     50 gr
72036     50 gr
72037    150 gr
Name: presentacion_en_nombre, Length: 72036, dtype: object

#### 5.2 Nombre de Productos

In [170]:
productos['nombre_depurado'] = productos['nombre'].str.lower().fillna('')
productos['nombre_depurado']

0                                 radicheta atada la anonima 1 un
1                                   perejil atado la anonima 1 un
2                                                ojo de bife 1 kg
3                               milanesa de peceto novillito 1 kg
4                                      chiquizuela novillito 1 kg
                                   ...                           
72033    milhojas cobertura de chocolate blanco deli-sitas 500 gr
72034                                    mini pizzetas mayo 12 un
72035                          te negro en hebras lata dana 50 gr
72036                          te verde en hebras lata dana 50 gr
72037                     yerba mate aromatizada lata dana 150 gr
Name: nombre_depurado, Length: 72036, dtype: object

Al tratar de depurar la unidad de medida, aparecieron las siguientes inconsistencias:

In [175]:
filtro_nombre_sin_presentacion = productos.apply(lambda x: x['cantidad_en_nombre'] not in x['nombre_depurado'], axis=1)
productos[filtro_nombre_sin_presentacion].head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3,presentacion_depurada,um,cantidad,cantidad_int,cantidad_float,cantidad_new,cantidad_en_nombre,presentacion_en_nombre,nombre_depurado
52,7933622,NERDS,Confites Grape Strawberry Nerds 46.4 Gr,46.7 gr,,,,46.7 gr,gr,46.7,46,46.7,46,46.7 gr,46.7 gr,confites grape strawberry nerds 46.4 gr
53,7935725,NERDS,Confites Apple Lemonade Nerds 46.7 Gr,46.0 gr,,,,46.0 gr,gr,46.0,46,46.0,46,46 gr,46 gr,confites apple lemonade nerds 46.7 gr
59,30108417,MAYBELLINE,Mascara para Pestañas Maybelline Volum Express 10 Gr,1.0 un,,,,1.0 un,un,1.0,1,1.0,1,1 un,1 un,mascara para pestañas maybelline volum express 10 gr
72,42096276,NIVEA,Desodorante Antitranspirante Mujer en Barra Nivea Comfort 43 Ml,40.0 ml,,,,40.0 ml,ml,40.0,40,40.0,40,40 ml,40 ml,desodorante antitranspirante mujer en barra nivea comfort 43 ml
73,42126560,NIVEA,Desodorante Atitranspirante Nivea Pearl & Beauty 43 Ml,40.0 ml,,,,40.0 ml,ml,40.0,40,40.0,40,40 ml,40 ml,desodorante atitranspirante nivea pearl & beauty 43 ml


In [174]:
productos[filtro_nombre_sin_presentacion].sample(20)

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3,presentacion_depurada,um,cantidad,cantidad_int,cantidad_float,cantidad_new,cantidad_en_nombre,presentacion_en_nombre,nombre_depurado
49794,7795471230010,OLIO,Keratina Concentrada Anna Sanctis 110Ml,110.0 ml,,,,110.0 ml,ml,110.0,110,110.0,110,110 ml,110 ml,keratina concentrada anna sanctis 110ml
58099,7798095920060,DELICIAS DEL ORIENTE,Masa Fila Delicias del Oriente 500 Gr,10.0 un,,,,10.0 un,un,10.0,10,10.0,10,10 un,10 un,masa fila delicias del oriente 500 gr
1960,1-1-2270774000003,SAN LUCIO,Ricotta San Lucio Kg,1.0 kg,,,,1.0 kg,kg,1.0,1,1.0,1,1 kg,1 kg,ricotta san lucio kg
13514,6-2-0000000067725,LA FRANCISCA,Paleta hueso sin Cuero La Francisca 1,1.0 kg,,,,1.0 kg,kg,1.0,1,1.0,1,1 kg,1 kg,paleta hueso sin cuero la francisca 1
36917,7791600145132,KEVIN,Pack Estuche Kevin Black Edt 60 Cc + Desorante 150 Cc,210.0 cc,,,,210.0 cc,cc,210.0,210,210.0,210,210 cc,210 cc,pack estuche kevin black edt 60 cc + desorante 150 cc
62027,7798140252672,MA EVANS,Shampoo Herbolaria Milenaria Tio Nacho 200 Cc,400.0 ml,,,,400.0 ml,ml,400.0,400,400.0,400,400 ml,400 ml,shampoo herbolaria milenaria tio nacho 200 cc
52823,7798004430062,SHIM SHIM,Papas Baston Shim Shim 500 Gr,4.0 un,,,,4.0 un,un,4.0,4,4.0,4,4 un,4 un,papas baston shim shim 500 gr
29522,7790895640827,KIN,Agua Mineralizada sin Gas en Bidon Kin 6 Lt,5.0 lt,,,,5.0 lt,lt,5.0,5,5.0,5,5 lt,5 lt,agua mineralizada sin gas en bidon kin 6 lt
36085,7791520007411,VERITAS,Desodorante Hombre Veritas Extreme 410 Ml,275.0 gr,,,,275.0 gr,gr,275.0,275,275.0,275,275 gr,275 gr,desodorante hombre veritas extreme 410 ml
34003,7791293016474,SUAVE,Shampoo Frutos Rojos Suave 930 Cc,930.0 ml,,,,930.0 ml,ml,930.0,930,930.0,930,930 ml,930 ml,shampoo frutos rojos suave 930 cc


Qué pasó en estos casos? Deberíamos depurar el nombre o modificar la um?
Cómo podemos hacer para extraer la um del nombre?

In [187]:
productos['um_en_nombre'] = productos.apply(lambda x: x['nombre_depurado'][-len(x['presentacion_en_nombre']):], axis = 1).str.strip()

In [194]:
# productos[['um_en_nombre','presentacion_en_nombre']]
# (productos['um_en_nombre'] == productos['presentacion_en_nombre']).sum()
# (productos['um_en_nombre'] != productos['presentacion_en_nombre']).sum()

filtro = (productos['um_en_nombre'] != productos['presentacion_en_nombre'])
productos[filtro]

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3,presentacion_depurada,um,cantidad,cantidad_int,cantidad_float,cantidad_new,cantidad_en_nombre,presentacion_en_nombre,nombre_depurado,um_en_nombre
52,0000007933622,NERDS,Confites Grape Strawberry Nerds 46.4 Gr,46.7 gr,,,,46.7 gr,gr,46.7,46,46.7,46,46.7 gr,46.7 gr,confites grape strawberry nerds 46.4 gr,46.4 gr
53,0000007935725,NERDS,Confites Apple Lemonade Nerds 46.7 Gr,46.0 gr,,,,46.0 gr,gr,46.0,46,46.0,46,46 gr,46 gr,confites apple lemonade nerds 46.7 gr,.7 gr
59,0000030108417,MAYBELLINE,Mascara para Pestañas Maybelline Volum Express 10 Gr,1.0 un,,,,1.0 un,un,1.0,1,1.0,1,1 un,1 un,mascara para pestañas maybelline volum express 10 gr,0 gr
72,0000042096276,NIVEA,Desodorante Antitranspirante Mujer en Barra Nivea Comfort 43 Ml,40.0 ml,,,,40.0 ml,ml,40.0,40,40.0,40,40 ml,40 ml,desodorante antitranspirante mujer en barra nivea comfort 43 ml,43 ml
73,0000042126560,NIVEA,Desodorante Atitranspirante Nivea Pearl & Beauty 43 Ml,40.0 ml,,,,40.0 ml,ml,40.0,40,40.0,40,40 ml,40 ml,desodorante atitranspirante nivea pearl & beauty 43 ml,43 ml
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71804,9-3-0000000927642,SIN MARCA,Hinojo 1 Kg,1.0 un,,,,1.0 un,un,1.0,1,1.0,1,1 un,1 un,hinojo 1 kg,1 kg
71811,9-3-0000000941655,SIN MARCA,Carne Picada Especial 1 Kg,1.0 un,,,,1.0 un,un,1.0,1,1.0,1,1 un,1 un,carne picada especial 1 kg,1 kg
71954,9-3-0000000957472,SIN MARCA,Coliflor 1 Un,1.0 kg,,,,1.0 kg,kg,1.0,1,1.0,1,1 kg,1 kg,coliflor 1 un,1 un
71955,9-3-0000000957755,SIN MARCA,Falda de Novillo 1 Kg,1.0 un,,,,1.0 un,un,1.0,1,1.0,1,1 un,1 un,falda de novillo 1 kg,1 kg


#### 5.3 Marca

### 6. Transformación de Características de Sucursales

#### 6.1 Provincia

Por qué no vale la pena hacer lo mismo para regiones, ya habiendo transformado en dummies las provincias?

#### 6.2 Tipo Sucursal

#### 6.3 Descripción Sucursal

Qué situación puede aparecer si el tipo de sucursal tiene una asignación unívoca a la descripción de la sucursal? Vale la pena tener ambas variables como dummies o con una de estas características alcanza? Cuál creen que es mejor?

### 7. Unión de Datasets y Creación de Precio Homogéneo. Nuevos Outliers.

In [None]:
precio_producto = pd.merge(precios,productos,left_on='producto_id',right_on='id',how='left').drop(columns = 'id')
precio_sucursal_producto_clean = pd.merge(precio_producto,sucursales,left_on='sucursal_id', right_on='id',how='left').drop(columns = 'id')
precio_sucursal_producto_clean.head()

In [None]:
precio_sucursal_producto_clean.shape

(2222418, 23)

#### 7.1 Análisis de Outliers

### 8. Precio Relativo

### 9. Adicional

### 10. Guardado de Dataset Limpio

In [None]:
# Guardamos el dataset limpio
pd.to_pickle(precio_sucursal_producto_clean, 'precio_sucursal_producto_clean.pkl', compression="zip")