![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)

# Integración y preparación de datos

## L4: Consistencia

De acuerdo con el caso de uso del sector retail, vamos a cumplir los objetivos de mejorar la calidad de los datos y en este caso vamos a enfocarnos en la consistencia de los datos.

**Autor:** David Ocampo, Daniel Galindo Ruiz
    
d.ocampo@uniandes.edu.co, d.galindo@uniandes.edu.co

### 1. Contexto del negocio 

La organización está realizando el informe de ventas totales, sin embargo encuentra que la totalización de productos por categoría no concuerda con los totales esperados. Por lo tanto en necesario familiarizarse con esta dimensión de calidad de los datos y estar en capacidad de detectar problemas relacionados con esa dimensión, para poder corregirla y si es necesario notificar a la organización para que se corrija el problema de raíz.  



### Objetivos
Familiarizarse con los datos de los productos, para identificar los problemas relacionados con la consistencia y de ser posible corregirlos.
En particular se pretende:

1. Identificar registros con problemas de consistencia tanto exacta como difusa.
2. Plantear posibles causas de ese problema.
3. Plantear y aplicar alternativas de solución. 
4. Reflexionar sobre alternativas para automatizar este proceso al recibir nuevas versiones de la fuente de datos analizada.

### 2. Importación de librerías y archivos

En las siguientes líneas se importarán las librerías necesarias, las cuales son **Pandas** para el manejo de datos, la librería **distance**, particularmente la función Levenshtein y la librería **itertools**.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos convencional
import pandas as pd
# Función de levenshtein para distancia de caracteres. Si te genera un error correr (pip install python-Leveshtein)
from Levenshtein import distance as lev
# generar producto cruz de listas para matriz de levenshtein
import itertools

#Librería para el manejo de audio. 
import IPython.display as ipd

In [2]:
# Te invito a escuchar el audio donde presentamos este notebook
ipd.Audio('Consistencia.m4a') 

In [3]:
# cargar los datos en csv
data= pd.read_csv('ordenes_por_producto.csv', sep=';', encoding="utf-8")
# Visualizar los datos
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,1564PA53A-A,PA53,VE6785,1-ago-17,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1,28983PD80A-A,PD80,VE3342,31-may-18,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
2,38613PB61A-A,PB61,VE7671,27-oct-17,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
4,73781PA71A-A,PA71,VE8575,1/11/2018 0:00,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560


Es necesario cumplir con la integridad de los datos, por lo tanto vamos a buscar lograr una fuente de datos con: completitud, estandarización, duplicidad y consistencia.

### 3. Análisis de la fuente de los datos

### 3.1. Registros y atributos
El número de registros y atributos nos dará una guía del correcto cargue de los datos, podemos utilizar la función shape para validar este paso.

In [4]:
# Tamaño del dataset (filas, columnas)
data.shape

(1651, 18)

In [5]:
# Revisión de los atributos
data.columns

Index(['orden_id', 'producto_id', 'vendedor_id', 'fecha_envio_limite',
       'precio', 'valor_flete', 'codigo_postal_vendedor', 'ciudad_vendedor',
       'departamento_vendedor', 'nombre_categoria_producto',
       'longitud_nombre_producto', 'longitud_descripcion_producto',
       'cantidad_fotos_producto', 'peso_g_producto', 'longitud_cm_producto',
       'altura_cm_producto', 'ancho_cm_producto', 'volumen_cm3_producto'],
      dtype='object')

### 3.2. Tipos de datos

Debemos identificar en la fuente el tipo de datos de las variables que estamos analizando, para poder establecer su formato y su dominio.

In [6]:
#identificar los tipos de datos
data.dtypes

orden_id                          object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
volumen_cm3_producto               int64
dtype: object

### 4. Consistencia 

Es necesario entender el dominio y estructura de los datos para esto vamos a revisar estas características para ciertos atributos que son suceptibles de un mayor entendimiento y quizás, labores de transformación.

### 4.1. Consistencia difusa en atributos de tipo string
En el perfilamiento de datos pudimos ver que las categorías de los productos tienen errores de escritura. Sin embargo, vamos a revisar con la función de Levenshtein qué tanto difieren y por qué se da ese problema. 

In [7]:
data['nombre_categoria_producto'].value_counts()

Carnicería           261
Deportes             258
Electrodomésticos    253
Frutas y verduras    249
Celulares            247
Ropa de adultos      246
Ropa_de_adultos       23
Frutas_y_verduras     12
Name: nombre_categoria_producto, dtype: int64

En un primer análisis rápido vemos que hace falta un guión bajo para la separación de palabras, pero ¿En qué medida los nombres de las categorías de productos son distintos?

In [8]:
# identificar todas las categorías
nombre_categoria=list(data['nombre_categoria_producto'].unique())
nombre_categoria

['Electrodomésticos',
 'Celulares',
 'Ropa_de_adultos',
 'Carnicería',
 'Ropa de adultos',
 nan,
 'Deportes',
 'Frutas y verduras',
 'Frutas_y_verduras']

In [9]:
# crear cruce de las categorías
producto_cruz=list(itertools.product(nombre_categoria,nombre_categoria))
producto_cruz[0:5]

[('Electrodomésticos', 'Electrodomésticos'),
 ('Electrodomésticos', 'Celulares'),
 ('Electrodomésticos', 'Ropa_de_adultos'),
 ('Electrodomésticos', 'Carnicería'),
 ('Electrodomésticos', 'Ropa de adultos')]

In [10]:
# dataframe con los cruces
matriz_leven = pd.DataFrame(producto_cruz, columns =['nombre_categoria_1', 'nombre_categoria_2'])
matriz_leven.head()

Unnamed: 0,nombre_categoria_1,nombre_categoria_2
0,Electrodomésticos,Electrodomésticos
1,Electrodomésticos,Celulares
2,Electrodomésticos,Ropa_de_adultos
3,Electrodomésticos,Carnicería
4,Electrodomésticos,Ropa de adultos


In [11]:
#aplicar función de levenshtein
for i in range(len(matriz_leven)):
    matriz_leven.at[i,'Levenshtein']=lev(str(matriz_leven.at[i,'nombre_categoria_1']),str(matriz_leven.at[i,'nombre_categoria_2']))

In [12]:
pd.crosstab(matriz_leven['nombre_categoria_1'],matriz_leven['nombre_categoria_2'],values=matriz_leven['Levenshtein'], aggfunc='sum')

nombre_categoria_2,Carnicería,Celulares,Deportes,Electrodomésticos,Frutas y verduras,Frutas_y_verduras,Ropa de adultos,Ropa_de_adultos
nombre_categoria_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Carnicería,0.0,8.0,9.0,16.0,13.0,13.0,14.0,14.0
Celulares,8.0,0.0,6.0,15.0,14.0,14.0,12.0,12.0
Deportes,9.0,6.0,0.0,13.0,15.0,15.0,12.0,12.0
Electrodomésticos,16.0,15.0,13.0,0.0,16.0,16.0,14.0,14.0
Frutas y verduras,13.0,14.0,15.0,16.0,0.0,2.0,13.0,14.0
Frutas_y_verduras,13.0,14.0,15.0,16.0,2.0,0.0,14.0,13.0
Ropa de adultos,14.0,12.0,12.0,14.0,13.0,14.0,0.0,2.0
Ropa_de_adultos,14.0,12.0,12.0,14.0,14.0,13.0,2.0,0.0


Podemos ver que por ejemplo para la categoría Frutas_y_verduras evaluada con su par sin guión, la distancia de Levenshtein solamente es 2, por lo tanto como pensamos desde el principio, la diferencia es el caracter del guión. Esto puede ser simplemente debido a un error de digitación o de alguno de los sistemas. La solución más viable es reemplazar esos espacios vacíos por el guión para determinar las categorías reales, como lo hicimos en el tutorial de estandarización.

In [13]:
# reemplazar el guión
data['nombre_categoria_producto']=data['nombre_categoria_producto'].apply(lambda x: str(x).replace(' ','_'))
data['nombre_categoria_producto'].value_counts()

cama_mesa_banho           1240
moveis_decoracao           905
esporte_lazer              858
beleza_saude               838
informatica_acessorios     813
utilidades_domesticas      770
nan                         76
0                            1
Name: nombre_categoria_producto, dtype: int64

### 4.2. Consistencia en atributos de tipo numérico
En este escenario es un poco más fácil identificar la consistencia de los datos ya que dependiendo del dominio de los datos podemos entender cómo deberían comportarse y dónde están los posibles errores. Para este caso vamos a usar las principales estadísticas para encontrar el dominio de algunos atributos e identificar sus errores y posibles soluciones.

In [13]:
# generar estadísticas básicas de los atributos numéricos
data.describe()

Unnamed: 0,precio,valor_flete,codigo_postal_vendedor,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
count,1651.0,1549.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0
mean,105.351702,21.103428,48559.625681,20.017565,20.079952,19.268322,2110.227135,29.865536,18.109631,23.508783,11705.21805
std,132.496983,20.867412,12845.017466,11.741418,11.681569,11.592948,2099.076835,15.004245,11.317007,11.026377,12794.451104
min,-594.4,0.0,5001.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,25.73,6.09,52207.0,10.0,10.0,9.0,600.5,18.0,9.0,16.0,2303.0
50%,71.99,15.15,52381.0,20.0,20.0,19.0,1445.0,30.0,17.0,23.0,7695.0
75%,151.915,28.66,52435.0,30.0,30.0,29.0,2932.0,41.0,26.0,31.0,16290.0
max,771.49,178.16,52565.0,40.0,40.0,40.0,17034.0,76.0,59.0,62.0,90828.0


En este caso identificamos que existen precios negativos, es una pregunta que deberíamos hacernos muy sencilla si los precios podrían ser negativos. Esta inconsistencia nos lleva a una revisión más profunda de este atributo.

In [14]:
# filtramos los precios negativos
data[data['precio']<0]['precio']

0        -7.27
8       -14.97
15     -229.74
21      -52.32
30      -55.45
         ...  
1595    -61.10
1597   -149.31
1608   -214.36
1611    -25.70
1633   -129.18
Name: precio, Length: 104, dtype: float64

Seguramente es un error de digitación, vemos que esto sucede con 104 registros. Revisando el caso con las personas de negocio, y viendo los montos involucrados representados por el total de ventas con los precios como están y luego de la transformación sugerida, llegamos a la conclusión de que es un error. Además que por alguna razón, esos registros quedaron con signo negativo, pero con el valor correcto. Es así como decidimos realizar una transformación para eliminar el signo negativo. 

In [15]:
# suma total de los productos vendidos 
data['precio'].sum()

173935.66

In [16]:
# generar una nueva columna con la transformación
data['precio_corregido']=data['precio'].apply(lambda x: abs(x))
data['precio_corregido']

0         7.27
1         3.22
2       104.18
3       348.39
4        29.03
         ...  
1646     66.10
1647     33.61
1648     40.51
1649    315.17
1650     50.26
Name: precio_corregido, Length: 1651, dtype: float64

In [17]:
# diferencia entre la suma del precio corregido y el original
data['precio_corregido'].sum()- data['precio'].sum()

20625.26000000001

In [18]:
# suma de los precios por categoría
data.groupby('nombre_categoria_producto').sum()[['precio_corregido']]

Unnamed: 0_level_0,precio_corregido
nombre_categoria_producto,Unnamed: 1_level_1
Carnicería,33614.93
Celulares,29236.88
Deportes,22909.62
Electrodomésticos,29406.08
Frutas y verduras,29431.51
Frutas_y_verduras,2920.09
Ropa de adultos,29491.17
Ropa_de_adultos,3340.96


Vemos que la diferencia entre los precios y precios corregidos es de cerca de 20.000: es un error supremamente grande por la falta de evaluación del dominio de este atributo. En el último resultado obtenido podemos revisar el informe real que necesita la compañía para tomar decisiones cruciales en temas de mercadeo y distribución.

### Caso de extensión
Trabajaremos con el archivo de productos_por_fecha, en el cual se encuentran los productos que se han vendido a lo largo del tiempo. Además de realizar los siguientes puntos para el archivo dado, contempla cuales son los riesgos que corre la empresa al utilizar datos con los problemas identificados.

+ Revisa la consistencia de la categoría de nombre_categoria_producto.
+ Revisa la consistencia del volumen de los productos.
+ Plantea alternativas de solución y en la medida de lo posible aplícalas.