![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)

# Integración y preparación de datos

## L1: Completitud de los datos

De acuerdo con el caso de uso del sector retail, vamos a cumplir los objetivos de calidad de datos en la dimensión de completitud.

**Autor:** David Ocampo, Daniel Galindo Ruiz
    
d.ocampo@uniandes.edu.co, d.galindo@uniandes.edu.co

### 1. Contexto del negocio 

El distribuidor de la organización está confundido porque hay registros de las órdenes que no permiten ser entregados porque están vacíos. La organización tiene que darle una pronta solución. Con los datos dados es necesario que realicemos una correcta identificación de los vacíos así como proponer soluciones viables para la organización.


### Objetivos

1. Revisar los atributos que contienen datos vacíos. 
2. Aplicar diversas formas para mejorar la dimensión de completitud de la columnas de la fuente de datos analizada.

### 2. Importación de librerías y archivos

En las siguientes líneas se importará la librería necesaria, la cual es son **Pandas** para el manejo de datos. 

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos convencional
import pandas as pd

#Librería para el manejo de audio. 
import IPython.display as ipd

In [2]:
# Te invito a escuchar el audio donde presentamos este notebook
# ipd.Audio('Completitud.m4a') 

In [3]:
# cargar los datos en csv
data= pd.read_csv('ordenes_por_producto.csv', sep=';')
# Visualizar los datos
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,1564PA53A-A,PA53,VE6785,1-ago-17,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1,28983PD80A-A,PD80,VE3342,31-may-18,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
2,38613PB61A-A,PB61,VE7671,27-oct-17,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
4,73781PA71A-A,PA71,VE8575,1/11/2018 0:00,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560


### 3. Análisis de la fuente de los datos

### 3.1. Registros y atributos
El número de registros y atributos nos dará una guía del correcto cargue de los datos, podemos utilizar la función shape para la revisión de este dato.

In [4]:
# Tamaño del dataset (filas, columnas)
data.shape

(1651, 18)

In [5]:
# Revisión de los atributos
data.columns

Index(['orden_id', 'producto_id', 'vendedor_id', 'fecha_envio_limite',
       'precio', 'valor_flete', 'codigo_postal_vendedor', 'ciudad_vendedor',
       'departamento_vendedor', 'nombre_categoria_producto',
       'longitud_nombre_producto', 'longitud_descripcion_producto',
       'cantidad_fotos_producto', 'peso_g_producto', 'longitud_cm_producto',
       'altura_cm_producto', 'ancho_cm_producto', 'volumen_cm3_producto'],
      dtype='object')

### 3.2. Tipos de datos

Debemos identificar en la fuente el tipo de datos de las variables que estamos analizando, para poder establecer su formato y su dominio.

In [6]:
#identificar los tipos de datos
data.dtypes

orden_id                          object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
volumen_cm3_producto               int64
dtype: object

### 4. Completitud

Como parte del proceso de mejora de calidad de datos, es importante identificar y proponer soluciones para el problema de datos faltantes. De hecho, es una tarea obligatoria en la transformación de los datos que resulta muy valiosa en temas de analítica.

### 4.1. Identificar los atributos vacíos

Es necesario identificar qué atributos están vacíos, ya que esto puede alterar los resultados de los análisis que se están presentando, e incluso, en algunos casos, generar alguna pérdida económica si no está bien identificado.

In [8]:
# conteo de los datos vacíos por atributo
data.isna().sum()

orden_id                           0
producto_id                        0
vendedor_id                        0
fecha_envio_limite                 0
precio                             0
valor_flete                      102
codigo_postal_vendedor             0
ciudad_vendedor                    0
departamento_vendedor              0
nombre_categoria_producto        102
longitud_nombre_producto           0
longitud_descripcion_producto      0
cantidad_fotos_producto            0
peso_g_producto                    0
longitud_cm_producto               0
altura_cm_producto                 0
ancho_cm_producto                  0
volumen_cm3_producto               0
dtype: int64

In [9]:
# porcentaje de los datos vacíos por atributo
data[['valor_flete','nombre_categoria_producto']].isna().sum()/len(data)

valor_flete                  0.061781
nombre_categoria_producto    0.061781
dtype: float64

Vemos que los datos vacíos se centran en datos fundamentales como el valor del flete y el nombre de la categoría de producto, dato que puede ser reemplazado si se tiene bien identificado el producto. Este último error pudo generarse al extraerse los datos del sistema fuente.

### 4.2. Eliminación de registros
Como existen atributos que no son fundamentales para algunos de los análisis que quiere hacer la empresa, se puede proceder a su eliminación en esta etapa del proceso y se continua con los análisis que no la requieren. Este es el caso de la variable nombre_categoria_producto, que fue analizado junto con las personas de la empresa y se llegó al acuerdo de que van a generar un nuevo archivo con la corrección requerida para todas órdenes. Así que, procedemos a eliminar esa columna del dataframe, en espera de la nueva fuente.

In [10]:
# revisar los registros con vacíos
data[data['nombre_categoria_producto'].isna()].head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
8,81437PS10A-A,PS10,VE3482,14/02/2018 0:09,-14.97,,52051,Arboleda,Nariño,,6,5,0,2032,50,12,21,12600
44,4860PK64A-A,PK64,VE4052,15/11/2017 3:03,14.98,,52411,Linares,Nariño,,7,13,16,474,12,6,30,2160
48,55480PR47A-A,PR47,VE8634,28/01/2257 17:52,70.97,,52051,Arboleda,Nariño,,24,4,32,7659,43,11,41,19393
75,54805PA82A-A,PA82,VE1504,23/01/2018 17:08,376.08,,52210,Contadero,Nariño,,12,12,35,74,31,12,39,0
76,31738PA13A-A,PA13,VE4819,20/10/2017 9:28,619.77,,52210,Contadero,Nariño,,27,39,6,458,32,9,31,0


In [11]:
#eliminación del atributo nombre_categoria_producto del dataframe
data=data.drop('nombre_categoria_producto',axis=1)
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,1564PA53A-A,PA53,VE6785,1-ago-17,-7.27,27.12,52565,Providencia,Nariño,19,28,29,1324,48,17,11,8976
1,28983PD80A-A,PD80,VE3342,31-may-18,3.22,6.01,52203,Colon,Nariño,18,29,16,4677,26,6,16,2496
2,38613PB61A-A,PB61,VE7671,27-oct-17,104.18,17.7,52051,Arboleda,Nariño,13,30,29,101,17,26,24,10608
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,33,26,13,514,47,16,43,32336
4,73781PA71A-A,PA71,VE8575,1/11/2018 0:00,29.03,30.23,5002,Abejorral,Antioquia,27,3,13,2962,20,26,28,14560


### 4.2. Sustitución por la media

La sustitución de medias es un método en el que las observaciones que tienen datos faltantes en un determinado atributo, son reemplazados por el valor promedio del atributo, en la fuente de análisis.

Como el valor del flete es algo que podríamos interpretar como un atributo con poca variabilidad, se procede a realizar la sustitución por la media.


In [12]:
# calcular la media
media_flete=data['valor_flete'].mean()
media_flete

21.10342801807621

In [13]:
# reemplazar el valor
data['valor_flete']=data['valor_flete'].fillna(media_flete)
data['valor_flete']

0       27.12
1        6.01
2       17.70
3       34.84
4       30.23
        ...  
1646    48.81
1647    10.47
1648    18.96
1649    32.78
1650     2.01
Name: valor_flete, Length: 1651, dtype: float64

Para asegurarnos de que ya no hay valores faltantes en la columna 'valor_flete' vamos a sumar todos los valores con NaN en dicha columna. El resultado de esto debería ser cero, pues los valores faltantes fueron sustituidos con la media.

In [14]:
# verificamos que no existan vacíos luego de completar la información
data['valor_flete'].isna().sum()

0

Luego de esto, tendremos los datos completos para realizar análisis sobre la fuente de datos con una pérdida mínima de información. Esto nos muestra que los diferentes métodos para completar los datos están sujetos al contexto de nuestros datos.

### Caso de extensión
Trabajaremos con el archivo de productos_por_fecha, en el cual se encuentran los productos que se han vendido a lo largo del tiempo. Además de realizar los siguientes puntos para el archivo dado, analiza el problema que tendría el negocio si utiliza datos con este problema de completitud.

+ Revisa los datos vacíos o nulos.
+ Calcula el porcentaje de completitud.
+ Propón una solución con los métodos aprendidos.
+ Aplica la solución y valida los efectos de la misma.