# Integración y preparación de datos

## Perfilamiento de datos 

### 1. Importación de librerías y archivos

En las siguientes líneas se importarán las librerías necesarias, las cuales son **Pandas** para el manejo de datos y **pandas_profiling** para el reporte de perfilamiento

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos convensional
import pandas as pd
# Librería para perfilamiento
import pandas_profiling

ImportError: cannot import name 'soft_unicode' from 'markupsafe' (C:\Users\Edwar\anaconda3\lib\site-packages\markupsafe\__init__.py)

In [2]:
# cargar los datos en csv
data= pd.read_csv('ordenes_por_producto.csv', sep=';',encoding='utf-8')
# Visualizar los datos
data.head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
0,1564PA53A-A,PA53,VE6785,1-ago-17,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1,28983PD80A-A,PD80,VE3342,31-may-18,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
2,38613PB61A-A,PB61,VE7671,27-oct-17,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
3,4978PS63A-A,PS63,VE1492,13/12/2017,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
4,73781PA71A-A,PA71,VE8575,1/11/2018 0:00,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560


Es necesario identificar cierto tipo de pasos a realizar para entender mejor la manera de manejar los datos. En las siguientes líneas veremos cómo realizar algunos análisis básicos de gran utilidad para lograr los objetivos del perfilamiento de datos y al final del proceso, realizar el reporte asociado a esta actividad.

### 3. Análisis de la fuente de los datos

### 3.1. Registros y atributos
El número de registros y atributos nos dará una guía del correcto cargue de los datos, podemos utilizar la función shape para la revisión de este dato

In [3]:
# Tamaño del dataset (filas, columnas)
data.shape

(1651, 18)

In [4]:
# Revisión de los atributos
data.columns

Index(['orden_id', 'producto_id', 'vendedor_id', 'fecha_envio_limite',
       'precio', 'valor_flete', 'codigo_postal_vendedor', 'ciudad_vendedor',
       'departamento_vendedor', 'nombre_categoria_producto',
       'longitud_nombre_producto', 'longitud_descripcion_producto',
       'cantidad_fotos_producto', 'peso_g_producto', 'longitud_cm_producto',
       'altura_cm_producto', 'ancho_cm_producto', 'volumen_cm3_producto'],
      dtype='object')

### 3.2. Determinar el identificador único de la fuente de datos y validar sus propiedades

En este punto veremos cómo determinar el identificador único de la fuente de datos. Este atributo no debe tener valores nulos ni repetidos. En este caso, es más sencillo, ya que el negocio nos indicó que el identificador de los registros era el número de orden y vamos a validarlo. 
El conocer el identificador único de una fuente de datos es valioso ya que nos permite comprender la semántica de los registros y asociado a este campo debemos validar que no tenga registros nulos ni duplicados. Estos serían ejemplos claros de problemas de calidad de datos en la fuente, los cuales deben ser analizados y si es necesario, reportados al negocio y corregios.


In [5]:
# Revisar los registros que contienen vacíos en el atributo orden_id
data['orden_id'].isna().sum()

0

In [6]:
# revisar que no existan valores duplicados en el atributo order_id
len(data['orden_id'].unique())

1150

En este punto recordemos que la fuente tiene 290 registros, de esta manera identificamos que hay 145 registros duplicados y es lo que queremos validar a continuación.

In [7]:
# contar los registros duplicados del atributo orden_id
data.duplicated('orden_id').sum()

501

En la validación del identificador vemos que no tenemos problemas de registros vacíos o nulos, pero si de duplicados. Pasamos a revisar el tema de los duplicados.

In [8]:
# visualizar los datos duplicados de acuerdo con el identificador - orden_id
data[data.duplicated('orden_id')].head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
538,107500PO59A-B,PS22,VE1558,20/10/2017 9:07,115.73,4.68,52405,Leiva,Nariño,Carnicería,10,31,20,256,43,2,21,1806
1151,1564PA53A-A,PA53,VE6785,6/05/2018 12:56,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1152,28983PD80A-A,PD80,VE3342,18/10/2017 14:12,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
1153,38613PB61A-A,PB61,VE7671,10/09/2017 22:31,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
1154,4978PS63A-A,PS63,VE1492,11/01/2018 16:45,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336


Con este resultado podemos ver algunas de las órdenes duplicadas, pero es necesario identificar cuáles son esos datos duplicados y sus características. 

In [9]:
# encontrar los registros en los que el identificador de la orden está duplicado pero los datos de la orden no.
data[data.duplicated('orden_id') & ~data.duplicated()]

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
538,107500PO59A-B,PS22,VE1558,20/10/2017 9:07,115.73,4.68,52405,Leiva,Nariño,Carnicería,10,31,20,256,43,2,21,1806
1151,1564PA53A-A,PA53,VE6785,6/05/2018 12:56,-7.27,27.12,52565,Providencia,Nariño,Electrodomésticos,19,28,29,1324,48,17,11,8976
1152,28983PD80A-A,PD80,VE3342,18/10/2017 14:12,3.22,6.01,52203,Colon,Nariño,Celulares,18,29,16,4677,26,6,16,2496
1153,38613PB61A-A,PB61,VE7671,10/09/2017 22:31,104.18,17.7,52051,Arboleda,Nariño,Ropa_de_adultos,13,30,29,101,17,26,24,10608
1154,4978PS63A-A,PS63,VE1492,11/01/2018 16:45,348.39,34.84,52323,Gualmatan,Nariño,Carnicería,33,26,13,514,47,16,43,32336
1155,73781PA71A-A,PA71,VE8575,17/11/2017 0:11,29.03,30.23,5002,Abejorral,Antioquia,Electrodomésticos,27,3,13,2962,20,26,28,14560


Si bien es cierto que se identificaron estos registros como duplicados en el atributo orden_id, la siguiente tarea es analizar el contenido de las otras variables para terminar de comprender el problema.

In [10]:
# revisar uno de los datos donde la orden está duplicada
data[data['orden_id']=='84227PR12A-A']

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
235,84227PR12A-A,PR12,VE2012,11/10/2017 8:27,49.3,1.11,52210,Contadero,Nariño,Frutas y verduras,19,36,32,4466,43,21,42,37926
1386,84227PR12A-A,PR12,VE2012,11/10/2017 8:27,49.3,1.11,52210,Contadero,Nariño,Frutas y verduras,19,36,32,4466,43,21,42,37926


En este caso, vemos dos registros con el mismo identificador de la orden. El último de los registros tiene valores diferentes para la fecha y el primero tiene los valores de precio y flete en ceros. Estos hallazgos deben ser validados con las personas del negocio.

### 3.3. Duplicados de la fuente de datos

Una vez encontrado el identificador único podemos revisar cuáles son los registros que se están duplicando para realizar las correcciones necesarias. La existencia de estos registros puede deberse a diferentes razones, puede ser simplemente un error en la captura de información o algo más complejo, como que existan ordenes duplicadas en el sistema fuente. Por esto, la importancia de determinar los registros al parecer duplicados.

In [11]:
# contar los registros duplicados de toda la fuente
data.duplicated().sum()

495

En esta validación vemos que hay menos registros duplicados que cuando contamos valores duplicados en el identificador. Veámos las características de los registros con identificador duplicado.

In [12]:
# revisar el número de duplicados de todos los atributos con la función count
data[data.duplicated()].count()

orden_id                         495
producto_id                      495
vendedor_id                      495
fecha_envio_limite               495
precio                           495
valor_flete                      463
codigo_postal_vendedor           495
ciudad_vendedor                  495
departamento_vendedor            495
nombre_categoria_producto        463
longitud_nombre_producto         495
longitud_descripcion_producto    495
cantidad_fotos_producto          495
peso_g_producto                  495
longitud_cm_producto             495
altura_cm_producto               495
ancho_cm_producto                495
volumen_cm3_producto             495
dtype: int64

En este punto es importante reflexionar sobre el resultado obtenido y determinar si es necesario hacer otros análisis para comprender mejor el problema y poderlo reportar.

In [13]:
# revisar el contenido de los registros duplicados
data[data.duplicated()].head()

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
1156,58767PS40A-A,PS40,VE1175,6/11/1901 21:06,220.91,8.18,52323,Gualmatan,Nariño++,Carnicería,36,2,2,3510,22,5,20,2200
1157,28468PB76A-A,PB76,VE8634,20/09/2017 4:24,101.55,111.74,52427,Magui,Nariño,Ropa de adultos,9,16,2,330,6,5,16,0
1158,8111PB14A-A,PB14,VE5681,25/10/2017 16:35,73.75,17.51,52210,Contadero,Nariño,Ropa de adultos,15,15,38,592,51,32,20,0
1159,81437PS10A-A,PS10,VE3482,14/02/2018 0:09,-14.97,,52051,Arboleda,Nariño,,6,5,0,2032,50,12,21,12600
1160,73702PS92A-A,PS92,VE9623,14/01/2018 21:46,13.48,20.66,52411,Linares,Nariño,Carnicería,25,18,0,3862,34,27,8,7344


In [14]:
# revisar el contenido de uno de los registros duplicados
data[data['orden_id']=='84227PR12A-A']

Unnamed: 0,orden_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
235,84227PR12A-A,PR12,VE2012,11/10/2017 8:27,49.3,1.11,52210,Contadero,Nariño,Frutas y verduras,19,36,32,4466,43,21,42,37926
1386,84227PR12A-A,PR12,VE2012,11/10/2017 8:27,49.3,1.11,52210,Contadero,Nariño,Frutas y verduras,19,36,32,4466,43,21,42,37926


Con este hallazgo ya es más fácil reportar los casos encontrados.

### 4. Análisis de los atributos

Para cada atributo es posible identificar el tipo de dato, el dominio en el que se encuentra, y si tienen algún patrón específico, por ejemplo, los precios deben ser valores numéricos positivos, en un rango particular. Con este análisis podemos revisar cuáles son las características principales de los atributos y continuar conociendo los datos y detectando posibles problemas en su calidad.


### 4.1. Tipos de datos

Debemos identificar en la fuente el tipo de datos de las variables que estamos analizando, para poder establecer su formato y su dominio.

In [15]:
#identificar los tipos de datos
data.dtypes

orden_id                          object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
volumen_cm3_producto               int64
dtype: object

En nuestra fuente de datos tenemos tipos de datos numéricos y string, esto corresponde con las características del producto y los datos que se especifican en el diccionario, a excepción de los primeros identificadores que deben ser numéricos y del atributo fecha_envio_limite que debemos transformar a Datetime, como aprendimos en el tutorial anterior.

### 4.2. Dominio

Debemos identificar en el diccionario de datos el dominio y corroborarlo con los datos.

In [16]:
#identificar el dominio del atributo precio, primero el valor mínimo
data['precio'].min()

-594.4

In [17]:
#identificar el dominio del atributo precio, en este punto el valor máximo
data['precio'].max()

771.49

Vemos como el dominio de precio está entre los valores -594.4 y 771.49. La pregunta es, ¿Esto tiene sentido?

### 4.3. Patrones

Debemos identificar los patrones de algunos de los atributos. En este caso el formato de la columna fecha_envio_límite y el código postal, por lo tanto vamos a realizar las siguientes actividades:

* Revisar formato del atributo fecha.
* Entender el formato de código postal.

In [18]:
#visualizar los datos que se van a corregir
data[['fecha_envio_limite','codigo_postal_vendedor']].head()

Unnamed: 0,fecha_envio_limite,codigo_postal_vendedor
0,1-ago-17,52565
1,31-may-18,52203
2,27-oct-17,52051
3,13/12/2017,52323
4,1/11/2018 0:00,5002


**Fecha:** en los primeros registros vemos que hay al menos 2 tipos de formatos de fecha:
* dd - mes - AA
* dd/mm/AAAA
* dd/mm/AAAA hh:mm

Donde dd: es día en con 2 dígitos, mes: primeras 3 letras del mes, mm: el mes con 2 dígitos, AAAA: año con 4 dígitos, AA: año con dos dígitos, hh: la hora con 2 dígitos y mm: los minutos con 2 dígitos.

In [19]:
#revisar la longitud del código postal
data['longitud_codigo']=data['codigo_postal_vendedor'].apply(lambda x: len(str(x)))
data[['longitud_codigo']].head(5)

Unnamed: 0,longitud_codigo
0,5
1,5
2,5
3,5
4,4


In [20]:
#revisar el dominio de la longitud del código
print(data['longitud_codigo'].max())
print(data['longitud_codigo'].min())

5
4


**Código postal**: vemos que el valor del código postal es un número entre 4 y 5 dígitos siempre positivo, lo que debemos corroborar con la definición de un código postal.

### 4.4. Atributos vacíos

Uno de los pasos más importantes para el negocio es identificar qué atributos están vacíos, ya que esto puede alterar los resultados de los análisis que se están presentando, e incluso, en algunos casos, generar alguna pérdida económica si no está bien identificado.

In [21]:
# Revisar los atributos que contienen vacíos
data.isna().sum()

orden_id                           0
producto_id                        0
vendedor_id                        0
fecha_envio_limite                 0
precio                             0
valor_flete                      102
codigo_postal_vendedor             0
ciudad_vendedor                    0
departamento_vendedor              0
nombre_categoria_producto        102
longitud_nombre_producto           0
longitud_descripcion_producto      0
cantidad_fotos_producto            0
peso_g_producto                    0
longitud_cm_producto               0
altura_cm_producto                 0
ancho_cm_producto                  0
volumen_cm3_producto               0
longitud_codigo                    0
dtype: int64

In [22]:
#porcentaje de nulos por variable
data.isna().sum()/len(data)

orden_id                         0.000000
producto_id                      0.000000
vendedor_id                      0.000000
fecha_envio_limite               0.000000
precio                           0.000000
valor_flete                      0.061781
codigo_postal_vendedor           0.000000
ciudad_vendedor                  0.000000
departamento_vendedor            0.000000
nombre_categoria_producto        0.061781
longitud_nombre_producto         0.000000
longitud_descripcion_producto    0.000000
cantidad_fotos_producto          0.000000
peso_g_producto                  0.000000
longitud_cm_producto             0.000000
altura_cm_producto               0.000000
ancho_cm_producto                0.000000
volumen_cm3_producto             0.000000
longitud_codigo                  0.000000
dtype: float64

Con el código anterior es posible revisar cuáles atributos contienen nulos y cuáles no, además podemos ver el porcentaje de valores nulos por atributo. Hay que tener en cuenta que tenemos vacíos en variables fundamentales como el valor del flete y el nombre de categoría de producto, la pregunta es si esto es o no un error, el único que lo sabe es el negocio, así que debemos reportarlo y validarlo.

### 4.5. Uso de estadística

Apoyado en el uso de estadística descriptiva, (i.e., medidas de tendencia central y dispersión), es posible entender las distribuciones y patrones de los atributos. De igual manera, identificar valores faltantes, valores atípicos entre otros, utilizando estadísticos como el mínimo, el máximo, y la media.

In [23]:
# Estadísticas básicas para las variables numéricas
data.describe()

Unnamed: 0,precio,valor_flete,codigo_postal_vendedor,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto,longitud_codigo
count,1651.0,1549.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0,1651.0
mean,105.351702,21.103428,48559.625681,20.017565,20.079952,19.268322,2110.227135,29.865536,18.109631,23.508783,11705.21805,4.920048
std,132.496983,20.867412,12845.017466,11.741418,11.681569,11.592948,2099.076835,15.004245,11.317007,11.026377,12794.451104,0.2713
min,-594.4,0.0,5001.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0
25%,25.73,6.09,52207.0,10.0,10.0,9.0,600.5,18.0,9.0,16.0,2303.0,5.0
50%,71.99,15.15,52381.0,20.0,20.0,19.0,1445.0,30.0,17.0,23.0,7695.0,5.0
75%,151.915,28.66,52435.0,30.0,30.0,29.0,2932.0,41.0,26.0,31.0,16290.0,5.0
max,771.49,178.16,52565.0,40.0,40.0,40.0,17034.0,76.0,59.0,62.0,90828.0,5.0


In [26]:
# consultar el número de registros con precios negativos
len(data[data['precio']<=0].columns)

19

In [28]:
# consultar el número de registros con pesos iguales a cero o negativos
len(data[data['peso_g_producto']<=0].columns)

19

In [29]:
# consultar el número de registros con valor de flete negativos
len(data[data['valor_flete']<0].columns)

19

In [30]:
# consultar el número de registros con valor de volumen en cero
len(data[data['volumen_cm3_producto']==0].columns)

19

Como vemos con la ayuda de la estadística descriptiva identificamos varios problemas:
* Existen registros de productos con precio negativo.
* Existen registros de productos con peso menores o iguales a cero.
* Hay registros de productos con el valor del flete negativo.
* Hay registros de productos con el volumen en cero.

De nuevo la pregunta es si esto es correcto o es un problema de calidad.

### 4.6. Estadísticas sobre datos categóricos

Con los atributos que son de tipo string y tienen categorías, como por ejemplo el departamento de estudio, se puede ver rápidamente si hay problemas.

In [31]:
#identificar las columnas de tipo string, si no se toma de la descripción inicial de la fuente de datos
data.select_dtypes(include='object').columns

Index(['orden_id', 'producto_id', 'vendedor_id', 'fecha_envio_limite',
       'ciudad_vendedor', 'departamento_vendedor',
       'nombre_categoria_producto'],
      dtype='object')

Al revisar este resultado, ratificamos el hecho de que hay problemas de tipos de datos, los cuales debemos corregir. Este es el caso de orden_id, producto_id, vendedor_id, fecha_envío_limite. Vamos a continuar con los que en realidad son categóricos.

In [32]:
# contar los valores de cada atributo categórico
for i in ['ciudad_vendedor', 'departamento_vendedor','nombre_categoria_producto']:
    print('Atributo: '+ i)
    print(data[i].value_counts())

Atributo: ciudad_vendedor
Gualmatan            178
Contadero            121
Nariño               111
Colon                 85
Linares               85
Providencia           76
Medellin              75
Arboleda              71
Leiva                 65
Magui                 63
Mosquera              58
La florida            57
Mallama               54
Abejorral             52
La union              50
La llanada            42
Olaya herrera         41
La cruz               40
Los andes             40
Pasto                 39
Consaca               38
Ipiales               33
Potosi                29
Buesaco               27
Barbacoas             26
Policarpa             21
Belen                 18
Francisco pizarro     13
Ospina                11
La tola               11
Chachagui             10
Imues                  6
Abriaqui               5
Name: ciudad_vendedor, dtype: int64
Atributo: departamento_vendedor
Nariño         1428
Antioquia       121
Nariño++         91
Antioquia++      11
N

Con este resultado es importante verificar las reglas del negocio, para ver si efectivamente las categorías en particular con más y menor cantidad de valores son correctas. Adicionalmente, es posible encontrar atributos con caracteres extraños, por ejemplo, la existencia del caracter **"_"** para la separación de palabras en la categoría del producto o el sufijo **"++"** en el departamento del vendedor.

### 5. Analizar grupos de atributos

Identificar relaciones entre atributos como dependencia entre ellos. Esta información nos puede llevar más adelante a retirar algunos de los atributos.


### 5.1. Identificar relaciones entre las variables

En este caso se tiene una variable que es el volúmen de producto que se determina a partir de la longitud, anchura y altura, en la *sección 4.5. de este notebook* vimos que existen valores ceros en esta variable lo cual no debería presentarse ya que un producto, siempre debe contar con un volumen,y dados los valores que tienen las otras variables con las que se calcula este valor. Este caso es cuando conocemos las relaciones entre los atributos. Otro análisis, es el de descubrir relaciones entre columnas, que lo revisaremos más adelante en el curso.


In [34]:
# Revisar los datos relacionados
data[data['volumen_cm3_producto']==0][['longitud_cm_producto','altura_cm_producto','ancho_cm_producto','volumen_cm3_producto']]

Unnamed: 0,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,volumen_cm3_producto
6,6,5,16,0
7,51,32,20,0
14,17,16,45,0
15,30,23,19,0
29,10,46,29,0
...,...,...,...,...
1535,0,35,36,0
1559,57,29,25,0
1612,41,0,12,0
1622,34,13,31,0


En estos casos vemos que es un error de cálculo o digitación ya que para las variables con las que se calcula se tienen valores mayores a cero, por lo cual es necesario modificar el valor de volumen de esos productos.

### 6. Perfilamiento con pandas_profiling

Para terminar, vamos a revisar otra estrategia que nos permite generar informes sobre el perfilamiento de datos, a partir de un DataFrame de pandas. Las funciones que revisamos previamente aunque nos permiten analizar los datos, puede ser básica para un análisis de datos exploratorio más sofisticado. En esos casos, pandas_profiling puede aportar ya que extiende el DataFrame de pandas con df.profile_report () para un análisis rápido de datos.

Para cada columna, genera las siguientes estadísticas, si son relevantes para el tipo de columna, se presentan en un informe HTML interactivo:

1. Inferencia de tipo: detecta los tipos de columnas en un dataframe.
2. Esenciales: tipo, valores únicos, valores faltantes.
3. Estadísticas de cuantiles como valor mínimo, Q1, mediana, Q3, máximo, rango, rango intercuartílico. Esta opción es bastante útil para identificar datos atípicos.
4. Estadísticas descriptivas como media, moda, desviación estándar, suma, desviación absoluta mediana, coeficiente de variación, curtosis, asimetría.
5. Valores más frecuentes.
6. Histogramas.
7. Correlaciones destacando variables altamente correlacionadas, matrices de Spearman, Pearson y Kendall. Esto permite descubrir relaciones entre atributos.
8. Matriz de valores faltantes, recuento, mapa de calor y dendrograma de valores faltantes

Tomado de la librería oficial de pandas_profiling en [github](https://github.com/pandas-profiling/pandas-profiling)

Lo más importante al utilizar esta librería es recordar que lo fundamental son los análisis que hagamos sobre estos reportes.

In [35]:
## Asegúrese de tener la última versión de pandas profiling instalada
#!pip3 install pandas_profiling --upgrade

## Generar objeto de perfilamiento de datos. Esta función puede tardar un par de minutos.
perfilamiento=pandas_profiling.ProfileReport(data)
perfilamiento

TypeError: concat() got an unexpected keyword argument 'join_axes'

La invitación es a revisarlo en detalle y mirar cómo lograr los análisis que realizamos en este tutorial.

In [32]:
#Escribir el perfilamiento de los datos en formato html
perfilamiento.to_file("ReportPerfil-ordenes-por-producto.html")

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Caso de extensión
Con el archivo de productos_por_fecha en el cual se encuentran los productos que se han vendido por fecha, además de realizar los siguientes puntos para el archivo dado, contempla cuál sería el problema para el negocio con los problemas identificados

+ Revisa cuántos registros y atributos tiene la fuente de datos.
+ Revisa el identificador único de la fuente de datos.
+ Valida cuántos datos están duplicados en la fuente de datos.
+ Revisa qué tipos de datos trae la fuente de datos.
+ Identifica el dominio para los atributos de volumen, altura, anchura y largo del producto.
+ Identifica el patrón de la fecha que se presenta en el archivo.
+ Encuentra los valores vacíos.
+ Con el uso de estadística muestra dónde existen posibles errores en los datos.
+ Identifica qué problemas se presentan con el volumen de los productos.
+ Encuentra los valores de las categorías para el nombre_categoria_producto.
+ Genera un reporte de perfilamiento de datos.