![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)

# Integración y preparación de datos

## L2: Lectura de fuentes de datos en diferentes formatos  

Iniciamos nuestros tutoriales para lo cual trabajaremos en la industria de Retail. Recuerda complementar este recurso con los videos, lecturas e infografías del curso.

**Autor:** David Ocampo, Daniel Galindo Ruiz
    
d.ocampo@uniandes.edu.co, d.galindo@uniandes.edu.co

### 1. Objetivos del tutorial
1. Manipular fuentes de datos en diferentes formatos (csv, excel, json), usando código Python en jupyter notebooks.
2. Identificar los principales retos asociados a este proceso de manipulación de datos para comprender como están los datos y empezar su preparación.



### 2. Contexto del caso

La industria de retail ha implementado soluciones tecnológicas con el fin de atraer y retener clientes y de esta manera aumentar sus ingresos. En particular, ofrece las ventas por marketplace que brindan la oportunidad de conocer el compartamiento de los clientes y sus intereses, utilizando los datos asociados a este canal de venta.
La existencia de estos datos, abre posibilidades de desarrollar proyectos de big data y analytics con la participación de diferentes actores tales como personas con roles corporativos, grupos de investigación, entre otros, en los cuales la calidad del talento humano es fundamental, al igual que la metodología de trabajo.
Es en estos proyectos donde los datos son fundamentales, los cuales deben ser analizados, idealmente por áreas de ciencia de datos para su entendimiento y uso en análisis futuros.

Antes de iniciar la manipulación de datos, es necesario entender con qué fuentes de datos se va a trabajar, con el fin de determinar las librerias y tareas específicas que se requieren para cargar las fuentes, transformalas y posteriormente realizar análisis más sofisticados.
En este tutorial trabajaremos tres tipos de fuentes de datos: ".csv", archivos excel y archivos JSON.

### 3. Importación de librerías

Las principales librerías para realizar este proceso de manipulación de las fuentes de datos a manejar en este tutorial son:   **Pandas y JSON** las cuales se importan a continuación.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para comando de sistema
import os
# Librería para manejo de datos convencional
import pandas as pd
# Libería para formato JSON
import json


### 4. **CSV**

Un archivo ".csv" o de valores separados por comas (CSV comma-separated values) es un archivo de texto delimitado por un separador, que típicamente usa una coma para separar los valores, pero también puede utilizar caracteres como punto y coma o tabuladores. Cada línea del archivo es un registro de datos. Cada registro consta de uno o más campos, separados por ejemplo, por coma.
Estos tipos de fuentes vamos a leerlos utilizando la librería Pandas, de la cual puedes encontrar más información en [este enlace.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [2]:
# Abrir el archivo desde un csv
# Los archivos csv son los más sencillos y comunes en procesos de carga de datos
# En la función para leer el archivo, se debe especificar la ruta donde se ubica el archivo y algunos parámetros, como por ejemplo, el separador

data_csv=pd.read_csv('ordenes_por_producto.csv', sep=';',encoding='latin-1')
data_csv.head(5)

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,88176PT66A,A,PT66,VE3877,19/09/2017 07:24,226.31,2.86,11001,Bogota d.c.,Bogota d.c.,Tarjetas regalo,6,34,18,6291,50,9,12
1,61602PB76A,A,PB76,VE8568,22/01/2018 11:30,338.38,3.28,27001,Quibdo,Choco,Ropa de adultos,10,39,0,616,26,24,23
2,106573PJ55A,A,PJ55,VE4333,09/12/2017 15:09,155.29,11.48,70001,Sincelejo,Sucre,Mascotas,25,12,3,2431,51,2,28
3,15563PO85A,A,PO85,VE7960,04/05/2018 04:15,137.82,25.39,85001,Yopal,Casanare,Productos ecoamigables,33,25,25,2061,19,26,28
4,11468PG31A,A,PG31,VE1019,17/09/2017 23:24,141.9,22.94,52480,Nariño,Nariño,Salud,34,22,11,2639,39,19,40


In [3]:
# Tamaño de la fuente de datos en número de filas y columnas
data_csv.shape

(10000, 18)

### 4.1. Tipos de datos de las variables o atributos de las fuentes de datos
En los tipos de datos tenemos datos numéricos, cadenas de caracteres, fechas y en general objetos.
En este punto vamos a validar el tipo de dato de las columnas asociadas a la fuente de datos que acabamos de leer.
Este proceso es impotante ya que puede ser necesario hacer algunas transformaciones para ajustar el tipo de dato de las columnas y, así poder hacer operaciones específicas sobre ellos.
En particular en los datos compartidos debemos observar los siguientes tipos de datos:
+ string
+ object
+ int
+ float
+ datetime


Los datos numéricos son un tipo de datos expresados ​​en números, en lugar de una descripción en lenguaje natural. A veces llamados datos cuantitativos, los datos numéricos siempre se recopilan en forma de números. Los datos numéricos se diferencian de otros tipos de datos en forma de números por su capacidad para realizar operaciones aritméticas con estos números. En python se pueden incluir los siguientes tipos: object, int64, float 64, Datetime entre otros.




In [4]:
# En esta línea vamos a ver los tipos de dato que tiene el csv
# Fíjate en el campo Fecha_envio_limite que más adelante vamos a revisar.
data_csv.dtypes

orden_id                          object
order_item_id                     object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
dtype: object

### 4.2. Manipulación del tipo de dato numérico
Con este tipo de datos, es posible realizar un par de cálculos entre los cuales vamos a ver los siguientes:

+ Estadísticas básicas de una variable.
+ Cálculos matemáticos como por ejemplo, el área de los productos.

In [5]:
# Estadísticas de una variable numérica
data_csv['precio'].describe()

count    10000.000000
mean       119.751497
std        119.319770
min          0.010000
25%         34.177500
50%         83.055000
75%        165.470000
max       1262.940000
Name: precio, dtype: float64

Con la función utilizada y como el tipo de datos es numérico (float64) se pueden obtener el mínimo, el máximo, el promedio y la desviación estándar, también información sobre los percentiles 25, 50 y 75.

In [6]:
# Cálculo del área del producto
# Área= Alto * Ancho
data_csv['area_cm2_producto']=data_csv['altura_cm_producto'] * data_csv['ancho_cm_producto']
data_csv['area_cm2_producto'][0:5]

0    108
1    552
2     56
3    728
4    760
Name: area_cm2_producto, dtype: int64

Para verificar el área del producto en particular vamos a tomar el dato de una sola fila, así podremos ver todos los datos y validar el cálculo realizado.

In [7]:
# Primero tomamos un subconjuntos de los datos
data_area=data_csv[['area_cm2_producto','ancho_cm_producto','altura_cm_producto']]
data_area.head(5)

Unnamed: 0,area_cm2_producto,ancho_cm_producto,altura_cm_producto
0,108,12,9
1,552,23,24
2,56,28,2
3,728,28,26
4,760,40,19


In [8]:
# Ahora vamos a tomar una fila en particular
data_area.loc[0:0]

Unnamed: 0,area_cm2_producto,ancho_cm_producto,altura_cm_producto
0,108,12,9


Al selececcionar esa única fila vemos que en efecto el alto y el ancho son respectivamente 9 y 12, y el área es 9*12=108 lo que corrobora la operación realizada. Además vimos cómo seleccionar un subconjunto de datos y una fila en particular.

### 4.3. Manipulación del tipo dato cadena - string

Para continuar con los posibles cálculos sobre columnas de un cierto tipo de datos, vamos a:

+ Analizar las principales estadísticas de variables categóricas. Una variable categórica representa características de las variables o atributos, por lo tanto, puede representar cosas como el género, el idioma, etc. de una persona. Los datos categóricos pueden tener un orden, en este caso hablaremos de ordinales o no tenerlo, y los llamaremos nominales. Si bien estas variables pueden
también tomar valores numéricos (ejemplo: 1 para mujeres y 0 para hombres), estos valores no representan un dato continuo y no tiene sentido aplicar sobre ellos cálculos matemáticos.


In [9]:
# conteos de una variable categórica para identificar anomalías en los datos, o entender categorías con más o menos número de registros.
data_csv['nombre_categoria_producto'].value_counts()[0:5]

Tecnología           532
Deportes             528
Frutas y verduras    526
Carnicería           519
Ropa de adultos      513
Name: nombre_categoria_producto, dtype: int64

In [10]:
# estadísticas básicas de una variable categórica
data_csv['nombre_categoria_producto'].describe()

count          10000
unique            20
top       Tecnología
freq             532
Name: nombre_categoria_producto, dtype: object

En la tabla anterior, es posible ver: la cantidad de registros, los regístros únicos, la categoría top y la frecuencia de esta. Estos valores son importantes para detectar por ejemplo, datos atípicos o valores que no fueron reportados como válidos en el diccionario de datos.


### 5. **Excel**

Excel es una de las herramientas de datos más populares y utilizadas; es difícil encontrar una organización que no trabaje con ella de alguna manera. Desde analistas hasta vicepresidentes de ventas y directores ejecutivos, varios profesionales usan Excel tanto para estadísticas rápidas como para procesar datos serios.

**Pandas** tiene métodos excelentes para leer todo tipo de datos de archivos de Excel. También puede exportar sus resultados de pandas a Excel, si así lo prefiere el público objetivo. 

Pandas es ideal para otras tareas de análisis de datos de rutina, como:

+ Análisis rápido de datos exploratorios.
+ Transformación y arreglo de datos.
+ Aprendizaje automático.
+ Construir modelos.

Puedes leer más sobre la librería de Pandas [en este enlace.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

En las siguientes líneas vamos a cargar dos datos desde un archivo excel, que están en diferentas hojas. En este punto, es necesario utilizar el parámetro *sheet_name* para elegir las hojas de interés, que en este caso se llaman "Datos" y "Datos defectuosos".

In [11]:
# Abrir el archivo desde un excel utilizando la hoja Datos
data_excel=pd.read_excel('ordenes_por_producto.xlsx', sheet_name='Datos')
data_excel.head(5)

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,88176PT66A,A,PT66,VE3877,2017-09-19 07:24:00,226.31,2.86,11001,Bogota d.c.,Bogota d.c.,Tarjetas regalo,6,34,18,6291,50,9,12
1,61602PB76A,A,PB76,VE8568,2018-01-22 11:30:00,338.38,3.28,27001,Quibdo,Choco,Ropa de adultos,10,39,0,616,26,24,23
2,106573PJ55A,A,PJ55,VE4333,2017-09-12 15:09:00,155.29,11.48,70001,Sincelejo,Sucre,Mascotas,25,12,3,2431,51,2,28
3,15563PO85A,A,PO85,VE7960,2018-04-05 04:15:00,137.82,25.39,85001,Yopal,Casanare,Productos ecoamigables,33,25,25,2061,19,26,28
4,11468PG31A,A,PG31,VE1019,2017-09-17 23:24:00,141.9,22.94,52480,Nariño,Nariño,Salud,34,22,11,2639,39,19,40


In [12]:
# Abrir el archivo desde un excel utilizando la hoja Datos defectuosos
data_excel_def=pd.read_excel('ordenes_por_producto.xlsx', sheet_name='Datos Defectuosos')
data_excel_def.head(5)

Unnamed: 0.1,Unnamed: 0,order_item_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,0,1,2,3,4,altura_cm_producto,ancho_cm_producto
0,0,A,VE3877,2017-09-19 07:24:00,226.31,2.86,11001,Bogota d.c.,Bogota d.c.,Tarjetas regalo,6,34,18,6291,50,9,12
1,1,A,VE8568,2018-01-22 11:30:00,338.38,3.28,27001,Quibdo,Choco,Ropa de adultos,10,39,0,616,26,24,23
2,2,A,VE4333,2017-09-12 15:09:00,155.29,11.48,70001,Sincelejo,Sucre,Mascotas,25,12,3,2431,51,2,28
3,3,A,VE7960,2018-04-05 04:15:00,137.82,25.39,85001,Yopal,Casanare,Productos ecoamigables,33,25,25,2061,19,26,28
4,4,A,VE1019,2017-09-17 23:24:00,141.9,22.94,52480,Nariño,Nariño,Salud,34,22,11,2639,39,19,40


In [13]:
# ver el tamaño de las dos fuentes cargadas
print(data_excel.shape)
print(data_excel_def.shape)

(10000, 18)
(10000, 17)


### 5.1. Tipos de fuentes de datos

Los datos cargados desde excel mantienen su tipo de dato por las características que tiene esta hoja de cálculo.

In [14]:
# ver las columnas y tipos de datos de las dos fuentes cargadas
print("Tipos de datos de hoja 'Datos':\n")
print(data_excel.dtypes)
print("\nTipos de datos de hoja 'Datos Defectuosos':\n")
print(data_excel_def.dtypes)

Tipos de datos de hoja 'Datos':

orden_id                                 object
order_item_id                            object
producto_id                              object
vendedor_id                              object
fecha_envio_limite               datetime64[ns]
precio                                  float64
valor_flete                             float64
codigo_postal_vendedor                    int64
ciudad_vendedor                          object
departamento_vendedor                    object
nombre_categoria_producto                object
longitud_nombre_producto                  int64
longitud_descripcion_producto             int64
cantidad_fotos_producto                   int64
peso_g_producto                           int64
longitud_cm_producto                      int64
altura_cm_producto                        int64
ancho_cm_producto                         int64
dtype: object

Tipos de datos de hoja 'Datos Defectuosos':

Unnamed: 0                            int64

Como vemos, simplemente revisando las columnas podemos comparar las hojas cargadas, y ver que los nombres de las columnas no están totalmente definidos en la hoja "Datos defectuosos".
Además, la segunda fuente es una subconjunto de la primera. El análisis básico sobre las columnas cargadas de una fuente de datos, permite tener una guía rápida de las características de las fuentes y en casos puntuales, de las diferencias entre fuentes similares.

### 5.2. Manipulación del tipo dato fecha

Para continuar con los posibles cálculos sobre columnas de un cierto tipo de datos, vamos a obtener el año de alguna fecha.

In [15]:
# Obtener año de alguna fecha, para esto es necesario ver que en los datos cargados se tenga el tipo de dato correcto. Si no es así, debes hacer la conversión al tipo de dato requerido.
data_excel['fecha_envio_limite'][0:5]

0   2017-09-19 07:24:00
1   2018-01-22 11:30:00
2   2017-09-12 15:09:00
3   2018-04-05 04:15:00
4   2017-09-17 23:24:00
Name: fecha_envio_limite, dtype: datetime64[ns]

In [16]:
# En el único archivo que tiene los datos correctos es la que se carga desde el excel
# Por lo tanto se puede realizar el cálculo del año
data_excel['año_envio']=data_excel['fecha_envio_limite'].dt.year
data_excel['año_envio'].head(5)

0    2017
1    2018
2    2017
3    2018
4    2017
Name: año_envio, dtype: int64

In [17]:
# Cálcular estadísticas para concer la distribución de los datos
data_excel['año_envio'].describe()

count    10000.000000
mean      2017.504400
std          0.500006
min       2017.000000
25%       2017.000000
50%       2018.000000
75%       2018.000000
max       2018.000000
Name: año_envio, dtype: float64

Vemos que con el tipo de dato fecha es posible extraer el año y otros cálculos mas que se pueden consultar [en este enlace.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html) Esto nos sirve por ejemplo, para ver entre qué fechas se han realizado los envíos, que para este caso particular, se realizaron
entre los años 2017 y 2018, lo que podemos observar en la estadística de valor mínimo y máximo. En este punto es importante resaltar que a pesar de tener un valor promedio para los años, este valor no tiene mucho sentido.

### 6. **JSON**

Los archivos JSON cuyo nombre viene de JavaScript Object Notation, es un archivo de texto que se utiliza típicamente para el intercambio de datos.



Para poder entender un archivo JSON primero exploraremos los diccionarios. Estos son los objetos que se exportan a JSON para poder almacenar los datos y hacer las operaciones necesarias con estos.
En las siguientes líneas vamos a explorar las funciones básicas de un **diccionario** para entender su estructura.

In [18]:
#Estructura de un diccionario
# el diccionario se compone de llaves y valores
# estos están separados por comas para cada llave-valor
diccionario = {'orden' : '8rghmflep334ll-hl', 
               'precio' : 220, 
               'productos': ['Lavadora hkl45','Computador 89ls','Televisor 32jh'] }
diccionario

{'orden': '8rghmflep334ll-hl',
 'precio': 220,
 'productos': ['Lavadora hkl45', 'Computador 89ls', 'Televisor 32jh']}

In [19]:
#También se pueden ver las llaves a través de la siguiente función
diccionario.keys()

dict_keys(['orden', 'precio', 'productos'])

In [20]:
# Y las llave-valor con la siguiente función
diccionario.items()

dict_items([('orden', '8rghmflep334ll-hl'), ('precio', 220), ('productos', ['Lavadora hkl45', 'Computador 89ls', 'Televisor 32jh'])])

In [21]:
# Se puede consultar con la llave el valor que toma
diccionario['orden']

'8rghmflep334ll-hl'

Así, una tabla que se convierte en un diccionario tiene las llaves (que son las columnas) y los índices (que son el número de fila). En el siguiente ejemplo, vamos a ver la relación entre este objeto diccionario y un archivo JSON.

In [22]:
# Utilizando la librería Json, previamente importada, abrir el archivo "json"
f = open('ordenes_por_producto.json',)  
# tomar el json como un diccionario
data_json = json.load(f)
# ver el diccionario 
# vamos a ver una parte del diccionario, para la comprensión creamos un diccionario más pequeño
ver_data_json={}
for i in data_json.keys(): #recorremos las llaves del diccionario
    ver_data_json[i]=dict(list(data_json[i].items())[0:5]) # Se asigna los primeros 5 valores a cada llave

ver_data_json

{'orden_id': {'8657': '88176PT66A',
  '5070': '61602PB76A',
  '2412': '106573PJ55A',
  '5147': '15563PO85A',
  '4667': '11468PG31A'},
 'order_item_id': {'8657': 'A',
  '5070': 'A',
  '2412': 'A',
  '5147': 'A',
  '4667': 'A'},
 'producto_id': {'8657': 'PT66',
  '5070': 'PB76',
  '2412': 'PJ55',
  '5147': 'PO85',
  '4667': 'PG31'},
 'vendedor_id': {'8657': 'VE3877',
  '5070': 'VE8568',
  '2412': 'VE4333',
  '5147': 'VE7960',
  '4667': 'VE1019'},
 'fecha_envio_limite': {'8657': '19/09/2017 07:24',
  '5070': '22/01/2018 11:30',
  '2412': '09/12/2017 15:09',
  '5147': '04/05/2018 04:15',
  '4667': '17/09/2017 23:24'},
 'precio': {'8657': 226.31,
  '5070': 338.38,
  '2412': 155.29,
  '5147': 137.82,
  '4667': 141.9},
 'valor_flete': {'8657': 2.86,
  '5070': 3.28,
  '2412': 11.48,
  '5147': 25.39,
  '4667': 22.94},
 'codigo_postal_vendedor': {'8657': 11001,
  '5070': 27001,
  '2412': 70001,
  '5147': 85001,
  '4667': 52480},
 'ciudad_vendedor': {'8657': 'Bogota d.c.',
  '5070': 'Quibdo',
  '

In [23]:
# Vamos a revisar las columnas que se cargan de la fuente de datos tipo Json
data_json.keys()

dict_keys(['orden_id', 'order_item_id', 'producto_id', 'vendedor_id', 'fecha_envio_limite', 'precio', 'valor_flete', 'codigo_postal_vendedor', 'ciudad_vendedor', 'departamento_vendedor', 'nombre_categoria_producto', 'longitud_nombre_producto', 'longitud_descripcion_producto', 'cantidad_fotos_producto', 'peso_g_producto', 'longitud_cm_producto', 'altura_cm_producto', 'ancho_cm_producto'])

In [24]:
# vamos a revisar la columna order_id
dict(list(data_json['orden_id'].items())[0:5])

{'8657': '88176PT66A',
 '5070': '61602PB76A',
 '2412': '106573PJ55A',
 '5147': '15563PO85A',
 '4667': '11468PG31A'}

In [25]:
# en particular vamos a revisar la fila 8657
data_json['orden_id']['8657']

'88176PT66A'

In [26]:
# Convertir el diccionario a dataframe y a partir de este punto podemos realizar las operaciones que hemos hecho previamente sobre otros dataframes.
data_json=pd.DataFrame(data_json)
data_json.head(5)

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
8657,88176PT66A,A,PT66,VE3877,19/09/2017 07:24,226.31,2.86,11001,Bogota d.c.,Bogota d.c.,Tarjetas regalo,6,34,18,6291,50,9,12
5070,61602PB76A,A,PB76,VE8568,22/01/2018 11:30,338.38,3.28,27001,Quibdo,Choco,Ropa de adultos,10,39,0,616,26,24,23
2412,106573PJ55A,A,PJ55,VE4333,09/12/2017 15:09,155.29,11.48,70001,Sincelejo,Sucre,Mascotas,25,12,3,2431,51,2,28
5147,15563PO85A,A,PO85,VE7960,04/05/2018 04:15,137.82,25.39,85001,Yopal,Casanare,Productos ecoamigables,33,25,25,2061,19,26,28
4667,11468PG31A,A,PG31,VE1019,17/09/2017 23:24,141.9,22.94,52480,Nariño,Nariño,Salud,34,22,11,2639,39,19,40


### 6.1. Transformación de datos
La transformación de datos es el proceso de cambiar los datos originales a un nuevo valor que permita facilitar su manipulación, corregirlos en caso de error o generar nuevos datos a partir de lo existente.
En este caso particular, estamos transformando los datos para llevarlos al tipo de dato correcto y tener a disposición las funciones existentes para dichos datos.

En el formato JSON no todos los tipos de datos se interpretan de la manera correcta, por lo tanto es importante hacer la revisión de cuál tipo de datos se tiene para cada variable antes de determinar las transformaciones a realizar.

In [27]:
data_json.dtypes

orden_id                          object
order_item_id                     object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
dtype: object

In [28]:
#En este caso vemos que es necesario llevar la variable fecha_envio_limite_pd a tipo Datetime utilizando la libreria Pandas.
data_json['fecha_envio_limite_pd']=pd.to_datetime(data_json['fecha_envio_limite'].astype(str))
data_json['fecha_envio_limite_pd'][0:5]

8657   2017-09-19 07:24:00
5070   2018-01-22 11:30:00
2412   2017-09-12 15:09:00
5147   2018-04-05 04:15:00
4667   2017-09-17 23:24:00
Name: fecha_envio_limite_pd, dtype: datetime64[ns]

In [29]:
# Ahora ya es posible extraer el mes y convertirlo en dato categórico en vez de número
data_json['mes_envio']=data_json['fecha_envio_limite_pd'].dt.month
data_json['mes_envio'][0:5]

8657    9
5070    1
2412    9
5147    4
4667    9
Name: mes_envio, dtype: int64

In [30]:
# Como el número de mes es una etiqueta, se puede realizar un análisis de dato categórico
data_json['mes_envio'].describe()

count    10000.000000
mean         6.542400
std          3.463293
min          1.000000
25%          4.000000
50%          7.000000
75%         10.000000
max         12.000000
Name: mes_envio, dtype: float64

Como vemos es necesario en muchos casos convertir los datos para poder realizar los análisis correcto, en estos últimos trabajamos con los datos de la fecha de envío.
Esto nos va a servir en retail para agilizar envíos, elegir fechas promocionales y un sin número de conclusiones que van aportar valor al negocio.


### 7. Caso de extensión

Con los temas vistos en este notebook, te invitamos a que desarrolles las siguientes actividades con la fuente de datos productos_por_fecha, disponible en los formatos excel, csv y json.

1. Cargar los diferentes tipos de archivos.
2. Identificar los tamaños de las diferentes fuentes.
3. Identificar la hoja de excel que tiene los datos correctos.
4. Identificar las columnas de todos los archivos y las diferencias entre ellos.
5. Consultar los tipos de datos de todas las columnas de los archivos.
6. Convertir las fechas al tipo de dato datetime.
7. Calcular el día con más compras.
8. Consultar información general sobre la categoría del producto, para identificar la categoría con más registros.