# Integración y preparación de datos

## Lectura de fuentes de datos en diferentes formatos  

### 1. Importación de librerías

Las principales librerías para realizar este proceso de manipulación de las fuentes de datos a manejar en este tutorial son:   **Pandas y JSON** las cuales se importan a continuación.

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para comando de sistema
import os
# Librería para manejo de datos convencional
import pandas as pd
# Libería para formato JSON
import json


### 2. **CSV**

Un archivo ".csv" o de valores separados por comas (CSV comma-separated values) es un archivo de texto delimitado por un separador, que típicamente usa una coma para separar los valores, pero también puede utilizar caracteres como punto y coma o tabuladores. Cada línea del archivo es un registro de datos. Cada registro consta de uno o más campos, separados por ejemplo, por coma.
Estos tipos de fuentes vamos a leerlos utilizando la librería Pandas, de la cual puedes encontrar más información en [este enlace.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [2]:
# Abrir el archivo desde un csv
# Los archivos csv son los más sencillos y comunes en procesos de carga de datos
# En la función para leer el archivo, se debe especificar la ruta donde se ubica el archivo y algunos parámetros, como por ejemplo, el separador

data_csv=pd.read_csv('productos_por_fecha.csv', sep=';',encoding='latin-1')
data_csv.head(5)

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,PT66,19/09/2017 07:24,Tarjetas regalo,6,34,18,50,9,12
1,PB76,22/01/2018 11:30,Ropa de adultos,10,39,0,26,24,23
2,PJ55,09/12/2017 15:09,Mascotas,25,12,3,51,2,28
3,PO85,04/05/2018 04:15,Productos ecoamigables,33,25,25,19,26,28
4,PG31,17/09/2017 23:24,Salud,34,22,11,39,19,40


In [3]:
# Tamaño de la fuente de datos en número de filas y columnas
data_csv.shape

(1000, 9)

### 2.1. Tipos de datos de las variables o atributos de las fuentes de datos

In [4]:
# En esta línea vamos a ver los tipos de dato que tiene el csv
# Fíjate en el campo Fecha_envio_limite que más adelante vamos a revisar.
data_csv.dtypes

producto_id                      object
fecha_envio_limite               object
nombre_categoria_producto        object
longitud_nombre_producto          int64
longitud_descripcion_producto     int64
cantidad_fotos_producto           int64
longitud_cm_producto              int64
altura_cm_producto                int64
ancho_cm_producto                 int64
dtype: object

### 2.2. Manipulación del tipo de dato numérico
Con este tipo de datos, es posible realizar un par de cálculos entre los cuales vamos a ver los siguientes:

+ Estadísticas básicas de una variable.
+ Cálculos matemáticos como por ejemplo, el área de los productos.

In [6]:
# Estadísticas de una variable numérica
data_csv['longitud_cm_producto'].describe()

count    1000.000000
mean       30.104000
std        14.870316
min         0.000000
25%        19.000000
50%        29.000000
75%        40.000000
max        74.000000
Name: longitud_cm_producto, dtype: float64

Con la función utilizada y como el tipo de datos es numérico (float64) se pueden obtener el mínimo, el máximo, el promedio y la desviación estándar, también información sobre los percentiles 25, 50 y 75.

In [7]:
# Cálculo del área del producto
# Área= Alto * Ancho
data_csv['area_cm2_producto']=data_csv['altura_cm_producto'] * data_csv['ancho_cm_producto']
data_csv['area_cm2_producto'][0:5]

0    108
1    552
2     56
3    728
4    760
Name: area_cm2_producto, dtype: int64

Para verificar el área del producto en particular vamos a tomar el dato de una sola fila, así podremos ver todos los datos y validar el cálculo realizado.

In [8]:
# Primero tomamos un subconjuntos de los datos
data_area=data_csv[['area_cm2_producto','ancho_cm_producto','altura_cm_producto']]
data_area.head(5)

Unnamed: 0,area_cm2_producto,ancho_cm_producto,altura_cm_producto
0,108,12,9
1,552,23,24
2,56,28,2
3,728,28,26
4,760,40,19


In [9]:
# Ahora vamos a tomar una fila en particular
data_area.loc[0:0]

Unnamed: 0,area_cm2_producto,ancho_cm_producto,altura_cm_producto
0,108,12,9


Al selececcionar esa única fila vemos que en efecto el alto y el ancho son respectivamente 9 y 12, y el área es 9*12=108 lo que corrobora la operación realizada. Además vimos cómo seleccionar un subconjunto de datos y una fila en particular.

### 4.3. Manipulación del tipo dato cadena - string

Para continuar con los posibles cálculos sobre columnas de un cierto tipo de datos, vamos a:

+ Analizar las principales estadísticas de variables categóricas. Una variable categórica representa características de las variables o atributos, por lo tanto, puede representar cosas como el género, el idioma, etc. de una persona. Los datos categóricos pueden tener un orden, en este caso hablaremos de ordinales o no tenerlo, y los llamaremos nominales. Si bien estas variables pueden
también tomar valores numéricos (ejemplo: 1 para mujeres y 0 para hombres), estos valores no representan un dato continuo y no tiene sentido aplicar sobre ellos cálculos matemáticos.


In [10]:
# conteos de una variable categórica para identificar anomalías en los datos, o entender categorías con más o menos número de registros.
data_csv['nombre_categoria_producto'].value_counts()[0:5]

Ropa de adultos      70
Mascotas             69
Juguetes             65
Tarjetas regalo      60
Frutas y verduras    57
Name: nombre_categoria_producto, dtype: int64

In [13]:
# Visualizacion completa.
data_csv['nombre_categoria_producto'].value_counts()

Ropa de adultos           70
Mascotas                  69
Juguetes                  65
Tarjetas regalo           60
Frutas y verduras         57
Tecnología                55
Celulares                 51
Bebés                     50
Libros                    49
Deportes                  48
Licor                     48
Ropa infantil             46
Ferretería                45
Lácteos                   44
Muebles                   44
Productos ecoamigables    43
Electrodomésticos         42
Dormitorio                41
Salud                     39
Carnicería                34
Name: nombre_categoria_producto, dtype: int64

In [14]:
# estadísticas básicas de una variable categórica
data_csv['nombre_categoria_producto'].describe()

count                1000
unique                 20
top       Ropa de adultos
freq                   70
Name: nombre_categoria_producto, dtype: object

En la tabla anterior, es posible ver: la cantidad de registros, los regístros únicos, la categoría top y la frecuencia de esta. Estos valores son importantes para detectar por ejemplo, datos atípicos o valores que no fueron reportados como válidos en el diccionario de datos.


### 5. **Excel**

Excel es una de las herramientas de datos más populares y utilizadas; es difícil encontrar una organización que no trabaje con ella de alguna manera. Desde analistas hasta vicepresidentes de ventas y directores ejecutivos, varios profesionales usan Excel tanto para estadísticas rápidas como para procesar datos serios.

**Pandas** tiene métodos excelentes para leer todo tipo de datos de archivos de Excel. También puede exportar sus resultados de pandas a Excel, si así lo prefiere el público objetivo. 

Pandas es ideal para otras tareas de análisis de datos de rutina, como:

+ Análisis rápido de datos exploratorios.
+ Transformación y arreglo de datos.
+ Aprendizaje automático.
+ Construir modelos.

Puedes leer más sobre la librería de Pandas [en este enlace.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

En las siguientes líneas vamos a cargar dos datos desde un archivo excel, que están en diferentas hojas. En este punto, es necesario utilizar el parámetro *sheet_name* para elegir las hojas de interés, que en este caso se llaman "Datos" y "Datos defectuosos".

In [15]:
# Abrir el archivo desde un excel utilizando la hoja Datos
data_excel=pd.read_excel('productos_por_fecha.xlsx', sheet_name='Datos 2')
data_excel.head(5)

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,PT66,19/09/2017 07:24,Tarjetas regalo,6,34,18,50,9,12
1,PB76,22/01/2018 11:30,Ropa de adultos,10,39,0,26,24,23
2,PJ55,09/12/2017 15:09,Mascotas,25,12,3,51,2,28
3,PO85,04/05/2018 04:15,Productos ecoamigables,33,25,25,19,26,28
4,PG31,17/09/2017 23:24,Salud,34,22,11,39,19,40


In [16]:
# Abrir el archivo desde un excel utilizando la hoja Datos defectuosos
data_excel_def=pd.read_excel('productos_por_fecha.xlsx', sheet_name='Datos 1')
data_excel_def.head(5)

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,0,1,2,4,altura_cm_producto,ancho_cm_producto
0,PT66,19/09/2017 07:24,Tarjetas regalo,6,34,18,50,9,12
1,PB76,22/01/2018 11:30,Ropa de adultos,10,39,0,26,24,23
2,PJ55,09/12/2017 15:09,Mascotas,25,12,3,51,2,28
3,PO85,04/05/2018 04:15,Productos ecoamigables,33,25,25,19,26,28
4,PG31,17/09/2017 23:24,Salud,34,22,11,39,19,40


In [17]:
# ver el tamaño de las dos fuentes cargadas
print(data_excel.shape)
print(data_excel_def.shape)

(1000, 9)
(100, 9)


### 5.1. Tipos de fuentes de datos

Los datos cargados desde excel mantienen su tipo de dato por las características que tiene esta hoja de cálculo.

In [18]:
# ver las columnas y tipos de datos de las dos fuentes cargadas
print("Tipos de datos de hoja 'Datos':\n")
print(data_excel.dtypes)
print("\nTipos de datos de hoja 'Datos Defectuosos':\n")
print(data_excel_def.dtypes)

Tipos de datos de hoja 'Datos':

producto_id                      object
fecha_envio_limite               object
nombre_categoria_producto        object
longitud_nombre_producto          int64
longitud_descripcion_producto     int64
cantidad_fotos_producto           int64
longitud_cm_producto              int64
altura_cm_producto                int64
ancho_cm_producto                 int64
dtype: object

Tipos de datos de hoja 'Datos Defectuosos':

producto_id                  object
fecha_envio_limite           object
nombre_categoria_producto    object
0                             int64
1                             int64
2                             int64
4                             int64
altura_cm_producto            int64
ancho_cm_producto             int64
dtype: object


Como vemos, simplemente revisando las columnas podemos comparar las hojas cargadas, y ver que los nombres de las columnas no están totalmente definidos en la hoja "Datos defectuosos".
Además, la segunda fuente es una subconjunto de la primera. El análisis básico sobre las columnas cargadas de una fuente de datos, permite tener una guía rápida de las características de las fuentes y en casos puntuales, de las diferencias entre fuentes similares.

### 5.2. Manipulación del tipo dato fecha

Para continuar con los posibles cálculos sobre columnas de un cierto tipo de datos, vamos a obtener el año de alguna fecha.

In [19]:
# Obtener año de alguna fecha, para esto es necesario ver que en los datos cargados se tenga el tipo de dato correcto. Si no es así, debes hacer la conversión al tipo de dato requerido.
data_excel['fecha_envio_limite'][0:5]

0    19/09/2017 07:24
1    22/01/2018 11:30
2    09/12/2017 15:09
3    04/05/2018 04:15
4    17/09/2017 23:24
Name: fecha_envio_limite, dtype: object

In [21]:
# En el único archivo que tiene los datos correctos es la que se carga desde el excel
# Por lo tanto se puede realizar el cálculo del año

#EL SIGUIENTE fragmento no se puede ejecutar debido a que el formato de la columna es object.
data_excel['año_envio']=data_excel['fecha_envio_limite'].dt.year
data_excel['año_envio'].head(5)

### 6. **JSON**

Los archivos JSON cuyo nombre viene de JavaScript Object Notation, es un archivo de texto que se utiliza típicamente para el intercambio de datos.



In [23]:
# Utilizando la librería Json, previamente importada, abrir el archivo "json"
f = open('productos_por_fecha.json',)  
# tomar el json como un diccionario
data_json = json.load(f)


In [24]:
# Vamos a revisar las columnas que se cargan de la fuente de datos tipo Json
data_json.keys()

dict_keys(['producto_id', 'fecha_envio_limite', 'nombre_categoria_producto', 'longitud_nombre_producto', 'longitud_descripcion_producto', 'cantidad_fotos_producto', 'longitud_cm_producto', 'altura_cm_producto', 'ancho_cm_producto'])

In [26]:
# vamos a revisar la columna order_id
dict(list(data_json['producto_id'].items())[0:5])

{'8657': 'PT66',
 '5070': 'PB76',
 '2412': 'PJ55',
 '5147': 'PO85',
 '4667': 'PG31'}

In [27]:
# en particular vamos a revisar la fila 8657
data_json['producto_id']['8657']

'PT66'

In [28]:
# Convertir el diccionario a dataframe y a partir de este punto podemos realizar las operaciones que hemos hecho previamente sobre otros dataframes.
data_json=pd.DataFrame(data_json)
data_json.head(5)

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
8657,PT66,19/09/2017 07:24,Tarjetas regalo,6,34,18,50,9,12
5070,PB76,22/01/2018 11:30,Ropa de adultos,10,39,0,26,24,23
2412,PJ55,09/12/2017 15:09,Mascotas,25,12,3,51,2,28
5147,PO85,04/05/2018 04:15,Productos ecoamigables,33,25,25,19,26,28
4667,PG31,17/09/2017 23:24,Salud,34,22,11,39,19,40


### 6.1. Transformación de datos
La transformación de datos es el proceso de cambiar los datos originales a un nuevo valor que permita facilitar su manipulación, corregirlos en caso de error o generar nuevos datos a partir de lo existente.
En este caso particular, estamos transformando los datos para llevarlos al tipo de dato correcto y tener a disposición las funciones existentes para dichos datos.

En el formato JSON no todos los tipos de datos se interpretan de la manera correcta, por lo tanto es importante hacer la revisión de cuál tipo de datos se tiene para cada variable antes de determinar las transformaciones a realizar.

In [29]:
data_json.dtypes

producto_id                      object
fecha_envio_limite               object
nombre_categoria_producto        object
longitud_nombre_producto          int64
longitud_descripcion_producto     int64
cantidad_fotos_producto           int64
longitud_cm_producto              int64
altura_cm_producto                int64
ancho_cm_producto                 int64
dtype: object

In [30]:
#En este caso vemos que es necesario llevar la variable fecha_envio_limite_pd a tipo Datetime utilizando la libreria Pandas.
data_json['fecha_envio_limite_pd']=pd.to_datetime(data_json['fecha_envio_limite'].astype(str))
data_json['fecha_envio_limite_pd'][0:5]

8657   2017-09-19 07:24:00
5070   2018-01-22 11:30:00
2412   2017-09-12 15:09:00
5147   2018-04-05 04:15:00
4667   2017-09-17 23:24:00
Name: fecha_envio_limite_pd, dtype: datetime64[ns]

In [31]:
# Ahora ya es posible extraer el mes y convertirlo en dato categórico en vez de número
data_json['mes_envio']=data_json['fecha_envio_limite_pd'].dt.month
data_json['mes_envio'][0:5]

8657    9
5070    1
2412    9
5147    4
4667    9
Name: mes_envio, dtype: int64

In [32]:
# Como el número de mes es una etiqueta, se puede realizar un análisis de dato categórico
data_json['mes_envio'].describe()

count    10.000000
mean      5.700000
std       3.497618
min       1.000000
25%       3.250000
50%       4.500000
75%       9.000000
max      11.000000
Name: mes_envio, dtype: float64

Como vemos es necesario en muchos casos convertir los datos para poder realizar los análisis correcto, en estos últimos trabajamos con los datos de la fecha de envío.
Esto nos va a servir en retail para agilizar envíos, elegir fechas promocionales y un sin número de conclusiones que van aportar valor al negocio.
