# Integración y preparación de datos

## L1: ¿Cómo se integran fuentes de datos?.

### 1. Importación de librerías y archivos

En las siguientes líneas se importarán las librerías necesarias, las cuales son **Pandas** para el manejo de datos:

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para manejo de datos
import pandas as pd

En este notebook vamos a revisar cómo integrar diferentes fuentes de datos, por lo tanto es necesario que carguemos más de una base dado el problema planteado en el contexto del negocio.

In [2]:
# cargar los datos del excel
# Ordenes por producto
ordenes= pd.read_csv('ordenes_por_producto.csv', sep=";", encoding="latin-1")
# Productos por fecha
productos= pd.read_csv('productos_por_fecha.csv', sep=";", encoding="latin-1")

In [3]:
# Visualizar las ordenes por producto
ordenes.head()

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
0,88176PT66A,A,PT66,VE3877,226.31,2.86,11001,Bogota d.c.,Bogota d.c.
1,61602PB76A,A,PB76,VE8568,338.38,3.28,27001,Quibdo,Choco
2,106573PJ55A,A,PJ55,VE4333,155.29,11.48,70001,Sincelejo,Sucre
3,15563PO85A,A,PO85,VE7960,137.82,25.39,85001,Yopal,Casanare
4,11468PG31A,A,PG31,VE1019,141.9,22.94,52480,Nariño,Nariño


In [4]:
# Visualizar los productos por fecha
productos.head()

Unnamed: 0,producto_id,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,PT66,19/09/2017 7:24,Tarjetas regalo,6,34,18,6291,50,9,12
1,PB76,22/01/2018 11:30,Ropa de adultos,10,39,0,616,26,24,23
2,PJ55,9/12/2017 15:09,Mascotas,25,12,3,2431,51,2,28
3,PO85,4/05/2018 4:15,Productos ecoamigables,33,25,25,2061,19,26,28
4,PG31,17/09/2017 23:24,Salud,34,22,11,2639,39,19,40


In [5]:
# Cambiar tipo de dato a fecha
productos['fecha_envio_limite']=pd.to_datetime(productos['fecha_envio_limite']).dt.date

Como vemos tenemos diferentes fuentes de datos, una nos está las características de la órden y el otro las características por producto, sin embargo para nuestro análisis debemos realizar una unión de estos archivos e identificar el problema propuesto. 

### 3. Funciones de combinación con Pandas

La librería pandas, tiene integradas funciones para el arreglo de datos, estas funciones nos van a permitir combinar Series o DataFrame con varios tipos de lógica establecida, en este notebook vamos a revisar unas de las más útiles y comunes en los problemas de la vida real, también te puedes dirigir directamente a la documentación de [Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html) para revisar con más detalle las diferentes opciones con las que se cuenta.

### 3.1. Merge 

La función **Merge**(Unión), permite realizar uniones de conjuntos con relaciones a través de una o más columnas o identificadores para establecer una relación entre los registros que existen en los DataFrame, adicional a esto, esta sentencia está muy relacionada con el lenguaje que se trabaja en bases de datos relacionales (SQL) y que permite realizar los siguientes tipos de operaciones entre conjuntos:

* Unión interna (Inner Join).
* Unión izquierda (Left Join).
* Unión derecha (Rigth Join).
* Unión completa (Full Outer Join).

[![sql-joins.jpg](https://estradawebgroup.com/ImagesUpload/sql-joins.jpg)]()

Para encontrar los datos de nuestro problema, debemos obtener la cantidad de órdenes que se realizaron en una fecha, estos datos están distribuidos en dos bases de datos diferentes, sin embargo tenemos algo en común entre ellas: **la llave**, este elemento único es el identificador de registro único y que en este caso sería la identificación de nuestro producto. Para encontrar los datos que necesitamos vamos a realizar una unión interna y así obtener los datos que están tando en la base de datos de productos por fecha así como los de productos por orden.

[![merging_merge_on_key.png](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key.png)]()

In [16]:
# Realizar la unión con la función merge
union_interna=pd.merge(
     productos, #Base izquierda
     ordenes, # Base derecha
     on='producto_id', #llave a través de la cual vamos a unir
     how='inner' # Forma de realizar el JOIN en este caso: Unión interna
         )
#Visualizar la unión
union_interna

Unnamed: 0_level_0,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,orden_id,order_item_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
producto_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
PT66,2017-09-19,Tarjetas regalo,6,34,18,6291,50,9,12,88176PT66A,A,VE3877,226.31,2.86,11001,Bogota d.c.,Bogota d.c.
PT66,2017-09-19,Tarjetas regalo,6,34,18,6291,50,9,12,73616PT66A,A,VE8568,229.63,6.83,52385,La llanada,Nariño
PT66,2017-09-19,Tarjetas regalo,6,34,18,6291,50,9,12,98286PT66B,B,VE1204,264.65,8.99,50006,Acacias,Meta
PT66,2017-09-19,Tarjetas regalo,6,34,18,6291,50,9,12,101345PT66A,A,VE9864,4.89,31.62,19001,Popayan,Cauca
PT66,2017-09-19,Tarjetas regalo,6,34,18,6291,50,9,12,44326PT66A,A,VE9276,27.56,4.48,23001,Monteria,Cordoba
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
PN26,2017-02-12,Dormitorio,40,12,23,1786,5,8,35,9124PN26A,A,VE6535,43.11,0.66,50001,Villavicencio,Meta
PN26,2018-05-15,Dormitorio,16,27,39,524,7,10,14,28622PN26A,A,VE4242,11.09,9.29,50686,San juanito,Meta
PN26,2018-05-15,Dormitorio,16,27,39,524,7,10,14,9124PN26A,A,VE6535,43.11,0.66,50001,Villavicencio,Meta
PT90,2017-11-12,Tarjetas regalo,30,0,13,2492,14,12,28,103306PT90D,D,VE7348,55.37,44.71,52079,Barbacoas,Nariño


Ahora vemos que tenemos los datos que necesitamos, **La fecha y la cantidad** de ordenes que se hicieron en esa fecha, ahora con la función de contar valores que ordena de manera descendente los conteos, podemos identificar cuáles los los días que más órdenes se realizaron.

In [11]:
# Con la función de contar valores
union_interna['fecha_envio_limite'].value_counts()

2018-07-02    302
2018-05-05    300
2018-01-16    278
2017-08-17    277
2017-11-16    277
             ... 
2018-02-01    107
2017-10-30    106
2018-04-27     82
2017-07-13     24
2018-06-26     14
Name: fecha_envio_limite, Length: 349, dtype: int64

Vemos que con esta operación podemos realizar el cruce de dos fuentes de datos diferentes a través de un elemento común, más importante aún que se logró identificar los días que más ventas se realizaron para así entregar los incentivos propuestos.

### 3.2. Join

El función join, utiliza merge internamente para la unión sobre el índice de la tabla (por defecto) y las columnas. Por lo tanto es imperativo garantizar que nuestra llave de identificación primaria se encuentre en el índice, una vez que se tenga la fuente de datos de estamanera se puede utilizar .join para ahorrarse buena parte de escritura de código.

En las siguientes líneas de código vamos a establecer como índice el identificador del producto para poder utilizar nuestra función deseada .join

In [12]:
#Establecer el indice
productos=productos.set_index('producto_id')
ordenes=ordenes.set_index('producto_id')

In [13]:
#Visualizar los productos por fecha
productos.head()

Unnamed: 0_level_0,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
producto_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
PT66,2017-09-19,Tarjetas regalo,6,34,18,6291,50,9,12
PB76,2018-01-22,Ropa de adultos,10,39,0,616,26,24,23
PJ55,2017-09-12,Mascotas,25,12,3,2431,51,2,28
PO85,2018-04-05,Productos ecoamigables,33,25,25,2061,19,26,28
PG31,2017-09-17,Salud,34,22,11,2639,39,19,40


In [14]:
#Visuzalizar las órdenes por producto
ordenes.head()

Unnamed: 0_level_0,orden_id,order_item_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
producto_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
PT66,88176PT66A,A,VE3877,226.31,2.86,11001,Bogota d.c.,Bogota d.c.
PB76,61602PB76A,A,VE8568,338.38,3.28,27001,Quibdo,Choco
PJ55,106573PJ55A,A,VE4333,155.29,11.48,70001,Sincelejo,Sucre
PO85,15563PO85A,A,VE7960,137.82,25.39,85001,Yopal,Casanare
PG31,11468PG31A,A,VE1019,141.9,22.94,52480,Nariño,Nariño


In [15]:
# Realizar el join
productos.join(ordenes, 
               how='inner' #Forma de unión deseada
              )

Unnamed: 0_level_0,fecha_envio_limite,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto,orden_id,order_item_id,vendedor_id,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor
producto_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,51806PA10B,B,VE1402,348.72,1.69,52490,Olaya herrera,Nariño
PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,17905PA10A,A,VE4937,92.34,12.61,52323,Gualmatan,Nariño
PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,19498PA10A,A,VE3549,168.52,2.55,52385,La llanada,Nariño
PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,51131PA10C,C,VE9609,2.16,6.95,52323,Gualmatan,Nariño
PA10,2017-08-30,Electrodomésticos,8,21,28,25,35,1,28,107500PO59A,A,VE3159,108.38,35.39,54003,Abrego,Norte de santander
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
PT99,2018-04-13,Tarjetas regalo,29,36,23,3782,22,15,15,20275PT99A,A,VE1175,15.76,2.53,5001,Medellin,Antioquia
PT99,2018-04-13,Tarjetas regalo,29,36,23,3782,22,15,15,12069PT99A,A,VE8325,109.68,5.44,52411,Linares,Nariño
PT99,2018-07-06,Tarjetas regalo,17,14,34,559,31,28,24,4866PT99A,A,VE7406,92.57,6.34,52323,Gualmatan,Nariño
PT99,2018-07-06,Tarjetas regalo,17,14,34,559,31,28,24,20275PT99A,A,VE1175,15.76,2.53,5001,Medellin,Antioquia


El resultado final de los dos tipos de funciones utilizadas, para efectos del análisis, es el mismo. Sin embargo, hay que tener en cuenta siempre cómo está construida nuestra fuente de datos y las transformaciones que vamos a realizar para resolver nuestra pregunta en cuestión.

### Caso de extensión

Con el caso de empleados de los alpes, vamos a llevar lo aprendido a la práctica, para lo cual se ha planteado una pregunta de negocio, en este momento no es posible identificar cuántos empleados hay por roles y departamentos, por lo tanto debes realizar:

1. Identificar las llaves primarias del archivo de empleados de los Alpes.
2. Realizar la unión de la base de empleados con sus respectivos roles y departamentos.
3. Realizar un conteo de cuántos departamentos existen por rol y por departamento.
4. Entender cómo están constituidos los departamentos haciendo una agrupación entre roles y departamentos.
5. Utilizar la función join para unir el tipo de viaje del empleado.


