# Integración y preparación de datos

## L1: ¿Cómo se integran fuentes de datos?.

### 1. Importación de librerías y archivos

En las siguientes líneas se importarán las librerías necesarias, las cuales son **Pandas** para el manejo de datos:

In [1]:
# Importar las librerías necesarias según el análisis que se vaya a realizar
# Librería para comando de sistema
import os
# Librería para manejo de datos
import pandas as pd

En este notebook vamos a revisar cómo integrar diferentes fuentes de datos, por lo tanto es necesario que carguemos más de una base dado el problema planteado en el contexto del negocio.

In [2]:
# cargar los datos del excel
# Ordenes por producto
empleados= pd.read_excel('empleadosTecnologiaAlpes.xlsx', sheet_name="empleadosTecnologíaAlpes")
# Productos por fecha
roles= pd.read_excel('empleadosTecnologiaAlpes.xlsx', sheet_name="Roles")
# Productos por fecha
despartamentos= pd.read_excel('empleadosTecnologiaAlpes.xlsx', sheet_name="Departamentos")

In [3]:
# Visualizar los empleados
empleados.head()

Unnamed: 0,Edad,Retirado,TarifaSalarial,ID Departamento,DistanciaDesdeCasa,Educacion,CampoEducacion,EmpleadosACargo,NumeroEmpleado,NivelSatisfaccion,...,HorasEstandar,PlanSalarioComplementario,TotalAnniosTrabajados,FormacionUltimoAnnio,BalanceTrabajoVida,FechaIngresoEmpresa,AnniosEnEmpresa,AnniosRolActual,AnniosDesdeUltimaPromocion,AnniosActualDirector
0,41,Si,1102,3,1,2,Ciencias de la vida,1.0,1,2,...,80,0,8,0,1,2015-07-26,6,4,0,5
1,49,No,279,1,8,1,Ciencias de la vida,1.0,2,3,...,80,1,10,3,3,2011-02-15,10,7,1,7
2,37,Si,1373,1,2,2,Otro,1.0,4,4,...,80,0,7,3,3,2021-06-02,0,0,0,0
3,33,No,1392,1,3,4,Ciencias de la vida,1.0,5,4,...,80,0,8,3,3,2013-09-26,8,7,3,0
4,27,No,591,1,2,1,Medicina,1.0,7,1,...,80,1,6,3,3,2019-03-02,2,2,2,2


In [4]:
# Visualizar los roles
roles.head()

Unnamed: 0,ID,Rol
0,1,Cientifico de investigacion
1,2,Director
2,3,Director de investigacion
3,4,Director de manufactura
4,5,Ejecutivo de ventas


In [5]:
roles = roles.rename({'ID': 'Rol ID'}, axis=1)
roles.head()

Unnamed: 0,Rol ID,Rol
0,1,Cientifico de investigacion
1,2,Director
2,3,Director de investigacion
3,4,Director de manufactura
4,5,Ejecutivo de ventas


In [6]:
roles.head()

Unnamed: 0,Rol ID,Rol
0,1,Cientifico de investigacion
1,2,Director
2,3,Director de investigacion
3,4,Director de manufactura
4,5,Ejecutivo de ventas


In [7]:
# Visualizar los despartamentos
despartamentos.head()

Unnamed: 0,ID,Departamento
0,1,Investigacion & Desarrollo
1,2,Talento Humano
2,3,Ventas


In [8]:
despartamentos = despartamentos.rename({'ID': 'ID Departamento'}, axis=1)
despartamentos.head()

Unnamed: 0,ID Departamento,Departamento
0,1,Investigacion & Desarrollo
1,2,Talento Humano
2,3,Ventas


In [9]:
# Cambiar tipo de dato a fecha
empleados['FechaIngresoEmpresa']=pd.to_datetime(empleados['FechaIngresoEmpresa']).dt.date

### 2. Merge 

In [12]:
# Realizar la unión con la función merge entre empleados y los roles
union_interna=pd.merge(
     empleados, #Base izquierda
     roles, # Base derecha
     on='Rol ID', #llave a través de la cual vamos a unir
     how='inner' # Forma de realizar el JOIN en este caso: Unión interna
         )
#Visualizar la unión
union_interna

Unnamed: 0,Edad,Retirado,TarifaSalarial,ID Departamento,DistanciaDesdeCasa,Educacion,CampoEducacion,EmpleadosACargo,NumeroEmpleado,NivelSatisfaccion,...,PlanSalarioComplementario,TotalAnniosTrabajados,FormacionUltimoAnnio,BalanceTrabajoVida,FechaIngresoEmpresa,AnniosEnEmpresa,AnniosRolActual,AnniosDesdeUltimaPromocion,AnniosActualDirector,Rol
0,41,Si,1102,3,1,2,Ciencias de la vida,1.0,1,2,...,0,8,0,1,2015-07-26,6,4,0,5,Ejecutivo de ventas
1,42,No,691,3,8,4,Mercadeo,1.0,35,3,...,1,10,2,3,2012-09-03,9,7,4,2,Ejecutivo de ventas
2,33,No,1141,3,1,3,Ciencias de la vida,1.0,52,3,...,2,10,3,3,2016-05-07,5,3,1,3,Ejecutivo de ventas
3,27,No,994,3,8,3,Ciencias de la vida,1.0,56,4,...,0,9,0,3,2012-11-18,9,8,1,7,Ejecutivo de ventas
4,34,No,1065,3,23,4,Mercadeo,1.0,60,2,...,0,10,2,3,2012-07-05,9,5,8,7,Ejecutivo de ventas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1487,38,No,1444,2,1,4,Otro,1.0,1972,4,...,1,7,2,3,2015-05-26,6,2,1,2,Talento Humano
1488,25,No,309,2,2,3,Talento Humano,1.0,1987,3,...,0,6,3,3,2019-03-17,2,0,1,2,Talento Humano
1489,35,No,1146,2,26,4,Ciencias de la vida,1.0,2040,3,...,0,9,2,3,2012-01-26,9,0,1,7,Talento Humano
1490,26,Si,426,2,17,4,Ciencias de la vida,1.0,608,2,...,1,8,2,2,2014-04-15,7,7,1,0,Talento Humano


In [13]:
# Realizar la unión con la función merge entre lo anterior y los departamentos
union_interna=pd.merge(
     union_interna, #Base izquierda
     despartamentos, # Base derecha
     on='ID Departamento', #llave a través de la cual vamos a unir
     how='inner' # Forma de realizar el JOIN en este caso: Unión interna
         )
#Visualizar la unión
union_interna

Unnamed: 0,Edad,Retirado,TarifaSalarial,ID Departamento,DistanciaDesdeCasa,Educacion,CampoEducacion,EmpleadosACargo,NumeroEmpleado,NivelSatisfaccion,...,TotalAnniosTrabajados,FormacionUltimoAnnio,BalanceTrabajoVida,FechaIngresoEmpresa,AnniosEnEmpresa,AnniosRolActual,AnniosDesdeUltimaPromocion,AnniosActualDirector,Rol,Departamento
0,41,Si,1102,3,1,2,Ciencias de la vida,1.0,1,2,...,8,0,1,2015-07-26,6,4,0,5,Ejecutivo de ventas,Ventas
1,42,No,691,3,8,4,Mercadeo,1.0,35,3,...,10,2,3,2012-09-03,9,7,4,2,Ejecutivo de ventas,Ventas
2,33,No,1141,3,1,3,Ciencias de la vida,1.0,52,3,...,10,3,3,2016-05-07,5,3,1,3,Ejecutivo de ventas,Ventas
3,27,No,994,3,8,3,Ciencias de la vida,1.0,56,4,...,9,0,3,2012-11-18,9,8,1,7,Ejecutivo de ventas,Ventas
4,34,No,1065,3,23,4,Mercadeo,1.0,60,2,...,10,2,3,2012-07-05,9,5,8,7,Ejecutivo de ventas,Ventas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1487,38,No,1444,2,1,4,Otro,1.0,1972,4,...,7,2,3,2015-05-26,6,2,1,2,Talento Humano,Talento Humano
1488,25,No,309,2,2,3,Talento Humano,1.0,1987,3,...,6,3,3,2019-03-17,2,0,1,2,Talento Humano,Talento Humano
1489,35,No,1146,2,26,4,Ciencias de la vida,1.0,2040,3,...,9,2,3,2012-01-26,9,0,1,7,Talento Humano,Talento Humano
1490,26,Si,426,2,17,4,Ciencias de la vida,1.0,608,2,...,8,2,2,2014-04-15,7,7,1,0,Talento Humano,Talento Humano


In [22]:
dep_x_rol=union_interna.groupby(['Departamento','Rol']).count()['NumeroEmpleado'].reset_index()
dep_x_rol

Unnamed: 0,Departamento,Rol,NumeroEmpleado
0,Investigacion & Desarrollo,Cientifico de investigacion,297
1,Investigacion & Desarrollo,Director,54
2,Investigacion & Desarrollo,Director de investigacion,80
3,Investigacion & Desarrollo,Director de manufactura,145
4,Investigacion & Desarrollo,Representante atencion medica,131
5,Investigacion & Desarrollo,Tecnico de laboratorio,267
6,Talento Humano,Director,13
7,Talento Humano,Talento Humano,54
8,Ventas,Director,35
9,Ventas,Ejecutivo de ventas,329


In [23]:
dep=union_interna.groupby(['Departamento']).count()['NumeroEmpleado'].reset_index()
dep

Unnamed: 0,Departamento,NumeroEmpleado
0,Investigacion & Desarrollo,974
1,Talento Humano,67
2,Ventas,451


### 3. Join

In [24]:
# Viaje por empleado
viajes= pd.read_excel('empleadosTecnologiaAlpes.xlsx', sheet_name="Viajes por Empleado")
viajes.head()

Unnamed: 0,ViajesDeNegocio
0,Viaja-Pocas-Veces
1,Viaja-Frecuentemente
2,Viaja-Pocas-Veces
3,Viaja-Frecuentemente
4,Viaja-Pocas-Veces


In [25]:
emp_viaje= union_interna.join(viajes,how='inner')
emp_viaje.head()

Unnamed: 0,Edad,Retirado,TarifaSalarial,ID Departamento,DistanciaDesdeCasa,Educacion,CampoEducacion,EmpleadosACargo,NumeroEmpleado,NivelSatisfaccion,...,FormacionUltimoAnnio,BalanceTrabajoVida,FechaIngresoEmpresa,AnniosEnEmpresa,AnniosRolActual,AnniosDesdeUltimaPromocion,AnniosActualDirector,Rol,Departamento,ViajesDeNegocio
0,41,Si,1102,3,1,2,Ciencias de la vida,1.0,1,2,...,0,1,2015-07-26,6,4,0,5,Ejecutivo de ventas,Ventas,Viaja-Pocas-Veces
1,42,No,691,3,8,4,Mercadeo,1.0,35,3,...,2,3,2012-09-03,9,7,4,2,Ejecutivo de ventas,Ventas,Viaja-Frecuentemente
2,33,No,1141,3,1,3,Ciencias de la vida,1.0,52,3,...,3,3,2016-05-07,5,3,1,3,Ejecutivo de ventas,Ventas,Viaja-Pocas-Veces
3,27,No,994,3,8,3,Ciencias de la vida,1.0,56,4,...,0,3,2012-11-18,9,8,1,7,Ejecutivo de ventas,Ventas,Viaja-Frecuentemente
4,34,No,1065,3,23,4,Mercadeo,1.0,60,2,...,2,3,2012-07-05,9,5,8,7,Ejecutivo de ventas,Ventas,Viaja-Pocas-Veces
