# Bootcamp Data Engineering

<img src="https://i.ibb.co/5RM26Cw/LOGO-COLOR2.png" width="500px">

---

# 1) Cargamos la Data: `RowData`

In [1]:
import numpy as np
import pandas as pd

from datetime import datetime

In [2]:
df_rowdata = pd.read_csv("data/Ultimas_Desvinculaciones-RowData.csv", sep=',')
print(df_rowdata.shape)
print(df_rowdata.columns)
display(df_rowdata.head(5))

(30, 13)
Index(['Id', 'Nombre', 'Apellido', 'Area', 'Fecha comienzo', 'Fecha fin',
       'Nivel', 'Grupo recruitment', 'Tiempo recruitment', 'Rango Salarial',
       'RS competencia', 'Manager', 'Realizo Cursos'],
      dtype='object')


Unnamed: 0,Id,Nombre,Apellido,Area,Fecha comienzo,Fecha fin,Nivel,Grupo recruitment,Tiempo recruitment,Rango Salarial,RS competencia,Manager,Realizo Cursos
0,1,Romina,Brito,Marketing,03/05/2018,12/31/2018,N3,Grupo B,3,Rango 3,Rango 3,1,SI
1,2,Pedro,Lujan,Compras,03/06/2017,12/31/2021,N3,Grupo B,3,Rango 2,Rango 2,2,SI
2,3,Juan,Albornoz,IT,06/04/2018,04/30/2019,N4,Grupo C,4,Rango 4,Rango 4,5,NO
3,4,Sebastian,González,Legales,05/07/2018,05/30/2021,N2,Grupo A,4,Rango 2,Rango 2,3,SI
4,5,Franco,Rodríguez,Marketing,05/01/2017,11/30/2017,N5,Grupo C,6,Rango 5,Rango 4,1,SI


In [3]:
display(df_rowdata.dtypes)

Id                     int64
Nombre                object
Apellido              object
Area                  object
Fecha comienzo        object
Fecha fin             object
Nivel                 object
Grupo recruitment     object
Tiempo recruitment     int64
Rango Salarial        object
RS competencia        object
Manager                int64
Realizo Cursos        object
dtype: object

Casteamos los campos `Fecha comienzo` y `Fecha fin` que son strings al tipo datetime

In [4]:
df_rowdata["Fecha comienzo"] = pd.to_datetime(df_rowdata["Fecha comienzo"], format="%m/%d/%Y")
df_rowdata["Fecha fin"] = pd.to_datetime(df_rowdata["Fecha fin"], format="%m/%d/%Y")

In [5]:
df_rowdata

Unnamed: 0,Id,Nombre,Apellido,Area,Fecha comienzo,Fecha fin,Nivel,Grupo recruitment,Tiempo recruitment,Rango Salarial,RS competencia,Manager,Realizo Cursos
0,1,Romina,Brito,Marketing,2018-03-05,2018-12-31,N3,Grupo B,3,Rango 3,Rango 3,1,SI
1,2,Pedro,Lujan,Compras,2017-03-06,2021-12-31,N3,Grupo B,3,Rango 2,Rango 2,2,SI
2,3,Juan,Albornoz,IT,2018-06-04,2019-04-30,N4,Grupo C,4,Rango 4,Rango 4,5,NO
3,4,Sebastian,González,Legales,2018-05-07,2021-05-30,N2,Grupo A,4,Rango 2,Rango 2,3,SI
4,5,Franco,Rodríguez,Marketing,2017-05-01,2017-11-30,N5,Grupo C,6,Rango 5,Rango 4,1,SI
5,6,Catalina,Gómez,Producción,2019-04-01,2022-03-31,N2,Grupo B,4,Rango 2,Rango 2,4,NO
6,7,Anabella,Fernández,Ventas,2020-07-06,2021-03-31,N4,Grupo A,3,Rango 4,Rango 4,8,NO
7,8,Francesca,López,Compras,2017-01-02,2021-06-30,N3,Grupo A,4,Rango 3,Rango 3,2,SI
8,9,Nicolas,Martínez,IT,2021-01-04,2021-11-30,N2,Grupo C,6,Rango 3,Rango 3,5,SI
9,10,Ana,Diaz,IT,2017-03-06,2020-11-30,N4,Grupo A,3,Rango 3,Rango 3,7,NO


Renombramos la columna `Rango Salarial` a `RS actual`

In [6]:
df_rowdata.rename(columns={
    'Rango Salarial': 'RS actual',
}, inplace=True)

Creamos la columna `Nombre Completo` en base a las columnas `Nombre` a `Apellido`

In [7]:
df_rowdata['Nombre Completo'] = df_rowdata['Nombre'] + ' ' + df_rowdata['Apellido']

Dropeamos la columnas: `Id` `Nombre` y `Apellido` ya que no las vamos a usar

In [8]:
df_rowdata = df_rowdata.drop(['Id', 'Nombre', 'Apellido'], axis=1)

In [9]:
df_rowdata.head(5)

Unnamed: 0,Area,Fecha comienzo,Fecha fin,Nivel,Grupo recruitment,Tiempo recruitment,RS actual,RS competencia,Manager,Realizo Cursos,Nombre Completo
0,Marketing,2018-03-05,2018-12-31,N3,Grupo B,3,Rango 3,Rango 3,1,SI,Romina Brito
1,Compras,2017-03-06,2021-12-31,N3,Grupo B,3,Rango 2,Rango 2,2,SI,Pedro Lujan
2,IT,2018-06-04,2019-04-30,N4,Grupo C,4,Rango 4,Rango 4,5,NO,Juan Albornoz
3,Legales,2018-05-07,2021-05-30,N2,Grupo A,4,Rango 2,Rango 2,3,SI,Sebastian González
4,Marketing,2017-05-01,2017-11-30,N5,Grupo C,6,Rango 5,Rango 4,1,SI,Franco Rodríguez


Creamos la columna `Dias transcurridos` en base a las columnas `Fecha fin` a `Fecha comienzo`

In [10]:
df_rowdata['Dias transcurridos'] = (df_rowdata['Fecha fin'] - df_rowdata['Fecha comienzo']).dt.days

Re-ordenamos las columnas

In [11]:
df_rowdata = df_rowdata[[
    'Nombre Completo', 'Area', 'Fecha comienzo', 'Fecha fin', 'Dias transcurridos',
    'Nivel', 'Grupo recruitment', 'Tiempo recruitment', 'RS actual',
    'RS competencia', 'Manager', 'Realizo Cursos'
]]

In [12]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,RS actual,RS competencia,Manager,Realizo Cursos
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,Rango 3,Rango 3,1,SI
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,Rango 2,Rango 2,2,SI
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,Rango 4,Rango 4,5,NO
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,Rango 2,Rango 2,3,SI
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,Rango 5,Rango 4,1,SI


# 2) Cargamos la Data: `Rangos`

In [13]:
df_ranges = pd.read_csv("data/Ultimas_Desvinculaciones-Rangos.csv", sep=',')
print(df_ranges.shape)
print(df_ranges.columns)
display(df_ranges.head(5))

(10, 3)
Index(['Rango', 'desde', 'hasta'], dtype='object')


Unnamed: 0,Rango,desde,hasta
0,Rango 1,150000,200000
1,Rango 2,200001,250000
2,Rango 3,250001,300000
3,Rango 4,300001,350000
4,Rango 5,350001,400000


In [14]:
display(df_ranges.dtypes)

Rango    object
desde     int64
hasta     int64
dtype: object

Creamos la columna `Rango promedio`  como el promedio de las columnas `desde` a `hasta`

In [15]:
df_ranges['Rango promedio'] = df_ranges[['desde', 'hasta']].mean(axis=1)

In [16]:
df_ranges

Unnamed: 0,Rango,desde,hasta,Rango promedio
0,Rango 1,150000,200000,175000.0
1,Rango 2,200001,250000,225000.5
2,Rango 3,250001,300000,275000.5
3,Rango 4,300001,350000,325000.5
4,Rango 5,350001,400000,375000.5
5,Rango 6,400001,500000,450000.5
6,Rango 7,500001,600000,550000.5
7,Rango 8,600001,700000,650000.5
8,Rango 9,700001,800000,750000.5
9,Rango 10,800001,1000000,900000.5


Dropeamos la columnas: `desde` y `hasta` ya que no las vamos a usar

In [17]:
df_ranges = df_ranges.drop(['desde', 'hasta'], axis=1)

In [18]:
df_ranges

Unnamed: 0,Rango,Rango promedio
0,Rango 1,175000.0
1,Rango 2,225000.5
2,Rango 3,275000.5
3,Rango 4,325000.5
4,Rango 5,375000.5
5,Rango 6,450000.5
6,Rango 7,550000.5
7,Rango 8,650000.5
8,Rango 9,750000.5
9,Rango 10,900000.5


# 2) Cargamos la Data: `Managers`

In [19]:
df_managers = pd.read_csv("data/Ultimas_Desvinculaciones-Managers.csv", sep=',')
print(df_managers.shape)
print(df_managers.columns)
display(df_managers.head(5))

(10, 3)
Index(['Id', 'Nombre', 'Apellido'], dtype='object')


Unnamed: 0,Id,Nombre,Apellido
0,1,Rolando,Casas
1,2,Marina,Pitana
2,3,José,Feligres
3,4,Miriam,Pisani
4,5,Alejandro,Pitorino


In [20]:
display(df_managers.dtypes)

Id           int64
Nombre      object
Apellido    object
dtype: object

Creamos la columna `Nombre Completo` en base a las columnas `Nombre` a `Apellido`

In [21]:
df_managers['Nombre Completo'] = df_managers['Nombre'] + ' ' + df_managers['Apellido']

Dropeamos la columnas: `Nombre` y `Apellido` ya que no las vamos a usar

In [22]:
df_managers = df_managers.drop(['Nombre', 'Apellido'], axis=1)

In [23]:
df_managers

Unnamed: 0,Id,Nombre Completo
0,1,Rolando Casas
1,2,Marina Pitana
2,3,José Feligres
3,4,Miriam Pisani
4,5,Alejandro Pitorino
5,6,Sonia Kamlasky
6,7,Martín Viglia
7,8,Ricardo Ronaldo
8,9,Vanina Quintana
9,10,Daniel Quiroga


# 4) Mergeamos los DataFrames anteriores

Sumamos al DataFrama los valores promedios de los rangos salariales

In [24]:
df_rowdata = pd.merge(
    df_rowdata, df_ranges[['Rango', 'Rango promedio']],
    left_on='RS actual',
    right_on='Rango',
    how='left',
)

In [25]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,RS actual,RS competencia,Manager,Realizo Cursos,Rango,Rango promedio
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,Rango 3,Rango 3,1,SI,Rango 3,275000.5
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,Rango 2,Rango 2,2,SI,Rango 2,225000.5
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,Rango 4,Rango 4,5,NO,Rango 4,325000.5
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,Rango 2,Rango 2,3,SI,Rango 2,225000.5
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,Rango 5,Rango 4,1,SI,Rango 5,375000.5


Renombramos la columna `Rango promedio` a `RS promedio actual` y dropeamos la columnas: `RS actual` y `Range`

In [26]:
df_rowdata.rename(columns={
    'Rango promedio': 'RS promedio actual',
}, inplace=True)

In [27]:
df_rowdata = df_rowdata.drop(['RS actual', 'Rango'], axis=1)

In [28]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,RS competencia,Manager,Realizo Cursos,RS promedio actual
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,Rango 3,1,SI,275000.5
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,Rango 2,2,SI,225000.5
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,Rango 4,5,NO,325000.5
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,Rango 2,3,SI,225000.5
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,Rango 4,1,SI,375000.5


In [29]:
df_rowdata = pd.merge(
    df_rowdata, df_ranges[['Rango', 'Rango promedio']],
    left_on='RS competencia',
    right_on='Rango',
    how='left',
)

In [30]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,RS competencia,Manager,Realizo Cursos,RS promedio actual,Rango,Rango promedio
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,Rango 3,1,SI,275000.5,Rango 3,275000.5
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,Rango 2,2,SI,225000.5,Rango 2,225000.5
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,Rango 4,5,NO,325000.5,Rango 4,325000.5
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,Rango 2,3,SI,225000.5,Rango 2,225000.5
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,Rango 4,1,SI,375000.5,Rango 4,325000.5


Renombramos la columna `Rango promedio` a `RS competencia actual` y dropeamos la columnas: `RS competencia` y `Range`

In [31]:
df_rowdata.rename(columns={
    'Rango promedio': 'RS competencia actual',
}, inplace=True)

In [32]:
df_rowdata = df_rowdata.drop(['RS competencia', 'Rango'], axis=1)

In [33]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,Manager,Realizo Cursos,RS promedio actual,RS competencia actual
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,1,SI,275000.5,275000.5
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,2,SI,225000.5,225000.5
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,5,NO,325000.5,325000.5
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,3,SI,225000.5,225000.5
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,1,SI,375000.5,325000.5


Renombramos la columna `Nombre Completo` a `Nombre Completo Empleado`

In [34]:
df_rowdata.rename(columns={
    'Nombre Completo': 'Nombre Completo Empleado',
}, inplace=True)

In [35]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo Empleado,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,Manager,Realizo Cursos,RS promedio actual,RS competencia actual
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,1,SI,275000.5,275000.5
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,2,SI,225000.5,225000.5
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,5,NO,325000.5,325000.5
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,3,SI,225000.5,225000.5
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,1,SI,375000.5,325000.5


Sumamos a el nombre de los managers al DataFrame

In [36]:
df_rowdata = pd.merge(
    df_rowdata, df_managers[['Id', 'Nombre Completo']],
    left_on='Manager',
    right_on='Id',
    how='left'
)

In [37]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo Empleado,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,Manager,Realizo Cursos,RS promedio actual,RS competencia actual,Id,Nombre Completo
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,1,SI,275000.5,275000.5,1,Rolando Casas
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,2,SI,225000.5,225000.5,2,Marina Pitana
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,5,NO,325000.5,325000.5,5,Alejandro Pitorino
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,3,SI,225000.5,225000.5,3,José Feligres
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,1,SI,375000.5,325000.5,1,Rolando Casas


Renombramos la columna `Nombre Completo` a `Nombre Completo Manager`

In [38]:
df_rowdata.rename(columns={
    'Nombre Completo': 'Nombre Completo Manager',
}, inplace=True)

In [39]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo Empleado,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,Manager,Realizo Cursos,RS promedio actual,RS competencia actual,Id,Nombre Completo Manager
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,1,SI,275000.5,275000.5,1,Rolando Casas
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,2,SI,225000.5,225000.5,2,Marina Pitana
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,5,NO,325000.5,325000.5,5,Alejandro Pitorino
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,3,SI,225000.5,225000.5,3,José Feligres
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,1,SI,375000.5,325000.5,1,Rolando Casas


Dropeamos la columnas: `Id` y `Manager`

In [40]:
df_rowdata = df_rowdata.drop(['Id', 'Manager'], axis=1)

In [41]:
df_rowdata.head(5)

Unnamed: 0,Nombre Completo Empleado,Area,Fecha comienzo,Fecha fin,Dias transcurridos,Nivel,Grupo recruitment,Tiempo recruitment,Realizo Cursos,RS promedio actual,RS competencia actual,Nombre Completo Manager
0,Romina Brito,Marketing,2018-03-05,2018-12-31,301,N3,Grupo B,3,SI,275000.5,275000.5,Rolando Casas
1,Pedro Lujan,Compras,2017-03-06,2021-12-31,1761,N3,Grupo B,3,SI,225000.5,225000.5,Marina Pitana
2,Juan Albornoz,IT,2018-06-04,2019-04-30,330,N4,Grupo C,4,NO,325000.5,325000.5,Alejandro Pitorino
3,Sebastian González,Legales,2018-05-07,2021-05-30,1119,N2,Grupo A,4,SI,225000.5,225000.5,José Feligres
4,Franco Rodríguez,Marketing,2017-05-01,2017-11-30,213,N5,Grupo C,6,SI,375000.5,325000.5,Rolando Casas


# 5) Guardamos la data obtenida

In [42]:
df_rowdata.to_csv("data/Ultimas_Desvinculaciones-FullData.csv", sep=',', index=False)