<a href="https://colab.research.google.com/github/SoraireEmmanuel/AppTareasIonic/blob/master/Copia_de_IA_2021_Promoci%C3%B3n_de_empleados_Grupo_7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <center>Identificación de empleados potenciales a promocionar</center>

&nbsp;

El cliente es una multinacional y tiene varias áreas dentro de la organización. Uno de los problemas que enfrentan es identificar a las personas adecuadas para la promoción y prepararlas a tiempo. Actualmente, el proceso que están siguiendo es:

*	Primero identifican un conjunto de empleados con base en recomendaciones/desempeño pasado.
* Los empleados seleccionados pasan por el programa de capacitación y evaluación por separado para cada área. Estos programas se basan en la habilidad requerida de cada área.
* Al final del programa, en base a varios factores, como el desempeño en la capacitación, un empleado obtiene la promoción.

Se desea automatizar el proceso de preselección basándose en las características comunes de los empleados que promocionan dentro de la empresa. Así de esta manera seleccionar un grupo de candidatos adecuados para la promoción y en base al resultado realizar la selección definitiva.



## Importamos todas las librerias requeridas

* Importamos Numpy, Pandas, Matplot, and Seaborn para el analisís de la información y su visualización
* Importamos ipywidgets, Sweetviz, ppscore para el analisis exploratoria de los datos.
* Importamos Sklearn, Imblearn para el modelo de Machine Learning

In [None]:
# Importamos todas las librerias que necesitamos

# Para operaciones matematicas
import numpy as np
# Para operaciones con dataframe
import pandas as pd

# Para visualizaciones
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl

# Para machine learning
import sklearn
import imblearn

# Establecemos el tamaño de las figuras
plt.rcParams['figure.figsize'] = (16, 5)
# Establecemos el estilo de los graficos
plt.style.use('fivethirtyeight')

## Leemos el Dataset

* Tenemos dos datasets: Train and Test 
* Train Datasets lo usamos para entrenar los modelos de Machine learning
* Despues de aprender los patrones del dataset de Test, tenemos que predecir la variable objetivo.

In [None]:
#Cargamos los data set desde un archivo local
from google.colab import files # Cargamos la libreria para importar datos a Google Colab 
uploaded = files.upload() # Guardamos los datos cargados


In [None]:
# Leemos los dataset

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

## Revisamos los datos

* Revisamos el tamaño de los datasets
* Revisamos los valores dentro de los datasets
* Armamos una tabla con la descripción de los valores de los datasets
* Revisamos la cantidad de empleados por departamento
* Revisamos la cantidad de empleados por región

In [None]:
# Vemos el tamaño de cada archivo
print('-----------Datos de Training--------------')
print ('Cantidad de Filas de Training: ', train.shape[0]) 

print ('Cantidad de columnas de Training: ', train.shape[1]) 
print(' ')
print('------------Datos de Test-----------------')
print ('Cantidad de Filas de Test: ', test.shape[0]) 

print ('Cantidad de columnas de Test: ', test.shape[1]) 

In [None]:
# Columnas en Training
train.columns

In [None]:
# Columnas in Testing
test.columns

In [None]:
# Revisamos los primeros valores de Training
train.head()

In [None]:
# Revisamos los ultimos valores de Training
train.tail()


In [None]:
# Revisamos los primeros valores de Testing
test.head()

In [None]:
# Revisamos los ultimos valores de Testing
test.tail()

### <center>Descripción de los datos </center>

<table>
    <tr>
        <td><b>Variable</b></td>
        <td><b>Definición</b></td>
    </tr>
    <tr>
        <td>employee_id</td>
        <td>ID unico del empleado<td>
    </tr>
    <tr>
        <td>department</td>
        <td>Departamento del empleado</td>
    </tr>
    <tr>
        <td>region</td>
        <td>Región del empleado</td>
    </tr>
    <tr>
        <td>education</td>
        <td>Nivel de educación</td>
    </tr>
    <tr>
        <td>gender</td>
        <td>Genero del empleado</td>
    </tr>
    <tr>
        <td>recruitment_channel</td>
        <td>Canal de reclutamiento del empleado</td>
    </tr>
    <tr>
        <td>no_of_trainings</td>
        <td>Numeros de trinings completados en el año anterior sobre habilidades blandas, técnicas, etc.</td>
    </tr>
    <tr>
        <td>age</td>
        <td>Edad del empleado</td>
    </tr>
    <tr>
        <td>previous_year_rating</td>
        <td>Calificación del empleado del año anterior</td>
    </tr>
    <tr>
        <td>length_of_service</td>
        <td>Antiguedad del empleado</td>
    </tr>
    <tr>
        <td>KPIs_met >80%</td>
        <td>Si el porcentaje de KPI (indicadores clave de rendimiento)> 80%, entonces 1 si no 0 </td>
    </tr>
    <tr>
        <td>awards_won?</td>
        <td>Si tuvo algún premio el año anterior 1, si no 0</td>
    </tr>
    <tr>
        <td>avg_training_score</td>
        <td>Puntuación promedio en las evaluaciones de formación actuales</td>
    </tr>
    <tr>
        <td>is_promoted	(Target)</td>
        <td>Recomendado para ser promovido</td>
    </tr>
</table>

In [None]:
# Cantidad de empleados por departamentos

train['department'].value_counts()

In [None]:
# Cantidad de empleados por región 

train['region'].value_counts()

## Estadisticas descriptivas

Para comprender los datos y obtener información necesitamos revisar las estadisticas de los datos.
* Primero vamos a la Estadística Descriptiva para las Columnas Numéricas
* Para las columnas numéricas, verificamos estadísticas como Máx, Mín, Promedio, recuento, desviación estándar, porcentaje 25, porcentaje 50 y porcentaje 75.
* Luego, verificaremos los estadísticos descriptivos para columnas categóricas.
* Para columnas categóricas, verificamos estadísticas como recuento, frecuencia, elementos principales y únicos. 

In [None]:
# Revisamos las estadisticas de las columnas numericas
train.describe().style.background_gradient(cmap = 'Wistia')
#Otros colores en: https://matplotlib.org/stable/tutorials/colors/colormaps.html

In [None]:
# Revisamos las estadisticas descriptivas de las columnas categóricas
train.describe(include = 'object')

In [None]:
# Revisamos el balance de nuestra columna objetivo (is_promoted)

plt.rcParams['figure.figsize'] = (15, 5)
plt.style.use('fivethirtyeight')

plt.subplot(1, 2, 1)


sns.countplot(train['is_promoted'],palette=['#432371',"#FAAE7B"])


plt.xlabel('¿Promocionado o No?', fontsize = 10)




plt.subplot(1, 2, 2)
train['is_promoted'].value_counts().plot(kind = 'pie', colors = ['tab:cyan', 'tab:red', 'tab:orange'] ,explode = [0, 0.1], autopct = '%.2f%%', startangle = 90,
                                       labels = ['No','Promocionado'] , shadow = True, pctdistance = 0.5)
plt.axis('off')

plt.suptitle('Balance de la columna objetivo', fontsize = 15)
plt.show()

Observamos que está desbalanceada la información sobre los empleados promociados, para mejorar la precisión de nuestra predicción vamos a tener que aplicar alguna técnica para mejorar estos datos.

## Verificamos y coregimos si existen valores vacios

Asegurarnos de no tener valores en blanco es muy imporante para el modelo de machine lerning. 
* Esto se podria dar porque no se completaron correctamente los formularios o porque no era necesaria la información en ciertos casos.

* Existen distintos métodos para tratarlo, en algunos se podria eliminar esos registros y en otros se debe usar algun método para completarlos.



In [None]:
# Comprobación de valores en blancos en los dataset

# Calculamos el total de valores en blanco en el Training dataset
train_total = train.isnull().sum()

# Calculamos el porcentaje de esos valores en blanco
train_percent = ((train.isnull().sum()/train.shape[0])*100).round(2)

# Calculamos el total de valores en blanco en el Testing dataset
test_total = test.isnull().sum()

# Calculamos el porcentaje de esos valores en blanco
test_percent = ((test.isnull().sum()/test.shape[0])*100).round(2)

# Armamos una tabla para mostrar los resultados obtenidos l
train_missing_data = pd.concat([train_total, train_percent, test_total, test_percent],
                                axis=1, 
                                keys=['Train_Total', 'Train_Percent %','Test_Total', 'Test_Percent %'],
                                sort = True)

# Mostramos la tabla
train_missing_data.style.bar(color = ['orange'])

In [None]:
# Observamos que el dataset de Training tiene valores en blanco y los completamos

train['education'] = train['education'].fillna(train['education'].mode()[0])
train['previous_year_rating'] = train['previous_year_rating'].fillna(train['previous_year_rating'].mode()[0])

# Volvemos a revisar si quedan valores en blanco en el Training dataset
print("Numeros de valores faltantes en Training dataset:", train.isnull().sum().sum())

In [None]:
# Observamos que el dataset de Testing tiene valores en blanco y los completamos

test['education'] = test['education'].fillna(test['education'].mode()[0])
test['previous_year_rating'] = test['previous_year_rating'].fillna(test['previous_year_rating'].mode()[0])

# Volvemos a revisar si quedan valores en blanco en el Testing dataset
print("Numeros de valores faltantes en Testing dataset:", test.isnull().sum().sum())

## Deteción de valores atípicos

La presencia de valores atípicos en un conjunto de datos de clasificación o regresión puede resultar en un ajuste deficiente y un rendimiento de modelado predictivo más bajo.

In [None]:
# Primero analizamos las columnas numericas
train.select_dtypes('number').head()

In [None]:
# Realizamos un grafico para ver las columnas donde podrian haber valores atipicos
plt.rcParams['figure.figsize'] = (15, 5)
plt.style.use('fivethirtyeight')

# Grafico para average training score
plt.subplot(1, 2, 1)
sns.boxplot(train['avg_training_score'], color = 'cyan')
plt.xlabel('Promedio de puntuación de evaluaciones', fontsize = 12)
plt.ylabel('Range', fontsize = 12)

# Grafico para length of service
plt.subplot(1, 2, 2)
sns.boxplot(train['length_of_service'], color = 'orange')
plt.xlabel('Antiguedad', fontsize = 12)
plt.ylabel('Range', fontsize = 12)

plt.suptitle('Box Plot', fontsize = 20)
plt.show()

In [None]:
# Observamos que hay valores atipicos en la antiguedad y los eliminamos

#Despues de realizar varias pruebas decidimos no borrar esos empleados
#train = train[train['length_of_service'] < 13]

In [None]:
train.shape
train['length_of_service'].value_counts()


## Análisis univariado

El análisis univariado es quizás la forma más simple de análisis estadístico. Como otras formas de estadística, puede ser inferencial o descriptivo. El hecho clave es que solo interviene una variable. El análisis univariado puede producir resultados engañosos en los casos en los que el análisis multivariado es más apropiado.

* Este es un paso esencial para comprender las variables presentes en el conjunto de datos una por una.


In [None]:
# Pie chart
plt.rcParams['figure.figsize'] = (16,5)
plt.style.use('fivethirtyeight')

# Graficamos el Indicador clave de rendimiento de los empleados en el año anterior
plt.subplot(1, 3, 1)
labels = ['0','1']
sizes = train['KPIs_met >80%'].value_counts()
colors = plt.cm.Wistia(np.linspace(0, 1, 5))
explode = [0, 0]

plt.pie(sizes, labels = labels, colors = colors, explode = explode, shadow = True, startangle = 90)
plt.title('KPIs > 80%', fontsize = 20)

# Graficamos la calificación de los empleados en el año anterior
plt.subplot(1, 3, 2)
labels = ['1', '2', '3', '4', '5']
sizes = train['previous_year_rating'].value_counts()
colors = plt.cm.Wistia(np.linspace(0, 1, 5))
explode = [0, 0, 0, 0, 0.1]

plt.pie(sizes, labels = labels, colors = colors, explode = explode, shadow = True, startangle = 90)
plt.title('Calificación del año anterior', fontsize = 20)

# Grafico del empleados premiados en el último año
plt.subplot(1, 3, 3)
labels = ['0', '1']
sizes = train['awards_won?'].value_counts()
colors = plt.cm.Wistia(np.linspace(0, 1, 5))
explode = [0,0.1]

plt.pie(sizes, labels = labels, colors = colors, explode = explode, shadow = True, startangle = 90)
plt.title('¿Premio ganado?', fontsize = 20)


plt.legend()
plt.show()

El patron mas grande es que solo algunos de los empleados está arriba del 80% de los KPI.
La mayoria de los empleados tiene baja calificación en el año anterior.
Muy pocos empleados probablemente el 2% de ellos podria obtener un premio por su trabajo.

In [None]:
# Distribución de los cursos tomados por los empleados

plt.rcParams['figure.figsize'] = (17, 4)
sns.countplot(train['no_of_trainings'], palette = 'spring')
plt.xlabel(' ', fontsize = 14)
plt.title('Distribución de los cursos tomados por los empleados')
plt.show()

Con este grafico vemos los trainings realizados por los empleados, se ve claramente que el 80% realizó un solo curso y es despreciable el numero de empleados que tomaron más de tres.

In [None]:
# Distribución de la edad de los empleados

plt.rcParams['figure.figsize'] = (8, 4)
plt.hist(train['age'], color = 'grey')
plt.title('Distribución de la edad de los empleados', fontsize = 15)
plt.xlabel('Edad')
plt.grid()
plt.show()

In [None]:
# Distribución de los empleados por departamentos

plt.rcParams['figure.figsize'] = (12, 6)
sns.countplot(y = train['department'], palette = 'cividis', orient = 'v')
plt.xlabel('')
plt.ylabel('Nombre del departamento')
plt.title('Distribución de los empleados por departamentos', fontsize = 15)
plt.grid()

plt.show()

In [None]:
# Distribución de los empleados por regiones

plt.rcParams['figure.figsize'] = (12,15)
plt.style.use('fivethirtyeight')
sns.countplot(y = train['region'], palette = 'inferno', orient = 'v')
plt.xlabel('')
plt.ylabel('Region')
plt.title('Distribución de los empleados por regiones', fontsize = 15)
plt.xticks(rotation = 90)
plt.grid()
plt.show()

## Análisis bivariado

El análisis bivariado es una de las formas más simples de análisis cuantitativo. Implica el análisis de dos variables, con el fin de determinar la relación empírica entre ellas. El análisis bivariado puede ser útil para probar hipótesis simples de asociación.

* Tipos de análisis bivariado
     * Categórico vs Categórico
     * Categórico vs Numérico
     * Numérico vs Numérico
    



### ¿Cúal es el impacto del género en las promociones?

In [None]:
promoted_employees = train[train['is_promoted'] == 1]


In [None]:
# Total de empleados por género
train['gender'].value_counts()

In [None]:
# Cantidad de promociones por género

promoted_employees['gender'].value_counts()

In [None]:
m_prom = 3201/38496
f_prom = 1467/16312
print("Hombres promocionados: ",round(m_prom,4))
print( "Mujeres promocionadas: ", round(f_prom,4))

In [None]:
# Comparamos si el genero tiene influencia en la promoción 

import warnings
warnings.filterwarnings('ignore')

plt.rcParams['figure.figsize'] = (15, 3)
x = pd.crosstab(train['gender'], train['is_promoted'])
colors = plt.cm.Wistia(np.linspace(0, 1, 5))
x.div(x.sum(1).astype(float), axis = 0).plot(kind = 'bar', stacked = False)
plt.title('Efectos del género en la promoción', fontsize = 15)
plt.xlabel(' ')
plt.show()

Observando este grafico y teniendo en cuenta los porcentajes obtenidos podemos decir que no hay diferencia entre los promocionados según su genero.

### Promociones en los distintos departamentos

In [None]:
# Comparamos las promociones en los distintos departamentos

plt.rcParams['figure.figsize'] = (15,4)
x = pd.crosstab(train['department'], train['is_promoted'])
colors = plt.cm.copper(np.linspace(0, 1, 3))
x.div(x.sum(1).astype(float), axis = 0).plot(kind = 'area', stacked = False)
plt.title('Promociones por departamento', fontsize = 15)
plt.xticks(rotation = 20)
plt.xlabel(' ')
plt.show()

En este grafico vemos que los empleados de HR, Legal and R&D tienen menos probabilidades de ser promovidos.

### ¿Cuál es el impacto de la edad en las promociones?

In [None]:
# Rango de edad
max_age = train['age'].max()
min_age = train['age'].min()
print('La edad minima es {} y la edad maxima es  {}'.format(min_age, max_age))

In [None]:
# Consideramos a todos los empleados menores a 30 como jovenes y al resto como mayores

empleados_jovenes = train[train['age'] <= 30]
empleados_mayores = train[train['age'] > 30]

In [None]:
# Cantidad de empleados jovenes promocionados

empleados_jovenes['is_promoted'].value_counts()

In [None]:
# Cantidad de empleados mayores promocionados
empleados_mayores['is_promoted'].value_counts()

In [None]:
#Porcentajes
perc_jovenes = 1550/(16568+1550)
perc_mayores = 3118/(33572+3118)
print("Porcenjate de empleados jovenes promocionados: ", round(perc_jovenes,5)*100,"%")
print("Porcentaje de empleados mayores promocionados: ", round(perc_mayores,5)*100,"%")

In [None]:
# Efectos de la edad en la promoción

plt.rcParams['figure.figsize'] = (15,4)
sns.boxenplot(train['is_promoted'], train['age'], palette = 'PuRd')
plt.title('Efectos de la edad en la promoción', fontsize = 15)
plt.xlabel('¿Está promocionado?', fontsize = 10)
plt.ylabel('Edad del empleado', fontsize = 10)
plt.show()

En este grafico vemos que las personas con mayor probabilidad de ser o no promovidas estan en el mismo rango de edad. Por eso concluimos que no impacta la edad en la promoción.

### ¿Cuál es la probabilidad de que los nuevos empleados sean promocionados?

Vamos a considerar empleados nuevos a los que tengan menos de dos años de antiguedad y tengan menos de 30 años

In [None]:
# Consideramos los empleados con 2 años de antiguedad

nuevos = train[(train['length_of_service'] <= 2) & (train['age'] <= 30)]
nuevos['is_promoted'].value_counts()

In [None]:
# Porcentaje

prob = 743/(8057+743)
print("La probabilidad de que los nuevos sean promovidos es de  {0:.2f}%".format(prob*100))

## Analisis multivariable

El análisis multivariante se basa en los principios de la estadística multivariante, que implica la observación y el análisis de más de una variable de resultado estadística a la vez.

* Para este análisis usaremos el mapa de calor de correlación para verificar la correlación entre las columnas numéricas


In [None]:
# Realizamos el mapa de calor para ver la correlación entre las variables.

plt.rcParams['figure.figsize'] = (15, 8)
sns.heatmap(train.corr(), annot = True, linewidth = 0.5, cmap = 'Wistia')
plt.title('Mapa de Correlación', fontsize = 15)
plt.show()

## Mineria de datos - ingenieria de funciones

La ingenieria de funciones es el proceso de utilizar el conocimiento del dominio para extraer características de datos sin procesar mediante técnicas de minería de datos. Estas funciones se pueden utilizar para mejorar el rendimiento de los algoritmos de aprendizaje automático. 

* Se considera el paso más importante para mejorar el rendimiento del modelo.
* Siempre debemos entender bien las columnas para crear algunas funciones nuevas utilizando las funciones antiguas existentes.
* Las formas en que podemos realizar la ingeniería de funciones.
    * Podemos realizar ingeniería de características eliminando columnas innecesarias
    * Podemos hacerlo extrayendo características de las características de fecha y hora.
    * Podemos hacerlo extrayendo características de las categorías categóricas.
    * Podemos hacerlo combinando las características numéricas y categóricas.
    * Podemos hacerlo agregando múltiples características juntas usando operaciones aritméticas simples
    
Nosotros solo vamos a realizar ingeniería de características agregando algunas características juntas. 

In [None]:
# Mejoramos nuestro modelo agregando una nueva metrica

# Creamos la suma de las metricas

train['sum_metric'] = train['awards_won?']+train['KPIs_met >80%'] + train['previous_year_rating']
test['sum_metric'] = test['awards_won?']+test['KPIs_met >80%'] + test['previous_year_rating']

# Creamos la columna de puntaje total

train['total_score'] = train['avg_training_score'] * train['no_of_trainings']
test['total_score'] = test['avg_training_score'] * test['no_of_trainings']

In [None]:
# Eliminamos columnas que no son utiles para predecir la promoción.

# Sabemos que el canal de reclutamiento no sirve para predecir la promoción, por eso la eliminamos.
# Vimos que la región aparenta no contribuir en la promoción, por eso la eliminamos.
# El id del empleado no importa en la predicción.

train = train.drop(['recruitment_channel', 'region', 'employee_id'], axis = 1)
test = test.drop(['recruitment_channel', 'region', 'employee_id'], axis = 1)

# Vemos las columnas uqe tiene nuestro dataset despues de aplicar la ingenieria de funciones
train.columns

## Manejo de columnas categóricas

Se sabe que las variables categóricas ocultan y enmascaran mucha información interesante en un conjunto de datos.


* Hay varias formas de codificar columnas categóricas en columnas numéricas
* Este es un paso esencial, ya que los modelos de aprendizaje automático solo funcionan con valores numéricos.
* Aquí, usaremos Business Logic para codificar la columna de educación.
* Luego usaremos el codificador de etiquetas, para las columnas de departamento y género 

In [None]:
## Identificamos las columnas 'categorias' presentes en nuestro dataset
train.select_dtypes('object').head()

In [None]:
# Vemos los valores que tiene la columna de educación
train['education'].value_counts()

In [None]:
# Convertimos las columnas categoricas en numericas

# Codificamos la columna de educación según su importancia usando 'Business logic'
train['education'] = train['education'].replace(("Master's & above", "Bachelor's", "Below Secondary"),
                                                (3, 2, 1))
test['education'] = test['education'].replace(("Master's & above", "Bachelor's", "Below Secondary"),
                                                (3, 2, 1))

# Para convertir los valores de Genero y Departamento utilizaremos el metodo de codificador de etiquetas para hacer las columnas numericas
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
train['department'] = le.fit_transform(train['department'])
test['department'] = le.fit_transform(test['department'])
train['gender'] = le.fit_transform(train['gender'])
test['gender'] = le.fit_transform(test['gender'])

# Revisamos si todavia quedan columnas categoricas en nuestro dataset despues de codificarlas
print(train.select_dtypes('object').columns)
print(test.select_dtypes('object').columns)

In [None]:
# Vemos como quedó nuestro dataset
train.head(3)

## División de datos

Este es uno de los pasos más importantes para realizar la predicción de aprendizaje automático en un conjunto de datos,
tenemos que separar las columnas objetivo de las independientes.
* Almacenamos la variable objetivo en y, y luego almacenamos el resto de las columnas en x, eliminando la columna objetivo de los datos.
* Además, estamos cambiando el nombre del conjunto de datos de prueba a x_test para facilitar la comprensión.

In [None]:
# Separamos nuestro objetivo de nuestro dataset

y = train['is_promoted']
x = train.drop(['is_promoted'], axis = 1)
x_test = test

# Vemos la cantidad de filas y columnas de los nuevos datasets
print("Filas de x :", x.shape[0], " Columnas de x: ", x.shape[1])
print("Filas de y :", y.shape[0], " Columnas de y: 0")
print("Filas de x_Test :", x_test.shape[0], " Columnas de x_Test: ", x_test.shape[1])


## Remuestreo

El remuestreo es el método que consiste en extraer muestras repetidas de las muestras de datos originales. El método de remuestreo es un método no paramétrico de inferencia estadística.

* Anteriormente, notamos que la columna de destino está muy desequilibrada, necesitamos equilibrar los datos mediante el uso de algunos métodos estadísticos.
* Hay muchos métodos estadísticos que podemos usar para volver a muestrear los datos, como:
     * Over Samping
     * Muestreo basado en clústeres
     * Bajo muestreo.
    
El sobremuestreo y el submuestreo en el análisis de datos son técnicas que se utilizan para ajustar la distribución de clases de un conjunto de datos. Estos términos se utilizan tanto en muestreo estadístico, metodología de diseño de encuestas como en aprendizaje automático. El sobremuestreo y el submuestreo son técnicas opuestas y aproximadamente equivalentes
    
* Vamos a utilizar Over Sampling.
* No usaremos Submuestreo para evitar la pérdida de datos.

In [None]:
from imblearn.over_sampling import SMOTE

x_resample, y_resample  = SMOTE().fit_sample(x, y.values.ravel())

# Mostramos la cantidad de filas y columnas despues de aplicar el resampling
print("Filas de x_resample :", x_resample.shape[0], " Columnas de x_resample: ", x_resample.shape[1])
print("Filas de y_resample :", y_resample.shape[0], " Columnas de y_resample: 0")


In [None]:
# Vemos la cantidad de valores de nuestra variable objetivo

print("Antes Resampling :")
print(y.value_counts())
print("---------------------------")
print("Despues Resampling :")
y_resample = pd.DataFrame(y_resample)
print(y_resample[0].value_counts())

In [None]:
# creemos un conjunto de validación a partir de los datos de entrenamiento para que podamos verificar si el modelo que hemos creado es lo suficientemente bueno
# vamos a importar la biblioteca train_test_split de sklearn para hacer eso 

from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(x_resample, y_resample, test_size = 0.2, random_state = 0)

# Mostramos las filas y columnas de cada variable
print("Filas y columnas de x Train :", x_train.shape)
print("Filas y columnas de y Train :", y_train.shape)
print("Filas y columnas de x Valid :", x_valid.shape)
print("Filas y columnas de y Valid :", y_valid.shape)
print("Filas y columnas de x Test :", x_test.shape)

## Escala de funciones - Normalización

La escala de funciones es un método que se utiliza para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos, también se conoce como normalización de datos y generalmente se realiza durante el paso de preprocesamiento de datos.

In [None]:
# Es muy importante escalar todas las características del conjunto de datos en la misma escala
# Aquí vamos a utilizar el método de estandarización, que se usa con mucha frecuencia.

# vamos a importar la biblioteca standard scaler de sklearn para hacer eso 
#Para el modelo de 'Decision Trees Classifier' no necesitamos hacer este paso

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
x_train = sc.fit_transform(x_train)
x_valid = sc.transform(x_valid)
x_test = sc.transform(x_test)

## Modelado predictivo de aprendizaje automático

El modelado predictivo es un proceso que utiliza datos y estadísticas para predecir resultados con modelos de datos. Estos modelos se pueden utilizar para predecir cualquier cosa, desde resultados deportivos y clasificaciones televisivas hasta avances tecnológicos y ganancias corporativas. El modelado predictivo también se conoce como: Análisis predictivo.

### Decision Trees Classifier

Un árbol de decisiones es una herramienta de apoyo a las decisiones que utiliza un modelo de decisiones en forma de árbol y sus posibles consecuencias, incluidos los resultados de eventos fortuitos, los costos de los recursos y la utilidad. Es una forma de mostrar un algoritmo que solo contiene declaraciones de control condicionales.

In [None]:
# Usamos Decision Trees para clasificar los datos
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(x_train, y_train)

y_pred = model.predict(x_valid)

In [None]:
from sklearn.metrics import confusion_matrix, classification_report

Accuracy_train = model.score(x_train, y_train)
Accuracy_test = model.score(x_valid, y_valid)

print("Precisión del entrenamiento  :", Accuracy_train)
print("Precisión de prueba  :", Accuracy_test)

cm = confusion_matrix(y_valid, y_pred)
plt.rcParams['figure.figsize'] = (3, 3)
sns.heatmap(cm, annot = True, cmap = 'magma', fmt = '.8g')
plt.xlabel('Valores predecidos')
plt.ylabel('Valores actuales')
plt.show()

In [None]:
# Genereamos el reporte de clasificación

cr = classification_report(y_valid, y_pred)
print(cr)

####Visualización del arbol

In [None]:
from sklearn import tree
fig = plt.figure(figsize=(25,20))
_= tree.plot_tree(model,
                  max_depth=5,
                  feature_names=train.columns[:-1],
                  class_names=['0','1'],
                  filled=True)

### Logistic Regression
La regresión logística es el análisis de regresión adecuado para realizar cuando la variable dependiente es dicotómica (binaria). Como todos los análisis de regresión, la regresión logística es un análisis predictivo. La regresión logística se utiliza para describir datos y explicar la relación entre una variable binaria dependiente y una o más variables independientes nominales, ordinales, de intervalo o de nivel de relación.

In [None]:
# Aplicamos Logistic Regression

from sklearn.linear_model import LogisticRegression

model1 = LogisticRegression(random_state = 0)
model1.fit(x_train, y_train)

y_pred1 = model1.predict(x_valid)

Accuracy_train1 = model1.score(x_train, y_train)
Accuracy_test1 = model1.score(x_valid, y_valid)

print("Precisión del entrenamiento  :", Accuracy_train1)
print("Precisión de prueba  :", Accuracy_test1)

In [None]:
# Analizamos el rendimiento usando Confusion matrix

from sklearn.metrics import confusion_matrix, classification_report

cm1 = confusion_matrix(y_valid, y_pred1)
plt.rcParams['figure.figsize'] = (3, 3)
sns.heatmap(cm1, annot = True, cmap = 'viridis', fmt = '.8g')
plt.show()

# Generamos el reporte de clasificación
cr1 = classification_report(y_valid, y_pred1)
print(cr1)


### Gradient Boosting
Un modelo Gradient Boosting está formado por un conjunto de árboles de decisión individuales, entrenados de forma secuencial, de forma que cada nuevo árbol trata de mejorar los errores de los árboles anteriores. La predicción de una nueva observación se obtiene agregando las predicciones de todos los árboles individuales que forman el modelo.

In [None]:
# Aplicamos Gradient Boosting

from sklearn.ensemble import GradientBoostingClassifier

model2 =  GradientBoostingClassifier()
model2.fit(x_train, y_train)

y_pred2 = model2.predict(x_valid)

Accuracy_train2 = model2.score(x_train, y_train)
Accuracy_test2 = model2.score(x_valid, y_valid)

print("Precisión del entrenamiento  :", Accuracy_train2)
print("Precisión de prueba  :", Accuracy_test2)


In [None]:
# Analizamos el rendimiento usando Confusion matrix

cm2 = confusion_matrix(y_valid, y_pred2)
plt.rcParams['figure.figsize'] = (3, 3)
sns.heatmap(cm2, annot = True, cmap = 'Wistia', fmt = '.8g')
plt.show()

# Generamos el reporte de clasificación
cr2 = classification_report(y_valid, y_pred2)
print(cr2)

In [None]:
# Comprobamos el cross value score
from sklearn.model_selection import cross_val_score

clf = GradientBoostingClassifier(random_state = 0)
scores = cross_val_score(clf, x_train, y_train, cv=5)
print(scores)

### Comparamos los modelos

In [None]:
#Graficamos la matriz de confusión para los tres modelos
plt.rcParams['figure.figsize'] = (16,5)
plt.style.use('fivethirtyeight')


# Modelo 
plt.subplot(1, 3, 1)
cm = confusion_matrix(y_valid, y_pred)
plt.rcParams['figure.figsize'] = (3, 3)
sns.heatmap(cm, annot = True, cmap = 'magma', fmt = '.8g')
plt.xlabel('Valores predecidos')
plt.ylabel('Valores actuales')
plt.title('Decision Tree Classifier', fontsize = 20)

# Modelo 1
plt.subplot(1, 3, 2)
cm1 = confusion_matrix(y_valid, y_pred1)
plt.rcParams['figure.figsize'] = (3, 3)
sns.heatmap(cm1, annot = True, cmap = 'viridis', fmt = '.8g')
plt.title('Logistic Regression', fontsize = 20)

# Modelo 2
plt.subplot(1, 3, 3)
cm2 = confusion_matrix(y_valid, y_pred2)
plt.rcParams['figure.figsize'] = (3, 3)
sns.heatmap(cm2, annot = True, cmap = 'Wistia', fmt = '.8g')

plt.title(' Gradient Boosting', fontsize = 20)


plt.legend('')
plt.show()

# Generamos el reporte de clasificación
print('')
print('Decision Tree Classifier')
print(cr)
print('--------------------------------------------------------------')
print('Logistic Regression')
print(cr1)
print('--------------------------------------------------------------')
print('Gradient Boosting')
print(cr2)