In [1]:
# 0.1 Cronología:

# 1. Se estudia a nivel estadístico las características de las variables originales,
#    Assurance y Matching. Se llega a la conlusión que Assurance al explicar directamente
#    a Matching, que es prescindible para evitar redundancias.

# 2. A nivel econométrico se pone a prueba el modelo original, lo cual dará indirectamente
#    luz verde a la inclusión de Matching, ya que las variables en su conjunto son significativas.

# 3. Finalmente para certificar si Matching es necesario y relevante en el modelo, se va a
#    comparar los rendimientos de algoritmos kNN y de árboles de decisión.
#    Esto servirá como confirmación final de qué modelo es el idóneo para predecir las contrataciones
#    en función del perfil ofertado.

# ATENCIÓN: en este caso se va a utilizar el fichero 7 que NO incluye la columna Matching, por
#           lo que se va a poner a prueba el modelo original.

In [2]:
# 1. Importamos todas las librerías que creemos útiles

import io # Provee diferentes tipos de E/S: texto E/S, binario E/S e E/S.

import os # Leer o escribir un archivo.

import math # Proporciona acceso a las funciones matemáticas definidas en C.

import csv # Para cargar y manejar CSV.

import xlrd # Funcionalidades de excel en Python (1/2).

import xlwt # Funcionalidades de excel en Python (2/2).

import sklearn # Funcionalidades de Machine Learning.

import numpy as np # Manejo de datos extremadamente rápido cálculo numérico.

import scipy as sp # Módulos para optimización, álgebra lineal, etc.

import pandas as pd # Módulos de gestión de ficheros y dataframes.

import matplotlib.pyplot as plt # Generación de gráficos.

import statsmodels.api as sm # Módulo estadístico.

import random # Para fijar resultados.

In [3]:
# 2.1 Cargamos y leemos el fichero6.

fichero6 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero6.csv')

fichero6

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Matching,Status
0,0,1,0,0,0,0
1,1,1,0,1,1,1
2,1,1,1,0,1,1
3,1,1,0,0,0,0
4,1,0,1,0,0,1
...,...,...,...,...,...,...
824,1,1,0,0,1,1
825,1,1,1,0,1,1
826,1,1,0,1,0,0
827,1,1,0,0,1,1


In [4]:
# 2.2 Eliminamos la columna Matching.

fichero6 = fichero6.drop(['Matching'], axis=1)

fichero6

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Status
0,0,1,0,0,0
1,1,1,0,1,1
2,1,1,1,0,1
3,1,1,0,0,0
4,1,0,1,0,1
...,...,...,...,...,...
824,1,1,0,0,1
825,1,1,1,0,1
826,1,1,0,1,0
827,1,1,0,0,1


In [5]:
# 2.3 Exportamos el fichero7.

fichero6.to_csv('fichero7.csv', index=False)

In [6]:
# 2.4 Cargamos y leemos el fichero7.

fichero7 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero7.csv')

fichero7

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Status
0,0,1,0,0,0
1,1,1,0,1,1
2,1,1,1,0,1
3,1,1,0,0,0
4,1,0,1,0,1
...,...,...,...,...,...
824,1,1,0,0,1
825,1,1,1,0,1
826,1,1,0,1,0
827,1,1,0,0,1


In [7]:
# 3. Algoritmos de clasificación con kNN:

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

from sklearn.metrics import confusion_matrix

In [8]:
# 3.1.1 Intento 1: kNN predeterminado con la distancia de Euclídea.

# La distancia euclidiana es una métrica de distancia que se utiliza para datos continuos.

x = fichero7.iloc[:, :-1] # Seleccionamos todas las columnas excepto la última

y = fichero7.iloc[:, -1] # Elegimos sólo la última columna

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

knn = KNeighborsClassifier(n_neighbors=300) # Ajustamos el parámetro 'k'.

knn.fit(x_train, y_train)

y_pred = knn.predict(x_test)

accuracy = accuracy_score(y_test, y_pred)

print(f'Precisión: {accuracy}')

Precisión: 0.6875


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [9]:
# 3.1.2 Intento 1: matriz de confusión.

x = fichero7.iloc[:, :6]

y = fichero7['Status']

# Escogemos k=10 porque es el óptimo.

knn = KNeighborsClassifier(n_neighbors=10)

knn.fit(x, y)

y_pred = knn.predict(x)

confm = confusion_matrix(y, y_pred)

print(confm)

[[259   0]
 [  0 570]]


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [10]:
# 3.1.3 Intento 1: resultados del kNN según parámetro 'k'.

# Intento 1: k = 2 --> 52.40%. Mínimo.

# Intento 2: k = 4 --> 61.53%.

# Intento 3: k = 6 --> 61.53%.

# Intento 4: k = 8 --> 55.76%.

# Intento 5: k = 10 --> 69.23%. Óptimo.

# Intento 6: k = 20 --> 67.30%.

# Intento 7: k = 40 --> 70.19%. Máximo.

# Intento 8: k = 80 --> 64.90%.

# Intento 9: k = 150 --> 63.94%.

# Intento 10: k = 300 --> 68.75%.

In [11]:
# 3.2.1 Intento 2: kNN con la distancia de Jaccard.

# Jaccard es una métrica de distancia que se utiliza para datos binarios o categóricos.

x = fichero7.iloc[:, :-1] 

y = fichero7.iloc[:, -1] 

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

knn = KNeighborsClassifier(n_neighbors=300, metric='jaccard')

knn.fit(x_train, y_train)

y_pred = knn.predict(x_test)

accuracy = accuracy_score(y_test, y_pred)

print(f'Precisión: {accuracy}')

Precisión: 0.6826923076923077


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [12]:
# 3.2.2 Intento 2: matriz de confusión.

x = fichero7.iloc[:, :6]

y = fichero7['Status']

# Escogemos k=20 porque es el óptimo.

knn = KNeighborsClassifier(n_neighbors=20)

knn.fit(x, y)

y_pred = knn.predict(x)

confm = confusion_matrix(y, y_pred)

print(confm)

[[259   0]
 [  0 570]]


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [13]:
# 3.2.3 Intento 2: resultados del kNN según parámetro 'k'.

# Intento 1: k = 2 --> 47.59%. Mínimo.

# Intento 2: k = 4 --> 49.51%.

# Intento 3: k = 6 --> 51.44%.

# Intento 4: k = 8 --> 62.02%.

# Intento 5: k = 10 --> 65.86%.

# Intento 6: k = 20 --> 70.67%. Óptimo.

# Intento 7: k = 40 --> 74.51%. Máximo.

# Intento 8: k = 80 --> 66.34%.

# Intento 9: k = 150 --> 68.26%.

# Intento 10: k = 300 --> 68.26%.

In [33]:
# 3.3.1 Intento 3: kNN con la distancia de Hamming.

# Hamming es una métrica de distancia discreta que se utiliza para datos binarios.

x = fichero7.iloc[:, :-1]

y = fichero7.iloc[:, -1]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

knn = KNeighborsClassifier(n_neighbors=300, metric='hamming')

knn.fit(x_train, y_train)

y_pred = knn.predict(x_test)

accuracy = accuracy_score(y_test, y_pred)

print(f'Precisión: {accuracy}')

Precisión: 0.6826923076923077


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [15]:
# 3.3.2 Intento 3: matriz de confusión.

random.seed(3)

x = fichero7.iloc[:, :6]

y = fichero7['Status']

# Escogemos k=10 porque es el óptimo.

knn = KNeighborsClassifier(n_neighbors=10)

knn.fit(x, y)

y_pred = knn.predict(x)

confm = confusion_matrix(y, y_pred)

print(confm)

[[259   0]
 [  0 570]]


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [16]:
# 3.3.3 Intento 3: resultados del kNN según parámetro 'k'.

# Intento 1: k = 2 --> 45.67%. Mínimo.

# Intento 2: k = 4 --> 49.51%.

# Intento 3: k = 6 --> 48.07%.

# Intento 4: k = 8 --> 56.73%.

# Intento 5: k = 10 --> 68.75%. Óptimo.

# Intento 6: k = 20 --> 68.26%.

# Intento 7: k = 40 --> 69.23%. Máximo.

# Intento 8: k = 80 --> 66.34%.

# Intento 9: k = 150 --> 67.78%.

# Intento 10: k = 300 --> 68.26%.

In [17]:
# 3.3 Conclusiones de los resultados.

# a) En primer lugar descartamos que el dataset sea sensible al ruido y al 
#    sobreajuste, ya que el 'k' seleccionado no en ninguno de los 3 casos
#    de un valor muy reducido.

# b) Por otro lado, los 'k' más grandes tampoco dan la máxima precisión,
#    evitando así, un subajuste.

# c) Por ende, el 'k' óptimo aproximadamente será entre k=10 y k=20. Consideramos que  
#    es un valor razonable, ya que no está cerca del mínimo (k=1) ni supone 
#    un 'k' enorme que del máximo resultado (k=40).

# d) La matriz de confusión es excelente ya que no refleja falsos positivos
#    ni falsos negativos.

# e) Se debe tener en cuenta que al reiniciar el Kernel y ejecutarlo todo
#    de nuevo los resultados del KNN no tienen por qué ser exactamente el
#    mismo.

In [18]:
# 3.4 Otros posibles intentos.

# Algunas ditancias que se pueden aplizar también son: Manhattan, Chebyshev y Mahalanobis.

# Sin embargo, se ha optado por la Euclídea por ser la predeterminada, la Jaccard y la
# Hamming por estar orientadas a datos binarios. 

# Por otro lado, el resto de distancias:

# Manhattan es una métrica de distancia que se utiliza para datos continuos.

# Chebyshev es una métrica de distancia que se utiliza para datos continuos.

# Mahalanobis es una métrica de distancia que se utiliza para datos multivariados.

In [19]:
# 4. Algoritimos de clasificación y regresión con árboles de decisión

In [20]:
# 4.1.1 Clasificación.

# Los valores predeterminados para los parámetros que controlan el tamaño 
# y el número de hojas en el algoritmo de clasificación de árboles de 
# decisión de scikit-learn conducen a árboles sin podar.

from sklearn.tree import DecisionTreeClassifier

x = fichero7.iloc[:, :-1]

y = fichero7.iloc[:, -1]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

clf = DecisionTreeClassifier()

clf.fit(x_train, y_train)

y_pred = clf.predict(x_test)

accuracy = accuracy_score(y_test, y_pred)

print(f'Precisión: {accuracy}')

Precisión: 0.6875


In [21]:
# 4.1.2 Matriz de confusión.

random.seed(4)

cm = confusion_matrix(y_test, y_pred)

print(cm)

[[  6  60]
 [  5 137]]


In [22]:
# 4.2.1 Regresión.

from sklearn.tree import DecisionTreeRegressor

from sklearn.metrics import mean_squared_error

x = fichero7.iloc[:, :-1] 

y = fichero7.iloc[:, -1] 

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

reg = DecisionTreeRegressor()

reg.fit(x_train, y_train)

y_pred = reg.predict(x_test)

mse = mean_squared_error(y_test, y_pred)

rmse = np.sqrt(mse)

y_range = y.max() - y.min()

print(f'Error Cuadrático Medio: {mse}')

print(f'Raíz del ECM: {rmse}')

print(f'Rango de la vble endógena: {y_range}')

Error Cuadrático Medio: 0.2355741137743011
Raíz del ECM: 0.48535977766426125
Rango de la vble endógena: 1


In [23]:
# 4.3 Conclusiones:

# a) La precisión del modelo según el test ha sido de un 68.75%, un resultado
#    en la línea del kNN.

# b) El ECM es de 0.2355. Por sí mismo no posee valor o interpretación absoluta,
#    pero lo que sí sabemos es que cuanto más cerca del valor cero, mejor.

# c) Por otro lado, el rango de valores de la variable endógena es 1, lo que 
#    significa que la diferencia entre el valor máximo y mínimo de la variable 
#    dependiente es 1 unidad. En este caso, la raíz del ECM es aproximadamente 
#    un 48.53% del rango de valores. Esto sugiere que las predicciones del 
#    modelo son según el contexto, imprecisas.

# d) La matriz de confusión proviene del 25% de 829 que es 208. Por otra parte, 
#    posee un alto número de falsos positivos.  