In [1]:
# 1. Importamos todas las librerías que creemos útiles

import io # Provee diferentes tipos de E/S: texto E/S, binario E/S e E/S.

import os # Leer o escribir un archivo.

import math # Proporciona acceso a las funciones matemáticas definidas en C.

import csv # Para cargar y manejar CSV.

import xlrd # Funcionalidades de excel en Python (1/2).

import xlwt # Funcionalidades de excel en Python (2/2).

import sklearn # Funcionalidades de Machine Learning.

import numpy as np # Manejo de datos extremadamente rápido cálculo numérico.

import scipy as sp # Módulos para optimización, álgebra lineal, etc.

import pandas as pd # Módulos de gestión de ficheros y dataframes.

import matplotlib.pyplot as plt # Generación de gráficos.

import statsmodels.api as sm # Módulo estadístico.

import random # Para fijar resultados.

In [2]:
# 2.1 Instalamos la librería PrettyTable.

In [3]:
pip install prettytable

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [4]:
# 2.2 Resumen de test y coeficientes realizados: Partes Estadística (2) y Econométrica (4).

# AVISO: los ficheros suelen estar en ocasiones modificados durante el
# el proceso.*

from prettytable import PrettyTable

data = [['Logit','0.73','fichero6*'],
        ['LLR','0.0076','fichero6*'],
        ['T. White','0.0882','fichero6*'],
        ['AUC (ROC)', '0.92', 'fichero6'],
        ['Kappa-Cohen', '0.78', 'fichero6'],
        ['C. C. Pearson','<0.3','fichero6'],
        ['D. Coseno','0.5','fichero6'],
        ['VIF Inverso','<1.25','fichero6'],
        ['Recall','0.85','fichero6'],
        ['F1','0.78-0.93','fichero6*']]

df = pd.DataFrame(data)

table = PrettyTable()
table.field_names = ["Test y Coeficientes", "Resultados", "Fichero utilizado"]

for row in df.itertuples():
    table.add_row(row[1:])

print(table)

+---------------------+------------+-------------------+
| Test y Coeficientes | Resultados | Fichero utilizado |
+---------------------+------------+-------------------+
|        Logit        |    0.73    |     fichero6*     |
|         LLR         |   0.0076   |     fichero6*     |
|       T. White      |   0.0882   |     fichero6*     |
|      AUC (ROC)      |    0.92    |      fichero6     |
|     Kappa-Cohen     |    0.78    |      fichero6     |
|    C. C. Pearson    |    <0.3    |      fichero6     |
|      D. Coseno      |    0.5     |      fichero6     |
|     VIF Inverso     |   <1.25    |      fichero6     |
|        Recall       |    0.85    |      fichero6     |
|          F1         | 0.78-0.93  |     fichero6*     |
+---------------------+------------+-------------------+


In [5]:
# 2.3 Conclusiones:

# a) El modelo logit tiene una precisión del 73%.

# b) El LLR tan bajo nos muestra que el modelo Logit en su conjunto es significativo

# c) El test de White refleja que en el modelo original no existen indicios
#    de problemas de heterocedasticidad.

# d) El modelo AUC tiene un área bajo la curva de 0.92, lo que indica que el 
#    modelo es bueno para predecir la probabilidad.

# e) El coeficiente de Kappa es de 0.78, lo cual da a entender que el modelo 
#    tiene una buena concordancia con los datos de prueba.

# f) El coeficiente de Pearson es menor que 0.3, por lo que no hay una 
#    correlación lineal fuerte entre las variables.

# g) La distancia del coseno entre las variables exogenas es de 0.5,
#    lo que indica una similitud intermedia y por ende, razonable.

# h) El coeficiente VIF inverso (o tolerancia) refleja una señal respecto
#    a la multicolinealidad.

# i) El modelo Recall tiene una precisión del 85%.

# j) La medida F1 es excelente sin incluir o incluyendo respectivamente,
#    la variable auxiliar Matching.

In [6]:
# 2.4 Resumen de algoritmos según ficheros utilizados.

# Se tendrán en cuenta los kNN óptimos.

from prettytable import PrettyTable

data = [['kNN (D. Euclídea)','0.69','0.94'],
        ['kNN (D. Jaccard)', '0.70', '0.93'],
        ['kNN (C. Hamming)', '0.68', '0.92'],
        ['Árbol de Decisión', '0.68', '0.94'],
        ['Error Cuadrático Medio', '0.23', '0.03'],
        ['Raíz del ECM', '0.48', '0.19'],
        ['Rango de la vble', '1', '1']]

df = pd.DataFrame(data)

table = PrettyTable()
table.field_names = ["Algoritmos", "Resultados Fichero7", "Resultados Fichero6"]

for row in df.itertuples():
    table.add_row(row[1:])

print(table)

+------------------------+---------------------+---------------------+
|       Algoritmos       | Resultados Fichero7 | Resultados Fichero6 |
+------------------------+---------------------+---------------------+
|   kNN (D. Euclídea)    |         0.69        |         0.94        |
|    kNN (D. Jaccard)    |         0.70        |         0.93        |
|    kNN (C. Hamming)    |         0.68        |         0.92        |
|   Árbol de Decisión    |         0.68        |         0.94        |
| Error Cuadrático Medio |         0.23        |         0.03        |
|      Raíz del ECM      |         0.48        |         0.19        |
|    Rango de la vble    |          1          |          1          |
+------------------------+---------------------+---------------------+


In [7]:
# 2.5 Conclusiones:

# a) kNN: existe una mejora significativa entre ambos kNN a favor de la 
#         incorporación de la columna Matching. Vemos como utilizando el
#         fichero6 la precisión del algortimo aumenta más de 20 puntos 
#         porcentuales.

# b) Árbol de Decisión: ídem con respecto al kNN. Se da una gran mejora
#                       en términos de precisión.

# c) ECM y RECM: de nuevo, se aprecia la mejora entre los 2 modelos a favor
#                del fichero6.

# d) Rango de la vble: al ser el mismo, la comparación de los RECM es
#                      proporcional.

In [8]:
# 3. Carga y explicación de cada fichero.

In [9]:
# 3.1 Fichero1.

# Primera parte del fichero final con 215 instancias.

fichero1 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero1.csv')

fichero1

Unnamed: 0,gender,ssc_percentage,ssc_board,hsc_percentage,hsc_board,hsc_subject,degree_percentage,undergrad_degree,work_experience,emp_test_percentage,specialisation,mba_percent,status
0,M,67.00,Others,91.00,Others,Commerce,58.00,Sci&Tech,No,55.0,Mkt&HR,58.80,Placed
1,M,79.33,Central,78.33,Others,Science,77.48,Sci&Tech,Yes,86.5,Mkt&Fin,66.28,Placed
2,M,65.00,Central,68.00,Central,Arts,64.00,Comm&Mgmt,No,75.0,Mkt&Fin,57.80,Placed
3,M,56.00,Central,52.00,Central,Science,52.00,Sci&Tech,No,66.0,Mkt&HR,59.43,Not Placed
4,M,85.80,Central,73.60,Central,Commerce,73.30,Comm&Mgmt,No,96.8,Mkt&Fin,55.50,Placed
...,...,...,...,...,...,...,...,...,...,...,...,...,...
210,M,80.60,Others,82.00,Others,Commerce,77.60,Comm&Mgmt,No,91.0,Mkt&Fin,74.49,Placed
211,M,58.00,Others,60.00,Others,Science,72.00,Sci&Tech,No,74.0,Mkt&Fin,53.62,Placed
212,M,67.00,Others,67.00,Others,Commerce,73.00,Comm&Mgmt,Yes,59.0,Mkt&Fin,69.72,Placed
213,F,74.00,Others,66.00,Others,Commerce,58.00,Comm&Mgmt,No,70.0,Mkt&HR,60.23,Placed


In [10]:
# 3.2 Fichero2.

# Segunda parte del fichero final con 614 instancias.

fichero2 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero2.csv')

fichero2

Unnamed: 0,Serial_no,Gender,Python_exp,Experience_Years,Education,Internship,Score,Salary * 10E4,Offer_History,Location,Recruitment_Status
0,1,Male,Yes,0.0,Graduate,No,5139,0.0,1.0,Urban,Y
1,2,Male,No,1.0,Graduate,No,4583,128.0,1.0,Rural,N
2,3,Male,No,0.0,Graduate,Yes,3000,66.0,1.0,Urban,Y
3,4,Male,No,0.0,Not Graduate,No,2583,120.0,1.0,Urban,Y
4,5,Male,Yes,0.0,Graduate,No,6000,141.0,1.0,Urban,Y
...,...,...,...,...,...,...,...,...,...,...,...
609,610,Female,Yes,0.0,Graduate,No,2900,71.0,1.0,Rural,Y
610,611,Male,No,3.0,Graduate,No,4106,40.0,1.0,Rural,Y
611,612,Male,No,1.0,Graduate,No,8072,253.0,1.0,Urban,Y
612,613,Male,No,2.0,Graduate,No,7583,187.0,1.0,Urban,Y


In [11]:
# 3.3 Fichero3.

# Fichero 1 y 2 homogenizados y fusionados dan lugar a la base definitiva: 
# la versión 3.

fichero3 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero3.csv')

fichero3

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Status
0,F,Graduate,Yes,1,Y
1,M,Graduate,Yes,0,N
2,M,Not Graduate,No,0,N
3,M,Graduate,Yes,0,Y
4,M,Graduate,Yes,0,Y
...,...,...,...,...,...
824,M,Not Graduate,No,1,Y
825,F,Not Graduate,Yes,0,Y
826,M,Not Graduate,Yes,1,Y
827,F,Graduate,No,1,N


In [12]:
# 3.4 Fichero4.

# Incluimos las columnas Assurance y Matching para explicar mejor el modelo 
# y pre-testearlo.

fichero4 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero4.csv')

fichero4

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Assurance,Matching,Status
0,F,Graduate,No,0,0.50,NOPE,N
1,M,Graduate,No,1,0.67,OK,Y
2,M,Graduate,Yes,0,0.83,OK,Y
3,M,Graduate,No,0,0.50,NOPE,N
4,M,Not Graduate,Yes,0,0.33,NOPE,Y
...,...,...,...,...,...,...,...
824,M,Graduate,No,0,0.50,OK,Y
825,M,Graduate,Yes,0,0.83,OK,Y
826,M,Graduate,No,1,0.67,NOPE,N
827,M,Graduate,No,0,0.50,OK,Y


In [13]:
# 3.5 Fichero5.

# Se hace una transformación final de nominal a numérico. El cambio es totalmente binario
# excepto en Assurance, que mide la confianza (en un intervalo de entre 0 y 1) de cada 
# instancia a ser contratada.

fichero5 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero5.csv')

fichero5

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Assurance,Matching,Status
0,0,1,0,0,0.50,0,0
1,1,1,0,1,0.67,1,1
2,1,1,1,0,0.83,1,1
3,1,1,0,0,0.50,0,0
4,1,0,1,0,0.33,0,1
...,...,...,...,...,...,...,...
824,1,1,0,0,0.50,1,1
825,1,1,1,0,0.83,1,1
826,1,1,0,1,0.67,0,0
827,1,1,0,0,0.50,1,1


In [14]:
# 3.6 Fichero6.

# Se elimina la columna Assurance para evitar redundancias en los análisis estadísticos, econométricos
# y de machine learning.

fichero6 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero6.csv')

fichero6

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Matching,Status
0,0,1,0,0,0,0
1,1,1,0,1,1,1
2,1,1,1,0,1,1
3,1,1,0,0,0,0
4,1,0,1,0,0,1
...,...,...,...,...,...,...
824,1,1,0,0,1,1
825,1,1,1,0,1,1
826,1,1,0,1,0,0
827,1,1,0,0,1,1


In [15]:
# 3.7 Fichero7.

# Se elimina la columna Matching para comparar resultados con el fichero 6 (sólo con Machine Learning).

fichero7 = pd.read_csv(r'C:\Users\jlc15\Desktop\MECOFIN\2º Cuatrimestre\TFM\Y - Ficheros Python\fichero7.csv')

fichero7

Unnamed: 0,Gender,Education,Work Exp,Programming Exp,Status
0,0,1,0,0,0
1,1,1,0,1,1
2,1,1,1,0,1
3,1,1,0,0,0
4,1,0,1,0,1
...,...,...,...,...,...
824,1,1,0,0,1
825,1,1,1,0,1
826,1,1,0,1,0
827,1,1,0,0,1
