In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score,roc_auc_score

from functools import reduce

from scipy.stats import ks_2samp
from scikitplot.metrics import plot_ks_statistic,plot_roc_curve

import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

pd.set_option('display.max_columns',500)
pd.set_option('display.float_format',lambda x:'%.4f'%x)

## Cargar datos y categorizar variables

In [2]:
df = pd.read_excel('data/Cuestionario Diagnóstico 2019 - 1 (Respuestas).xlsx')
print(df.shape)
df = df.loc[df['Edad 🎂']<=40].reset_index(drop=True)
df = df.loc[df['¿Cuántos cuartos para dormir tiene tu vivienda?']>0].reset_index(drop=True)
df = df.loc[df['¿A cuánto aproximadamente ascienden los ingresos de tu hogar(considerando a todos los que aportan)?']<=100000].reset_index(drop=True)
df = df.loc[df['¿En cuántos años lo terminaste?']<=5].reset_index(drop=True)
print(df.shape)

FileNotFoundError: [Errno 2] No such file or directory: 'data/Cuestionario Diagnóstico 2019 - 1 (Respuestas).xlsx'

In [None]:
varc = ['Edad 🎂',
        '¿Cuánto tiempo dura (en minutos) el trayecto de tu casa a la facultad? ⏱',
        '¿Cuántas personas en total viven en tu hogar? Incluyéndote a ti',
        '¿Cuántos son hombres?',
        '¿Cuántas son mujeres?',
        '¿Cuánto tiempo llevas viviendo ahí? (años)',
        '¿Cuántos cuartos para dormir tiene tu vivienda?',
        '¿Cuántos automóviles en total tienen las personas que conforman tu hogar?',
        '¿Cuántas horas trabajas a la semana?',
        '¿Qué promedio obtuviste en el bachillerato?',
        '¿En cuántos años lo terminaste?',
        '¿A cuánto aproximadamente ascienden los ingresos de tu hogar(considerando a todos los que aportan)?',
        '¿Cuántos días a la semana dedicas tiempo para realizar las siguientes actividades? [Deportes ⚽️🏀🏈]',
        '¿Cuántos días a la semana dedicas tiempo para realizar las siguientes actividades? [Actividades culturales 🎭🎬🎻]',
        '¿Cuántos días a la semana dedicas tiempo para realizar las siguientes actividades? [Actividades sociales (fiestas, reuniones con amigos, familia, etc.)]',
        '¿Cuántos días a la semana dedicas tiempo para realizar las siguientes actividades? [Entretenimiento personal (videojuegos, redes sociales, netflix, youtube, etc)]'
       ]

vard = ['Estado civil','¿Tienes hijos?',
        '¿Tienes alguna dificultad para? [👓 Ver]',
        '¿Tienes alguna dificultad para? [👂 Escuchar]',
        '¿Tienes alguna dificultad para? [💪 Realizar alguna actividad física]',
        '¿Dónde vives actualmente?',
        '¿En qué delegación o municipio?',
        '¿Qué medio de transporte utilizas para llegar a la facultad?',
        '¿Cuál de las siguientes opciones describe tu tipo de vivienda?',
        '¿Con quién vives? (Puedes seleccionar más de una)',
        '¿Cuál es el máximo nivel de estudios de tu papá?',
        '¿Cuál es el máximo nivel de estudios de tu mamá?',
        'En caso de que tengas smartphone ¿Qué sistema operativo tiene?',
        '¿Dónde vivirás mientras cursas tus estudios universitarios?',
        '¿De qué forma financiarás tus estudios universitarios?',
        '¿En dónde cursaste el bachillerato?','¿Cómo se llama la institución donde cursaste el bachillerato?',
        '¿Recibiste alguna beca?','¿Cuál fue el proceso de admisión por el que entraste a esta carrera?',
        'Escoger ésta carrera fue...','Al escoger la FES Acatlán ésta fue:',
        '¿Cuándo tomaste la decisión de lo que querías estudiar?'   
       ]
tgt = 'Carrera'

## Normalizar variables discretas

In [None]:
for v in vard:
    df[v].fillna('MISSING',inplace=True)

In [None]:
def normalizar(df,v,umbral=0.05):
    aux = df[v].value_counts(True).to_frame()
    aux['norm'] = np.where(aux[v]<umbral,'Otros',aux.index)
    grupo = aux.loc[aux['norm']=='Otros'][v].sum()
    if grupo<umbral:
        aux['norm'].replace({'Otros':aux.index[0]},inplace=True)
    aux.drop(v,axis=1,inplace=True)
    return v,aux.to_dict()['norm']

In [None]:
l_norm = list(map(lambda v:normalizar(df,v),vard)    )

In [None]:
for v,d in l_norm:
    df[f'n_{v}'] = df[v].replace(d)

In [None]:
varn = df.filter(like='n_').columns.tolist()

In [None]:
for v in varn:
    print(v,'\n')
    print(df[v].value_counts(True).sort_index())
    print('\n'*2)

In [None]:
unarias = [v for v in varn if df[v].value_counts().shape[0]==1]

In [None]:
varn = [v for v in varn if v not in unarias]

## Discretización de variables continuas

In [None]:
l = []
for v in varc:
    for st in ['uniform','quantile']:
        for k in range(2,6):
            kb = KBinsDiscretizer(n_bins=k,
                                  strategy=st,
                                  encode='ordinal')
            
            miss, nomiss = df.loc[df[v].isnull()][[v]],df.loc[~df[v].isnull()][[v]]
            kb.fit(nomiss[[v]])
            nombre = f'd_{v}_{k}_{st[:3]}' 
            miss[nombre] = miss[v].fillna('MISSING')
            nomiss[nombre] = pd.cut(nomiss[v],bins=kb.bin_edges_[0],include_lowest=True).astype(str)
            l.append(pd.concat([nomiss[[nombre]],miss[[nombre]]]))

In [None]:
dfd = reduce(lambda x,y:pd.merge(x,y,left_index=True,right_index=True,how='outer'),l)

In [None]:
dfd.shape,df.shape

## Juntar discretas, continuas y target

In [None]:
df = df[[tgt]+varn].merge(dfd,left_index=True,right_index=True,how='outer')

In [None]:
df[tgt] = (df[tgt] =='Actuaria').astype(int)

In [None]:
df[tgt].value_counts(1)

## Calcular IV

In [None]:
v = 'n_¿Cuál de las siguientes opciones describe tu tipo de vivienda?'

In [None]:
def iv(df,v,tgt):
    aux = df[[v,tgt]].assign(n=1)
    aux = aux.pivot_table(index=v,
                    columns=tgt,
                    values='n',
                    fill_value=0,
                    aggfunc='sum')
    for i in range(2):
        aux[i]/=aux[i].sum()
    aux['woe'] = np.log(aux[0]/aux[1])
    aux['iv'] = (aux[0]-aux[1])*aux['woe']
    return v,aux['iv'].sum()
    

In [None]:
print("""<0.1 Débil
0.1-0.3 Media
0.3-0.5 Fuerte
>0.5 Muy fuerte
""")

In [None]:
var = [v for v in df.columns if v != tgt]

In [None]:
ivdf = pd.DataFrame(map(lambda v:iv(df,v,tgt),var),columns=['variable','iv'])
ivdf = ivdf.sort_values(by='iv',ascending=False).reset_index(drop=True)
ivdf['iv'].replace({np.inf:np.nan,-np.inf:np.nan},inplace=True)
ivdf = ivdf.dropna().reset_index(drop=True)
ivdf['raiz'] = ivdf['variable'].map(lambda x:x.split('_')[1] if x[:2]=='d_' else x)
ivdf = ivdf.sort_values(by=['raiz','iv'],ascending=[1,0]).reset_index(drop=True)
ivdf['best'] = ivdf.groupby('raiz').cumcount()+1
ivdf = ivdf.loc[ivdf['best']==1].drop('best',axis=1).sort_values(by='iv',ascending=False).reset_index(drop=True)

In [None]:
best = ivdf.loc[ivdf['iv']>=0.1]['variable'].tolist()

In [None]:
best

## Transformación WoE

In [None]:
X = df[best].copy()
y = df[[tgt]].copy()

In [None]:
Xt,Xv,yt,yv = train_test_split(X,y,train_size=0.7)

In [None]:
Xt[tgt] = yt

In [None]:
def woe(df,v,tgt):
    aux = df[[v,tgt]].assign(n=1)
    aux = aux.pivot_table(index=v,
                    columns=tgt,
                    values='n',
                    fill_value=0,
                    aggfunc='sum')
    for i in range(2):
        aux[i]/=aux[i].sum()
    aux['woe'] = np.log(aux[0]/aux[1])
    aux.drop(range(2),axis=1,inplace=True)
    return v,aux.to_dict()['woe']
    

In [None]:
mapa_woe = list(map(lambda v:woe(Xt,v,tgt),best))

In [None]:
for v,d in mapa_woe:
    Xt[f'w_{v}'] = Xt[v].replace(d)
    Xv[f'w_{v}'] = Xv[v].replace(d)

In [None]:
varw = [v for v in Xt.columns if v[:2]=='w_']

In [None]:
Xt = Xt[varw]
Xv = Xv[varw]

In [None]:
aux = pd.concat([Xt,Xv])
aux = aux.describe().T[['min']]
aux['min'] = np.abs(aux['min'])

In [None]:
quitar = aux.loc[np.isinf(aux['min'])].index.tolist()

In [None]:
varw = [v for v in varw if v not in quitar]

In [None]:
Xt = Xt[varw]
Xv = Xv[varw]

## Entrenamiento del modelo

In [None]:
modelo = LogisticRegression()

In [None]:
Xt.describe()

In [None]:
modelo.fit(Xt,yt)

In [None]:
print(roc_auc_score(y_score=modelo.predict_proba(Xt)[:,1],y_true=yt))
print(roc_auc_score(y_score=modelo.predict_proba(Xv)[:,1],y_true=yv))

## Transformación Scoring

In [None]:
betas = modelo.coef_[0].tolist()
alpha = modelo.intercept_[0]

In [None]:
alpha

score_base(score al cual vamos a alinear los momios base), odds_base (momios_base),pdo (points to double the odd's)

In [None]:
score_base = 137
odd_base = 2
pdo = 20

$factor = pdo/\log(2)\newline
offset = score\_base-factor\log(odds\_base)
\newline
pts = \left(-WoE\cdot\beta+\alpha/n\right)\cdot factor+offset/n
$

In [None]:
factor = pdo/np.log(2)
offset = score_base-factor*np.log(odd_base)

In [None]:
Xt[tgt] = yt
Xv[tgt] = yv

In [None]:
X = pd.concat([Xt,Xv],ignore_index=True)

In [None]:
n = len(varw)

In [None]:
for b,v in zip(betas,varw):
    X[f'pts_{v}'] = np.ceil((-X[v]*b+alpha/n)*factor+offset/n).astype(int)

In [None]:
X['score'] = X.filter(like='pts_').sum(axis=1)

In [None]:
X.score.hist()

In [None]:
X['r_score'] = pd.cut(X['score'],bins=range(0,360+36,36)).astype(str)

In [166]:
X.pivot_table(index='r_score',columns=tgt,values='score',aggfunc='count',fill_value=0).to_clipboard()

In [181]:
varw

['w_d_¿Qué promedio obtuviste en el bachillerato?_4_qua',
 'w_n_Escoger ésta carrera fue...',
 'w_n_¿Cuál fue el proceso de admisión por el que entraste a esta carrera?',
 'w_n_¿Cuándo tomaste la decisión de lo que querías estudiar?',
 'w_n_¿En dónde cursaste el bachillerato?',
 'w_d_¿Cuántos días a la semana dedicas tiempo para realizar las siguientes actividades? [Entretenimiento personal (videojuegos, redes sociales, netflix, youtube, etc)]_5_qua',
 'w_n_¿Recibiste alguna beca?',
 'w_n_Al escoger la FES Acatlán ésta fue:',
 'w_n_¿Cómo se llama la institución donde cursaste el bachillerato?',
 'w_d_¿Cuántas personas en total viven en tu hogar? Incluyéndote a ti_5_qua',
 'w_d_¿Cuánto tiempo llevas viviendo ahí? (años)_5_qua',
 'w_n_¿Cuál es el máximo nivel de estudios de tu mamá?',
 'w_n_¿Cuál es el máximo nivel de estudios de tu papá?']

In [193]:
l = []
for v,d in mapa_woe:
    if 'w_%s'%v in varw:
        d = {y:x for x,y in d.items()}
        aux = X[['w_%s'%v,'pts_w_%s'%v]].copy()
        aux.drop_duplicates(inplace=True)
        aux['w_%s'%v].replace(d,inplace=True)
        aux.rename(columns={'w_%s'%v:'atributo','pts_w_%s'%v:'puntos'},inplace=True)
        aux['característica'] = v
        l.append(aux)

In [195]:
scorecard = pd.concat(l,ignore_index=True)

In [201]:
with pd.ExcelWriter('scorecard.xlsx') as xl:
    scorecard.groupby(['característica','atributo']).max().to_excel(xl,sheet_name='scorecard')
    xl.close()