In [149]:
from xgboost import XGBClassifier
import pickle
import pandas as pd
import numpy as np

In [182]:
model = None
encoder_municipio = None
df_alunos = None
df_alunos_all = None
cols_para_proba = None
path = ''

def probabilidade_evasao(aluno_row):
    ''' dados_aluno: Pode ser um DataFrame ou uma Serie '''
    
    if isinstance(aluno_row, pd.Series):
        aluno_row = pd.DataFrame([aluno_row.values], columns=aluno_row.index)
        
    aluno_novo = transform(aluno_row)
    aluno_novo = aluno_novo[cols_para_proba]
    pred = model.predict_proba(aluno_novo)
    
    if len(pred) == 1:
        return pred[0][1]
    else:
        return [x[1] for x in pred]

def transform(df):
    df2 = df.copy()
    df2['UF_MUN_NASC'] = encoder_municipio.transform(df2['UF_MUN_NASC'])
    return df2
    
def obter_aluno_row(cod_aluno):
    try:
        alunos = df_alunos_all[df_alunos_all['CD_ALUNO'] == cod_aluno]
        return alunos.iloc[0]
    except:
        None
        
def obter_aluno_row_por_index(index_aluno):
    try:
        return df_alunos_all.iloc[index_aluno]
    except:
        return None
        
def remover_da_lista(lista, lista_el):
    for e in lista_el:
        try: lista.remove(e)
        except: pass
    
    return lista
        
def get_municipios():
    estados = df_alunos_all['UF_MUN_NASC'].unique()
    estados = list(estados)
    estados = remover_da_lista(estados, ['  ', ' ', 'CA', 'BU'])
    return estados
    
    
def obter_municipios_proba():
    groups = df_alunos_all.groupby(['UF_MUN_NASC']).groups
    estados = get_municipios()
    proba_estados = []
    
    for estado in estados:
        indexs = groups[estado]
        df_estado = df_alunos_all.loc[indexs]
        df_estado['proba'] = probabilidade_evasao(df_estado)
        #df_estado = df_estado[df_estado['proba'] > 0.3]
        proba_estado = np.array(probabilidade_evasao(df_estado)).mean()
        proba_estados.append([estado, int(proba_estado*100)])
        
    proba_estados.sort(key=lambda x: x[1], reverse=True)
        
    return proba_estados
        
def obter_dados_aluno(cod_aluno):
    aluno = obter_aluno_row(cod_aluno)
    if aluno is not None:
        return dict(aluno)

    return None
    

def _inicializar():
    global encoder_municipio, model, df_alunos, df_alunos_all, cols_para_proba
    
    with open(path+'xgboost', 'rb') as f:
        model = pickle.load(f)
        
    with open(path+'encoder_municipio', 'rb') as f:
        encoder_municipio = pickle.load(f)
        
    df_alunos = pd.read_csv(path+'dados_alunos.csv')
    df_alunos_all = pd.read_csv(path+'dados_alunos_all.csv')
    cols_para_proba = ['SEXO', 'FLAG_BOLSA_FAM', 'UF_MUN_NASC', 'CORRACA', 'END_ZONA', 'PRONATEC']
        
_inicializar()

In [151]:
aluno = obter_aluno_row(2104092)

In [152]:
probabilidade_evasao(aluno)

0.6123368

In [153]:
obter_dados_aluno(2079234)

{'BAIRRO': 'CABELINHA',
 'CD_ALUNO': 2079234,
 'CD_ESCOLA': 110723,
 'CEP': '12600000',
 'CIDADE': 'LORENA',
 'CORRACA': 6,
 'END_ZONA': 0,
 'FLAG_BOLSA_FAM': 0,
 'FLAG_SIT_ALUNO': 0,
 'NACIONALIDADE': 1.0,
 'PRONATEC': 0.0,
 'SERIE': 1,
 'SEXO': 0.0,
 'SIGLA_END_UF': 'SP',
 'UF_MUN_NASC': 'SP'}

In [154]:
probas = probabilidade_evasao(df_alunos_all.iloc[1080:2000])

In [155]:
probas[0:10]

[0.3733661,
 0.3733661,
 0.36228904,
 0.36228904,
 0.36228904,
 0.3733661,
 0.6831635,
 0.6831635,
 0.36228904,
 0.6541021]

In [164]:
obter_municipios_proba()

[['SE', 0.6938861],
 ['ES', 0.62722605],
 ['DF', 0.6114207],
 ['RR', 0.60817474],
 ['RN', 0.6040134],
 ['PI', 0.60165805],
 ['SC', 0.59384847],
 ['RO', 0.59104604],
 ['RJ', 0.5542123],
 ['RS', 0.53633225],
 ['PA', 0.5210218],
 ['PE', 0.52038145],
 ['TO', 0.4818229],
 ['CE', 0.4752593],
 ['SP', 0.46199727],
 ['PB', 0.45966184],
 ['MG', 0.45228687],
 ['PR', 0.40148008],
 ['MT', 0.38188168],
 ['BA', 0.3779793],
 ['MS', 0.37640578],
 ['MA', 0.3714949],
 ['AP', 0.35518825],
 ['AL', 0.3318521],
 ['GO', 0.32725635],
 ['AC', 0.30917782],
 ['AM', 0.25358942]]

In [189]:
obter_aluno_row_por_index(3248798193252)

In [157]:
indexs = groups['MG']

In [158]:
df_estado = df_alunos_all.loc[indexs]

In [159]:
proba_estado = np.array(probabilidade_evasao(df_estado)).mean()

In [178]:
get_municipios()

27

In [191]:
df_alunos_all.iloc[763812]

CD_ALUNO                            24017511
CD_ESCOLA                              37217
SEXO                                       0
FLAG_BOLSA_FAM                             0
UF_MUN_NASC                               SP
CORRACA                                    3
END_ZONA                                   0
PRONATEC                                   0
FLAG_SIT_ALUNO                             0
BAIRRO            JD B ESPERANCA  V CARVALHO
CEP                                 11471010
CIDADE                               GUARUJA
SIGLA_END_UF                              SP
NACIONALIDADE                              1
SERIE                                      1
Name: 763812, dtype: object