# Teste de modelos

Este notebook contém os modelos a serem avaliados utilizando os atributos considerados pelo relatório da Organização Mundial da Saúde.

In [1]:
# Manipulação dos dados
import numpy  as np
import scipy  as sp
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn           as sns
%matplotlib inline

In [2]:
# Carregando os dados
data = pd.read_excel('../Dados/Banco labels.xlsx')

In [3]:
# Visualização da tabela
data.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Tbafranio,Obs_desfechoTB_Dri_Dani,Data_inclusão,Nome,Desfecho_tuberculose_lista_Mauro,Desfecho_TB_162_Revisão_ADRIANA,Observaça0_desfecho_TB,Resultado_BAAR_1,Resultado_BAAR_2,...,Perdeu_aula_hoje_CA,Deixou_de_ganhar_dinheiro_hoje_CA,Quanto_deixou_ganhar_CA,Caso_acompanhado_quem_custeou_tudo_CA,Valor_CA,Avaliador_custo_CA,Data_avaliação_custo_CA,Resultado_cultura_final < 3 & Realizou_RX = 1 (FILTER),ANO de inclusao,Novocriteriotbafranio
0,TB,SIM,,2008-04-03,,9,TB,TB PROBABILIDADE,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2008,1
1,TB,SIM,,2006-10-03,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2006,1
2,TB,SIM,,2007-06-21,,TB,TB,TB CONFIRMADA,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2007,1
3,TB,SIM,,2009-09-30,,TB,TB,,Negativo,Negativo,...,IGN,IGN,Ignorado,IGN,ignorado,9,1999-09-09,Selected,2009,1
4,TB,SIM,,2009-06-19,,TB,,,Negativo,Negativo,...,Não,Não,"""Não se aplica""",não se aplica,não se aplica,Marcia dos Santos,2009-06-19,Not Selected,2009,1


## Sintomas considerados pelo WHO

De acordo com o [WHO](http://www.who.int/news-room/fact-sheets/detail/tuberculosis):

"Common symptoms of active lung TB are cough with sputum and blood at times, chest pains, weakness, weight loss, fever and night sweats. Many countries still rely on a long-used method called sputum smear microscopy to diagnose TB. Trained laboratory technicians look at sputum samples under a microscope to see if TB bacteria are present. Microscopy detects only half the number of TB cases and cannot detect drug-resistance."

In [4]:
# Atributos considerados pelo WHO
features_selecionadas = ['TB_desfecho_final_Dri','Expectoração','Tosse','Hemoptise','Dor_torácica',
                         'Perda_peso_10percent','Sudorese_noturna','Febre']

# Dados filtrados
dados = data[features_selecionadas].copy()

In [5]:
# Visualização dos dados
dados.head(5)

Unnamed: 0,TB_desfecho_final_Dri,Expectoração,Tosse,Hemoptise,Dor_torácica,Perda_peso_10percent,Sudorese_noturna,Febre
0,TB,Não,Sim,Não,Não,Não,Não,Não
1,TB,Sim,Sim,Não,Não,Não,Não,Não
2,TB,Sim,Sim,Não,Sim,Sim,Não,Sim
3,TB,Não,Sim,Não,Sim,Não,Não,Não
4,TB,Sim,Sim,Não,Sim,Não,Sim,Não


In [81]:
dados.desfecho.value_counts(dropna=False)

TB-    1856
NaN    1654
TB+     871
Name: desfecho, dtype: int64

## 1. Pré-processamento dos dados

In [6]:
# Alteração do label da variável alvo
dados.rename(index=str,columns={'TB_desfecho_final_Dri':'desfecho'},inplace=True)

# Alteração dos labels presentes do desfecho
dados.desfecho.replace(['TB','Não TB','IGN',8],['TB+','TB-','ignorado','ignorado'],inplace=True)

In [7]:
# Alteração dos dados 
dados.replace(['IGN',8,9],['ignorado','ignorado','ignorado'],inplace=True)

# Quantidade de dados ignorados
print('Quantidade de dados faltantes para cada feature:\n')

for feature in list(dados.columns)[1:]:
    print('Feature {}: {} dados ignorados'.format(feature,dados[feature].value_counts().loc['ignorado']))

Quantidade de dados faltantes para cada feature:

Feature Expectoração: 8 dados ignorados
Feature Tosse: 2 dados ignorados
Feature Hemoptise: 36 dados ignorados
Feature Dor_torácica: 10 dados ignorados
Feature Perda_peso_10percent: 280 dados ignorados
Feature Sudorese_noturna: 17 dados ignorados
Feature Febre: 14 dados ignorados


In [8]:
# Alterando os valores para nan  
dados.replace(['ignorado'],[np.nan],inplace=True)

# Quantas linhas possuem valores ignorados
dados_modelo = dados.dropna(how='any')

In [9]:
# Cálculo de Odds e Odds Ratio, seguindo a tabela usando A,B,C,D
odds_ratio = dict()

for feature in list(dados_modelo.columns)[1:]:
    
    # Cálculo de Odds positivo : Razão dos casos para o caso do sintoma presente
    a = len(dados_modelo[(dados_modelo.desfecho == 'TB+') & (dados_modelo[feature] == 'Sim')])
    c = len(dados_modelo[(dados_modelo.desfecho == 'TB-') & (dados_modelo[feature] == 'Sim')])
    odds_positivo = a/c
    
    # Cálculo de Odds negativo : Razão dos casos para o caso do sintoma ausente
    b = len(dados_modelo[(dados_modelo.desfecho == 'TB+') & (dados_modelo[feature] == 'Não')])
    d = len(dados_modelo[(dados_modelo.desfecho == 'TB-') & (dados_modelo[feature] == 'Não')])
    odds_negativo = b/d
    
    odds_ratio[feature] = (odds_positivo) / (odds_negativo)

In [10]:
# Criando DataFrame para Odds Ratio

odds_table = pd.DataFrame.from_dict(odds_ratio,orient='index')
odds_table.rename(index=str,columns={0 : 'Odds_Ratio'},inplace=True)
odds_table.T

Unnamed: 0,Sudorese_noturna,Perda_peso_10percent,Expectoração,Febre,Tosse,Dor_torácica,Hemoptise
Odds_Ratio,1.812336,3.616097,0.895358,2.274124,1.365097,1.025702,1.497173


In [19]:
# Desbalanceamento existente entre as classes TB+ e TB-

tbp = len(dados_modelo[dados_modelo.desfecho == 'TB+'])
tbn = len(dados_modelo[dados_modelo.desfecho == 'TB-'])

print('Quantidade de exemplos TB+: {}  {:.2f}%\nQuantidade de exemplos TB-: {} {:.2f}%'.format(tbp, 100 * tbp/dados_modelo.shape[0], 
                                                                                          tbn, 100 * tbn/dados_modelo.shape[0]))

Quantidade de exemplos TB+: 811  31.79%
Quantidade de exemplos TB-: 1740 68.21%


## 2. Teste de Modelos

#### 2.1 Preparação dos dados para aplicação dos modelos

In [43]:
# Decision Trees
from sklearn.tree import DecisionTreeClassifier as DT

# Naive Bayes
from sklearn.naive_bayes import MultinomialNB as MNB

# Random Forest
from sklearn.ensemble import RandomForestClassifier as RF

# Logistic Regression
from sklearn.linear_model import LogisticRegression as LG

# Support Vector Machines
from sklearn.svm import SVC 

In [21]:
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold, GridSearchCV
from sklearn.preprocessing   import LabelEncoder

# Métricas para avaliação dos modelos
from sklearn.metrics         import roc_auc_score, f1_score, confusion_matrix

In [22]:
# Renomeando os labels existentes do dataframe
dados_modelo = dados_modelo.apply(LabelEncoder().fit_transform)

In [23]:
# Separando o target dos dados
target        = dados_modelo.desfecho
dados_modelo  = dados_modelo.drop(['desfecho'],axis=1)

In [24]:
dados_modelo.head(5)

Unnamed: 0,Expectoração,Tosse,Hemoptise,Dor_torácica,Perda_peso_10percent,Sudorese_noturna,Febre
0,0,1,0,0,0,0,0
1,1,1,0,0,0,0,0
2,1,1,0,1,1,0,1
3,0,1,0,1,0,0,0
4,1,1,0,1,0,1,0


#### 2.2 Treinamento dos Modelos

#### Decision Tree

##### Treinamento com conjunto de dados desbalanceado

In [27]:
# Treinamento do Classificador Decision Tree
dt = DT()

# Hiperparâmetro a ser escolhido: profundidade da árvore. Outros parâmetros não serão avaliados.
parameters = {'max_depth' : list(range(1,50))}

# Busca pelo melhor hiperparâmetros
clf = GridSearchCV(dt,param_grid=parameters,scoring='roc_auc',n_jobs=-1,cv=10)

# Treinamento do classificador
clf.fit(dados_modelo,target)

GridSearchCV(cv=10, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best'),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=0)

In [28]:
# Análise do melhor classificador
clf.best_score_

0.6791870750254293

#### Random Forests

##### Treinamento com conjunto de dados desbalanceado

In [30]:
# Treinamento do Classificador Decision Tree
rf = RF()

# Hiperparâmetro a ser escolhido: profundidade da árvore. Outros parâmetros não serão avaliados.
parameters = {'n_estimators' : list(range(1,200))}

# Busca pelo melhor hiperparâmetros
clf = GridSearchCV(rf,param_grid=parameters,scoring='roc_auc',n_jobs=-1,cv=10)

# Treinamento do classificador
clf.fit(dados_modelo,target)

GridSearchCV(cv=10, error_score='raise',
       estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'n_estimators': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, ...180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=

In [34]:
clf.best_estimator_

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=37, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

In [31]:
# Análise do melhor classificador
clf.best_score_

0.66363333130756252

#### Multinomial Naive Bayes

##### Treinamento com conjunto de dados desbalanceado

In [42]:
# Treinamento do Classificador Decision Tree
clf = MNB()
np.mean(cross_val_score(clf,dados_modelo,target,cv=10,scoring='roc_auc'))

0.68406176127533935

##### Treinamento com conjunto de dados balanceado

##### 2.2.1.4 Support Vector Machines

##### Treinamento com conjunto de dados desbalanceado

##### Treinamento com conjunto de dados balanceado

##### 2.2.1.5 Support Vector Machines

##### Treinamento com conjunto de dados desbalanceado

In [44]:
# Treinamento do Classificador Decision Tree
svm = SVC()

# Hiperparâmetro a ser escolhido: profundidade da árvore. Outros parâmetros não serão avaliados.
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}

# Busca pelo melhor hiperparâmetros
clf = GridSearchCV(svm,param_grid=parameters,scoring='roc_auc',n_jobs=-1,cv=10)

# Treinamento do classificador
clf.fit(dados_modelo,target)

GridSearchCV(cv=10, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'C': [1, 10], 'kernel': ('linear', 'rbf')},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=0)

In [46]:
clf.best_estimator_

SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [51]:
clf.best_score_

0.64003468879135639

##### Treinamento com conjunto de dados balanceado

##### 2.2.1.6 Regressão Logística

##### Treinamento com conjunto de dados desbalanceado

In [71]:
x =  np.linspace(0.1,10,30)

In [72]:
x

array([  0.1       ,   0.44137931,   0.78275862,   1.12413793,
         1.46551724,   1.80689655,   2.14827586,   2.48965517,
         2.83103448,   3.17241379,   3.5137931 ,   3.85517241,
         4.19655172,   4.53793103,   4.87931034,   5.22068966,
         5.56206897,   5.90344828,   6.24482759,   6.5862069 ,
         6.92758621,   7.26896552,   7.61034483,   7.95172414,
         8.29310345,   8.63448276,   8.97586207,   9.31724138,
         9.65862069,  10.        ])

In [73]:
# Treinamento do Classificador Decision Tree
lg = LG(penalty='l1')

# Hiperparâmetro a ser escolhido: profundidade da árvore. Outros parâmetros não serão avaliados.
parameters = {'C': np.linspace(0.1,10,30)}


# Busca pelo melhor hiperparâmetros
clf = GridSearchCV(lg,param_grid=parameters,scoring='roc_auc',n_jobs=-1,cv=10)

# Treinamento do classificador
clf.fit(dados_modelo,target)

GridSearchCV(cv=10, error_score='raise',
       estimator=LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l1', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'C': array([  0.1    ,   0.44138,   0.78276,   1.12414,   1.46552,   1.8069 ,
         2.14828,   2.48966,   2.83103,   3.17241,   3.51379,   3.85517,
         4.19655,   4.53793,   4.87931,   5.22069,   5.56207,   5.90345,
         6.24483,   6.58621,   6.92759,   7.26897,   7.61034,   7.95172,
         8.2931 ,   8.63448,   8.97586,   9.31724,   9.65862,  10.     ])},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=0)

In [74]:
clf.best_estimator_

LogisticRegression(C=0.78275862068965518, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l1', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

In [75]:
clf.best_score_

0.68295532417483851

In [76]:
# Treinamento do Classificador Decision Tree
lg = LG(penalty='l2')

# Hiperparâmetro a ser escolhido: profundidade da árvore. Outros parâmetros não serão avaliados.
parameters = {'C': np.linspace(0.1,10,30)}


# Busca pelo melhor hiperparâmetros
clf = GridSearchCV(lg,param_grid=parameters,scoring='roc_auc',n_jobs=-1,cv=10)

# Treinamento do classificador
clf.fit(dados_modelo,target)

GridSearchCV(cv=10, error_score='raise',
       estimator=LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'C': array([  0.1    ,   0.44138,   0.78276,   1.12414,   1.46552,   1.8069 ,
         2.14828,   2.48966,   2.83103,   3.17241,   3.51379,   3.85517,
         4.19655,   4.53793,   4.87931,   5.22069,   5.56207,   5.90345,
         6.24483,   6.58621,   6.92759,   7.26897,   7.61034,   7.95172,
         8.2931 ,   8.63448,   8.97586,   9.31724,   9.65862,  10.     ])},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=0)

In [77]:
clf.best_estimator_

LogisticRegression(C=0.44137931034482758, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

In [78]:
clf.best_score_

0.68300467613596683

##### Treinamento com conjunto de dados balanceado