Features:

Age | Objective Feature | age | int (days)

Height | Objective Feature | height | int (cm) |

Weight | Objective Feature | weight | float (kg) |

Gender | Objective Feature | gender | categorical code |

Systolic blood pressure | Examination Feature | ap_hi | int |

Diastolic blood pressure | Examination Feature | ap_lo | int |

Cholesterol | Examination Feature | cholesterol | 1: normal, 2: above normal, 3: well above normal |

Glucose | Examination Feature | gluc | 1: normal, 2: above normal, 3: well above normal |

Smoking | Subjective Feature | smoke | binary |

Alcohol intake | Subjective Feature | alco | binary |

Physical activity | Subjective Feature | active | binary 
|
Presence or absence of cardiovascular disease | Target Variable | cardio | binary |

All of the dataset values were collected at the moment of medical examination.

In [1]:
#importando as bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
import statsmodels.api as sm
from sklearn.metrics import confusion_matrix, roc_auc_score
from sklearn.metrics import classification_report, matthews_corrcoef, accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.feature_selection import RFE
from sklearn.feature_selection import RFECV

from sklearn.model_selection import RandomizedSearchCV

In [2]:
#Carregando os datasets
data = pd.read_csv('cardio_train.csv', sep=";")

In [3]:
#Verificando o numero de linhas e colunas
data.shape

(70000, 13)

In [None]:
#Verificando as 5 primeiras linhas 
data.head()

In [None]:
#Verificando a existência de variáveis null
data.isnull().sum()

In [4]:

data.describe()

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
count,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0
mean,49972.4199,19468.865814,1.349571,164.359229,74.20569,128.817286,96.630414,1.366871,1.226457,0.088129,0.053771,0.803729,0.4997
std,28851.302323,2467.251667,0.476838,8.210126,14.395757,154.011419,188.47253,0.68025,0.57227,0.283484,0.225568,0.397179,0.500003
min,0.0,10798.0,1.0,55.0,10.0,-150.0,-70.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,25006.75,17664.0,1.0,159.0,65.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
50%,50001.5,19703.0,1.0,165.0,72.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
75%,74889.25,21327.0,2.0,170.0,82.0,140.0,90.0,2.0,1.0,0.0,0.0,1.0,1.0
max,99999.0,23713.0,2.0,250.0,200.0,16020.0,11000.0,3.0,3.0,1.0,1.0,1.0,1.0


## Engenharia de Atributos - Variáveis Quantitativas

In [None]:
# Variáveis quantitativas
int_cols = ['age', 
            'height', 
            'weight', 
            'ap_hi',
            'ap_lo']

In [None]:
# Calcula a correlação
corr = data[int_cols].corr()

In [None]:
# Cria o mapa de calor com a matriz de correlação
f, ax = plt.subplots(figsize = (15, 9))
sns.heatmap(corr, vmax = 1, square = True, cmap = 'rainbow')
plt.show()

In [None]:
data['gender'].value_counts()

In [None]:
data['cardio'].value_counts()

In [None]:
#data.drop('ap_lo', axis=1, inplace= True)

In [None]:
data.drop('id', axis=1, inplace= True)

In [None]:
data.columns

In [None]:
data.hist()

In [None]:
sns.countplot(data['gender'])

In [None]:
#Correlação
data.corr()

In [None]:
sns.countplot(data['cholesterol'])

In [None]:
sns.countplot(data['gluc'])

In [None]:
sns.countplot(data['smoke'])

In [None]:
sns.countplot(data['alco'])

In [None]:
sns.countplot(data['active'])

In [None]:
sns.countplot(data['cardio'])

In [None]:
#data["imc"] = data["weight"]/ (data["height"]/100)**2

In [None]:
data.head()

## Engenharia de Atributos - Variáveis Qualitativas

In [None]:
# Variáveis quantitativas
int_cols2 = ['age', 
            'weight', 
            'ap_hi',
            'ap_lo']

In [None]:
# Primeiro filtramos as variáveis do tipo inteiro
dataset_clean = data.drop(int_cols, axis = 1)

In [None]:
# colocamos os valores das variáveis binárias como float
for col in dataset_clean.columns:
    dataset_clean[col] = dataset_clean[col].apply(lambda x: float(x))

In [None]:
# Shape
dataset_clean.shape

In [None]:
# Visualiza os dados
dataset_clean.head()

In [None]:
# Plot
plt.figure(figsize = (14,6))
p = sns.heatmap(dataset_clean == 1, yticklabels = False, cbar = False, cmap = 'viridis')
p.axes.set_title("Recursos Binários: Visualizando os 1s (os valores restantes são 0.)", fontsize = 20)

In [None]:
# Função para calcular a associação entre variáveis categóricas

# Pacote stats do Scipy
import scipy.stats as ss

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

# Em Estatística, Cramér-V é uma medida de associação entre duas variáveis categóricas, fornecendo um valor 
# entre 0 e +1 (inclusive). É baseado na estatística do qui-quadrado (chi2) de Pearson e foi publicado 
# por Harald Cramér em 1946. 

# A Associação é um resultado no intervalo de [0,1], em que 0 significa nenhuma associação e 1 é associação completa.

# Função
def cramers_v(x, y):
    confusion_matrix = pd.crosstab(x, y)
    
    # Teste qui-quadrado de independência de variáveis em uma tabela de contingência.
    chi2 = ss.chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2/n
    r,k = confusion_matrix.shape
    phi2corr = max(0, phi2-((k-1)*(r-1))/(n-1))
    rcorr = r-((r-1)**2)/(n-1)
    kcorr = k-((k-1)**2)/(n-1)
    return np.sqrt(phi2corr/min((kcorr-1),(rcorr-1)))

In [None]:
# Coleta o nome das colunas do dataset

# Lista
categorical_vars = []

# Loop
for column in dataset_clean:
    categorical_vars.append(column)

In [None]:
# Variável alvo
y = 'cardio'

# Print
print('\nA Associação é um resultado no intervalo de [0,1], em que 0 significa nenhuma associação e 1 é associação completa.')
print('\n')

# Loop
for var in categorical_vars:
    print('Associação da Variável ' + var + ' com a variável resposta:', 
          cramers_v(dataset_clean[var], dataset_clean[y]))

In [None]:
#Retirando as variáveis height e gender
data = data.drop('height', axis = 1)
data = data.drop('gender', axis = 1)

In [None]:
#Separando dados de treino e teste
X = data.drop("cardio", axis = 1)
y = data.cardio
test_size = 0.2
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, y, test_size = test_size, random_state = 123)


In [None]:
# Vamos padronizar as variáveis de entrada

# Cria o padronizador
scaler = StandardScaler()

# Treina e aplica nos dados de treino
X_treino_scaled = scaler.fit_transform(X_treino.values)

# Apenas aplica nos dados de teste
X_teste_scaled = scaler.transform(X_teste.values)

# Seleção de Variáveis

# V1- Regressão Logística

In [None]:
modelo_v1 = sm.Logit(Y_treino,X_treino_scaled)

In [None]:
modelo_v1_treino = modelo_v1.fit()

In [None]:
#Utilizando o relatório do Statsmodel para análise
print(modelo_v1_treino.summary())

# V2 - Random Forest

In [None]:
# Cria o modelo
modelo_rfc = RandomForestClassifier()

In [None]:
# Treina o modelo
modelo_rfc.fit(X_treino_scaled, Y_treino)

In [None]:
# Cria um dataframe com os resultados
resultado_modelo_rfc = pd.DataFrame()
resultado_modelo_rfc['Atributo'] = X_treino.columns
resultado_modelo_rfc['Score'] = modelo_rfc.feature_importances_
resultado_modelo_rfc.sort_values('Score', inplace = True, ascending = False)

In [None]:
# Visualiza os dados
resultado_modelo_rfc.head(7)

In [None]:
# Plot
plt.figure(figsize = (10, 10))
sns.set_color_codes("pastel")
sns.barplot(x = 'Score', y = 'Atributo', data = resultado_modelo_rfc, color = "salmon")
plt.title('Importância de Variáveis - Random Forest', fontsize = 16, fontweight = 'bold', pad = 8)
plt.savefig('RF.png', format='png')
plt.show()

## V3 - ExtraTreesClassifier

In [None]:
# Cria o modelo
modelo_etc = ExtraTreesClassifier()

In [None]:
# Treina o modelo
modelo_etc.fit(X_treino_scaled, Y_treino)

In [None]:
# Cria um dataframe com os resultados
resultado_modelo_etc = pd.DataFrame()
resultado_modelo_etc['Atributo'] = X_treino.columns
resultado_modelo_etc['Score'] = modelo_etc.feature_importances_
resultado_modelo_etc.sort_values('Score', inplace = True, ascending = False)

In [None]:
# Visualiza os dados
resultado_modelo_etc.head()

In [None]:
# Plot
plt.figure(figsize = (8, 8))
sns.set_color_codes("pastel")
sns.barplot(x = 'Score', y = 'Atributo', data = resultado_modelo_etc, color = "salmon")
plt.title('Importância de Variáveis - ExtraTreesClassifier', fontsize = 16, fontweight = 'bold', pad = 8)
plt.savefig('etc.png', format='png')
plt.show()


## V4 - Para Seleção de Variáveis - Recursive Feature Selection com Validação Cruzada

In [None]:
# Cria o seletor de variáveis

# Cria o estimador
estimador_rfc = RandomForestClassifier(random_state = 101)

# Cria o seletor
seletor_f1 = RFECV(estimator = estimador_rfc, step = 1, cv = StratifiedKFold(10), scoring = 'accuracy')

# Treinamos o seletor
seletor_f1 = seletor_f1.fit(X_treino_scaled, Y_treino)

In [None]:
print('Número Ideal de Atributos: {}'.format(seletor_f1.n_features_))

In [None]:
# Cria um dataframe com os resultados
resultado_seletor_f1 = pd.DataFrame()
resultado_seletor_f1['Atributo'] = X_treino.columns[np.where(seletor_f1.support_ == True)]
resultado_seletor_f1['Score'] = seletor_f1.estimator_.feature_importances_
resultado_seletor_f1.sort_values('Score', inplace = True, ascending = False)

In [None]:
# Plot 
plt.figure(figsize = (8, 8))
sns.barplot(x= 'Score', y = 'Atributo', data= resultado_seletor_f1,  color="salmon")
plt.title('Importância de Variáveis - RFECV', fontsize = 18, fontweight = 'bold', pad = 10)
plt.xlabel('Importância', fontsize = 14, labelpad = 15)
plt.savefig('rfecv.png', format='png')
plt.show()




In [None]:
# Extrai as variáveis e quais são importante ou não para o modelo
variaveis_rfecv = pd.Series(seletor_f1.support_, index = X_treino.columns)
variaveis_rfecv

In [None]:
# Visualiza os scores das variáveis mais importantes
seletor_f1.estimator_.feature_importances_

# XGBoosting

In [None]:
import xgboost as xgb
from xgboost import XGBClassifier
from sklearn.metrics import roc_auc_score

modelo_xg = xgb.XGBClassifier(learning_rate = 0.01, 
                              max_depth = 2, 
                              n_estimators = 1000,
                             min_child_weight = 5,
                             gamma = 0.1,
                             reg_alpha=1,
                            reg_lambda=1.5)
modelo_xg.fit(X_treino_scaled,Y_treino)  
#resultado2 = modelo_xg.predict_proba(X_teste)[:,1]
#valores_previstos2 = modelo_xg.predict(X_teste)
#score = roc_auc_score(Y_teste, resultado2)
#score


In [None]:
feature_imp = pd.Series(modelo_xg.feature_importances_,index=X_treino.columns).sort_values(ascending=False)

In [None]:
def visualiza_features_importantes(features_lista):
    %matplotlib inline

    plt.figure(figsize=(8,8))
    fig = sns.barplot(x=features_lista, y=features_lista.index, color="salmon" )

    
    
    
    
    
    plt.title('Importância de Variáveis - XGBoost', fontsize = 18, fontweight = 'bold', pad = 10)
    plt.xlabel('Importância', fontsize = 14, labelpad = 15)
    plt.savefig('xg.png', format='png')
    plt.show()



In [None]:
feature_imp 

In [None]:
visualiza_features_importantes(feature_imp)
