**Carregar as bibliotecas necessárias**

In [None]:
#Importar bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#Autenticar no google
from google.colab import auth
auth.authenticate_user()

**Conectar o Google Cloud Platform**

In [None]:
project_id = 'amiable-port-343414'
!gcloud config set project {project_id}
!gsutil ls

**Listar os arquivos que estao no bucket-diabetes do GCP**


In [None]:
!gsutil ls gs://bucket-diabetes/ 

**Copiar os dados do bucket do GCP para o Google Colab**

In [None]:
!gsutil -m cp -r gs://bucket-diabetes/ /content

**Carregar o dataset em formato parquet**

In [None]:
df_diabetes = pd.read_parquet('/content/bucket-diabetes/diabetes_012_health_indicators_BRFSS2015.parquet', engine='pyarrow')

**Configurar o pandas para mostrar todas as colunas do dataset**

In [None]:
#Setar o pandas para mostrar todas as colunas
pd.set_option('display.max_columns', None)
print("Numero de linhas maximo foi configurado para podermos ver todas as colunas do dataset")

In [None]:
#Importando os dados já modificando o data type de algumas colunas. IMPORTANTE!! Otimiza o tamanho do arquivo.
#data = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
#df = pd.read_csv(data,  dtype = {"Embarked" : "category", "Survived": "category", "Parch": "int32"})

**Visualizar os 5 primeiros registos**

In [None]:
#Exibir todo o dataframe df
df_diabetes.head()

# **Análise Exploratória dos Dados**

**Perguntas sobre os dados**
1. Qual e a correlação entre variáveis preditoras e a variável alvo?
2. Qual e a distribuição de entrevistados por classe?
3. Será que a distribuição (intervalo de valores) das variáveis índice de massa corporal, idade, nível de pressão arterial, nível de colesterol e igual em cada uma das classes?
4. Quais os factores que influenciam na obtenção de diabetes?




**Verificar o formato do dataset**

In [None]:
df_diabetes.shape

**Visualizar os dados e tipos de dados do dataset**

In [None]:
df_diabetes.info()

**Alterar o tipo de dados do dataset**

In [None]:
#Alterar o tipo de dados do dataset 
df_diabetes['HighBP']=df_diabetes['HighBP'].astype('int8')
df_diabetes['HighChol']=df_diabetes['HighChol'].astype('int8')
df_diabetes['CholCheck']=df_diabetes['CholCheck'].astype('int8')
df_diabetes['Smoker']=df_diabetes['Smoker'].astype('int8')
df_diabetes['Stroke']=df_diabetes['Stroke'].astype('int8')
df_diabetes['HeartDiseaseorAttack']=df_diabetes['HeartDiseaseorAttack'].astype('int8')
df_diabetes['PhysActivity']=df_diabetes['PhysActivity'].astype('int8')
df_diabetes['Fruits']=df_diabetes['Fruits'].astype('int8')
df_diabetes['Veggies']=df_diabetes['Veggies'].astype('int8')                
df_diabetes['HvyAlcoholConsump']=df_diabetes['HvyAlcoholConsump'].astype('int8')
df_diabetes['NoDocbcCost']=df_diabetes['NoDocbcCost'].astype('int8')
df_diabetes['GenHlth']=df_diabetes['GenHlth'].astype('int8')
df_diabetes['MentHlth']=df_diabetes['MentHlth'].astype('int8')
df_diabetes['DiffWalk']=df_diabetes['DiffWalk'].astype('int8')
df_diabetes['Sex']=df_diabetes['Sex'].astype('int8')
df_diabetes['Education']=df_diabetes['Education'].astype('int8')
df_diabetes['Income']=df_diabetes['Income'].astype('int8')
df_diabetes['AnyHealthcare']=df_diabetes['AnyHealthcare'].astype('int8')
df_diabetes['Age']=df_diabetes['Age'].astype('int8')
df_diabetes['PhysHlth']=df_diabetes['PhysHlth'].astype('int8')
df_diabetes['Diabetes_012']=df_diabetes['Diabetes_012'].astype('int8')

#df_diabetes = df_diabetes.astype('int8').dtypes

**Análise Estatistica Basica do dataset**

In [None]:
df_diabetes.describe()

**Resumo:**
* Em médias os entrevistados têm um **índice de massa corporal (BMI)** de **28.68**
* Quase **metade** das pessoas entrevistadas fumam e comem fruta.
* **73.34 %** das pessoas entrevistadas praticam **actividades físicas** 	
* **79.48 %** das pessoas entrevistadas comem **vegetais**
* **Quase ninguem** consume álcool de altas proporçoes (adult men having more than 14 drinks per week and adult women having more than 7 drinks per week).	
* **94%** das pessoas entrevistadas usaram algum **plano e/ou seguro** de saúde



**Verificar se existem registos em falta (em percentagem) no dataset**

In [None]:
nulos=(df_diabetes.isnull().sum()/df_diabetes.shape[0])*100
nulos[nulos>0]

**Resumo:**
* Não existem valores faltantes.

**Verificar valores unicos**

In [None]:
for col in df_diabetes.columns:
    print(col,':', df_diabetes[col].unique(),'\n')

**Resumo:**

As colunas categoricas **MentHlth e PhysHlth** possuem **alta cardinalidade**.

# **Extraindo Insights a partir dos dados (Visualização de Dados)**

**Analisar a Distribuição dos dados**

In [None]:

f,ax=plt.subplots(nrows=2,ncols=4,figsize=(30,5));


sns.kdeplot(data=df_diabetes,x='BMI',ax=ax[0,0]);
#ax[0,0].set(title='BMI')
sns.histplot(data=df_diabetes,x='Age',ax=ax[0,1],hue='Diabetes_012');
#ax[0,1].set(title='Age')
sns.histplot(data=df_diabetes,x='GenHlth',ax=ax[0,2]);
#ax[0,2].set(title='GenHlth')
sns.kdeplot(data=df_diabetes,x='MentHlth',ax=ax[0,3]);
#ax[0,3].set(title='MentHlth')
sns.kdeplot(data=df_diabetes,x='PhysHlth',ax=ax[1,0]);
#ax[1,0].set(title='PhysHlth')
sns.histplot(data=df_diabetes,x='Education',ax=ax[1,1]);
#ax[1,1].set(title='Education')
sns.histplot(data=df_diabetes,x='Income',ax=ax[1,2]);
#ax[1,2].set(title='Income')

plt.tight_layout()
plt.show()

**1. Qual e a correlação entre variáveis preditoras e a variável alvo?**

In [None]:
plt.figure(figsize=(20,8))
sns.heatmap(df_diabetes.corr(),cmap='PuOr',annot=True)
plt.show()

**Resumo:**

*   A maioria das variáveis possuem uma **correlação fraca** entre elas exceptuando a variáveis **PhysHlthe GenHlth** que possuem uma **correlação media**.



**2. Qual é a distribuição dos entrevistados por classe?**

In [None]:
balanceamento=round((df_diabetes['Diabetes_012'].value_counts()/df_diabetes['Diabetes_012'].shape[0])*100,2)

balanceamento.index=balanceamento.index.map({0:'Sem Diabetes',1: 'Pré-Diabetes',2:'Diabetes'})

balanceamento=balanceamento.to_frame().reset_index()

balanceamento.rename(columns={'index':'Tipo','Diabetes_012':'%'},inplace=True)

balanceamento

In [None]:
plt.figure(figsize=(20,6))
colors=sns.color_palette('bright')[0:3]
plt.pie(balanceamento['%'],labels=balanceamento['Tipo'],colors=colors,autopct='%.0f%%')
plt.show()

**Resumo:**

*   **83%** dos entrevistados **não tem diabetes**.



**Será que a distribuição das variáveis (intervalo de valores) índice de massa corporal, idade, nível de pressão arterial, nível de colesterol e igual em cada uma das classes?**

In [None]:
df_sem_diabetes=df_diabetes[df_diabetes['Diabetes_012']==0]
df_pre_diabetes=df_diabetes[df_diabetes['Diabetes_012']==1]
df_com_diabetes=df_diabetes[df_diabetes['Diabetes_012']==2]

**Comparativo do índice de massa corporal (IMC ou em inglês BMI)**

In [None]:
fig, ax=plt.subplots(1,3,sharex=True,figsize=(20,6))

sns.histplot(ax=ax[0],data=df_sem_diabetes,x='BMI',kde=True,binwidth=5)
ax[0].set(title='Pessoas sem diabetes',yticklabels=[],ylabel=None)

sns.histplot(ax=ax[1],data=df_pre_diabetes,x='BMI',kde=True,binwidth=5)
ax[1].set(title='Pessoas pre diabetes',yticklabels=[],ylabel=None)

sns.histplot(ax=ax[2],data=df_com_diabetes,x='BMI',kde=True,binwidth=5)
ax[2].set(title='Pessoas com diabetes',yticklabels=[],ylabel=None)

plt.xlim(10,85)
plt.show()

**Resumo:**

O índice de massa corporal tem o mesmo conjunto de valores para as 3 classes envolvidas.

**Comparativo da Idade**

In [None]:
fig, ax=plt.subplots(1,3,sharex=True,figsize=(20,6))

sns.histplot(ax=ax[0],data=df_sem_diabetes,x='Age',kde=False,binwidth=1)
ax[0].set(title='Pessoas sem diabetes')

sns.histplot(ax=ax[1],data=df_pre_diabetes,x='Age',kde=False,binwidth=1)
ax[1].set(title='Pessoas pre diabetes')

sns.histplot(ax=ax[2],data=df_com_diabetes,x='Age',kde=False,binwidth=1)
ax[2].set(title='Pessoas com diabetes')

plt.xlim(1,13)
plt.show()

**Resumo:**

* A maior parte das pessoas com **pre-diabetes e diabetes** estao em idade 
pertencentes a **categoria 6 em diante**.
* Nao obstante, nao chegamos a nenhuma conclusao de grau de iobtencao de diabetes em funcao da idade.

**Comparativo de pressao arterial (HighBP)**


**Concatenar os dataframes**

In [None]:
#Concatenar os 3 dataframes
BP_porc_por_classe=pd.concat([pd.DataFrame((df_sem_diabetes.HighBP.value_counts()/df_sem_diabetes.shape[0])*100).rename(columns={'HighBP':'Sem Diabetes'}),
pd.DataFrame((df_pre_diabetes.HighBP.value_counts()/df_pre_diabetes.shape[0])*100).rename(columns={'HighBP':'Pre-Diabetes'}),
pd.DataFrame((df_com_diabetes.HighBP.value_counts()/df_com_diabetes.shape[0])*100).rename(columns={'HighBP':'Diabetes'})],axis=1)

#renomear as linhas do dataframe
BP_porc_por_classe=BP_porc_por_classe.T.rename(columns={0:'Low BP',1:'High BP'})
BP_porc_por_classe=BP_porc_por_classe.T

BP_porc_por_classe

In [None]:
#Grafico de barras stacked
BP_porc_por_classe.plot(kind='bar', stacked=True, color=['darkgreen', 'lightgreen','red']);


**Resumo:**
* A **maior parte das pessoas** com pressão arterial alta pertencem as categorias **pré-diabetes e diabetes**.

**Comparativo de Colesterol (HighChol)**

In [None]:
#Concatenar os 3 dataframes
Chol_porc_por_classe=pd.concat([pd.DataFrame((df_sem_diabetes.HighChol.value_counts()/df_sem_diabetes.shape[0])*100).rename(columns={'HighChol':'Sem Diabetes'}),
pd.DataFrame((df_pre_diabetes.HighChol.value_counts()/df_pre_diabetes.shape[0])*100).rename(columns={'HighChol':'Pre-Diabetes'}),
pd.DataFrame((df_com_diabetes.HighChol.value_counts()/df_com_diabetes.shape[0])*100).rename(columns={'HighChol':'Diabetes'})],axis=1)

#renomear as linhas do dataframe
Chol_porc_por_classe=Chol_porc_por_classe.T.rename(columns={0:'Low Chol',1:'High Chol'})
Chol_porc_por_classe=Chol_porc_por_classe.T

Chol_porc_por_classe

In [None]:
#Grafico de barras stacked
Chol_porc_por_classe.plot(kind='bar', stacked=True, color=['darkgreen', 'lightgreen','red']);

**Resumo:**
* A **maior parte das pessoas** com colesterol alto pertencem as categorias **pre-diabetes e diabetes**.

# **Modelagem preditiva**

**Carregar as bibliotecas necessarias**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import *
from sklearn.naive_bayes import GaussianNB

**Separar os dados em treino e teste**

In [None]:
X_train,X_test,y_train,y_test=train_test_split(df_diabetes.drop(['Diabetes_012'],axis=1),df_diabetes['Diabetes_012'],test_size=0.25,random_state=1)

**Visualizar o formato dos dados**

In [None]:
X_train.shape,X_test.shape

**Instanciar e treinar o Modelo Baseline**

In [None]:
#Definir o modelo
clf_nb=GaussianNB()
clf_nb.fit(X_train,y_train)

**Efectuar previsões com base em dados desconhecidos**

In [None]:
previsoes=clf_nb.predict(X_test)

**Efectar previsões usando baseline**

In [None]:
def avaliar_algoritmo(df_real,df_predito):
    #Matriz de Confusao
    #cm=confusion_matrix(y_test,previsoes)
    cm=pd.crosstab(y_test,previsoes,rownames=['Real'],colnames=['Predito'],margins=True)
    print('Matriz de Confusao:\n')
    print(cm,'\n')
    print('Classification Report:\n')
    #Avaliar o modelo base
    print(classification_report(previsoes,y_test))

In [None]:
avaliar_algoritmo(y_test,previsoes)

**Resumo:**:
* O modelo base teve uma acurácia de **0.74** e preve a **classe 1 e 2 com uma acuracia (f1 score) inferior a 50%**.

**Instanciar e treinar o modelo Random Forest**

In [None]:
from sklearn.ensemble import RandomForestClassifier

clf_rf=RandomForestClassifier()
clf_rf.fit(X_train,y_train)

**Efectuar previsões**

In [None]:
previsoes=clf_rf.predict(X_test)

**Avaliar o modelo**

In [None]:
avaliar_algoritmo(y_test,previsoes)

**Visualizar a importancia das variáveis preditoras na previsão da variável alvo**

In [None]:
#Variaveis que afectam o modelo (Escolher acima 3%)
pd.DataFrame(clf_rf.feature_importances_.reshape(1,-1),columns=X_train.columns).T.sort_values(by=0,ascending=False)*100

In [None]:
#plt.figure(figsize=(30,6))
pd.DataFrame(clf_rf.feature_importances_.reshape(1,-1),columns=X_train.columns).T.sort_values(by=0,ascending=True).plot(kind='barh')
#plt.show()

**Excluir colunas em que o grau de importancia para o modelo esta abaixo de 3%**

In [None]:
feature_imp=pd.DataFrame(clf_rf.feature_importances_.reshape(1,-1),columns=X_train.columns).T.sort_values(by=0,ascending=False)

colunas=feature_imp[feature_imp[0]>0.03].index

colunas

# **Tratar Classes Desbalanceadas**

**Importar as principais técnicas de under_sampling e over_sampling**

In [None]:
from imblearn.under_sampling import NearMiss
from imblearn.over_sampling import SMOTE

**Separar os dados em variáveis preditoras e variáveis alvo**

In [None]:
X=df_diabetes[colunas]
y=df_diabetes['Diabetes_012']

**NearMiss**

In [None]:
#Instanciar o NearMiss
nr=NearMiss()

#Efectuar o resample
X_near,y_near=nr.fit_resample(X,y)

**Contar o numero de registos por classe**

In [None]:
np.bincount(y_near)

**Separar os dados em treino e teste**

In [None]:
X_train,X_test,y_train,y_test=train_test_split(X_near,y_near,test_size=0.25)

**Treinar o modelo com dados balanceados pelo NearMiss**

In [None]:
clf_rf.fit(X_train[colunas],y_train)

**Prever a classe usando dados de teste**

In [None]:
previsoes=clf_rf.predict(X_test[colunas])

**Avaliar o modelo**

In [None]:
avaliar_algoritmo(y_test,previsoes)

**SMOTE**

**Instanciar o smote**

In [None]:
#strategic=0.5
#sampling_strategy = {0: 190055, 1: 10000, 2: 10000}
smt=SMOTE(random_state=1)

**Efectuar o resample**

In [None]:
X_over,y_over=smt.fit_resample(X,y)

**Verificar se as classes estão balanceadas**

In [None]:
np.bincount(y_over)

**Dividir os dados em treino e teste**

In [None]:
X_train,X_test,y_train,y_test=train_test_split(X_over,y_over,test_size=0.25,random_state=1)

**Treinar o modelo usando as colunas com relevancia superior a 3%**

In [None]:
clf_rf.fit(X_train[colunas],y_train)

**Prever a classe usando as colunas com relevancia superior a 3% nos dados de teste**

In [None]:
previsoes=clf_rf.predict(X_test[colunas])

**Avaliar o modelo**

In [None]:
avaliar_algoritmo(y_test,previsoes)

# **PYCARET**

**Instalar o pycaret**

In [None]:
!pip install -q pycaret #==2.3.6

In [None]:
#print('Pycaret:',pycaret.__version__)
#print('Scikit:',sklearn.__version__)

In [None]:
#!pip install scikit-learn==0.23.2

**Importar a biblioteca para tarefa de classificação**

In [None]:
from pycaret.classification import *

In [None]:
#X_over.Education.unique()
X_over.GenHlth.unique() 

**Configurar as técnicas de pré-processamento dos dados**

Experimento 1

In [None]:
#Usando SMOTE
clf_diabetes=setup(data=pd.concat([X_over,y_over],axis=1),
                   target='Diabetes_012',
                   numeric_features=['BMI','Age','Income','PhysHlth','GenHlth','HighBP','Fruits','Smoker','Education'],
                   high_cardinality_features=['MentHlth'],
                   use_gpu=True,
                   normalize=True,
                   session_id=123
                   )

Exeperimento 2

In [None]:
X_over['GenHlth']=X_over['GenHlth'].astype('category')

In [None]:
#Usando o SMOTE
clf_diabetes=setup(data=pd.concat([X_over,y_over],axis=1),#pd.concat([df_diabetes[colunas],df_diabetes['Diabetes_012']],axis=1),
                   target='Diabetes_012',
                   numeric_features=['BMI','Age','Income'],
                   categorical_features=['PhysHlth','HighBP','Fruits','Smoker'],
                   ordinal_features={'Education':[1,2,3,4,5,6],'GenHlth':[1,2,3,4,5]},
                   high_cardinality_features=['MentHlth'],
                   use_gpu=True,
                   normalize=True,
                   session_id=123#,
                   #fix_imbalance=True#, fix_imbalance_method='SMOTE' #adasyn1
                   )
#GenHlth: estado de saude: 1- excelente e 5 - ruim
#PhysHlth: nos ultimos 30 dias quantos dias tive problemas
#DiffWalk: dificuldades de subir escadas
#Stoke: ja teve derrame
#Age:1 = 18-24, 9 = 60-64, 13 = 80 ou mais 

**Visualizar os dados transformados**

In [None]:
get_config("X_train").head()

**Escolher o melhor algoritmo**

In [None]:
best_model=compare_models(include=['lightgbm','lr','svm','knn','rf'],fold=5)
#best1_model=compare_models(fold=3)

**Criar o modelo**

In [None]:
modelo = create_model('rf',fold=5)

Experimento 1: **RF 84.70% --> 84.82 depois do tunning**

Experimento 2: **RF 84.41%**

**Optimizar o modelo**

In [None]:
params_rf={
    'n_estimators': [100, 250],
    'max_depth': [ 2, 4, 6,None]
}

params_svm={
    'kernel': ['poly', 'rbf'],
    'C': [ 1, 0.5, 5]
}


In [None]:
#Visualizar os paramteros do modelo
#modelo.get_params().keys()
best_model.get_params().keys()

In [None]:
modelo_optimizado=tune_model(best_model,fold=5,custom_grid=params_rf)
#modelo_optimizado=tune_model(modelo,fold=5,custom_grid=params_svm)

**Efectuar previsões**

In [None]:
#del best_model

In [None]:
#Prever usando a porcao de testes
predict_model(modelo_optimizado)

**Finalizar o modelo (treinar o modelo com todos os dados disponíveis)**

In [None]:
modelo_final=finalize_model(modelo_optimizado)

In [None]:
#del modelo_optimizado
modelo_final

**Visualizar a acurácia, o erro, matriz de confusão e classification report**

In [None]:
#evaluate_model(modelo_final)
evaluate_model(best_model)

**Visualizar o erro**

In [None]:
#plot_model(modelo_final, plot = 'error')
plot_model(best_model, plot = 'auc')

**Matriz de confusão**

In [None]:
#plot_model(modelo_final, plot = 'confusion_matrix')
plot_model(best_model, plot = 'confusion_matrix')

**Report Classification (precision e recall)**

In [None]:
#plot_model(modelo_final, plot = 'class_report')
plot_model(best_model, plot = 'class_report')

**Salvar o modelo em disco**

In [None]:
#save_model(modelo_final,'RF_model_diabetes.pkl')
save_model(best_model,'RF_model_diabetes')

**Copiar o modelo salvo para o bucket do GCP**

In [None]:
!gsutil -m cp -r /content/RF_model_diabetes.pkl gs://bucket-diabetes-ml/

**Listar os arquivos do bucket-diabetes-ml do GCP**

In [None]:
!gsutil ls gs://bucket-diabetes-ml/ 

# **App Streamlit**

In [None]:
#Escrever o conteudo da celula no ficheiro app.py
%%writefile app.py
import streamlit as st
import pandas as pd

st.title('App para Previsao de Diabetes')

st.set_page_config(page_title="Formulário de Diagnóstico",
                   page_icon=":bar_chart:")#, layout='wide')

education_list = ('Não frequentou ou apenas o jardim', 
        'Ensino Fundamental', 
        'Ensino Medio Incompleto',
        'Ensino Medio Completo',
        'Ensino Superior Incompleto',
        'Ensino Superior Completo')

genhlt_list = ('Excelente', 'Muito Bom', 'Bom', 'Regular', 'Ruim')

yes_or_no =  ('Não', 'Sim')

st.title(":bar_chart: Formulário")

with st.form("my_form"):

    name_val = st.text_input('Seu Nome')
    left_column, right_column = st.columns(2)

    with left_column:
        weight = st.number_input('Peso', value=1)
        smoker = st.selectbox('Fumante', yes_or_no)
        age = st.number_input('Idade')
        education = st.selectbox('Qual o seu nivel de escolaridade?', education_list)
        physhlt = st.slider('Em quantos dias a sua saúde física não foi boa', 0, 30, 1)
        submitted = st.form_submit_button("Enviar")

    with right_column:
        height = st.number_input('Altura', value=1)
        highbp = st.selectbox('Pressão Alta', yes_or_no)
        fruits = st.selectbox('Come fruta regularmente?', yes_or_no)
        income = st.number_input('Salario (Bruto em conjunto)')
        genhlt = st.selectbox('Como você avalia sua saúde geral?', genhlt_list)
        menthlt = st.slider('Em quantos dias a sua saúde mental não foi boa', 0, 30, 1)

#Tratamento das variáveis
def return_dict(list_elements):
    return {item: i+1 for i, item in enumerate(list_elements)}

dict_yes_or_no = return_dict(yes_or_no)
dict_education = return_dict(education_list[::-1])
dict_genhlt    = return_dict(genhlt_list[::-1])

#Tratamento dos dados recebidos
bmi = round(weight / (height ** 2))

#Pelo laço começar pelo 1
smoker = dict_yes_or_no[smoker] - 1
highbp = dict_yes_or_no[highbp] - 1
fruits = dict_yes_or_no[fruits] - 1

education = dict_education[education]
genhlt = dict_genhlt[genhlt]

if submitted:
    columns = ['BMI','Age','Income','PhysHlth', 'Education', 'GenHlth', 'MentHlth', 'HighBP', 'Fruits', 'Smoker']
    input = [[bmi, int(age), income, physhlt, education, genhlt, menthlt, highbp, fruits, smoker]]
    data = pd.DataFrame(data=input, columns=columns)
    st.write(data.head())

In [None]:
!pip install streamlit --quiet
!pip install pyngrok==4.1.1 --quiet
from pyngrok import ngrok

In [None]:
!ngrok authtoken 23zrNwvWBSQ2HOnIKrOO3k9q3X9_4Ea7Jk86ZHEppJH8hNVQz

In [None]:
!cat /root/.ngrok2/ngrok.yml

In [None]:
!nohup streamlit run app.py & 
url = ngrok.connect(port = '8080')
print(url)