<a href="https://colab.research.google.com/github/Nyckzin10/KNN-machine-learning/blob/main/machine_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Autor: Hedris Pereira 

Linkedin: [Hedris Pereira](https://www.linkedin.com/in/hedriss10/)

Github: [Hedris Pereira](https://github.com/Nyckzin10)


# Introdução

*Neste pequeno projeto vamos desenvolver uma aplicação de alguns modelos de Machine learning, tais como regressão linear, kNN, decision tree, random forest e suport vector machine, em problema envolvendo pacientes com problemas cardíacos. A finalidade do projeto é prever  se um determinado paciente virá a óbito.*


Os dados são de um artigo: David Chicco, Guispe Jurman, **Machine learning can predict survial of patients with heart failure from serum creatinine and ejection fraction alone. BMC Medical Informatics and Decision Making 20, 16(2020).**

*Algumas consideração foram feitas afim de evitar alguns erros conceituais típicos para um iniciante no assunto. Mas que se não foram tratados desde já podem ser um grande problema no futuro*


# Setup

#### Começamos importando o pandas

In [None]:
import pandas as pd 
seed = 0 

####Vamos carrega um dataset e visualizar os dados. Á uma importação dos dados presume  que o código está sendo executado no mesmo diretório que contém o arquivo.####
* É legal visualizar o dataset para verificar um pouco á estrutura
* Existem outras maneiras mais espertas de carrega um datasert. Poderia ser por exemplo á parti da própria internet, através de links ou http.

In [None]:
data = pd.read_csv("/content/drive/MyDrive/DATASCIENCE/heart_failure_clinical_records_dataset.csv")
data.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.0,2.7,116,0,0,8,1


### Escrevendo uma matriz X e as features e no vetor Y os rótulos associados###

In [None]:
x = data.iloc[:, 0:-1].values # features da primeira coluna
y = data.iloc[:, -1].values # rotulo última coluna 

Separando o cojunto de treino e test o pré-processamento, se feito no conjunto completo, não pode introduzir informação, futura no conjunto de treino. É importante salientar que se você deseja uma estimativa de erro de generalização, que é dado em termos de uma propabilidade independente do conjunto de treino, você deve usar o conjunto de teste uma única vez!

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_train , X_test, y_train, Y_test= train_test_split(
    x,
    y,
    test_size = 1/3,
    random_state = seed
)


Separando o conjunto de treino em duas partes, uma será usada para validação. Faremos isso pois queremos treina alguns modelos e verificar quais deles é o melhor para generalizar. Dito isto, dado só devemos usar o conjunto de test uma única vez, devemos ter uma decisão de escolha do melhor modelo "no próprio conjunto de treino".

In [None]:
x_train_2, x_val, y_train_2, y_val = train_test_split(
    x_train, 
    y_train,
    test_size = 1/3,
    random_state= seed
) 

*Tipicamente os algoritimos necessitam que todas as características estejam em faixas similares de intervalos, por isso a importancia de colocar todos os atributos na mesma escala*

In [None]:
# feature Scaling: alguns algoritimos são sensiveis á escala 
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
x_train_2 = scaler.fit_transform(x_train_2)
x_val = scaler.fit_transform(x_val)

Agora vamos avaliar diversos modelos para encontrar o melhor candidato. Faremos isso da maneira feia , apenas por uma questão de simplicidade, mas veremos ao longo do curso uma maneira mais elegante de procura o melhor modelo através de uma grande busca 

In [None]:
#Dicionário de resultados 
dic = {}

Para comparar os resultado vamos usar a acuaricia 

In [None]:
from sklearn.metrics import accuracy_score

## Regresão logística 

In [None]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(random_state= seed)
lr.fit(x_train_2, y_train_2)

LogisticRegression(random_state=0)

In [None]:
dic["Logistic_regression"] = accuracy_score(y_val, lr.predict(x_val))

# KNN


In [None]:
# Treinamento do knn
from sklearn.neighbors import KNeighborsClassifier
knn =  KNeighborsClassifier(n_neighbors= 7)
knn.fit(x_train_2, y_train_2)

KNeighborsClassifier(n_neighbors=7)

In [None]:
# Avaliando o knn e anotando no dicionario
dic["knn_7"] = accuracy_score(y_val, knn.predict(x_val))

# Decision Tree

In [None]:
from sklearn.tree import DecisionTreeClassifier
tree =  DecisionTreeClassifier(max_depth=4, random_state= seed)
tree.fit(x_train_2, y_train_2)

DecisionTreeClassifier(max_depth=4, random_state=0)

In [None]:
#Analisando e colocando dentro de um dicionario 
dic["Decision_tree_4"] = accuracy_score(y_val, tree.predict(x_val))

# Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier
rf =  RandomForestClassifier(n_estimators=100,
                             random_state=seed)

In [None]:
rf.fit(x_train_2, y_train_2)
dic["Random_forest_100"] = accuracy_score(y_val, rf.predict(x_val))

#Linear Support Vector Machine 

In [None]:
from sklearn.svm import LinearSVC
svc = LinearSVC()

In [None]:
# Avaliando o support vector machine e anotando no dicionário 
svc.fit(x_train_2, y_train_2)
dic['SVC'] = accuracy_score(y_val, svc.predict(x_val))

# Avaliando os modelos

In [None]:
validation = pd.Series(dic, name="Acurácia")

In [None]:
validation

Logistic_regression    0.791045
knn_7                  0.686567
Decision_tree_4        0.716418
Random_forest_100      0.805970
SVC                    0.761194
Name: Acurácia, dtype: float64

# Treinamento modelo final

*Uma vez que definimos o melhor modelo, que deverá ser decidido usando somente o conjunto de treinamento ,  podemos utilizar conjunto de teste para estimar o erro de generalização*

In [None]:
# Treinando o melhor no conjunto inteiro:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_test =  scaler.transform(X_test)

**Aqui você pode usar o algoritimo que demonstrou o melhor desempenho e perfomace**

In [None]:
lr = LogisticRegression(random_state = seed)
lr.fit(x_train, y_train)

LogisticRegression(random_state=0)

In [None]:
print("Acurácia Final:", str(accuracy_score(Y_test, lr.predict(X_test))))

Acurácia Final: 0.68
