# **DETECTANDO PARKINSON**

Nosso objetivo é utilziar Machine Learning para detectar a presença da doença em indivíduos através da Matrix de Confusão. Para isso utilizaremos XGBClassifier e XGBoost.

Link da base de dados: https://archive.ics.uci.edu/ml/datasets/Parkinsons

**Avaliando os dados**

Neste dataset encontramos diversas medições de voz de 31 pacientes, sendo 23 com a doença(DP). Cada coluna do dataset é uma medida de voz e cada linha corresponde a uma das 195 vozes encontradas nos dados (coluna P). 
Nossa tarefa é separar pessoas saudáveis(status = 0) das pessoas com a doença(status = 1).

In [None]:
# Exibindo a arquitetura dos dados com as variáveis
from PIL import Image
%matplotlib inline
image = Image.open('AD.JPG')
image

In [2]:
# Bibliotecas 
import numpy as np
import pandas as pd
import os, sys
from sklearn.preprocessing import MinMaxScaler # algoritmo de Machine L. para padronização
from xgboost import XGBClassifier 
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
# Importação da base de dados
df = pd.read_csv('parkinsons.data')
df.head()

**Análise Exploratória**

In [None]:
df.shape

In [None]:
df.describe()

In [None]:
df.head()

In [None]:
df.isna().sum()

In [None]:
df.info()

**Pré-Processamento**

In [23]:
# Separando as variáveis explicativas do TARGET('status')
features = df.loc[:,df.columns != 'status'].values[:, 1:] # inserimos na vriável todos os valores menos 'status'
labels = df.loc[:, 'status'].values

In [None]:
# Analisando estatisticamente as Labels do modelos
# 0 = não tem parkinson | 1 = tem parkinson
print(labels[labels == 1].shape[0], labels[labels == 0].shape[0])

In [29]:
# Deixando os dados na mesma escala com o MinMaxScaler
scaler = MinMaxScaler((-1, 1)) # criamos o escalonador
x = scaler.fit_transform(features) # passando o escalonador nas features
y = labels

In [40]:
# Separando os dados de teste  de treino
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 7)

**Criando a máquina preditiva**

In [None]:
# Treinando o modelo classificador
model = XGBClassifier()
model.fit(x_train,y_train)

**Avaliando a máquina preditiva**

In [43]:
# Avaliaçao do modelo
y_pred = model.predict(x_test)
print(accuracy_score(y_test, y_pred) * 100)

94.87179487179486


**A acurácia ficou em ~95%, o que é muito bom para dados de saúde. :)**

Autor: Jonatas A. Liberato
Créditos: Eduardo Rocha