## Sobre a Base de Dados: Diabetes¹
A base possui dados gerais e resultado exames de pacientes mulheres com pelo menos 21 anos de herança indiana pima.

Atributos
- Número de gravidezes
- Concentração de glicose plasma a 2 horas em um teste oral de tolerância à glicose
- Pressão sanguínea diastólica (mm Hg)
- Espessura da dobra da pele do tríceps
- 2-Horas de insulina sérica (mu U/ml)
- Índice de massa corporal (peso em kg ➗ (altura em m)²)
- Função de pedigree da diabetes
- Idade
- Label (0 or 1)
---
¹ https://www.kaggle.com/uciml/pima-indians-diabetes-database


## Tarefas
- Caso ainda não tenha, cadastre-se no site kaggle.com
- Faça o download do dataset: https://www.kaggle.com/uciml/pima-indians-diabetes-database
---

## Lendo arquivo externo

In [0]:
# Biblioteca para operações em arquivos locais
from google.colab import files
uploaded = files.upload()

In [0]:
import pandas as pd
df = pd.read_csv('diabetes.csv')
df.head()

In [0]:
# Extrai features e rótulos do dataframe
X = df.drop('label', axis=1).as_matrix()
y = df['label'].as_matrix()

## Engenharia de Features

### Normalização

In [0]:
# Classe para normalizar os valores entre 0 e 1
from sklearn.preprocessing import MinMaxScaler

# Aplica transformação de MinMax nas features
X2 = MinMaxScaler().fit_transform(X)
X2

array([[0.35294118, 0.74371859, 0.59016393, ..., 0.50074516, 0.23441503,
        0.48333333],
       [0.05882353, 0.42713568, 0.54098361, ..., 0.39642325, 0.11656704,
        0.16666667],
       [0.47058824, 0.91959799, 0.52459016, ..., 0.34724292, 0.25362938,
        0.18333333],
       ...,
       [0.29411765, 0.6080402 , 0.59016393, ..., 0.390462  , 0.07130658,
        0.15      ],
       [0.05882353, 0.63316583, 0.49180328, ..., 0.4485842 , 0.11571307,
        0.43333333],
       [0.05882353, 0.46733668, 0.57377049, ..., 0.45305514, 0.10119556,
        0.03333333]])

### Criação de features polinomiais

In [0]:
# Essa classe é utilizada para geração de features usando polinomios (x², x³)
from sklearn.preprocessing import PolynomialFeatures

# Cria features polinomiais
model = PolynomialFeatures(degree=3, include_bias=False)
X2 = model.fit_transform(X)
print('Tamanho da tabela original: (Linhas, Colunas) {}'.format(X.shape))
print('Tamanho da tabela tratada: (Linhas, Colunas) {}'.format(X2.shape))
X2

Tamanho da tabela original: (Linhas, Colunas) (768, 8)
Tamanho da tabela tratada: (Linhas, Colunas) (768, 164)


array([[6.0000000e+00, 1.4800000e+02, 7.2000000e+01, ..., 1.9656450e+01,
        1.5675000e+03, 1.2500000e+05],
       [1.0000000e+00, 8.5000000e+01, 6.6000000e+01, ..., 3.8192310e+00,
        3.3731100e+02, 2.9791000e+04],
       [8.0000000e+00, 1.8300000e+02, 6.4000000e+01, ..., 1.4450688e+01,
        6.8812800e+02, 3.2768000e+04],
       ...,
       [5.0000000e+00, 1.2100000e+02, 7.2000000e+01, ..., 1.8007500e+00,
        2.2050000e+02, 2.7000000e+04],
       [1.0000000e+00, 1.2600000e+02, 6.0000000e+01, ..., 5.7246470e+00,
        7.7094100e+02, 1.0382300e+05],
       [1.0000000e+00, 9.3000000e+01, 7.0000000e+01, ..., 2.2821750e+00,
        1.6663500e+02, 1.2167000e+04]])

In [0]:
# Perceba o número de combinações que foram geradas
model.get_feature_names(df.columns)

### Exemplo simplificado do uso de features polinomiais

In [0]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

x = np.array([1, 2, 3, 4, 5])
y = np.array([4, 2, 1, 3, 7])
plt.scatter(x, y);

In [0]:
# Nesse nosso conjunto de dados sintético, vamos fazer um experimento simples

# Modelo de regreção
from sklearn.linear_model import LinearRegression

# Preparando dados
X = x.reshape(-1, 1)

# Instanciação e treinamento do modelo
model = LinearRegression().fit(X, y)

# Prediz os valores
yfit = model.predict(X)

# Gráfico
plt.scatter(x, y)
plt.plot(x, yfit);

In [0]:
# Essa classe é utilizada para geração de features usando polinomios (x², x³)
from sklearn.preprocessing import PolynomialFeatures

# Cria instância para tratamento das features
poly = PolynomialFeatures(degree=3, include_bias=False)

# Aplica a transformação e cria as features polinomiais
X2 = poly.fit_transform(X)
print(X2)

In [0]:
# Retreinando o Modelo
model = LinearRegression().fit(X2, y)

# Prediz os valores
yfit = model.predict(X2)

# Gráfico
plt.scatter(x, y)
plt.plot(x, yfit);

### Exemplo de exploração das features

In [0]:
df.describe()

Unnamed: 0,numero_gravidezes,concentracao_glicose,pressao_sanguinea,espessura_triceps,insulina_serica,massa_corporal,funcao_diabetes,idade,label
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


#### Será que todos esses valores fazem sentido?

Por exemplo, com base nas informações fornecidas para a pressão arterial em adultos no wikipedia, qualquer pressão arterial abaixo de 60 é considerada hipotensão que precisa ser tratada imediatamente, pois indica que não há sangue suficiente para atingir os órgãos da pessoa, a pessoa é considerada em "choque". Assumindo que estas são mulheres saudáveis e normais que atualmente não sofrem de hipotensão ou estão no pronto-socorro sendo tratadas de hipotensão e estão acordadas no momento da coleta de dados, os valores de 0 são claramente inválidos.

In [0]:
print(df[df['pressao_sanguinea'] == 0].shape[0])
print(df[df['pressao_sanguinea'] == 0].index.tolist())
print(df[df['pressao_sanguinea'] == 0].groupby('label')['idade'].count())

35
[7, 15, 49, 60, 78, 81, 172, 193, 222, 261, 266, 269, 300, 332, 336, 347, 357, 426, 430, 435, 453, 468, 484, 494, 522, 533, 535, 589, 601, 604, 619, 643, 697, 703, 706]
label
0    19
1    16
Name: idade, dtype: int64


Algumas possíveis soluções são:
- Remover os registros com esse erro
- Ignorar a coluna
- Inserir a média dos valores nos resultados faltantes