# **Objetivo: criar uma rede neural simples usando Keras para uma tarefa de classificação binária**

 # **Importação dos Dados e Processamento**


O conjunto de dados que será utilizado aqui é: "**Pima Indians Diabetes Dataset**". Ele pode ser baixado de: https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv

Este é um problema de classificação binária (2 classes). No conjunto de dados existem 768 observações com 8 variáveis de entrada e 1 variável de saída.

Os nomes das variáveis são os seguintes:

**1. Número de vezes grávida.**

**2. Concentração de glicose plasmática após 2 horas em um teste oral de tolerância à glicose.**

**3. Pressão arterial diastólica (mm Hg).**

**4. Espessura da prega cutânea do tríceps (mm).**

**5. Insulina sérica em 2 horas (mu U/ml).**

**6. Índice de massa corporal (peso em kg/(altura em m)^2).**

**7. Função pedigree para diabetes.**

**8. Idade (anos).**

**9. Variável de classe (0 ou 1).**

---
Importe as bibliotecas necessárias

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense, Input

---
Importe e visualize detalhes dos dados usando os comandos `np.loadtext('nome do arquivo', delimiter=',')` e `np.shape(...)`

In [2]:
data = np.loadtxt("datasets/tarefa_01_dataset_pima.txt", delimiter=",")
m, n = data.shape
print(f"Data shape: ({m}, {n})")

Data shape: (768, 9)


---
Crie vetores `X_data` e `Y_data` para separar os 8 features, que são as entradas, e a única saída

In [3]:
X_data = data[:, :-1]
Y_data = data[:, -1]

---
Separe os dados de treino e de teste usando o comando `train_test_split()`

In [4]:
X_train, X_test, Y_train, Y_test = train_test_split(X_data, Y_data, test_size=0.2)

---
Verifique a dimensão do conjunto de treino e teste

In [5]:
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"Y_train shape: {Y_train.shape}")
print(f"Y_test shape: {Y_test.shape}")

X_train shape: (614, 8)
X_test shape: (154, 8)
Y_train shape: (614,)
Y_test shape: (154,)


# **Construa o Modelo**

---
Crie o seu modelo

In [6]:
model = Sequential()
model.add(Input((n - 1,)))
model.add(Dense(160, activation="relu"))
model.add(Dense(160, activation="relu"))
model.add(Dense(1, activation="sigmoid"))

---
Adicione as camadas: lembrando que a primeira camada recebe como entrada um vetor no $\mathbb{R}^8$.

In [7]:
model.summary()

---
Compile o modelo escolhendo a função de perda e o otimizador.

In [8]:
model.compile(optimizer='adam', loss="binary_crossentropy", metrics=["accuracy"])

# **Treine e Teste**

In [9]:
model.fit(X_train, Y_train, epochs=10, validation_data=(X_test, Y_test))

Epoch 1/10
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.5504 - loss: 3.9395 - val_accuracy: 0.7013 - val_loss: 0.8782
Epoch 2/10
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.5849 - loss: 1.2776 - val_accuracy: 0.6688 - val_loss: 0.6653
Epoch 3/10
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6758 - loss: 0.7415 - val_accuracy: 0.6429 - val_loss: 0.7510
Epoch 4/10
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.6820 - loss: 0.7088 - val_accuracy: 0.6688 - val_loss: 0.8802
Epoch 5/10
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6453 - loss: 0.8011 - val_accuracy: 0.5000 - val_loss: 0.9037
Epoch 6/10
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6139 - loss: 0.7983 - val_accuracy: 0.6364 - val_loss: 0.7696
Epoch 7/10
[1m20/20[0m [32m━━━━━━━━━━

<keras.src.callbacks.history.History at 0x23e4a2a33a0>

---
Avalie a precisão usando o comando `model.evaluate()`

In [10]:
loss, acc = model.evaluate(X_test, Y_test)
print(f"Loss: {loss}")
print(f"Accuracy: {acc*100:.2f}%")

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.6345 - loss: 0.8167
Loss: 0.8194833993911743
Accuracy: 61.04%


Como ficou o resultado? Será que dá pra melhorar?

---
Crie uma pessoa imaginária com um vetor, por exemplo, na forma `np.array([[2,148,72,35,0,33.6,0.627,25]])` e use o comando `model.predict()` para verificar se essa pessoa é classificada com ou sem diabetes.

In [11]:
person = np.array([[6, 148, 72, 35, 0, 33.6, 0.627, 50]])
[[prediction]] = model.predict(person)
print(f"{prediction*100:.1f}%")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 45ms/step
92.2%
