## NOMES:

# ALLAN SAMUEL ALVES DO MONTE
# GUILHERME DE OLIVEIRA PORTAS
# THIAGO DELLANO

# **Objetivo: criar uma rede neural simples usando Keras para uma tarefa de classificação binária**

 # **Importação dos Dados e Processamento**


O conjunto de dados que será utilizado aqui é: "**Pima Indians Diabetes Dataset**". Ele pode ser baixado de: https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv

Este é um problema de classificação binária (2 classes). No conjunto de dados existem 768 observações com 8 variáveis de entrada e 1 variável de saída.

Os nomes das variáveis são os seguintes:

**1. Número de vezes grávida.**

**2. Concentração de glicose plasmática após 2 horas em um teste oral de tolerância à glicose.**

**3. Pressão arterial diastólica (mm Hg).**

**4. Espessura da prega cutânea do tríceps (mm).**

**5. Insulina sérica em 2 horas (mu U/ml).**

**6. Índice de massa corporal (peso em kg/(altura em m)^2).**

**7. Função pedigree para diabetes.**

**8. Idade (anos).**

**9. Variável de classe (0 ou 1).**

---
Importe as bibliotecas necessárias

In [2]:
import numpy as np
from sklearn.model_selection import train_test_split

---
Importe e visualize detalhes dos dados usando os comandos `np.loadtext('nome do arquivo', delimiter=',')` e `np.shape(...)`

In [3]:
# Carregando o dataset e pulando a primeira linha (cabeçalho)
data = np.loadtxt('diabetes.csv', delimiter=',', skiprows=1)

# Visualizando as dimensões do dataset
print("Dimensões do dataset(linhas, colunas): ",np.shape(data))

Dimensões do dataset(linhas, colunas):  (768, 9)


---
Crie vetores `X_data` e `Y_data` para separar os 8 features, que são as entradas, e a única saída

In [4]:
X_data = data[:, 0:8]
Y_data = data[:, 8]

---
Separe os dados de treino e de teste usando o comando `train_test_split()`

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X_data, Y_data, test_size=0.25, random_state=42)

# Imprimindo as dimensões dos novos conjuntos para confirmação
print(f"Dimensões de X_train (treinamento): {X_train.shape}")
print(f"Dimensões de X_test (teste): {X_test.shape}")
print(f"Dimensões de y_train (treinamento): {y_train.shape}")
print(f"Dimensões de y_test (teste): {y_test.shape}")

Dimensões de X_train (treinamento): (576, 8)
Dimensões de X_test (teste): (192, 8)
Dimensões de y_train (treinamento): (576,)
Dimensões de y_test (teste): (192,)


---
Verifique a dimensão do conjunto de treino e teste

- X_train: (576, 8) → 576 amostras de treino, cada uma com 8 variáveis.

- X_test: (192, 8) → 192 amostras de teste.

- y_train: (576,) → 576 rótulos (saídas).

- y_test: (192,) → 192 rótulos.

# **Construa o Modelo**

---
Crie o seu modelo

---
Adicione as camadas: lembrando que a primeira camada recebe como entrada um vetor no $\mathbb{R}^8$.

In [6]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Carregar dataset (pula cabeçalho)
dados = np.loadtxt('diabetes.csv', delimiter=',', skiprows=1)

# Separar X (features) e Y (labels)
X_data = dados[:, 0:8] #seleciona todas as linhas (:) e as colunas 0 a 7 (features, variáveis de entrada).
Y_data = dados[:, 8]  #seleciona todas as linhas da coluna 8 (target ou label, resultado que queremos prever).

# Dividir em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X_data, Y_data, test_size=0.2, random_state=42)

# Criar modelo da rede neural
modelo = Sequential([
    Dense(16, input_dim=8, activation='relu'),  # camada de entrada (R^8 → R^16)
    Dense(12, activation='relu'),               # camada oculta 1
    Dense(8, activation='relu'),                # camada oculta 2
    Dense(1, activation='sigmoid')              # saída binária
])


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


---
Compile o modelo escolhendo a função de perda e o otimizador.

In [7]:
# Compilar modelo
modelo.compile(
    loss='binary_crossentropy',  # função de perda
    optimizer='adam',            # otimizador
    metrics=['accuracy']         # métrica
)


# **Treine e Teste**

In [8]:
# Treinar modelo
historico = modelo.fit(
    X_train, Y_train,
    epochs=100,          # número de épocas
    batch_size=10,       # tamanho do batch
    validation_data=(X_test, Y_test),  # validação durante o treino
    verbose=1
)

# Avaliar modelo no conjunto de teste
loss, acc = modelo.evaluate(X_test, Y_test, verbose=0)
print(f"Acurácia no conjunto de teste: {acc:.2f}")


Epoch 1/100
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.5261 - loss: 3.1105 - val_accuracy: 0.5325 - val_loss: 1.0583
Epoch 2/100
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5831 - loss: 0.8476 - val_accuracy: 0.6104 - val_loss: 0.7662
Epoch 3/100
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6173 - loss: 0.7465 - val_accuracy: 0.6818 - val_loss: 0.7093
Epoch 4/100
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6173 - loss: 0.7192 - val_accuracy: 0.6429 - val_loss: 0.7325
Epoch 5/100
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6352 - loss: 0.6902 - val_accuracy: 0.6429 - val_loss: 0.7266
Epoch 6/100
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6238 - loss: 0.6773 - val_accuracy: 0.6494 - val_loss: 0.7040
Epoch 7/100
[1m62/62[0m [32m━━━

---
Avalie a precisão usando o comando `model.evaluate()`

In [9]:
# Avaliar modelo no conjunto de teste
loss, acc = modelo.evaluate(X_test, Y_test, verbose=0)
print(f"Perda no teste: {loss:.4f}")
print(f"Acurácia no conjunto de teste: {acc:.4f}")

Perda no teste: 0.6000
Acurácia no conjunto de teste: 0.7403


Como ficou o resultado? Será que dá pra melhorar?

- O resultado está razoável, mas para algo relacionado à medicina (como previsão de diabetes), o mais viável é a acurácia estar acima de 80-85%.
- Pode sim melhorar, talvez com uma quantidade maior de dados ou um maior teste de neurônios ou mais camadas.

---
Crie uma pessoa imaginária com um vetor, por exemplo, na forma `np.array([[2,148,72,35,0,33.6,0.627,25]])` e use o comando `model.predict()` para verificar se essa pessoa é classificada com ou sem diabetes.

In [10]:
# Pessoa imaginária (valores seguem a ordem das features do dataset)
# Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age
pessoa = np.array([[2, 148, 72, 35, 0, 33.6, 0.627, 25]])

# Fazer a predição
predicao = modelo.predict(pessoa)

print("Probabilidade de ter diabetes:", predicao[0][0])

# Classificação final (0 = sem diabetes, 1 = com diabetes)
classe = 1 if predicao[0][0] >= 0.5 else 0
print("Classificação final:", classe)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 61ms/step
Probabilidade de ter diabetes: 0.6112189
Classificação final: 1
