# Classificação Binária com Keras: Abalone Dataset

Este notebook realiza a classificação binária no dataset Abalone, utilizando um modelo sequencial simples com Keras. As etapas incluem a carga e preparação dos dados, a construção do modelo, o treinamento e a avaliação do desempenho do modelo.

link de onde coletei o dataset: https://www.kaggle.com/code/ryanholbrook/binary-classification/data


#Importação das Bibliotecas

In [None]:
# Importação das bibliotecas necessárias
from google.colab import drive
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score, accuracy_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

Montagem do Google Drive e Carregamento e Visualização do Dataset

In [None]:
# Conectar ao Google Drive
drive.mount('/content/drive', force_remount=True)

# Caminho do arquivo no Google Drive
file_path = '/content/drive/MyDrive/ponderadam11/Copy of abalone.csv'

# Carregar o dataset
data = pd.read_csv(file_path)

# Verificar as primeiras linhas do dataset
print(data.head())

Mounted at /content/drive
  Type  LongestShell  Diameter  Height  WholeWeight  ShuckedWeight  \
0    M         0.455     0.365   0.095       0.5140         0.2245   
1    M         0.350     0.265   0.090       0.2255         0.0995   
2    F         0.530     0.420   0.135       0.6770         0.2565   
3    M         0.440     0.365   0.125       0.5160         0.2155   
4    I         0.330     0.255   0.080       0.2050         0.0895   

   VisceraWeight  ShellWeight  Rings  
0         0.1010        0.150     15  
1         0.0485        0.070      7  
2         0.1415        0.210      9  
3         0.1140        0.155     10  
4         0.0395        0.055      7  


### Conversão de Dados Categóricos e Transformação da Variável Alvo

Neste passo, vamos converter a coluna `Type` (que é categórica) para variáveis dummy, e transformar a variável `Rings` em uma variável binária para facilitar a classificação binária.


In [None]:
# Converter a coluna 'Type' para variáveis dummy (one-hot encoding)
data = pd.get_dummies(data, columns=['Type'], drop_first=True)

# Transformar 'Rings' em uma variável binária
data['Rings'] = (data['Rings'] >= 10).astype(int)

# Verificando as primeiras linhas após as transformações
data.head()

Unnamed: 0,LongestShell,Diameter,Height,WholeWeight,ShuckedWeight,VisceraWeight,ShellWeight,Rings,Type_I,Type_M
0,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,1,False,True
1,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,0,False,True
2,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,0,False,False
3,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,1,False,True
4,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,0,True,False


### Separação das Variáveis Independentes e Dependentes

Agora, vamos separar as variáveis independentes (`X`) da variável dependente (`y`), e em seguida dividir os dados em conjuntos de treino e teste.


Separação das Variáveis e Divisão do Conjunto de Dados


In [None]:
# Separação das variáveis independentes e dependentes
X = data.drop('Rings', axis=1)
y = data['Rings']

# Dividindo o dataset em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Normalização dos Dados

Nesta etapa, vamos normalizar as features utilizando `StandardScaler` para que todas as variáveis tenham a mesma escala, o que ajuda no desempenho do modelo.


In [None]:
# Normalização dos dados
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


### Construção do Modelo Keras

Vamos construir um modelo sequencial simples com uma única camada densa que possui uma unidade com função de ativação `sigmoid`.


Construção do Modelo

In [None]:
# Definindo o modelo sequencial
model = Sequential()
model.add(Dense(1, input_dim=X_train.shape[1], activation='sigmoid'))

### Compilação do Modelo

Agora, vamos compilar o modelo utilizando o otimizador `Adam`, a função de perda `binary_crossentropy`, e a métrica `accuracy`.


In [None]:
# Compilando o modelo
model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy'])

### Treinamento do Modelo

Vamos treinar o modelo por 50 épocas com um batch size de 10.


Treinamento do Modelo

In [None]:
# Treinando o modelo
model.fit(X_train, y_train, epochs=50, batch_size=10, verbose=1)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.src.callbacks.History at 0x7e200668b910>

### Previsão e Avaliação do Modelo

Após o treinamento, utilizaremos o modelo para prever os rótulos do conjunto de teste e calcular a acurácia e o F1 Score.


In [None]:
# Prevendo os rótulos do conjunto de teste
y_pred = model.predict(X_test)
y_pred_classes = (y_pred > 0.5).astype("int32")

# Avaliando o desempenho
accuracy = accuracy_score(y_test, y_pred_classes)
f1 = f1_score(y_test, y_pred_classes)

print(f'Accuracy: {accuracy}')
print(f'F1 Score: {f1}')


Accuracy: 0.7934609250398724
F1 Score: 0.7871815940838126


### Interpretação dos Resultados

Finalmente, vamos discutir os resultados obtidos, interpretando as métricas de acurácia e F1 Score e explorando possíveis melhorias no modelo.
