<a href="https://colab.research.google.com/github/bgarbero/UNIFAA-DESAFIO-02-MACHINE-LEARNING/blob/main/UNIFAA_DESAFIO_02_MACHINE_LEARNING.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [83]:
import tensorflow as tf
import pandas as pd
import numpy as np

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from google.colab import drive
# Monta o Google Drive no Colab para acessar arquivos.
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [84]:
# Carrega o conjunto de dados de seguros a partir do Google Drive.
base_dados = pd.read_csv('/content/drive/MyDrive/insurance.csv', encoding = 'utf-8')
# Remove a primeira linha dos dados (pode estar removendo um cabeçalho duplicado ou uma entrada incorreta).
base_dados = base_dados.drop(1)
# Exibe o DataFrame para verificar se os dados foram carregados corretamente.
base_dados

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
5,31,female,25.740,0,no,southeast,3756.62160
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [85]:
# Separa as características (dados) da coluna de alvo (a ser prevista), que é 'smoker'.
dados = base_dados.drop(columns=['smoker'])
alvo = base_dados['smoker']

# Lista de colunas categóricas que precisam ser codificadas numericamente.
categorical_cols = ['sex', 'children', 'region']

# Converte as colunas categóricas em valores numéricos usando LabelEncoder.
for col in categorical_cols:
    le = LabelEncoder()
    dados[col] = le.fit_transform(dados[col])

# Converte a variável alvo 'smoker' em valores numéricos usando LabelEncoder.
for col in categorical_cols:
    le = LabelEncoder()
    alvo = le.fit_transform(alvo)
    alvo

In [86]:
# Divide os dados em conjuntos de treino (80%) e teste (20%) de forma aleatória.
x_train, x_test, y_train, y_test = train_test_split(dados, alvo, test_size=0.20, random_state=42)

# Define a arquitetura da rede neural com três camadas densas (fully connected).
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(), # Achata a entrada (transforma dados 2D em 1D).
  tf.keras.layers.Dense(128, activation=tf.nn.relu), # Primeira camada oculta com 128 neurônios e ReLU.
  tf.keras.layers.Dense(64, activation=tf.nn.relu), # Segunda camada oculta com 64 neurônios e ReLU.
  tf.keras.layers.Dense(4, activation=tf.nn.softmax) # Camada de saída com 4 neurônios (para classificação) e Softmax.
])

# Compila o modelo especificando o otimizador, a função de perda e as métricas de avaliação.
model.compile(optimizer= tf.keras.optimizers.Adam(),
              loss='sparse_categorical_crossentropy', # Usada para classificação multiclasse.
              metrics=['Accuracy']) # Avalia a acurácia durante o treinamento.

# Treina o modelo no conjunto de treino por 50 épocas.
model.fit(x_train, y_train, epochs=50)

Epoch 1/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - Accuracy: 0.4217 - loss: 671.8544
Epoch 2/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.5737 - loss: 22.5657
Epoch 3/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.7431 - loss: 6.6968
Epoch 4/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - Accuracy: 0.7241 - loss: 10.3194
Epoch 5/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.8267 - loss: 4.6224
Epoch 6/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.8274 - loss: 4.2806
Epoch 7/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.7658 - loss: 11.9395
Epoch 8/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.6763 - loss: 34.8581
Epoch 9/50
[1m34/34[0m [32m━━━━━━━━━━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x7f001c790f10>

In [87]:
# Avalia o modelo no conjunto de teste e exibe a acurácia.
model.evaluate(x_test, y_test)

[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - Accuracy: 0.9471 - loss: 1.2779  


[1.313502550125122, 0.9514925479888916]

In [88]:
# Faz previsões no conjunto de teste.
previsoes_prob = model.predict(x_test)

# Converte as probabilidades previstas em rótulos de classe (o índice do maior valor em cada previsão).
previsoes = np.argmax(previsoes_prob, axis=1)

# Calcula a matriz de confusão comparando os rótulos reais com as previsões feitas pelo modelo.
matrix = confusion_matrix(y_test, previsoes)

# Exibe a matriz de confusão.
print(matrix)

[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step
[[199  13]
 [  0  56]]
