# Implementando uma rede simples (MLP) usando o Keras

## Inteli - Sistemas de Informa√ß√£o - Programa√ß√£o
- **Professor**üë®‚Äçüè´: Jefferson de Oliveira Silva
- **Aluno**üë®‚Äçüéì: Pedro de Carvalho Rezende

### Objetivoüö®
Desenvolver um Perceptron utilizando Keras em Python e explicar detalhadamente cada parte do c√≥digo desenvolvido. O Perceptron √© um modelo de rede neural simples, mas fundamental, que serve como base para o entendimento de modelos de aprendizado mais complexos.


### Instru√ß√µesüìÉ
Escolha um dataset pronto adequado para classifica√ß√£o bin√°ria, evitando datasets "toy" como `Iris` ou `Pima Indians Diabetes`. Certifique-se de selecionar um dataset que ofere√ßa desafios reais em termos de volume e complexidade.

Em seguida, explore o dataset escolhido e explique suas caracter√≠sticas principais, como o n√∫mero de amostras, features, e a tarefa de classifica√ß√£o que ele representa.

Desenvolva um modelo sequencial em Keras com uma √∫nica camada Dense, utilizando uma unidade com a fun√ß√£o de ativa√ß√£o sigmoid. Compile o modelo utilizando o otimizador adam, a fun√ß√£o de perda binary_crossentropy, e a m√©trica accuracy. Inclua tamb√©m a m√©trica F1 para uma avalia√ß√£o mais completa, e explique brevemente a fun√ß√£o de cada um desses componentes no treinamento.

Treine o modelo por 50 √©pocas com um batch size de 10. Ap√≥s o treinamento, utilize o modelo para prever os r√≥tulos do conjunto de teste e calcule tanto a acur√°cia quanto a m√©trica F1. Interprete os resultados, discutindo o desempenho do modelo e poss√≠veis melhorias.

Entregue o link do caderno `.ipynb` em um reposit√≥rio GitHub.

# Instala√ß√µes e Importa√ß√µes

In [17]:
%pip install -q -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [20]:
import pandas as pd
import numpy as np
import plotly.graph_objs as go
from plotly.subplots import make_subplots
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

import tensorflow as tf
import keras
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.metrics import BinaryAccuracy, AUC
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import BinaryCrossentropy

from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [None]:
# baixando o dataset utilizado
!gdown 12FihSjn8qDfmoGjra_c4pYRFq1P6hwTg

# Explorat√≥ria do Dataset

O dataset escolhido foi Steam Store Games (https://www.kaggle.com/nikdavis/steam-store-games). 

Este dataset cont√©m informa√ß√µes sobre jogos dispon√≠veis na plataforma Steam, incluindo o nome do jogo, a descri√ß√£o, o pre√ßo, a data de lan√ßamento, a avalia√ß√£o dos usu√°rios, entre outras informa√ß√µes.

In [2]:
# visualiza√ß√£o do dataset
'''
Retirei algumas colunas que n√£o s√£o relevantes para a an√°lise devido os seus valores
aapid: identificador do jogo
english: se o jogo √© em ingl√™s ou n√£o (n√£o √© relevante para a an√°lise)
required_age: idade m√≠nima para jogar o jogo (n√£o √© relevante para a an√°lise)
platforms: plataformas dispon√≠veis para o jogo (n√£o √© relevante para a an√°lise)
steamspy_tags: tags do jogo, com generos, temas, etc (j√° temos o g√™nero)
'''
df = pd.read_csv('steam.csv', usecols= lambda col: col not in ['appid', 'english', 'required_age', 'platforms', 'steamspy_tags'])
df

Unnamed: 0,name,release_date,developer,publisher,categories,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
0,Counter-Strike,2000-11-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,124534,3339,17612,317,10000000-20000000,7.19
1,Team Fortress Classic,1999-04-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,3318,633,277,62,5000000-10000000,3.99
2,Day of Defeat,2003-05-01,Valve,Valve,Multi-player;Valve Anti-Cheat enabled,Action,0,3416,398,187,34,5000000-10000000,3.99
3,Deathmatch Classic,2001-06-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,1273,267,258,184,5000000-10000000,3.99
4,Half-Life: Opposing Force,1999-11-01,Gearbox Software,Valve,Single-player;Multi-player;Valve Anti-Cheat en...,Action,0,5250,288,624,415,5000000-10000000,3.99
...,...,...,...,...,...,...,...,...,...,...,...,...,...
27070,Room of Pandora,2019-04-24,SHEN JIAWEI,SHEN JIAWEI,Single-player;Steam Achievements,Adventure;Casual;Indie,7,3,0,0,0,0-20000,2.09
27071,Cyber Gun,2019-04-23,Semyon Maximov,BekkerDev Studio,Single-player,Action;Adventure;Indie,0,8,1,0,0,0-20000,1.69
27072,Super Star Blast,2019-04-24,EntwicklerX,EntwicklerX,Single-player;Multi-player;Co-op;Shared/Split ...,Action;Casual;Indie,24,0,1,0,0,0-20000,3.99
27073,New Yankee 7: Deer Hunters,2019-04-17,Yustas Game Studio,Alawar Entertainment,Single-player;Steam Cloud,Adventure;Casual;Indie,0,2,0,0,0,0-20000,5.19


Vou modificar a coluna 'g√™neros' para que apenas o primeiro g√™nero seja mostrado, pois sendo separado por ponto e v√≠rgula (;) um t√≠tulo acumula muitos g√™neros. O primeiro g√™nero seria o mais importante

In [5]:
split_genres = df["genres"].str.split(";", n=1, expand=True)
df["genres"] = split_genres[0]
df.head()

Unnamed: 0,name,release_date,developer,publisher,categories,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
0,Counter-Strike,2000-11-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,124534,3339,17612,317,10000000-20000000,7.19
1,Team Fortress Classic,1999-04-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,3318,633,277,62,5000000-10000000,3.99
2,Day of Defeat,2003-05-01,Valve,Valve,Multi-player;Valve Anti-Cheat enabled,Action,0,3416,398,187,34,5000000-10000000,3.99
3,Deathmatch Classic,2001-06-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,1273,267,258,184,5000000-10000000,3.99
4,Half-Life: Opposing Force,1999-11-01,Gearbox Software,Valve,Single-player;Multi-player;Valve Anti-Cheat en...,Action,0,5250,288,624,415,5000000-10000000,3.99


In [7]:
df['owners'].value_counts()

owners
0-20000                18596
20000-50000             3059
50000-100000            1695
100000-200000           1386
200000-500000           1272
500000-1000000           513
1000000-2000000          288
2000000-5000000          193
5000000-10000000          46
10000000-20000000         21
20000000-50000000          3
50000000-100000000         2
100000000-200000000        1
Name: count, dtype: int64

In [8]:
# Mapeando a coluna 'owners' para valores num√©ricos de acordo com a quantidade de donos
owners_mapping = {
    '0-20000': 1,
    '20000-50000': 2,
    '50000-100000': 2,
    '100000-200000': 3,
    '200000-500000': 3,
    '500000-1000000': 4,
    '1000000-2000000': 4,
    '2000000-5000000': 4,
    '5000000-10000000': 5,
    '10000000-20000000': 5,
    '20000000-50000000': 5,
    '50000000-100000000': 5,
    '100000000-200000000': 5
}

df['owners_scaled'] = df['owners'].map(owners_mapping)

print(df[['owners', 'owners_scaled']].head())


              owners  owners_scaled
0  10000000-20000000              5
1   5000000-10000000              5
2   5000000-10000000              5
3   5000000-10000000              5
4   5000000-10000000              5


In [12]:
df = df.drop(columns=['owners'])
df

Unnamed: 0,name,release_date,developer,publisher,categories,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price,popularity,owners_scaled
0,Counter-Strike,2000-11-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,124534,3339,17612,317,7.19,1,5
1,Team Fortress Classic,1999-04-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,3318,633,277,62,3.99,1,5
2,Day of Defeat,2003-05-01,Valve,Valve,Multi-player;Valve Anti-Cheat enabled,Action,0,3416,398,187,34,3.99,1,5
3,Deathmatch Classic,2001-06-01,Valve,Valve,Multi-player;Online Multi-Player;Local Multi-P...,Action,0,1273,267,258,184,3.99,1,5
4,Half-Life: Opposing Force,1999-11-01,Gearbox Software,Valve,Single-player;Multi-player;Valve Anti-Cheat en...,Action,0,5250,288,624,415,3.99,1,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27070,Room of Pandora,2019-04-24,SHEN JIAWEI,SHEN JIAWEI,Single-player;Steam Achievements,Adventure,7,3,0,0,0,2.09,1,1
27071,Cyber Gun,2019-04-23,Semyon Maximov,BekkerDev Studio,Single-player,Action,0,8,1,0,0,1.69,1,1
27072,Super Star Blast,2019-04-24,EntwicklerX,EntwicklerX,Single-player;Multi-player;Co-op;Shared/Split ...,Action,24,0,1,0,0,3.99,0,1
27073,New Yankee 7: Deer Hunters,2019-04-17,Yustas Game Studio,Alawar Entertainment,Single-player;Steam Cloud,Adventure,0,2,0,0,0,5.19,0,1


### Legenda:
- name: The name of the game.
- release_date: The release date of the game.
- developer: The developer of the game.
- publisher: The publisher of the game.
- categories: Categories the game belongs to (e.g., Single-player, Multi-player).
- genres: Genre of the game (e.g., Action).
- achievements: Number of achievements available in the game.
- positive_ratings: Number of positive ratings the game has received.
- negative_ratings: Number of negative ratings the game has received.
- average_playtime: Average playtime of the game in minutes.
- median_playtime: Median playtime of the game in minutes.
- owners: An estimate of the number of owners of the game (represented as a range).
- price: The price of the game

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27075 entries, 0 to 27074
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   name              27075 non-null  object 
 1   release_date      27075 non-null  object 
 2   developer         27074 non-null  object 
 3   publisher         27061 non-null  object 
 4   categories        27075 non-null  object 
 5   genres            27075 non-null  object 
 6   achievements      27075 non-null  int64  
 7   positive_ratings  27075 non-null  int64  
 8   negative_ratings  27075 non-null  int64  
 9   average_playtime  27075 non-null  int64  
 10  median_playtime   27075 non-null  int64  
 11  price             27075 non-null  float64
 12  popularity        27075 non-null  int32  
 13  owners_scaled     27075 non-null  int64  
dtypes: float64(1), int32(1), int64(6), object(6)
memory usage: 2.8+ MB


In [14]:
df.describe()

Unnamed: 0,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price,popularity,owners_scaled
count,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0
mean,45.248864,1000.559,211.027147,149.804949,146.05603,6.078193,0.553241,1.492853
std,352.670281,18988.72,4284.938531,1827.038141,2353.88008,7.874922,0.497166,0.836032
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,0.0,6.0,2.0,0.0,0.0,1.69,0.0,1.0
50%,7.0,24.0,9.0,0.0,0.0,3.99,1.0,1.0
75%,23.0,126.0,42.0,0.0,0.0,7.19,1.0,2.0
max,9821.0,2644404.0,487076.0,190625.0,190625.0,421.99,1.0,5.0


# Procedimentos

In [15]:
# Se a propor√ß√£o de classifica√ß√µes positivas e negativas estiver acima de um limite, rotularemos como 1 (popular), caso contr√°rio, 0.
threshold = 2  # Jogos com pelo menos o dobro de classifica√ß√µes positivas do que negativas ser√£o considerados populares
df['popularity'] = (df['positive_ratings'] / (df['negative_ratings'] + 1)) > threshold
df['popularity'] = df['popularity'].astype(int)

# Selecionando recursos relevantes para o modelo
features = df[['achievements', 'positive_ratings', 'negative_ratings', 'average_playtime', 'owners_scaled', 'price']]
target = df['popularity'] # aqui estamos considerando a popularidade como a vari√°vel alvo, ent√£o estamos criando um target

# Dividindo o conjunto de dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

X_train_scaled.shape, y_train.shape, X_test_scaled.shape, y_test.shape

((21660, 6), (21660,), (5415, 6), (5415,))

## At√© o momento

- Ent√£o, at√© o momento, fizemos a importa√ß√£o das bibliotecas necess√°rias e a leitura do dataset.	
- Em seguida, fizemos uma an√°lise explorat√≥ria do dataset, verificando as primeiras linhas, informa√ß√µes gerais e estat√≠sticas descritivas.
- Tamb√©m fizemos uma an√°lise mais detalhada das colunas 'genres' e 'categories', que cont√™m informa√ß√µes sobre os g√™neros e categorias dos jogos.
- Modificamos a coluna 'genres' para que apenas o primeiro g√™nero fosse mostrado, pois os t√≠tulos acumulavam muitos g√™neros.
- Criamos, com base na propor√ß√£o de classifica√ß√µes positivas e negativas, uma vari√°vel que se um jogo tiver pelo menos duas vezes mais classifica√ß√µes positivas do que negativas, ele ser√° rotulado como ‚Äúpopular‚Äù (1), caso contr√°rio, ser√° rotulado como ‚Äún√£o popular‚Äù (0).
- Por fim, dividimos o dataset em conjuntos de treino e teste, com 80% dos dados para treino e 20% para teste. Normalizando-os a partir do SantoScaler.


## Modelo de Rede Neural
- Agora, desenvolverei um modelo Perceptron usando Keras. O modelo ter√° uma √∫nica camada densa com fun√ß√£o de ativa√ß√£o sigm√≥ide para classifica√ß√£o bin√°ria (como foi requisitado).


In [17]:
model = Sequential([
    Dense(1, activation='sigmoid', input_shape=(X_train_scaled.shape[1],))
])

# compliando o modelo
model.compile(
    optimizer=Adam(),
    loss=BinaryCrossentropy(),
    metrics=[BinaryAccuracy(name='accuracy'), AUC(name='auc')]
)

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


- Sequential(): Isso cria uma pilha linear de camadas. Neste caso, temos uma √∫nica camada Dense.
- Dense(1, activation='sigmoid'): Esta √© a camada do Perceptron. Ela possui 1 unidade (neur√¥nio de sa√≠da) com a fun√ß√£o de ativa√ß√£o sigmoid, que √© adequada para classifica√ß√£o bin√°ria.
- Sigmoid(): A fun√ß√£o de ativa√ß√£o sigmoid √© uma fun√ß√£o de ativa√ß√£o comum usada em problemas de classifica√ß√£o bin√°ria. Ela mapeia os valores de entrada para um intervalo entre 0 e 1, o que √© √∫til para interpretar as sa√≠das como probabilidades.
- compile(): Esta fun√ß√£o √© usada para configurar o modelo para treinamento. 
    - Aqui, estamos usando:
        - o otimizador 'adam', que serve para otimiza√ß√£o de gradientes; 
        - a fun√ß√£o de perda 'binary_crossentropy', que √© adequada para problemas de classifica√ß√£o bin√°ria;
        - a m√©trica 'accuracy', que √© a m√©trica padr√£o para problemas de classifica√ß√£o;
    - Al√©m disso, inclu√≠mos a m√©trica 'f1' para uma avalia√ß√£o mais completa. A fun√ß√£o de perda binary_crossentropy √© adequada para problemas de classifica√ß√£o bin√°ria, enquanto o otimizador adam √© uma boa escolha para otimiza√ß√£o de gradientes.

## Resultados

- fit(): Este m√©todo treina o modelo por 50 √©pocas com um tamanho de lote (batch size) de 10. O validation_split=0.2 significa que 20% dos dados de treinamento ser√£o usados para valida√ß√£o.
- As previs√µes s√£o feitas no conjunto de teste, e a acur√°cia e o F1-score s√£o calculados. Essas m√©tricas d√£o uma indica√ß√£o de qu√£o bem o modelo est√° performando.

**Lembrando**:
- A acur√°cia √© a propor√ß√£o de previs√µes corretas em rela√ß√£o ao total de previs√µes.
- O F1-score √© uma m√©trica que combina precis√£o e recall, fornecendo uma medida mais equilibrada do desempenho do modelo.

In [18]:
# treinando o modelo
history = model.fit(X_train_scaled, y_train, epochs=50, batch_size=10, validation_split=0.2, verbose=1)

y_pred_prob = model.predict(X_test_scaled)
y_pred = (y_pred_prob > 0.5).astype(int)

test_accuracy = accuracy_score(y_test, y_pred)
test_f1 = f1_score(y_test, y_pred)

print(f'Test Accuracy: {test_accuracy}')
print(f'Test F1 Score: {test_f1}')


Epoch 1/50
[1m1733/1733[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m3s[0m 1ms/step - accuracy: 0.5633 - auc: 0.5564 - loss: 0.6889 - val_accuracy: 0.5854 - val_auc: 0.6202 - val_loss: 0.6666
Epoch 2/50
[1m1733/1733[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.5964 - auc: 0.6311 - loss: 0.6569 - val_accuracy: 0.5903 - val_auc: 0.6259 - val_loss: 0.6606
Epoch 3/50
[1m1733/1733[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.5957 - auc: 0.6261 - loss: 0.6593 - val_accuracy: 0.5926 - val_auc: 0.6268 - val_loss: 0.6597
Epoch 4/50
[1m1733/1733[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.6037 - auc: 0.6380 - loss: 0.6572 - val_accuracy: 0.5912 - val_auc: 0.6277 - val_loss: 0.6588
Epoch 5/50
[1m1733/1733[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚

### Conclus√£o

Os resultados obtidos pelo modelo Perceptron indicam uma performance moderada na tarefa de classifica√ß√£o bin√°ria, com, aproximadamente, uma **acur√°cia de 61,33%** e um **F1 Score de 0,65** no conjunto de teste.

A acur√°cia de 61,33% significa que o modelo foi capaz de prever corretamente aproximadamente 61% dos exemplos no conjunto de teste. Embora este valor seja superior ao acaso (considerando que se trata de uma tarefa de classifica√ß√£o bin√°ria), ainda h√° margem significativa para melhorias.

O **F1 Score de 0,65** reflete um equil√≠brio razo√°vel entre precis√£o (propor√ß√£o de verdadeiros positivos em rela√ß√£o ao total de positivos preditos) e recall (propor√ß√£o de verdadeiros positivos em rela√ß√£o ao total de positivos reais). O valor do F1 Score sugere que o modelo tem um desempenho aceit√°vel, mas que pode ser aprimorado, especialmente em cen√°rios onde o desbalanceamento de classes pode influenciar a performance.

Esses resultados podem ser melhorados com estrat√©gias adicionais, como a inclus√£o de mais features relevantes, ajustes na arquitetura do modelo, uso de t√©cnicas de regulariza√ß√£o, ou mesmo a experimenta√ß√£o com modelos mais complexos e sofisticados. Al√©m disso, uma an√°lise mais profunda dos dados e uma abordagem de engenharia de features poderiam ajudar a melhorar a capacidade preditiva do modelo, resultando em m√©tricas de performance mais elevadas.

# Melhorias do modelo e poss√≠veis pr√≥ximos passos

Aqui ser√° listado fatores que poderia influenciar na melhoria do modelo e poss√≠veis pr√≥ximos passos para aprimorar a performance do modelo Perceptron.
- **Engenharia de Features**: Explorar e criar novas features a partir dos dados existentes pode ajudar a capturar informa√ß√µes mais relevantes para a tarefa de classifica√ß√£o.
    - Por exemplo, poder√≠amos criar features que representam a intera√ß√£o entre diferentes vari√°veis, ou extrair informa√ß√µes adicionais de colunas como 'genres' e 'categories'.
    - Al√©m disso, t√©cnicas como one-hot encoding, binariza√ß√£o de vari√°veis categ√≥ricas, ou mesmo a cria√ß√£o de features polinomiais poderiam ajudar a melhorar a capacidade preditiva do modelo.
- **Regulariza√ß√£o**: A adi√ß√£o de t√©cnicas de regulariza√ß√£o, como L1, L2, ou elastic net, pode ajudar a evitar overfitting e melhorar a generaliza√ß√£o do modelo.
    - A regulariza√ß√£o penaliza os pesos do modelo, incentivando-os a permanecerem pequenos e reduzindo a complexidade do modelo.
- **Ajuste de Hiperpar√¢metros**: Experimentar diferentes valores para hiperpar√¢metros como a taxa de aprendizado, o n√∫mero de √©pocas, o tamanho do batch, ou mesmo a arquitetura do modelo pode ajudar a encontrar uma configura√ß√£o que resulte em melhor performance.
    - T√©cnicas como grid search, random search, ou otimiza√ß√£o bayesiana podem ser usadas para encontrar os melhores hiperpar√¢metros para o modelo.
    - Por encaixe da atividade, o modelo foi treinado como designado no corpo da atividade.
- **Valida√ß√£o Cruzada**: Utilizar t√©cnicas de valida√ß√£o cruzada, como k-fold cross-validation, pode ajudar a avaliar a capacidade de generaliza√ß√£o do modelo e reduzir a vari√¢ncia das m√©tricas de performance.
    - A valida√ß√£o cruzada divide o conjunto de dados em k partes, treinando o modelo em k-1 partes e avaliando-o na parte restante, repetindo o processo k vezes.
- **Modelos mais Complexos**: Experimentar modelos mais complexos, como redes neurais profundas, redes convolucionais, ou redes recorrentes, pode ajudar a capturar padr√µes mais sutis nos dados e melhorar a performance do modelo.
    - Modelos mais complexos podem aprender representa√ß√µes mais abstratas dos dados, permitindo uma melhor discrimina√ß√£o entre as classes.
- **Balanceamento de Classes**: Em problemas de classifica√ß√£o bin√°ria com classes desbalanceadas, t√©cnicas como oversampling, undersampling, ou gera√ß√£o sint√©tica de dados podem ajudar a equilibrar a distribui√ß√£o das classes e melhorar a performance do modelo.
    - O balanceamento de classes pode ajudar a evitar que o modelo seja enviesado em dire√ß√£o √† classe majorit√°ria, resultando em m√©tricas de performance mais realistas.