# Treinamento e Avaliação de Modelo de Machine Learning 🎓📊

Este notebook demonstra o processo completo de treinamento e avaliação de um modelo de classificação usando RandomForest. Exploraremos a preparação dos dados, o ajuste do modelo, a avaliação das métricas de desempenho e a visualização dos resultados.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Configurações para visualizações
%matplotlib inline
sns.set(style="whitegrid")


In [None]:
# Carregar os dados
data = pd.read_csv("caminho_para_seus_dados.csv")  # Substitua pelo caminho correto
data.head()


In [None]:
data.info()


## Pré-processamento dos Dados

Nesta seção, vamos realizar a limpeza e normalização dos dados para melhorar o desempenho do modelo.


In [None]:
# Remover valores nulos
data = data.dropna()

# Normalização das features numéricas
numeric_features = data.select_dtypes(include=['float64', 'int64']).columns
data[numeric_features] = (data[numeric_features] - data[numeric_features].mean()) / data[numeric_features].std()

# Visualizar correlação entre variáveis
sns.heatmap(data.corr(), annot=True, cmap="coolwarm")
plt.show()


## Divisão dos Dados em Treino e Teste

Vamos dividir os dados para treino e teste.


In [None]:
X = data.drop("target", axis=1)  # Substitua 'target' pela coluna de destino no seu conjunto de dados
y = data["target"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Treinamento do Modelo

Aqui, vamos treinar um modelo RandomForest usando os dados de treino.


In [None]:
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
model.fit(X_train, y_train)


In [None]:
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Acurácia: {accuracy:.2f}")

# Matriz de confusão
cm = confusion_matrix(y_test, predictions)
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel("Previsto")
plt.ylabel("Real")
plt.show()

# Relatório de classificação
print(classification_report(y_test, predictions))


## Conclusões

Este notebook demonstrou como preparar dados, treinar um modelo e avaliar seu desempenho. Para melhorar o modelo, podemos explorar técnicas como tuning de hiperparâmetros ou experimentar algoritmos adicionais.
