In [None]:
# 1. Análise de Dados e Pré-Processamento
# ==========================================================
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from imblearn.over_sampling import SMOTE

# Carregar a base de dados
df = pd.read_csv("dados.csv")

# Separar variáveis preditoras (X) e alvo (y)
x_data = df.iloc[:, 0:23].values
y_data = df.iloc[:, 23].values

# ==========================================================
# 2. Codificação de variáveis categóricas (OneHotEncoder)
# ==========================================================
objects = [0, 1, 2]  # Substituir pelos índices das colunas categóricas

transformer = ColumnTransformer(
    transformers=[('OneHot', OneHotEncoder(handle_unknown="ignore"), objects)],
    remainder='passthrough'
)

x_data = transformer.fit_transform(x_data)

# ==========================================================
# 3. Escalonamento das variáveis numéricas (StandardScaler)
# ==========================================================
scaler = StandardScaler(with_mean=False)  # with_mean=False por causa do OneHotEncoder
x_data = scaler.fit_transform(x_data)

# ==========================================================
# 4. Tratamento de dados desbalanceados (Oversampling - SMOTE)
# ==========================================================
smt = SMOTE(sampling_strategy='minority', random_state=42)
x_data, y_data = smt.fit_resample(x_data, y_data)

# ==========================================================
# 5. Modelagem - Random Forest (Forest Five)
# ==========================================================
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Separar treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    x_data, y_data, test_size=0.3, random_state=42
)

# Criar Random Forest com 5 árvores
forest_five = RandomForestClassifier(
    n_estimators=5,       # Floresta de 5 árvores
    random_state=42,
    criterion='gini',     # Pode mudar para 'entropy' se quiser
    max_depth=None
)

# Treinar o modelo
forest_five.fit(X_train, y_train)

# Predições
y_pred = forest_five.predict(X_test)

# ==========================================================
# 6. Avaliação do Modelo
# ==========================================================
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))