In [7]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier


In [8]:
try:
    train_df = pd.read_csv("train.csv")
    test_df = pd.read_csv("test.csv")
    print(f"Dados de treino carregados: {train_df.shape[0]} linhas, {train_df.shape[1]} colunas.")
    print(f"Dados de teste carregados: {test_df.shape[0]} linhas, {test_df.shape[1]} colunas.")
except FileNotFoundError:
    print("\nERRO: Arquivo não encontrado!")

Dados de treino carregados: 646 linhas, 33 colunas.
Dados de teste carregados: 277 linhas, 32 colunas.


In [9]:
features_to_drop = ['labels', 'id', 'category_code']
X_train = train_df.drop(columns=features_to_drop)
y_train = train_df['labels']

test_ids = test_df['id'] 
X_test = test_df.drop(columns=['id', 'category_code'])

X_test = X_test[X_train.columns]

print(f"Número de features (colunas) usadas no modelo: {X_train.shape[1]}")

Número de features (colunas) usadas no modelo: 30


In [10]:
pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(
        n_estimators=200,
        random_state=42,
        class_weight='balanced',
        n_jobs=-1
    ))
])

In [14]:
pipeline.fit(X_train, y_train)
print("Treinamento concluído com sucesso!")

Treinamento concluído com sucesso!


In [15]:
test_predictions = pipeline.predict(X_test)

submission_df = pd.DataFrame({'id': test_ids, 'labels': test_predictions})

submission_df.to_csv('submission.csv', index=False)

print("\nArquivo 'submission.csv' foi criado com sucesso!")


Arquivo 'submission.csv' foi criado com sucesso!
