In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, f1_score
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# Wczytanie danych
train_data = pd.read_csv('IPA.csv')
test_data = pd.read_csv('IPA_test.csv')

# Przekształcenie kolumny IsIPA na wartości liczbowe (0/1)
train_data['IsIPA'] = train_data['IsIPA'].astype(int)

# Podział danych na zbiór treningowy i walidacyjny
X_train, X_val, y_train, y_val = train_test_split(
    train_data.drop(['IsIPA', 'UserId'], axis=1),
    train_data['IsIPA'],
    test_size=0.2,
    random_state=42
)

# Pipeline do obsługi brakujących danych, skalowania, i klasyfikacji
model_pipeline = make_pipeline(
    SimpleImputer(strategy='mean'),
    StandardScaler(),
    RandomForestClassifier(random_state=42)
)

# Hiperparametry do optymalizacji
param_grid = {
    'randomforestclassifier__n_estimators': [100, 200, 300],
    'randomforestclassifier__max_depth': [None, 10, 20, 30],
    'randomforestclassifier__min_samples_split': [2, 5, 10],
    'randomforestclassifier__min_samples_leaf': [1, 2, 4]
}

# Optymalizacja hiperparametrów
grid_search = GridSearchCV(model_pipeline, param_grid, cv=5, scoring='f1', n_jobs=-1)
grid_search.fit(X_train, y_train)

# Wydrukowanie najlepszych parametrów
print("Best Parameters:", grid_search.best_params_)

# Predykcja na zbiorze walidacyjnym
y_val_pred = grid_search.predict(X_val)

# Wartość F1 na zbiorze walidacyjnym
f1_val = f1_score(y_val, y_val_pred)
print("F1 Score on Validation Set:", f1_val)

# Predykcja na zbiorze testowym
test_predictions = grid_search.predict(test_data.drop(['UserId'], axis=1))

# Zapisanie predykcji do pliku CSV
test_data['IsIPA'] = test_predictions
test_data[['UserId', 'IsIPA']].to_csv('IPA_predictions.csv', index=False)

KeyboardInterrupt: 