In [1]:
# Step 1: Import packages

import pandas as pd
import numpy as np

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.decomposition import TruncatedSVD
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier

from sklearn.compose import ColumnTransformer, make_column_selector
from sklearn.pipeline import Pipeline
from imblearn.pipeline import Pipeline as ImbPipeline

from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import accuracy_score

In [2]:
# Step 2: Load and prepare the dataset

X_train = pd.read_csv('./datasets/final_proj_data.csv')
X_test = pd.read_csv('./datasets/final_proj_test.csv')

In [3]:
# Step 3: Separate the target variable from the features

y = X_train['y']
X_train = X_train.drop('y', axis=1)

In [4]:
# Step 4: Explore the data structure

X_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Columns: 230 entries, Var1 to Var230
dtypes: float64(191), int64(1), object(38)
memory usage: 17.5+ MB


In [5]:
# Step 5: Check for missing values

X_train.isna().sum()

Var1       9867
Var2       9734
Var3       9734
Var4       9720
Var5       9759
          ...  
Var226        0
Var227        0
Var228        0
Var229     5561
Var230    10000
Length: 230, dtype: int64

In [6]:
# Step 6: Drop columns with excessive missing values ( > 40%)

missing_values = X_train.isna().sum()
threshold = 0.4
columns_to_drop = missing_values[missing_values > threshold * X_train.shape[0]].index

X_train.drop(columns=columns_to_drop, inplace=True)
X_test.drop(columns=columns_to_drop, inplace=True)

In [7]:
# Step 7: Define the preprocessing steps for numerical and categorical features

preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(strategy='median'), make_column_selector(dtype_exclude='object')),
        ('cat', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='most_frequent')),
            ('encoder', OneHotEncoder(handle_unknown='ignore', sparse_output=False)),
            ('svd', TruncatedSVD(n_components=20))
        ]), make_column_selector(dtype_include='object'))
    ]
)

In [8]:
# Step 8: Build the pipeline for data preprocessing, resampling and model training

pipeline = ImbPipeline(steps=[
    ('preprocessor', preprocessor),
    ('smote', SMOTE(random_state=42)),
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(random_state=42))
])

In [9]:
# Step 9: Evaluate the pipeline using cross-validation

scores = cross_val_score(pipeline, X_train, y, cv=5, scoring='balanced_accuracy')
print(f'Cross-validated balanced accuracy: {np.mean(scores):.4f}')

Cross-validated balanced accuracy: 0.7651


In [10]:
# Step 10: Define a parameter grid for hyperparameter tuning using GridSearchCV

param_grid = {
    'classifier__n_estimators': [50, 100],  
    'classifier__max_depth': [10, 20], 
    'classifier__min_samples_split': [2, 5], 
    'classifier__min_samples_leaf': [1, 2]
}

In [11]:
# Step 11: Perform a grid search to find the best model parameters

# grid_search = GridSearchCV(pipeline, 
#                           param_grid, 
#                          cv=5, 
#                          n_jobs=-1, 
#                          scoring='balanced_accuracy', 
#                          verbose=2)
#
# grid_search.fit(X_train, y)

Fitting 5 folds for each of 16 candidates, totalling 80 fits


In [12]:
# Step 12: Output the best cross-validated balanced accuracy

# print(f'Best cross-validated balanced accuracy: {grid_search.best_score_:.4f}')

Best cross-validated balanced accuracy: 0.8273


In [13]:
# Step 13: Generate predictions on the test set and save the results

# client_ids = X_test.index 
# results = pd.DataFrame({
#    'index': client_ids,
#    'y': grid_search.best_estimator_.predict(X_test)
# })
# results.to_csv('./datasets/submission.csv', index=False)

### Висновок

Цей проєкт спрямований на побудову та оцінку моделі машинного навчання для прогнозування результату на основі наданих даних. Процес включає попередню обробку даних, створення конвеєра (pipeline), підбір гіперпараметрів та оцінку моделі.

### Опис кроків:

**Крок 1: Завантаження необхідних пакетів**
На першому етапі завантажуються всі необхідні пакети Python, які будуть використані для обробки даних, побудови моделі, і оцінки її якості.

**Крок 2: Завантаження та підготовка датасету**
Завантажуються дані для навчання та тестування з файлів `final_proj_data.csv` і `final_proj_test.csv`.

**Крок 3: Відокремлення цільової змінної від ознак**
Цільова змінна `y` відокремлюється від набору даних, і подальші операції виконуються на основних ознаках.

**Крок 4: Огляд структури даних**
Здійснюється огляд структури даних для розуміння типів змінних.

**Крок 5: Перевірка на наявність пропущених значень**
Перевіряються стовпці з пропущеними значеннями, щоб визначити, які з них мають значну кількість пропусків.

**Крок 6: Видалення стовпців із великою кількістю пропущених значень**
Стовпці з великою кількістю пропущених значень видаляються з навчального та тестового наборів даних на основі встановленого порогу ( > 40%).

**Крок 7: Попередня обробка - Визначення кроків попередньої обробки для числових та категоріальних ознак**
Створюється ColumnTransformer, який виконує такі дії:
- Імпутація пропущених значень у числових стовпцях за допомогою медіани.
- Імпутація пропущених значень у категоріальних стовпцях за допомогою найчастішого значення.
- One-hot кодування категоріальних ознак.
- Зменшення розмірності закодованих ознак за допомогою Truncated SVD.

**Крок 8: Побудова конвеєра для попередньої обробки даних, ресемплінгу та навчання моделі**
Створюється конвеєр, який виконує такі кроки:
- Застосування попередньої обробки.
- Застосування SMOTE для усунення дисбалансу класів.
- Масштабування ознак.
- Навчання класифікатора Random Forest.

**Крок 9: Оцінка конвеєра за допомогою перехресної валідації**
Конвеєр оцінюється за допомогою перехресної валідації (cross-validation), щоб визначити його точність.

**Крок 10: Визначення сітки параметрів для підбору гіперпараметрів за допомогою GridSearchCV**
Визначається сітка параметрів для класифікатора, включаючи:
- Кількість дерев у лісі.
- Максимальна глибина дерев.
- Мінімальна кількість зразків, необхідна для розщеплення вузла.
- Мінімальна кількість зразків, необхідна на листовому вузлі.

**Крок 11: Виконання пошуку по сітці для знаходження найкращих параметрів моделі**
GridSearchCV використовується для пошуку найкращих гіперпараметрів моделі на основі встановленої сітки параметрів.

**Крок 12: Виведення найкращої перехресно валідованої збалансованої точності**
Виводиться найкраща перехресно валідована збалансована точність, отримана під час пошуку по сітці.

**Крок 13: Генерація прогнозів на тестовому наборі та збереження результатів**
Згенеровані прогнози на тестовому наборі зберігаються у файл `submission.csv`.

### Висновки:

1. Використання інших категоріальних кодувальників, таких як TargetEncoder та WOEEncoder, призвело до погіршення якості прогнозування.
   
2. Спроби побудови ансамблю моделей з використанням стекінгу (stacking) не дали бажаної точності.

Цей підхід надав чіткий і послідовний метод побудови надійної моделі машинного навчання з акцентом на попередній обробці даних, балансуванні класів, і оптимізації гіперпараметрів.