In [18]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

# Завантаження даних
train_data = pd.read_csv("adult_train.csv", sep=";")
test_data = pd.read_csv("adult_test.csv", sep=";")

# train_data.head(2)
# test_data.head(2)
# Підготовка даних
# Виключення непотрібних ознак (якщо такі є)
# Якщо потрібно, можна провести кодування категоріальних ознак за допомогою one-hot encoding або label encoding

# Розділення на ознаки та цільову змінну
X_train = train_data.drop('Target', axis=1)
y_train = train_data['Target']
X_test = test_data.drop('Target', axis=1)
y_test = test_data['Target']

# Використання методу one-hot encoding для кодування категоріальних ознак
X_train = pd.get_dummies(X_train)
X_test = pd.get_dummies(X_test)

# Збереження стовпців, які містяться в навчальному наборі
train_features = X_train.columns

# Додавання відсутніх стовпців до тестового набору та заповнення нулями
missing_cols = set(train_features) - set(X_test.columns)
for col in missing_cols:
    X_test[col] = 0

# Впорядковання стовпців у тестовому наборі в тому ж порядку, що й у навчальному
X_test = X_test[train_features]

# Перевірка розмірності даних після one-hot encoding
print("Shape of X_train after one-hot encoding:", X_train.shape)
print("Shape of X_test after one-hot encoding:", X_test.shape)

# Завдання 1: Дерево рішень без налаштування параметрів
# Навчення моделі
tree_model_1 = DecisionTreeClassifier(max_depth=3, random_state=17)
tree_model_1.fit(X_train, y_train)

# Прогноз на тестових даних
predictions_1 = tree_model_1.predict(X_test)

# Оцінка точності
accuracy_1 = accuracy_score(y_test, predictions_1)
print("Accuracy of Decision Tree (max_depth=3):", accuracy_1)

# Завдання 2: Дерево рішень з налаштуванням параметрів
# Пошук оптимальної максимальної глибини
param_grid = {'max_depth': range(1, 10)}
grid_search = GridSearchCV(DecisionTreeClassifier(random_state=17), param_grid, cv=5)
grid_search.fit(X_train, y_train)

best_max_depth = grid_search.best_params_['max_depth']
print("Best max_depth:", best_max_depth)

# Навчення моделі зі знайденою оптимальною глибиною
tree_model_2 = DecisionTreeClassifier(max_depth=best_max_depth, random_state=17)
tree_model_2.fit(X_train, y_train)

# Оцінка точності на тестових даних
predictions_2 = tree_model_2.predict(X_test)
accuracy_2 = accuracy_score(y_test, predictions_2)
print("Accuracy of Decision Tree with optimal max_depth:", accuracy_2)


Shape of X_train after one-hot encoding: (32561, 105)
Shape of X_test after one-hot encoding: (16282, 105)


ValueError: Classification metrics can't handle a mix of unknown and binary targets