In [1]:
import pandas as pd

X_train = pd.read_csv('./datasets/mod_04_hw_train_data.csv')
X_test = pd.read_csv('./datasets/mod_04_hw_valid_data.csv')

In [2]:
y_train = X_train['Salary']
y_test = X_test['Salary']

In [3]:
import numpy as np

X_train['Cert'] = np.where(X_train['Cert'] == 'Yes', 1, 0)
X_test['Cert'] = np.where(X_test['Cert'] == 'Yes', 1, 0)

In [4]:
X_train['Date_Of_Birth'] = pd.to_datetime(X_train['Date_Of_Birth'], dayfirst=True)
X_test['Date_Of_Birth'] = pd.to_datetime(X_test['Date_Of_Birth'], dayfirst=True)

X_train['Age'] = pd.Timestamp.now().year - X_train['Date_Of_Birth'].dt.year
X_test['Age'] = pd.Timestamp.now().year - X_test['Date_Of_Birth'].dt.year

In [5]:
X_train = X_train.drop(['Name', 'Phone_Number', 'Salary', 'Date_Of_Birth'], axis=1)
X_test = X_test.drop(['Name', 'Phone_Number', 'Salary', 'Date_Of_Birth'], axis=1)

In [6]:
X_train = X_train[X_train['Age'] >= 10]
y_train = y_train[X_train.index]

In [7]:
X_train_cat = X_train.select_dtypes(include='object')
X_train_num = X_train.select_dtypes(exclude='object')

In [8]:
X_test_cat = X_test.select_dtypes(include='object')
X_test_num = X_test.select_dtypes(exclude='object')

In [9]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='median').set_output(transform='pandas')

X_train_num = imputer.fit_transform(X_train_num)
X_test_num = imputer.transform(X_test_num)

In [10]:
from sklearn.preprocessing import PowerTransformer 

transformer = PowerTransformer().set_output(transform='pandas')

X_train_num = transformer.fit_transform(X_train_num)
X_test_num = transformer.transform(X_test_num)

In [11]:
from sklearn.preprocessing import OneHotEncoder 

encoder = (OneHotEncoder(drop='if_binary',
                         sparse_output=False,)
           .set_output(transform='pandas'))

X_train_cat = encoder.fit_transform(X_train_cat)
X_test_cat = encoder.transform(X_test_cat)

In [12]:
from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors=15)
regressor.fit(pd.concat([X_train_cat, X_train_num], axis=1), y_train)

y_pred = regressor.predict(pd.concat([X_test_cat, X_test_num], axis=1))

In [13]:
from sklearn.metrics import mean_absolute_percentage_error

mape = mean_absolute_percentage_error(y_test, y_pred)

print(f'Validation MAPE: {mape:.2%}')

Validation MAPE: 6.42%


### Висновок
Результат моєї роботи не відповідає очікуваному діапазону MAPE (3-5%), оскільки отриманий MAPE становить 6,26%. Проте, я виконав усі необхідні кроки для побудови моделі, включаючи обробку даних та налаштування моделі.

### Опис кроків:

1.  Імпорт даних

2. Витягнув цільову змінну 'Salary' з обох наборів даних.

3. Видалив стовпці, які не потрібні для моделювання: 'Name', 'Phone_Number' і 'Salary'.

4. Перетворення категоріальної змінної 'Cert':
Перетворив значення 'Yes' у 1 і 'No' у 0 в стовпці 'Cert'.

5. Обробка дати народження:
Конвертував 'Date_Of_Birth' у формат дати, витягнув вік і видалив стовпець 'Date_Of_Birth'.

6. Видалення аномальних значень:
Видалив записи, де вік менше 10 років, як аномальні значення.

7. Поділ на числові та категоріальні змінні:
Розділив числові та категоріальні ознаки в окремі DataFrame.

8. Заповнення пропущених значень:
Заповнив пропущені значення в числових ознаках медіанними значеннями.

9. Нормалізація даних:
Виконав нормалізацію числових ознак за допомогою PowerTransformer.

10. Кодування категоріальних змінних:
Закодував категоріальні ознаки методом OneHotEncoder.

11. Створив та навчив модель KNeighborsRegressor з 15 сусідами.

12. Прогнозував заробітну плату для тестового набору та обчислив MAPE для оцінки моделі.

Validation MAPE: 6.42%
