In [None]:
import pandas as pd

X_train = pd.read_csv('./datasets/mod_04_hw_train_data.csv')
X_test = pd.read_csv('./datasets/mod_04_hw_valid_data.csv')

# %%
y_train = X_train['Salary']
y_test = X_test['Salary']

# %%
import numpy as np

X_train['Cert'] = np.where(X_train['Cert'] == 'Yes', 1, 0)
X_test['Cert'] = np.where(X_test['Cert'] == 'Yes', 1, 0)

# %%
X_train['Date_Of_Birth'] = pd.to_datetime(X_train['Date_Of_Birth'], dayfirst=True)
X_test['Date_Of_Birth'] = pd.to_datetime(X_test['Date_Of_Birth'], dayfirst=True)

X_train['Age'] = pd.Timestamp.now().year - X_train['Date_Of_Birth'].dt.year
X_test['Age'] = pd.Timestamp.now().year - X_test['Date_Of_Birth'].dt.year

# %%
X_train = X_train.drop(['Name', 'Phone_Number', 'Salary', 'Date_Of_Birth'], axis=1)
X_test = X_test.drop(['Name', 'Phone_Number', 'Salary', 'Date_Of_Birth'], axis=1)

# %%
X_train = X_train[X_train['Age'] >= 10]
y_train = y_train[X_train.index]

# %%
X_train_cat = X_train.select_dtypes(include='object')
X_train_num = X_train.select_dtypes(exclude='object')

# %%
X_test_cat = X_test.select_dtypes(include='object')
X_test_num = X_test.select_dtypes(exclude='object')

# %%
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='median').set_output(transform='pandas')

X_train_num = imputer.fit_transform(X_train_num)
X_test_num = imputer.transform(X_test_num)

# %%
from sklearn.preprocessing import PowerTransformer 

transformer = PowerTransformer().set_output(transform='pandas')

X_train_num = transformer.fit_transform(X_train_num)
X_test_num = transformer.transform(X_test_num)

# %%
from sklearn.preprocessing import OneHotEncoder 

encoder = (OneHotEncoder(drop='if_binary',
                         sparse_output=False,)
           .set_output(transform='pandas'))

X_train_cat = encoder.fit_transform(X_train_cat)
X_test_cat = encoder.transform(X_test_cat)

# %%
from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors=15)
regressor.fit(pd.concat([X_train_cat, X_train_num], axis=1), y_train)

y_pred = regressor.predict(pd.concat([X_test_cat, X_test_num], axis=1))

# %%
from sklearn.metrics import mean_absolute_percentage_error

mape = mean_absolute_percentage_error(y_test, y_pred)

print(f'Validation MAPE: {mape:.2%}')



Висновок
Kод для побудови моделі KNeighborsRegressor для прогнозування заробітної плати співробітників виконується правильно, проте отриманий MAPE (6,26%) не відповідає очікуваному діапазону (3-5%). 

Пояснення кожного кроку в коді
1. Імпорт даних:
python
Copy code
import pandas as pd

X_train = pd.read_csv('./datasets/mod_04_hw_train_data.csv')
X_test = pd.read_csv('./datasets/mod_04_hw_valid_data.csv')
Цей крок завантажує тренувальні та тестові набори даних із CSV-файлів у DataFrame.

2. Витяг цільової змінної:
python
Copy code
y_train = X_train['Salary']
y_test = X_test['Salary']
Витягує цільову змінну 'Salary' із тренувального та тестового наборів даних.

3. Видалення непотрібних стовпців:
python
Copy code
X_train = X_train.drop(['Name', 'Phone_Number', 'Salary'], axis=1)
X_test = X_test.drop(['Name', 'Phone_Number', 'Salary'], axis=1)
Видаляє стовпці, які не потрібні для моделювання: 'Name', 'Phone_Number' і 'Salary'.

4. Перетворення категоріальної змінної 'Cert':
python
Copy code
import numpy as np

X_train['Cert'] = np.where(X_train['Cert'] == 'Yes', 1, 0)
X_test['Cert'] = np.where(X_test['Cert'] == 'Yes', 1, 0)
Перетворює значення 'Yes' у 1 і 'No' у 0 в стовпці 'Cert'.

5. Обробка дати народження:
python
Copy code
X_train['Date_Of_Birth'] = pd.to_datetime(X_train['Date_Of_Birth'], dayfirst=True)
X_test['Date_Of_Birth'] = pd.to_datetime(X_test['Date_Of_Birth'], dayfirst=True)

X_train['Age'] = pd.Timestamp.now().year - X_train['Date_Of_Birth'].dt.year
X_test['Age'] = pd.Timestamp.now().year - X_test['Date_Of_Birth'].dt.year

X_train.drop('Date_Of_Birth', axis=1, inplace=True)
X_test.drop('Date_Of_Birth', axis=1, inplace=True)
Конвертує 'Date_Of_Birth' у формат дати, витягує вік і видаляє стовпець 'Date_Of_Birth'.

6. Видалення аномальних значень:
python
Copy code
X_train = X_train[X_train['Age'] >= 10]
y_train = y_train[X_train.index]
Видаляє записи, де вік менше 10 років, як аномальні значення.

7. Поділ на числові та категоріальні змінні:
python
Copy code
X_train_cat = X_train.select_dtypes(include='object')
X_train_num = X_train.select_dtypes(exclude='object')

X_test_cat = X_test.select_dtypes(include='object')
X_test_num = X_test.select_dtypes(exclude='object')
Розділяє числові та категоріальні ознаки в окремі DataFrame.

8. Заповнення пропущених значень:
python
Copy code
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='median').set_output(transform='pandas')

X_train_num = imputer.fit_transform(X_train_num)
X_test_num = imputer.transform(X_test_num)
Заповнює пропущені значення в числових ознаках медіанними значеннями.

9. Нормалізація даних:
python
Copy code
from sklearn.preprocessing import PowerTransformer 

transformer = PowerTransformer().set_output(transform='pandas')

X_train_num = transformer.fit_transform(X_train_num)
X_test_num = transformer.transform(X_test_num)
Виконує нормалізацію числових ознак за допомогою PowerTransformer.

10. Кодування категоріальних змінних:
python
Copy code
from sklearn.preprocessing import OneHotEncoder 

encoder = (OneHotEncoder(drop='if_binary',
                         sparse_output=False)
           .set_output(transform='pandas'))

X_train_cat = encoder.fit_transform(X_train_cat)
X_test_cat = encoder.transform(X_test_cat)
Кодує категоріальні ознаки методом OneHotEncoder.

11. Побудова та навчання моделі:
python
Copy code
from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors=15)
regressor.fit(pd.concat([X_train_cat, X_train_num], axis=1), y_train)
Створює та навчає модель KNeighborsRegressor з 15 сусідами.

12. Прогнозування та оцінка моделі:
python
Copy code
y_pred = regressor.predict(pd.concat([X_test_cat, X_test_num], axis=1))

from sklearn.metrics import mean_absolute_percentage_error

mape = mean_absolute_percentage_error(y_test, y_pred)

print(f'Validation MAPE: {mape:.2%}')
Validation MAPE: 6.26%
Прогнозує заробітну плату для тестового набору та обчислює MAPE для оцінки моделі.

Рекомендації щодо покращення результату:
Тонке налаштування гіперпараметрів:
Використовуйте GridSearchCV для пошуку оптимальних значень параметрів для моделі KNeighborsRegressor.

Оцінка важливості ознак:
Використовуйте SelectKBest або інші методи для оцінки важливості ознак та відбору найбільш інформативних.

Додаткові моделі:
Спробуйте інші моделі регресії, такі як Random Forest, Gradient Boosting або Linear Regression, щоб визначити, чи можуть вони забезпечити кращі результати.

Поліпшення обробки даних:
Додатково перевірте, чи всі категоріальні змінні правильно закодовані, і чи немає втрат інформації під час обробки.


Висновок
Результат моєї роботи не відповідає очікуваному діапазону MAPE (3-5%), оскільки отриманий MAPE становить 6,26%. Проте, я виконав усі необхідні кроки для побудови моделі, включаючи обробку даних та налаштування моделі.

Опис кроків
Імпорт даних:
Я завантажив тренувальний та валідаційний набори даних з файлів CSV.

python
Copy code
import pandas as pd

X_train = pd.read_csv('./datasets/mod_04_hw_train_data.csv')
X_test = pd.read_csv('./datasets/mod_04_hw_valid_data.csv')
Витяг цільової змінної:
Витягнув цільову змінну 'Salary' з обох наборів даних.

python
Copy code
y_train = X_train['Salary']
y_test = X_test['Salary']
Видалення непотрібних стовпців:
Видалив стовпці, які не потрібні для моделювання: 'Name', 'Phone_Number' і 'Salary'.

python
Copy code
X_train = X_train.drop(['Name', 'Phone_Number', 'Salary'], axis=1)
X_test = X_test.drop(['Name', 'Phone_Number', 'Salary'], axis=1)
Перетворення категоріальної змінної 'Cert':
Перетворив значення 'Yes' у 1 і 'No' у 0 в стовпці 'Cert'.

python
Copy code
import numpy as np

X_train['Cert'] = np.where(X_train['Cert'] == 'Yes', 1, 0)
X_test['Cert'] = np.where(X_test['Cert'] == 'Yes', 1, 0)
Обробка дати народження:
Конвертував 'Date_Of_Birth' у формат дати, витягнув вік і видалив стовпець 'Date_Of_Birth'.

python
Copy code
X_train['Date_Of_Birth'] = pd.to_datetime(X_train['Date_Of_Birth'], dayfirst=True)
X_test['Date_Of_Birth'] = pd.to_datetime(X_test['Date_Of_Birth'], dayfirst=True)

X_train['Age'] = pd.Timestamp.now().year - X_train['Date_Of_Birth'].dt.year
X_test['Age'] = pd.Timestamp.now().year - X_test['Date_Of_Birth'].dt.year

X_train.drop('Date_Of_Birth', axis=1, inplace=True)
X_test.drop('Date_Of_Birth', axis=1, inplace=True)
Видалення аномальних значень:
Видалив записи, де вік менше 10 років, як аномальні значення.

python
Copy code
X_train = X_train[X_train['Age'] >= 10]
y_train = y_train[X_train.index]
Поділ на числові та категоріальні змінні:
Розділив числові та категоріальні ознаки в окремі DataFrame.

python
Copy code
X_train_cat = X_train.select_dtypes(include='object')
X_train_num = X_train.select_dtypes(exclude='object')

X_test_cat = X_test.select_dtypes(include='object')
X_test_num = X_test.select_dtypes(exclude='object')
Заповнення пропущених значень:
Заповнив пропущені значення в числових ознаках медіанними значеннями.

python
Copy code
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='median').set_output(transform='pandas')

X_train_num = imputer.fit_transform(X_train_num)
X_test_num = imputer.transform(X_test_num)
Нормалізація даних:
Виконав нормалізацію числових ознак за допомогою PowerTransformer.

python
Copy code
from sklearn.preprocessing import PowerTransformer 

transformer = PowerTransformer().set_output(transform='pandas')

X_train_num = transformer.fit_transform(X_train_num)
X_test_num = transformer.transform(X_test_num)
Кодування категоріальних змінних:
Закодував категоріальні ознаки методом OneHotEncoder.

python
Copy code
from sklearn.preprocessing import OneHotEncoder 

encoder = (OneHotEncoder(drop='if_binary', sparse_output=False).set_output(transform='pandas'))

X_train_cat = encoder.fit_transform(X_train_cat)
X_test_cat = encoder.transform(X_test_cat)
Побудова та навчання моделі:
Створив та навчив модель KNeighborsRegressor з 15 сусідами.

python
Copy code
from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors=15)
regressor.fit(pd.concat([X_train_cat, X_train_num], axis=1), y_train)
Прогнозування та оцінка моделі:
Прогнозував заробітну плату для тестового набору та обчислив MAPE для оцінки моделі.

python
Copy code
y_pred = regressor.predict(pd.concat([X_test_cat, X_test_num], axis=1))

from sklearn.metrics import mean_absolute_percentage_error

mape = mean_absolute_percentage_error(y_test, y_pred)

print(f'Validation MAPE: {mape:.2%}')
Validation MAPE: 6.26%



