# KNN для задачі виживання на Titanic

Ми побудуємо модель класифікації виживання пасажирів Титаніка методом KNN, використовуючи очищений набір даних `train_clean.csv`. Крок за кроком розглянемо підготовку даних, навчання, оцінку та підбір параметрів моделі.


## 1. Імпорт необхідних бібліотек

Спочатку імпортуємо всі потрібні бібліотеки для аналізу та побудови моделі.

In [112]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

## 2. Завантаження та огляд даних

Завантажимо очищений датасет, переглянемо перші рядки, типи даних, базову статистику та перевіримо пропуски.

In [113]:
# Завантаження очищеного датасету

df = pd.read_csv('train_cleaned.csv')
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,C,Q,S
0,1,0,3,0,22.0,1,0,7.25,False,False,True
1,2,1,1,1,38.0,1,0,71.2833,True,False,False
2,3,1,3,1,26.0,0,0,7.925,False,False,True
3,4,1,1,1,35.0,1,0,53.1,False,False,True
4,5,0,3,0,35.0,0,0,8.05,False,False,True


## 4. Розділення даних на навчальну та тестову вибірки

Розділимо дані на навчальну (train) та тестову (test) вибірки у співвідношенні 80/20.

In [114]:
y = df['Survived']
X = df.drop('Survived', axis = 1)

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

## 5. Масштабування ознак

Масштабуємо числові ознаки для покращення роботи KNN (метод чутливий до масштабу даних).

In [115]:
sc = StandardScaler()
x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)

## 6. Навчання моделі KNN

Створимо та навчимо модель KNeighborsClassifier на навчальних даних.

In [116]:
knn = KNeighborsClassifier(n_neighbors=6)
knn.fit(x_train, y_train)

0,1,2
,n_neighbors,6
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


## 7. Оцінка якості моделі

Оцінимо точність моделі на тестових даних

In [117]:
y_pred = knn.predict(x_test)
percent = accuracy_score(y_test, y_pred) * 100
print(percent, '%')

76.53631284916202 %


## 8. Підбір оптимального параметра k

Перевіримо якість моделі для різних значень k та побудуємо графік залежності точності від k

# 9. Перевірка роботи моделі для test.csv



In [None]:
df_test = pd.read_csv('test_clean.csv')
df['Fare'] = df['Fare'].fillna(df['Fare'].mean())
sc = StandardScaler()
test_data = sc.fit_transform(df_test)

knn.predict(test_data)
test_data['Survived'] = percent
test_data.to_csv('submission.csv', index=False)


ValueError: Input X contains NaN.
KNeighborsClassifier does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values