In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score, cross_validate

In [4]:
data = pd.read_csv('airlines_delay.csv')

In [5]:
data.head()

Unnamed: 0,Flight,Time,Length,Airline,AirportFrom,AirportTo,DayOfWeek,Class
0,2313.0,1296.0,141.0,DL,ATL,HOU,1,0
1,6948.0,360.0,146.0,OO,COS,ORD,4,0
2,1247.0,1170.0,143.0,B6,BOS,CLT,3,0
3,31.0,1410.0,344.0,US,OGG,PHX,6,0
4,563.0,692.0,98.0,FL,BMI,ATL,4,0


In [6]:
# Печать размера DataFrame (количество строк и столбцов)
data.isnull().sum()

Flight         0
Time           0
Length         0
Airline        0
AirportFrom    0
AirportTo      0
DayOfWeek      0
Class          0
dtype: int64

In [7]:
data.shape

(539382, 8)

In [8]:
# Создание нового DataFrame, содержащего выбранные столбцы 'Flight', 'Time', 'Length' и 'Class'
ds = data[['Flight', 'Time', 'Length', 'Class']]
ds

Unnamed: 0,Flight,Time,Length,Class
0,2313.0,1296.0,141.0,0
1,6948.0,360.0,146.0,0
2,1247.0,1170.0,143.0,0
3,31.0,1410.0,344.0,0
4,563.0,692.0,98.0,0
...,...,...,...,...
539377,6973.0,530.0,72.0,1
539378,1264.0,560.0,115.0,1
539379,5209.0,827.0,74.0,1
539380,607.0,715.0,65.0,1


In [9]:
# categories = ['Airline','AirportFrom','AirportTo','DayOfWeek']
# ds = pd.get_dummies(data=data, columns=categories)
# ds.head()

In [10]:
# Разделение данных на обучающую и тестовую выборки
train, test, train_y, test_y = train_test_split(ds, ds.Class, test_size=0.2, random_state=1)
train

Unnamed: 0,Flight,Time,Length,Class
306919,215.0,1125.0,110.0,1
76519,345.0,582.0,146.0,0
147990,1754.0,870.0,85.0,1
162242,236.0,957.0,102.0,0
2744,859.0,945.0,122.0,0
...,...,...,...,...
371403,4853.0,1005.0,61.0,1
491263,622.0,882.0,86.0,0
470924,6604.0,915.0,119.0,1
491755,1609.0,1070.0,70.0,0


In [11]:
# Создание модели классификатора методом k ближайших соседей (KNN) с параметром k=2
cl1_1 = KNeighborsClassifier(n_neighbors=2)
# Обучение модели на обучающих данных
cl1_1.fit(train, train_y)
# Прогнозирование классов на тестовых данных
target1_1 = cl1_1.predict(test)
target1_1

array([0, 0, 1, ..., 0, 1, 0])

In [12]:
# Вычисление точности (accuracy) модели на тестовых данных
accuracy_score(test_y, target1_1)

0.9476626157568342

In [13]:
# Вычисление F1-меры модели на тестовых данных
f1_score(test_y, target1_1)

0.9391332470892626

In [14]:
# Создание модели KNN с параметром k=10
cl1_10 = KNeighborsClassifier(n_neighbors=10)
# Обучение модели на обучающих данных
cl1_10.fit(train, train_y)
# Прогнозирование классов на тестовых данных
target1_10 = cl1_10.predict(test)
target1_10

array([1, 0, 0, ..., 1, 1, 0])

In [15]:
# Вычисление точности (accuracy) модели на тестовых данных
accuracy_score(test_y, target1_10)

0.7960084169934277

In [16]:
# Вычисление F1-меры модели на тестовых данных
f1_score(test_y, target1_10)

0.7494820245440678

In [17]:
# Создание модели KNN
knn = KNeighborsClassifier()
# Задание параметров для поиска по сетке
parametrs = {'n_neighbors': range(1, 10)}
# Создание объекта GridSearchCV для поиска оптимальных параметров модели
grid = GridSearchCV(knn, parametrs, cv=5, scoring='f1')
# Поиск оптимальных параметров модели на обучающих данных
grid.fit(train, train_y)
# Вывод оптимальных параметров модели
grid.best_params_

{'n_neighbors': 1}

In [18]:
# Создание модели KNN с параметром k=1
knn1 = KNeighborsClassifier(n_neighbors=1)
# Обучение модели на обучающих данных
knn1.fit(train, train_y)
# Прогнозирование классов на тестовых данных
target = knn1.predict(test)
# Вычисление точности (accuracy) модели на тестовых данных
accuracy_score(test_y, target)

0.9635047322413489

In [19]:
# Вычисление средней точности с использованием перекрестной проверки (cross-validation)
score = cross_val_score(KNeighborsClassifier(n_neighbors=1), test, target, cv=3)
# Вычисление среднего значения точности
np.mean(score)

0.7799530947282554