In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import GridSearchCV

In [14]:
df_train = pd.read_csv('train.csv', sep=';', header=None)
feature_n = df_train.columns.size - 1
object_n = df_train.index.size

X = df_train.iloc[:, 0 : feature_n].values
y = df_train.iloc[:, feature_n].values

for i in range(feature_n):
    x = X[:, i]
    mi = np.min(x)
    ma = np.max(x)
    for j in range(object_n):
        if ma - mi == 0:
            x[j] = 0.5
        else:
            x[j] = (x[j] - mi) / (ma - mi)

In [44]:
# Ожидаю, что лучше всего себя покажет Дерево решений, так как этот классификатор меньше других восприимчив к шумовым данным.
# Также KNN и SVM плохо показывают себя на больших датасетах, в частности KNN, который не любит и большое количество признаков.
# Поэтому ожидаю, что SVM будет иметь результат лучше, чем KNN, так как этот метод хорошо работает с большим количеством признаков.
# Также ожидаю, что SVM покажет результат хуже, чем DT:
# Так как я строила график объектов, распределенных по классам. 
# И два класса были очень близко расположены, а значит SVM будет тяжело их отделить

In [15]:
# KNN
from sklearn.neighbors import KNeighborsClassifier as KNN
clf = KNN()
params = {
    'n_neighbors': range(1, 200), 
    'metric' : ['euclidean', 'cityblock'] 
}
grid_searcher = GridSearchCV(clf, params)
grid_searcher.fit(X, y)
print(grid_searcher.best_params_)
print(grid_searcher.best_estimator_)
print(grid_searcher.best_score_)

{'metric': 'euclidean', 'n_neighbors': 26}
KNeighborsClassifier(metric='euclidean', n_neighbors=26)
0.7732142857142856


In [43]:
# Decision Tree

from sklearn.tree import DecisionTreeClassifier
params = { 
    'max_depth' : range(1, 10),
    'criterion' : ['gini', 'entropy']
}
clf = DecisionTreeClassifier()
grid_searcher = GridSearchCV(clf, params)
grid_searcher.fit(X, y)
print(grid_searcher.best_params_)
print(grid_searcher.best_estimator_)
print(grid_searcher.best_score_)

{'criterion': 'entropy', 'max_depth': 3}
DecisionTreeClassifier(criterion='entropy', max_depth=3)
0.8928571428571429


In [41]:
# SVM

from sklearn import svm
params = [
    {
        'kernel' : ['rbf', 'sigmoid'],
        'C' : [1, 10, 100, 1000]
    },
    {
        'kernel' : ['poly'],
        'degree' : range(2, 6)
    }
]
clf = svm.SVC()
grid_searcher = GridSearchCV(clf, params)
grid_searcher.fit(X, y)
print(grid_searcher.best_params_)
print(grid_searcher.best_estimator_)
print(grid_searcher.best_score_)

{'degree': 3, 'kernel': 'poly'}
SVC(kernel='poly')
0.85
