In [None]:
import pandas as pd

# Загрузим данные
df = pd.read_csv("/kaggle/input/mobile-price-classification/train.csv")

# Посмотрим на первые несколько строк данных
print(df.head())

# Проверим наличие пропущенных значений
print(df.isnull().sum())

# Проверим типы данных столбцов
print(df.dtypes)


In [18]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV


# Разделение данных на обучающий и тестовый наборы
X = df.drop('dual_sim', axis=1) # Убираем целевой столбец 'dual_sim' из набора признаков
y = df['dual_sim'] # Определяем целевую переменную 'dual_sim'

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели KNN с произвольным значением K
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# Оценка качества модели на тестовом наборе
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Точность:", accuracy)

# Оценка качества модели с помощью отчета о классификации
print("Отчет о классификации:")
print(classification_report(y_test, y_pred))

# Подбор гиперпараметра K с использованием GridSearchCV
param_grid = {'n_neighbors': range(1, 21)}
grid_search = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

print("Лучшие параметры:", grid_search.best_params_)
print("Лучший показатель перекрестной проверки:", grid_search.best_score_)

# Оценка качества оптимальной модели
best_knn = grid_search.best_estimator_
best_knn.fit(X_train, y_train)
y_pred_best = best_knn.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print("Точность лучшей модели:", accuracy_best)

Точность: 0.52
Отчет о классификации:
              precision    recall  f1-score   support

           0       0.53      0.50      0.52       205
           1       0.51      0.54      0.52       195

    accuracy                           0.52       400
   macro avg       0.52      0.52      0.52       400
weighted avg       0.52      0.52      0.52       400

Лучшие параметры: {'n_neighbors': 5}
Лучший показатель перекрестной проверки: 0.55375
Точность лучшей модели: 0.52
