In [None]:
import pandas as pd
file_path = "diabetes.csv"
df = pd.read_csv(file_path)

# Выводим общую информацию о данных
df.info(), df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


(None,
    Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
 0            6      148             72             35        0  33.6   
 1            1       85             66             29        0  26.6   
 2            8      183             64              0        0  23.3   
 3            1       89             66             23       94  28.1   
 4            0      137             40             35      168  43.1   
 
    DiabetesPedigreeFunction  Age  Outcome  
 0                     0.627   50        1  
 1                     0.351   31        0  
 2                     0.672   32        1  
 3                     0.167   21        0  
 4                     2.288   33        1  )

In [None]:
# количество нулевых значений в критических столбцах
zero_counts = df[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']].eq(0).sum()
zero_counts


Unnamed: 0,0
Glucose,5
BloodPressure,35
SkinThickness,227
Insulin,374
BMI,11


In [None]:

# Замена нулевых значений на медиану
def replace_zeros_with_median(column):
    median_value = column.median()
    return column.replace(0, median_value)

# Обработка столбцов
for column in ['Glucose', 'BloodPressure', 'SkinThickness', 'BMI']:
    df[column] = replace_zeros_with_median(df[column])

# Обработка столбца Insulin
# Выбор: удалить или заменить
# df.drop(columns=['Insulin'], inplace=True)  # Удаление
df['Insulin'] = replace_zeros_with_median(df['Insulin'])  # Замена на медиану

# Проверка на наличие нулевых значений после обработки
zero_counts_after = df[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']].eq(0).sum()
print(zero_counts_after)

# Нормализация данных (при необходимости)
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
normalized_columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
df[normalized_columns] = scaler.fit_transform(df[normalized_columns])

print(df.head())

Glucose          0
BloodPressure    0
SkinThickness    0
Insulin          0
BMI              0
dtype: int64
   Pregnancies   Glucose  BloodPressure  SkinThickness   Insulin       BMI  \
0     0.639947  0.866045      -0.031990       0.831114 -0.608201  0.167240   
1    -0.844885 -1.205066      -0.528319       0.180566 -0.608201 -0.851551   
2     1.233880  2.016662      -0.693761      -0.469981 -0.608201 -1.331838   
3    -0.844885 -1.073567      -0.528319      -0.469981 -0.006185 -0.633239   
4    -1.141852  0.504422      -2.679076       0.831114  0.695378  1.549885   

   DiabetesPedigreeFunction       Age  Outcome  
0                  0.468492  1.425995        1  
1                 -0.365061 -0.190672        0  
2                  0.604397 -0.105584        1  
3                 -0.920763 -1.041549        0  
4                  5.484909 -0.020496        1  


In [None]:
Y = df['Outcome']  # Вектор меток
X = df.drop(columns=['Outcome'])  # Матрица признаков, удаляем столбец 'Outcome'

print("Вектор меток Y:")
print(Y.head())
print("\nМатрица признаков X:")
print(X.head())

Вектор меток Y:
0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

Матрица признаков X:
   Pregnancies   Glucose  BloodPressure  SkinThickness   Insulin       BMI  \
0     0.639947  0.866045      -0.031990       0.831114 -0.608201  0.167240   
1    -0.844885 -1.205066      -0.528319       0.180566 -0.608201 -0.851551   
2     1.233880  2.016662      -0.693761      -0.469981 -0.608201 -1.331838   
3    -0.844885 -1.073567      -0.528319      -0.469981 -0.006185 -0.633239   
4    -1.141852  0.504422      -2.679076       0.831114  0.695378  1.549885   

   DiabetesPedigreeFunction       Age  
0                  0.468492  1.425995  
1                 -0.365061 -0.190672  
2                  0.604397 -0.105584  
3                 -0.920763 -1.041549  
4                  5.484909 -0.020496  


In [None]:
from sklearn.model_selection import train_test_split
#   est_size=0.2 указывает, что 20% данных отводится на тестовую выборку.
#random_state=42 фиксирует случайное разбиение для воспроизводимости.
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

print("Размер обучающей выборки X_train:", X_train.shape)
print("Размер тестовой выборки X_test:", X_test.shape)
print("Размер вектора меток Y_train:", Y_train.shape)
print("Размер вектора меток Y_test:", Y_test.shape)

Размер обучающей выборки X_train: (614, 8)
Размер тестовой выборки X_test: (154, 8)
Размер вектора меток Y_train: (614,)
Размер вектора меток Y_test: (154,)


In [None]:
#DecisionTreeClassifier: Это класс, который реализует алгоритм дерева решений для классификации.
#fit: Метод, который обучает модель на предоставленных данных.
from sklearn.tree import DecisionTreeClassifier

# Создание экземпляра модели дерева решений
model = DecisionTreeClassifier(random_state=42)

# Обучение модели на обучающей выборке
model.fit(X_train, Y_train)

# Проверка, что модель обучена
print("Модель обучена.")

Модель обучена.


In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Предсказание меток на тестовой выборке
Y_pred = model.predict(X_test)

# Оценка точности
accuracy = accuracy_score(Y_test, Y_pred)
print(f"Точность модели (Accuracy): {accuracy:.2f}")

# Матрица ошибок
conf_matrix = confusion_matrix(Y_test, Y_pred)
print("\nМатрица ошибок:")
print(conf_matrix)

# Отчет о классификации
class_report = classification_report(Y_test, Y_pred)
print("\nОтчет о классификации:")
print(class_report)

Точность модели (Accuracy): 0.73

Матрица ошибок:
[[74 25]
 [17 38]]

Отчет о классификации:
              precision    recall  f1-score   support

           0       0.81      0.75      0.78        99
           1       0.60      0.69      0.64        55

    accuracy                           0.73       154
   macro avg       0.71      0.72      0.71       154
weighted avg       0.74      0.73      0.73       154



In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

# Определение параметров для подбора
#max_depth: Этот гиперпараметр определяет максимальную глубину дерева решений. Глубина дерева — это максимальное количество уровней от корня до листа.
#max_features: Этот гиперпараметр задает максимальное количество признаков, которые рассматриваются при поиске лучшего разбиения в каждом узле дерева.
param_grid = {
    'max_depth': [None, 5, 10, 15, 20],
    'max_features': ['sqrt', 'log2', None]  # Убрано 'auto'
}

# Создание модели дерева решений
model = DecisionTreeClassifier(random_state=42)

# Создание экземпляра GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid,
                           scoring='accuracy', cv=5, n_jobs=-1, verbose=1)

# Обучение модели с подбором гиперпараметров
grid_search.fit(X_train, Y_train)

# Вывод лучших параметров и лучшей точности
print(f"Лучшие параметры: {grid_search.best_params_}")
print(f"Лучшая точность: {grid_search.best_score_:.2f}")

Fitting 5 folds for each of 15 candidates, totalling 75 fits
Лучшие параметры: {'max_depth': 5, 'max_features': None}
Лучшая точность: 0.74


In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Используем лучшие параметры для создания новой модели
best_model = DecisionTreeClassifier(max_depth=grid_search.best_params_['max_depth'],
                                     max_features=grid_search.best_params_['max_features'],
                                     random_state=42)

# Обучение новой модели на обучающей выборке
best_model.fit(X_train, Y_train)

# Предсказание меток на тестовой выборке
Y_pred = best_model.predict(X_test)

# Оценка точности
accuracy = accuracy_score(Y_test, Y_pred)
print(f"Точность модели после улучшения: {accuracy:.2f}")

# Матрица ошибок
conf_matrix = confusion_matrix(Y_test, Y_pred)
print("\nМатрица ошибок:")
print(conf_matrix)

# Отчет о классификации
class_report = classification_report(Y_test, Y_pred)
print("\nОтчет о классификации:")
print(class_report)

Точность модели после улучшения: 0.79

Матрица ошибок:
[[84 15]
 [18 37]]

Отчет о классификации:
              precision    recall  f1-score   support

           0       0.82      0.85      0.84        99
           1       0.71      0.67      0.69        55

    accuracy                           0.79       154
   macro avg       0.77      0.76      0.76       154
weighted avg       0.78      0.79      0.78       154



In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Создание и обучение модели KNN
knn_model = KNeighborsClassifier()
knn_model.fit(X_train, Y_train)

In [None]:
# Предсказание меток на тестовой выборке
Y_pred_knn = knn_model.predict(X_test)

# Оценка точности
accuracy_knn = accuracy_score(Y_test, Y_pred_knn)
print(f"Точность модели KNN: {accuracy_knn:.2f}")

# Матрица ошибок
conf_matrix_knn = confusion_matrix(Y_test, Y_pred_knn)
print("\nМатрица ошибок KNN:")
print(conf_matrix_knn)

# Отчет о классификации
class_report_knn = classification_report(Y_test, Y_pred_knn)
print("\nОтчет о классификации KNN:")
print(class_report_knn)

Точность модели KNN: 0.75

Матрица ошибок KNN:
[[79 20]
 [19 36]]

Отчет о классификации KNN:
              precision    recall  f1-score   support

           0       0.81      0.80      0.80        99
           1       0.64      0.65      0.65        55

    accuracy                           0.75       154
   macro avg       0.72      0.73      0.73       154
weighted avg       0.75      0.75      0.75       154



In [None]:
from sklearn.model_selection import GridSearchCV

# Определение параметров для подбора
#По умолчанию используется 
#𝑘
#=
#5
#k=5 (5 ближайших соседей) и weights='uniform' (все соседи имеют равный вес).
param_grid_knn = {
    'n_neighbors': [3, 5, 7, 9, 11],
    'weights': ['uniform', 'distance']
}

# Создание экземпляра GridSearchCV для KNN
grid_search_knn = GridSearchCV(estimator=knn_model, param_grid=param_grid_knn,
                                scoring='accuracy', cv=5, n_jobs=-1, verbose=1)

# Обучение модели с подбором гиперпараметров
grid_search_knn.fit(X_train, Y_train)

# Вывод лучших параметров и лучшей точности
print(f"Лучшие параметры KNN: {grid_search_knn.best_params_}")
print(f"Лучшая точность KNN: {grid_search_knn.best_score_:.2f}")

Fitting 5 folds for each of 10 candidates, totalling 50 fits
Лучшие параметры KNN: {'n_neighbors': 9, 'weights': 'uniform'}
Лучшая точность KNN: 0.77


In [None]:
# Используем лучшие параметры для создания новой модели KNN
best_knn_model = KNeighborsClassifier(n_neighbors=grid_search_knn.best_params_['n_neighbors'],
                                      weights=grid_search_knn.best_params_['weights'])

# Обучение новой модели на обучающей выборке
best_knn_model.fit(X_train, Y_train)

# Предсказание меток на тестовой выборке
Y_pred_best_knn = best_knn_model.predict(X_test)

# Оценка точности
accuracy_best_knn = accuracy_score(Y_test, Y_pred_best_knn)
print(f"Точность модели KNN после улучшения: {accuracy_best_knn:.2f}")

# Матрица ошибок
conf_matrix_best_knn = confusion_matrix(Y_test, Y_pred_best_knn)
print("\nМатрица ошибок KNN после улучшения:")
print(conf_matrix_best_knn)

# Отчет о классификации
class_report_best_knn = classification_report(Y_test, Y_pred_best_knn)
print("\nОтчет о классификации KNN после улучшения:")
print(class_report_best_knn)

Точность модели KNN после улучшения: 0.71

Матрица ошибок KNN после улучшения:
[[81 18]
 [26 29]]

Отчет о классификации KNN после улучшения:
              precision    recall  f1-score   support

           0       0.76      0.82      0.79        99
           1       0.62      0.53      0.57        55

    accuracy                           0.71       154
   macro avg       0.69      0.67      0.68       154
weighted avg       0.71      0.71      0.71       154



In [None]:
from sklearn.ensemble import RandomForestClassifier

# Создание и обучение модели случайного леса
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, Y_train)

In [None]:
# Предсказание меток на тестовой выборке
Y_pred_rf = rf_model.predict(X_test)

# Оценка точности
accuracy_rf = accuracy_score(Y_test, Y_pred_rf)
print(f"Точность модели случайного леса: {accuracy_rf:.2f}")

# Матрица ошибок
conf_matrix_rf = confusion_matrix(Y_test, Y_pred_rf)
print("\nМатрица ошибок случайного леса:")
print(conf_matrix_rf)

# Отчет о классификации
class_report_rf = classification_report(Y_test, Y_pred_rf)
print("\nОтчет о классификации случайного леса:")
print(class_report_rf)

Точность модели случайного леса: 0.76

Матрица ошибок случайного леса:
[[80 19]
 [18 37]]

Отчет о классификации случайного леса:
              precision    recall  f1-score   support

           0       0.82      0.81      0.81        99
           1       0.66      0.67      0.67        55

    accuracy                           0.76       154
   macro avg       0.74      0.74      0.74       154
weighted avg       0.76      0.76      0.76       154



In [None]:
# Определение параметров для подбора
#n_estimators: количество деревьев в лесу ([50, 100, 200]).
#max_depth: максимальная глубина деревьев ([None, 10, 20], где None означает отсутствие ограничения).
#max_features: количество признаков, рассматриваемых при поиске лучшего разбиения (['sqrt', 'log2', None], где None означает использование всех признаков).
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'max_features': ['sqrt', 'log2', None]  # Убедитесь, что 'auto' убрано
}

# Создание экземпляра GridSearchCV для случайного леса
grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=param_grid_rf,
                               scoring='accuracy', cv=5, n_jobs=-1, verbose=1)

# Обучение модели с подбором гиперпараметров
grid_search_rf.fit(X_train, Y_train)

# Вывод лучших параметров и лучшей точности
print(f"Лучшие параметры случайного леса: {grid_search_rf.best_params_}")
print(f"Лучшая точность случайного леса: {grid_search_rf.best_score_:.2f}")

Fitting 5 folds for each of 27 candidates, totalling 135 fits
Лучшие параметры случайного леса: {'max_depth': 10, 'max_features': 'log2', 'n_estimators': 50}
Лучшая точность случайного леса: 0.78


In [None]:
# Используем лучшие параметры для создания новой модели случайного леса
best_rf_model = RandomForestClassifier(n_estimators=grid_search_rf.best_params_['n_estimators'],
                                       max_depth=grid_search_rf.best_params_['max_depth'],
                                       max_features=grid_search_rf.best_params_['max_features'],
                                       random_state=42)

# Обучение новой модели на обучающей выборке
best_rf_model.fit(X_train, Y_train)

# Предсказание меток на тестовой выборке
Y_pred_best_rf = best_rf_model.predict(X_test)

# Оценка точности
accuracy_best_rf = accuracy_score(Y_test, Y_pred_best_rf)
print(f"Точность модели случайного леса после улучшения: {accuracy_best_rf:.2f}")

# Матрица ошибок
conf_matrix_best_rf = confusion_matrix(Y_test, Y_pred_best_rf)
print("\nМатрица ошибок случайного леса после улучшения:")
print(conf_matrix_best_rf)

# Отчет о классификации
class_report_best_rf = classification_report(Y_test, Y_pred_best_rf)
print("\nОтчет о классификации случайного леса после улучшения:")
print(class_report_best_rf)

Точность модели случайного леса после улучшения: 0.77

Матрица ошибок случайного леса после улучшения:
[[79 20]
 [16 39]]

Отчет о классификации случайного леса после улучшения:
              precision    recall  f1-score   support

           0       0.83      0.80      0.81        99
           1       0.66      0.71      0.68        55

    accuracy                           0.77       154
   macro avg       0.75      0.75      0.75       154
weighted avg       0.77      0.77      0.77       154

