📚 Практическая задача: Классификация социально-экономического статуса российских регионов с помощью логистической регрессии

Учебный вопрос 1: Формирование набора данных для применения логистической модели машинного обучения

🎯 Цель этапа:
Научиться готовить данные к обучению модели машинного обучения — чистить, преобразовывать типы, обрабатывать пропуски и формировать признаки и целевую переменную.

📝 Задание 1.1: Загрузите данные из файла

🔧 Инструкция:
Загрузите CSV-файл RussianRegionsProblem.csv в объект DataFrame с помощью библиотеки pandas. Используйте точку с запятой (;) как разделитель.

💡 Подсказка:
Для загрузки используйте функцию pd.read_csv() и укажите параметр sep=';'.

In [2]:
import pandas as pd

# Загрузите данные из файла
df = pd.read_csv('RussianRegionsProblem.csv', sep=';', on_bad_lines='skip')

# Выведите первые несколько строк датафрейма
df.head()

Unnamed: 0,Регион,Отношение медианных доходов к стоимости фиксированного набора товаров и услуг,"Доля населения за чертой бедности в 2024 г., %",Рейтинговый балл качества жизни (2024),"Изменение числа работающих за 2023 год, %","Доля безработных в IV квартале 2023 года, %",Рейтинговый балл по научно-техническому прогрессу,Рейтинговый балл по ЗОЖ,"Интегральный рейтинг по социально-экономическому развитию, баллы",Место в итоговом рейтинге
0,Алтайский край,147,121,47383,-19,34,3028,682,47114,61.0
1,Амурская область,206,95,45582,37,19,199,485,47097,64.0
2,Архангельская область,196,81,41326,-111,51,397,538,39939,56.0
3,Астраханская область,171,107,51323,3,33,2238,689,38224,
4,Белгородская область,226,44,65638,-3,34,4364,66,6069,16.0


✅ Результат: Вы получите структурированный набор данных, который можно использовать для дальнейшей обработки

📝 Задание 1.2: Проверьте данные на наличие пропусков
🔍 Цель задания:
На этом этапе мы хотим понять, есть ли в нашем датафрейме пустые (отсутствующие) значения , и если да — то в каких столбцах они находятся .

Пропущенные данные — это очень частая ситуация при работе с реальными данными. Они могут быть обозначены по-разному: как NaN, '-', "н/д", None, пустые строки и т.д.

В нашем случае в данных есть такие обозначения, как:
"н/д" — не данные,
"-" — отсутствие информации,
и, возможно, стандартные NaN, которые Python автоматически распознаёт как пропуски.

🔧 Что нужно сделать:
После того как вы загрузили данные, необходимо проверить, есть ли в каждом из столбцов пропущенные значения, и если есть — сколько их.

Для этого используется метод .isna() библиотеки pandas.

Метод .isna() проверяет каждый элемент в DataFrame и возвращает True, если значение пропущено (NaN), и False — если оно есть.

In [6]:
df.isna().sum()

Регион                                                                            0
Отношение медианных доходов к стоимости фиксированного набора товаров и услуг     0
Доля населения за чертой бедности в 2024 г., %                                    0
Рейтинговый балл качества жизни (2024)                                            0
Изменение числа работающих за 2023 год, %                                         0
Доля безработных в IV квартале 2023 года, %                                       0
Рейтинговый балл по научно-техническому прогрессу                                 0
Рейтинговый балл по ЗОЖ                                                           0
Интегральный рейтинг по социально-экономическому развитию, баллы                  0
Место в итоговом рейтинге                                                        14
Целевая_переменная                                                                0
dtype: int64

🧐 Вопрос:
Что выполняет данная строка кода?

📃 Ответ: она показывает общее число пропущенных значений (NaN) в каждом столбце.

📌 В наших данных есть ещё и текстовые обозначения пропусков — например, "н/д" или "-". Эти значения не считаются NaN , поэтому нам нужно заранее заменить их на NaN, чтобы корректно считать пропуски.

In [7]:
df = df.replace(['-', 'н/д', 'Н/Д'], pd.NA)
df.isna().sum()

Регион                                                                            0
Отношение медианных доходов к стоимости фиксированного набора товаров и услуг     4
Доля населения за чертой бедности в 2024 г., %                                    4
Рейтинговый балл качества жизни (2024)                                            4
Изменение числа работающих за 2023 год, %                                         4
Доля безработных в IV квартале 2023 года, %                                       4
Рейтинговый балл по научно-техническому прогрессу                                 4
Рейтинговый балл по ЗОЖ                                                           4
Интегральный рейтинг по социально-экономическому развитию, баллы                  4
Место в итоговом рейтинге                                                        14
Целевая_переменная                                                                0
dtype: int64

🧠 Почему это важно?
Наличие пропусков может повлиять на обучение модели.
Мы должны решить: удалить строки с пропусками, заполнить их средними значениями или оставить как есть.

📝 Задание 1.3: Удалите регионы без достаточного количества данных
🔍 Цель:
Удалить из датафрейма те строки (регионы), где отсутствует слишком много информации , чтобы их можно было использовать в обучении модели.

❗ Однако важно понимать:
Мы не удаляем регионы, у которых отсутствует только столбец "Место в итоговом рейтинге" , потому что такие регионы мы будем классифицировать позже с помощью модели.

🔧 Инструкция:
Мы уже заменили все значения '-' и 'н/д' на NaN, чтобы они считались пропусками.
Теперь удалим строки, где слишком много пропусков , например, если заполнено меньше 7 столбцов из 10

In [9]:
import numpy as np

#  Удаление строк с большим количеством пропусков
df_cleaned = df.dropna(thresh=7)  # оставляем только строки с минимум 7 непропущенными столбцами

# Проверка результата
print("Количество регионов после очистки:", len(df_cleaned))

Количество регионов после очистки: 85


📌 Метод .dropna() используется в библиотеке pandas для удаления строк или столбцов , которые содержат пропущенные значения (NaN)

📌 Параметр thresh (от англ. threshold — порог) позволяет задать минимальное количество заполненных значений (не NaN) в строке

✅ Результат:
Ты получишь новый DataFrame df_cleaned, в котором удалены "мусорные" строки.
В этом DataFrame остаются регионы, у которых почти все данные заполнены, даже если нет значения в столбце "Место в итоговом рейтинге".

💡 Подсказка:
Если хочешь посмотреть, какие именно регионы были удалены, можешь сделать так:

In [10]:
removed_regions = df[~df['Регион'].isin(df_cleaned['Регион'])]
print("Удалённые регионы:")
print(removed_regions['Регион'])

Удалённые регионы:
10     Донецкая Народная Республика
13              Запорожская область
30    Луганская Народная Республика
82               Херсонская область
Name: Регион, dtype: object


📝 Задание 1.4: Создайте целевую переменную

🔍 Цель:
Создать целевую переменную , где:

1 — лидер (место в рейтинге ≤ 30),
0 — отстающий (место > 30),
NaN — регион с неизвестным местом в рейтинге (мы будем его классифицировать позже).

Такой подход позволяет нам:
🔸 Явно видеть, какие регионы будут использоваться для обучения,
🔸 Отделить те, которые модель должна будет предсказать.

🔍 Повторение материалов лекции:

🧠 Что такое целевая переменная в задаче машинного обучения, и какую роль она играет при обучении нашей модели?

Ответ:
Целевая переменная (target variable) — это выходная величина , которую модель пытается предсказать на основе входных признаков.

🔹 В контексте задачи классификации, такой как наша:

Мы хотим определить, к какой категории относится объект (регион): "лидер" или "отстающий".
Целевая переменная принимает дискретные значения , например 0 или 1, где:
1 — регион является лидером (место в рейтинге ≤ 30),
0 — регион отстающий (место > 30),
NaN — неизвестный статус региона, который мы будем предсказывать.

🔹 В терминах машинного обучения:
Целевая переменная — это зависимая переменная , обозначаемая обычно как y.
Она используется для обучения модели , чтобы та могла находить закономерности во входных данных (признаках X) и делать предсказания на новых данных.
🔹 Например, в задаче логистической регрессии модель учится оценивать вероятность принадлежности объекта к классу 1 на основе функции сигмоиды, используя значения признаков и подобранные веса
🔹 Таким образом, целевая переменная — это "учитель" для модели : именно по ней модель понимает, какие комбинации входных признаков соответствуют тому или иному классу.

In [None]:
# Шаг 1: Преобразуем столбец "Место в итоговом рейтинге" в числовой формат
df_cleaned['Место в итоговом рейтинге'] = pd.to_numeric(df_cleaned['Место в итоговом рейтинге'], errors='coerce')

# Шаг 2: Создаём целевую переменную
def classify_region(row):
    place = row['Место в итоговом рейтинге']
    if pd.isna(place):  # Если место не определено
        return np.nan
    elif place <= 30:   # Лидер
        return 1
    else:               # Отстающий
        return 0

# Применяем функцию к каждой строке
df_cleaned['target'] = df_cleaned.apply(classify_region, axis=1)

# Проверяем результат
print("\nПримеры классификации регионов:")
print(df_cleaned[['Регион', 'Место в итоговом рейтинге', 'target']].head(15))

Ты столкнулся с предупреждением (warning) от pandas

Это предупреждение , а не ошибка, но оно важно — оно сигнализирует о потенциальной проблеме при работе с копиями и представлениями (view vs copy) в pandas

❓ Что означает это предупреждение?
Когда ты делаешь что-то вроде:

In [None]:
df_cleaned = df.dropna(thresh=7)

Ты создаешь новый объект df_cleaned, который, является независимой копией данных. Однако pandas не всегда может быть уверен в этом — иногда операции возвращают представление (view) исходного DataFrame.

Если ты потом изменяешь значения в df_cleaned, pandas не знает, хочешь ли ты:

▪️ Изменить только df_cleaned,
▪️ Или изменить и исходный df.
Чтобы избежать путаницы, он выводит предупреждение.

✅ Как исправить?
✔️ Решение: Явно создать копию
Лучший способ избежать SettingWithCopyWarning — явно создать копию DataFrame после фильтрации или очистки:

In [12]:
df_cleaned = df.dropna(thresh=7).copy()

Теперь df_cleaned гарантированно не связан с оригиналом, и предупреждения не будет.

Попробуем заново запустить наш код:

In [13]:
# Шаг 1: Преобразуем столбец "Место в итоговом рейтинге" в числовой формат
df_cleaned['Место в итоговом рейтинге'] = pd.to_numeric(df_cleaned['Место в итоговом рейтинге'], errors='coerce')

# Шаг 2: Создаём целевую переменную
def classify_region(row):
    place = row['Место в итоговом рейтинге']
    if pd.isna(place):  # Если место не определено
        return np.nan
    elif place <= 30:   # Лидер
        return 1
    else:               # Отстающий
        return 0

# Применяем функцию к каждой строке
df_cleaned['target'] = df_cleaned.apply(classify_region, axis=1)

# Проверяем результат
print("\nПримеры классификации регионов:")
print(df_cleaned[['Регион', 'Место в итоговом рейтинге', 'target']].head(15))


Примеры классификации регионов:
                             Регион  Место в итоговом рейтинге  target
0                    Алтайский край                       61.0     0.0
1                  Амурская область                       64.0     0.0
2             Архангельская область                       56.0     0.0
3              Астраханская область                        NaN     NaN
4              Белгородская область                       16.0     1.0
5                  Брянская область                       53.0     0.0
6              Владимирская область                       31.0     0.0
7             Волгоградская область                       29.0     1.0
8               Вологодская область                       44.0     0.0
9               Воронежская область                        NaN     NaN
11     Еврейская автономная область                       83.0     0.0
12               Забайкальский край                       78.0     0.0
14               Ивановская область         

📌 Выводы по заданию 1.4

✅ Мы успешно:

✔️ Создали целевую переменную (target) для задачи классификации:
1 — регион-лидер (место в рейтинге ≤ 30),
0 — отстающий регион (место > 30),
NaN — регион с неизвестным местом в рейтинге, который мы будем классифицировать с помощью модели.

✔️ Разделили данные на обучающие и прогнозируемые :
Регионы с известным статусом будут использованы для обучения модели.
Регионы с NaN в целевой переменной оставлены для последующего прогнозирования.

✔️ Научились правильно обрабатывать предупреждение SettingWithCopyWarning:
Использовали метод .copy() при создании df_cleaned, чтобы гарантировать, что это независимая копия данных.

📌 Задание 1.5: Выделите регионы с неизвестным местом в итоговом рейтинге

🔍 Цель:
Найти и выделить регионы, у которых отсутствует информация о месте в итоговом рейтинге , чтобы позже классифицировать их как "лидеры" или "отстающие" с помощью модели машинного обучения.

In [14]:
# Фильтруем регионы с пропущенным местом (NaN или '-')
unknown_regions = df_cleaned[df_cleaned['Место в итоговом рейтинге'].isna()]

# Удаляем из основного датафрейма эти строки — они не нужны для обучения
df_for_training = df_cleaned.drop(unknown_regions.index)

# Проверяем результат
print("Регионы с неизвестным местом в рейтинге:")
print(unknown_regions[['Регион', 'Место в итоговом рейтинге']])

print("\nКоличество регионов для обучения:", len(df_for_training))
print("Количество регионов для прогнозирования:", len(unknown_regions))

Регионы с неизвестным местом в рейтинге:
                  Регион  Место в итоговом рейтинге
3   Астраханская область                        NaN
9    Воронежская область                        NaN
14    Ивановская область                        NaN
23   Костромская область                        NaN
24    Краснодарский край                        NaN
49    Республика Бурятия                        NaN
52   Республика Калмыкия                        NaN
62    Республика Хакасия                        NaN
76      Тульская область                        NaN
77     Тюменская область                        NaN

Количество регионов для обучения: 75
Количество регионов для прогнозирования: 10


Что должно получиться:
Ты получишь два датафрейма:
df_for_training — данные для обучения модели,
unknown_regions — данные для прогнозирования.

📌 Вывод по первому учебному вопросу: Формирование набора данных для применения логистической модели машинного обучения
На данном этапе мы успешно:

🔻 Загрузили данные из файла RussianRegionsProblem.csv и обработали разделители.
🔻 Проверили данные на наличие пропусков и заменили нестандартные обозначения ('-', 'н/д') на NaN.
🔻 Очистили датафрейм от строк с большим количеством пропущенных значений, используя параметр thresh=7.
🔻 Создали целевую переменную target:
1 — лидер (место в рейтинге ≤ 30),
0 — отстающий (место > 30),
NaN — регион с неизвестным местом в рейтинге, который будет классифицироваться моделью.
🔻 Разделили данные на две части:
df_for_training — для обучения модели,
unknown_regions — для прогнозирования статуса региона.

Таким образом, мы подготовили данные к обучению модели логистической регрессии, сохранив возможность классифицировать регионы с неизвестным статусом.

🧠 Учебный вопрос 2: Обучение логистической регрессионной модели

🔹 Задание 2.1: Выделите признаки (X) и целевую переменную (y)
🔍 Цель: На этом этапе вы научитесь правильно выделять набор признаков (X) и целевую переменную (y) — ключевые элементы, необходимые для обучения любой модели машинного обучения.

X содержит все числовые показатели , которые модель будет использовать для принятия решения.
y содержит целевую переменную — класс региона (лидер или отстающий).

In [25]:
# Проверяем, что df_for_training загружен
print("Количество регионов для обучения:", len(df_for_training))

Количество регионов для обучения: 75


Выделим признаки (X) и целевую переменную (y)

In [27]:
# Выделяем матрицу признаков X (все числовые показатели)
X = df_for_training.drop(columns=['Регион', 'Место в итоговом рейтинге', 'target'])

# Выделяем целевую переменную y (0 - отстающий, 1 - лидер)
y = df_for_training['target']


❓ Вопрос:
Почему мы не включаем 'Место в итоговом рейтинге' в матрицу признаков?

💡 Подсказка:
Подумайте, как этот столбец связан с целевой переменной target.

🔹 Задание 2.2: Разделите данные на обучающую и тестовую выборки
🧠 Цель:
Научиться использовать функцию train_test_split() из библиотеки scikit-learn для разделения данных:
▪️ на обучающую выборку — чтобы обучить модель,
▪️ на тестовую выборку — чтобы оценить, насколько хорошо модель справляется с новыми данными.

In [None]:
from sklearn.model_selection import train_test_split

# Делим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X,                     # матрица признаков
    y,                     # целевая переменная
    test_size=0.3,         # 30% данных пойдёт в тестовую выборку
    random_state=42        # фиксируем случайность для воспроизводимости
)

# Выводим размеры выборок
print("Размер обучающей выборки:", len(X_train))
print("Размер тестовой выборки:", len(X_test))

После выполнения у вас будет 4 объекта:

X_train — признаки для обучения модели,
y_train — правильные ответы для обучения,
X_test — признаки для проверки модели,
y_test — правильные ответы для проверки.