In [10]:
import pandas as pd

# Читаем исходный Excel
file_path = "chislo_bolnich_organiz.xls"
df_raw = pd.read_excel(file_path, header=2)  # строка 2 содержит годы

# Нормализуем названия колонок
df_raw.columns = [str(col).strip() for col in df_raw.columns]

# Целевой столбец и регион
year_col = '2023'
region_col = 'Unnamed: 0'

# Убираем строки без региона или значения
df_filtered = df_raw[[region_col, year_col]].dropna(subset=[region_col, year_col]).copy()

# Нормализация названий регионов
df_filtered[region_col] = df_filtered[region_col].str.strip()

# Список 87 субъектов РФ (после фильтрации агрегатов и пометок)
valid_regions = [
    'Белгородская область','Брянская область','Владимирская область','Воронежская область',
    'Ивановская область','Калужская область','Костромская область','Курская область',
    'Липецкая область','Московская область','Орловская область','Рязанская область',
    'Смоленская область','Тамбовская область','Тверская область','Тульская область',
    'Ярославская область','г. Москва','Республика Карелия','Республика Коми',
    'Архангельская область','Ненецкий автономный округ','Архангельская область (кроме Ненецкого автономного округа)',
    'Вологодская область','Калининградская область','Ленинградская область','Мурманская область',
    'Новгородская область','Псковская область','г.Санкт-Петербург','Республика Адыгея',
    'Республика Калмыкия','Республика Крым','Краснодарский край','Астраханская область',
    'Волгоградская область','Ростовская область','г.Севастополь','Республика Дагестан',
    'Республика Ингушетия','Кабардино-Балкарская Республика','Карачаево-Черкесская Республика',
    'Республика Северная Осетия - Алания','Чеченская Республика','Ставропольский край',
    'Республика Башкортостан','Республика Марий Эл','Республика Мордовия','Республика Татарстан',
    'Удмуртская Республика','Чувашская Республика','Пермский край','Кировская область',
    'Нижегородская область','Оренбургская область','Пензенская область','Самарская область',
    'Саратовская область','Ульяновская область','Курганская область','Свердловская область',
    'Тюменская область','Ханты-Мансийский автономный округ-Югра','Ямало-Ненецкий автономный округ',
    'Тюменская область (кроме Ханты-Мансийского автономного округа - Югры и Ямало-Ненецкого автономного округа)',
    'Челябинская область','Республика Алтай','Республика Тыва','Республика Хакасия',
    'Алтайский край','Красноярский край','Иркутская область','Кемеровская область',
    'Новосибирская область','Омская область','Томская область','Республика Бурятия',
    'Республика Саха (Якутия)','Забайкальский край','Камчатский край','Приморский край',
    'Хабаровский край','Амурская область','Магаданская область','Сахалинская область',
    'Еврейская автономная область','Чукотский автономный округ'
]

# Фильтруем по этим регионам
df_final = df_filtered[df_filtered[region_col].isin(valid_regions)].copy()

# Переименуем колонки для удобства
df_final.rename(columns={region_col:'region', year_col:'value'}, inplace=True)

# Приводим числовое значение к int
df_final['value'] = df_final['value'].astype(int)

# Сортируем по региону для удобства (опционально)
df_final.sort_values('region', inplace=True)
df_final.reset_index(drop=True, inplace=True)

# Сохраняем финальный CSV
df_final.to_csv('bolnich_2023_clean.csv', index=False)
