## Импорт данных с официального сайта Росстата

Ссыдка: https://rosstat.gov.ru/compendium/document/13282

Файл в формате xlsx: Chisl_nasel_RF_MO_01-01-2022.xlsx

In [124]:
import pandas as pd

In [125]:
# Загрузка файла со статистикой
file = 'Chisl_nasel_RF_MO_01-01-2022.xlsx'
xl = pd.ExcelFile(file)

In [126]:
# Загрузка вкладки с городами более 1 млн, удаление лишних строк
df1 = xl.parse('Таб_23')
df1 = df1[6:]
df1 = df1[:-2]
df1 = df1.drop(columns=['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5'])

In [127]:
# Загрузка вкладки с городами более 500 тыс и менее 1 млн, удаление лишних строк
df2 = xl.parse('Таб_24')
df2 = df2[5:]
df2 = df2[:-2]
df2 = df2.drop(columns=['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5'])

In [128]:
# Загрузка вкладки с городами более 250 тыс и менее 500 тыс, удаление лишних строк
df3 = xl.parse('Таб_25')
df3 = df3[5:]
df3 = df3[:-2]
df3 = df3.drop(columns=['Unnamed: 0', 'Unnamed: 2', 'Unnamed: 5'])

In [129]:
# Объединение всех групп городов в один массив, переименование колонок
frames = [df1, df2, df3]
result = pd.concat(frames)
result.rename(columns={'Содержание' : 'City', 'Unnamed: 3' : 'Pop_2022', 'Unnamed: 4' : 'Pop_2021'}, inplace = True)

In [130]:
# Удаление буквы г перед названием городов
for index, data in result.iterrows():
  data['City'] = data['City'][2:]

In [131]:
# Переиндексация строк, удаление старого индекса
result = result.sort_values(by=['Pop_2022'], ascending = False).reset_index()
result = result.drop(columns=['index'])

In [132]:
# Запись отчищенных данных
result.to_csv('rosstat_clean.csv', encoding ='cp1251')