# Описание проекта

Мы написали скрипт, с помощью которого загрузили все города России из Википедии:
1. Подключились к Википедии
2. Получили страницу со списков городов РФ
3. Сделали парсинг страницы
4. Сохранили обработанные данные в таблицу `city_data_good.csv`


Далее мы написали скрипт, с помощью которого получили координаты для списка городов РФ:
1. Подключились к геолокатору 
2. Получили координаты для всех городов списка
3. Сохранили список городов с координатами в csv файл

По частям загружали города с погодными данными из сайта open-meteo за последние 50 лет и сохранили обработанные данные в `group_1-5.csv`.

**Структура:**
- `date` - дата
- `city` - название города
- `temperature_2m` - температура °C
- `relative_humidity_2m` - влажность в процентах
- `rain` - дождь
- `snowfall` - снег
- `snow_depth` - глубина снега в см
- `is_day` - день или ночь
- `precipitation` - осадки в мм
- `wind_direction_100m` - направление ветра
- `wind_speed_100m` - скорость ветра м/с

**Цель:**

1. Соединить все таблицы `group_1-5.csv` с погодными данными в одну таблицу.
2. Обработать данные:
    - Принять решение, что делать с пропусками.
    - Выявить дубликаты, отфильтровать данные от 31.12.2024 до 01.01.1975.
    - Выявить мин. и макс. дату.
    - Обработать названия городов.
    - Присвоить координаты городов заместо их названий из таблицы `city_data_good.csv` и сохранить в общей таблице с погодой.
    - Выбрать один регион для работы с анализом погоды и дашбордами/графиками.

# Загрузка данных

In [1]:
pip install pandas numpy 

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\danil\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd
import numpy as np
import gc
pd.set_option('display.float_format', '{:.5f}'.format) 

In [3]:
gr1 = pd.read_csv('group_1.csv')
gr1.head()

Unnamed: 0,date,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m
0,1975-01-01 00:00:00+00:00,Алзамай,-19.5185,82.29417,0.0,0.0,0.6,0.0,0.0,165.96373,1.48432
1,1975-01-01 06:00:00+00:00,Алзамай,-16.5185,76.5923,0.0,0.0,0.6,1.0,0.0,203.9625,3.54559
2,1975-01-01 12:00:00+00:00,Алзамай,-19.4185,82.30859,0.0,0.0,0.6,0.0,0.0,212.61923,10.68539
3,1975-01-01 18:00:00+00:00,Алзамай,-22.3185,79.70546,0.0,0.0,0.6,0.0,0.0,208.44283,9.82609
4,1975-01-02 00:00:00+00:00,Алзамай,-23.4185,78.80305,0.0,0.0,0.6,0.0,0.0,226.27295,11.45796


In [4]:
gr2 = pd.read_csv('group_2.csv')
gr2.head()

Unnamed: 0,date,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m
0,1975-01-01 00:00:00+00:00,Белинский,-5.5325,82.54212,0.0,0.0,0.41,0,0.0,250.0168,33.70953
1,1975-01-01 06:00:00+00:00,Белинский,-6.3325,87.39032,0.0,0.0,0.41,1,0.0,227.44708,29.81052
2,1975-01-01 12:00:00+00:00,Белинский,-5.9825,87.08762,0.0,0.14,0.41,1,0.2,248.33397,28.27776
3,1975-01-01 18:00:00+00:00,Белинский,-5.1825,88.85844,0.0,0.28,0.41,0,0.4,292.97275,35.97299
4,1975-01-02 00:00:00+00:00,Белинский,-5.9825,87.76397,0.0,0.21,0.41,0,0.3,297.69937,32.52774


In [5]:
gr3 = pd.read_csv('group_3.csv')
gr3.head()

Unnamed: 0,date,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m
0,1975-01-01 00:00:00,Александров,-4.29,92.38054,0.0,0.14,0.25,0,0.2,302.61923,21.37078
1,1975-01-01 06:00:00,Александров,-5.438,89.86538,0.0,0.35,0.25,1,0.5,320.82635,25.07627
2,1975-01-01 12:00:00,Александров,-5.74,81.24101,0.0,0.07,0.25,1,0.1,309.17365,25.07627
3,1975-01-01 18:00:00,Александров,-7.39,86.60311,0.0,0.0,0.26,0,0.0,300.96368,25.18971
4,1975-01-02 00:00:00,Александров,-8.086,84.83804,0.0,0.0,0.26,0,0.0,285.17297,22.00716


In [6]:
gr4 = pd.read_csv('group_4.csv')
gr4.head()

Unnamed: 0.1,Unnamed: 0,date,city,temperature_2m,relative_humidirty_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m,relative_humidity_2m
0,0,1975-01-01 00:00:00,Анадырь,-26.25,74.7264,0.0,0.0,0.46,1,0.0,278.53067,21.84165,
1,1,1975-01-01 06:00:00,Анадырь,-25.95,75.48986,0.0,0.0,0.46,0,0.0,279.61966,21.54292,
2,2,1975-01-01 12:00:00,Анадырь,-26.85,75.66752,0.0,0.0,0.46,0,0.0,277.81522,18.53213,
3,3,1975-01-01 18:00:00,Анадырь,-26.95,75.64785,0.0,0.0,0.46,0,0.0,272.6025,15.85636,
4,4,1975-01-02 00:00:00,Анадырь,-27.75,76.21033,0.0,0.0,0.46,1,0.0,271.273,16.204,


In [7]:
gr4 = gr4.rename(columns={'datetime': 'date', 'relative_humidity_combined' : 'relative_humidity_2m'})

In [8]:
gr4_x = pd.read_csv('group_4_xenia.csv')
gr4_x.head()

Unnamed: 0,date,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m
0,1975-01-01 03:00:00+00:00,Бердск,-17.413,81.88778,0.0,0.0,0.15,1.0,0.0,174.55975,22.78262
1,1975-01-01 09:00:00+00:00,Бердск,-15.513,79.42696,0.0,0.0,0.15,1.0,0.0,167.95744,27.60756
2,1975-01-01 15:00:00+00:00,Бердск,-15.513,80.10293,0.0,0.0,0.15,0.0,0.0,167.8687,39.39986
3,1975-01-01 21:00:00+00:00,Бердск,-14.163,79.64375,0.0,0.0,0.15,0.0,0.0,166.20049,42.25977
4,1975-01-02 03:00:00+00:00,Бердск,-11.713,84.74131,0.0,0.63,0.15,1.0,0.9,175.55884,37.19168


In [9]:
gr5 = pd.read_csv('group_5.csv')
gr5.head()

Unnamed: 0.1,Unnamed: 0,date,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m
0,0.0,1975-05-15 00:00:00+00:00,Абинск,14.1525,97.43903,0.0,0.0,0.0,0,0.0,83.92764,17.01547
1,1.0,1975-05-15 06:00:00+00:00,Абинск,19.4525,76.69337,0.0,0.0,0.0,1,0.0,100.68486,19.41665
2,2.0,1975-05-15 12:00:00+00:00,Абинск,23.0525,69.19811,1.6,0.0,0.0,1,1.6,90.93917,21.96295
3,3.0,1975-05-15 18:00:00+00:00,Абинск,18.8525,91.29604,0.4,0.0,0.0,0,0.4,93.99084,15.51763
4,4.0,1975-05-16 00:00:00+00:00,Абинск,17.1025,93.84351,0.0,0.0,0.0,0,0.0,99.21095,13.494


In [10]:
crimea = pd.read_csv('full_crimea.csv')
crimea.head()

Unnamed: 0,date,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m
0,1975-01-01 03:00:00+00:00,Алупка,1.414,79.84605,0.0,0.49,0.01,0.0,0.7,29.1974,28.04305
1,1975-01-01 09:00:00+00:00,Алупка,1.314,73.32295,0.0,0.77,0.03,1.0,1.1,39.22566,22.77124
2,1975-01-01 15:00:00+00:00,Алупка,2.264,65.76073,0.0,0.0,0.03,0.0,0.0,44.09072,16.0392
3,1975-01-01 21:00:00+00:00,Алупка,0.964,76.59834,0.0,0.0,0.03,0.0,0.0,73.30067,11.27553
4,1975-01-02 03:00:00+00:00,Алупка,1.064,77.47085,0.0,0.0,0.03,0.0,0.0,64.05776,14.81259


In [11]:
dfs_to_merge = [gr1, gr2, gr3, gr4, gr5, crimea] # список с датасетами для слияния

def clean_data(df):
    float_columns = [
        'temperature_2m',
        'relative_humidity_2m',
        'rain',
        'snowfall',
        'snow_depth',
        'precipitation',
        'wind_direction_100m',
        'wind_speed_100m'
    ]
    # приводим типы
    for col in float_columns:
        if col in df.columns:
            df[col] = df[col].astype('float32')
    
    if 'is_day' in df.columns:
        df['is_day'] = df['is_day'].astype('bool')
    
    return df # возвращаем датасет

# очищаем каждый датафрейм и объединяем датасеты
union_all = pd.concat([clean_data(df) for df in dfs_to_merge])

In [12]:
union_all['datetime'] = pd.to_datetime(union_all['date'],format='%Y-%m-%d %H:%M:%S%z', errors='coerce').dt.tz_localize(None)
mask = union_all['datetime'].isna()
union_all.loc[mask, 'datetime'] = pd.to_datetime(union_all.loc[mask, 'date'], format='%Y-%m-%d %H:%M:%S', errors='coerce')
union_all = union_all.drop(['date', 'Unnamed: 0', 'relative_humidirty_2m'], axis=1, errors='ignore')
union_all = union_all.rename(columns={'datetime': 'date'})

In [13]:
union_all.head()

Unnamed: 0,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m,date
0,Алзамай,-19.5185,82.29417,0.0,0.0,0.6,False,0.0,165.96373,1.48432,1975-01-01 00:00:00
1,Алзамай,-16.5185,76.5923,0.0,0.0,0.6,True,0.0,203.96249,3.54559,1975-01-01 06:00:00
2,Алзамай,-19.4185,82.30859,0.0,0.0,0.6,False,0.0,212.61923,10.68539,1975-01-01 12:00:00
3,Алзамай,-22.3185,79.70546,0.0,0.0,0.6,False,0.0,208.44283,9.82609,1975-01-01 18:00:00
4,Алзамай,-23.4185,78.80305,0.0,0.0,0.6,False,0.0,226.27295,11.45796,1975-01-02 00:00:00


In [14]:
gc.collect()

20

In [15]:
union_all.head()

Unnamed: 0,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m,date
0,Алзамай,-19.5185,82.29417,0.0,0.0,0.6,False,0.0,165.96373,1.48432,1975-01-01 00:00:00
1,Алзамай,-16.5185,76.5923,0.0,0.0,0.6,True,0.0,203.96249,3.54559,1975-01-01 06:00:00
2,Алзамай,-19.4185,82.30859,0.0,0.0,0.6,False,0.0,212.61923,10.68539,1975-01-01 12:00:00
3,Алзамай,-22.3185,79.70546,0.0,0.0,0.6,False,0.0,208.44283,9.82609,1975-01-01 18:00:00
4,Алзамай,-23.4185,78.80305,0.0,0.0,0.6,False,0.0,226.27295,11.45796,1975-01-02 00:00:00


In [16]:
gc.collect()

0

In [17]:
union_all.duplicated().sum()

np.int64(784408)

In [18]:
union_all = union_all.drop_duplicates()

In [19]:
union_all.info()

<class 'pandas.core.frame.DataFrame'>
Index: 82010370 entries, 0 to 1178430
Data columns (total 11 columns):
 #   Column                Dtype         
---  ------                -----         
 0   city                  object        
 1   temperature_2m        float32       
 2   relative_humidity_2m  float32       
 3   rain                  float32       
 4   snowfall              float32       
 5   snow_depth            float32       
 6   is_day                bool          
 7   precipitation         float32       
 8   wind_direction_100m   float32       
 9   wind_speed_100m       float32       
 10  date                  datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float32(8), object(1)
memory usage: 4.4+ GB


In [20]:
union_all.to_csv('union_all_weather.csv')

In [21]:
city = pd.read_csv('city_data_good.csv')
city.head()

Unnamed: 0,id,name,region,federal_district,population,foundation_year,status,old_name,latitude,longitude
0,1,Абаза,Хакасия,Сибирский,12272,1867,1966,"Абаканский Завод, Абаканско-Заводское",52.65105,90.10116
1,2,Абакан,Хакасия,Сибирский,184769,1734,1931,Усть-Абаканское (до 1931),53.72068,91.4406
2,3,Абдулино,Оренбургская область,Приволжский,17274,1795,1923,,53.6828,53.6557
3,4,Абинск,Краснодарский край,Южный,39511,1863,1963,Абинское (до 1863); Абинская (до 1962),44.86495,38.15782
4,5,Агидель,Башкортостан,Приволжский,14219,1980,1991,,55.89928,53.93742


**Вывод:**
- датасет `union_all` содержит 82010370 строк
- типы данных указаны корректно
- были удалены дубликаты
- в таблице есть пропуски

# Предобработка данных

In [22]:
# основная информация о датафрейме
union_all.info()

<class 'pandas.core.frame.DataFrame'>
Index: 82010370 entries, 0 to 1178430
Data columns (total 11 columns):
 #   Column                Dtype         
---  ------                -----         
 0   city                  object        
 1   temperature_2m        float32       
 2   relative_humidity_2m  float32       
 3   rain                  float32       
 4   snowfall              float32       
 5   snow_depth            float32       
 6   is_day                bool          
 7   precipitation         float32       
 8   wind_direction_100m   float32       
 9   wind_speed_100m       float32       
 10  date                  datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float32(8), object(1)
memory usage: 4.4+ GB


In [23]:
# статистика
union_all.describe()

Unnamed: 0,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,precipitation,wind_direction_100m,wind_speed_100m,date
count,82009656.0,79452836.0,82009656.0,82009656.0,81251296.0,82009656.0,82009656.0,82009656.0,78083029
mean,4.64053,75.52439,0.26477,0.07181,0.13714,0.35753,195.53922,20.95279,1998-02-25 13:07:50.769713664
min,-59.9,4.79331,0.0,0.0,0.0,0.0,0.0,0.0,1944-12-31 21:00:00
25%,-3.522,65.90389,0.0,0.0,0.0,0.0,116.56499,13.75558,1985-08-03 18:00:00
50%,5.086,79.03446,0.0,0.0,0.0,0.0,208.77971,20.46941,1998-10-19 00:00:00
75%,14.714,88.0,0.0,0.0,0.22,0.1,274.18484,27.23894,2012-01-03 03:00:00
max,42.94,100.0,92.2,22.61,2.96,92.2,360.0,119.98427,2025-06-05 18:00:00
std,12.84685,16.1905,1.08877,0.32992,0.22919,1.18083,97.74938,9.9255,


In [24]:
# проверяем пропуски
union_all.isna().sum()

city                          0
temperature_2m              714
relative_humidity_2m    2557534
rain                        714
snowfall                    714
snow_depth               759074
is_day                        0
precipitation               714
wind_direction_100m         714
wind_speed_100m             714
date                    3927341
dtype: int64

In [25]:
# уникальные города
print("Количество городов:", union_all['city'].nunique())

Количество городов: 1055


In [26]:
# Проверим дубликаты по городу и дате
duplicates = union_all.duplicated(subset=['city', 'date'], keep=False)
print("Число дубликатов (city + date):", duplicates.sum())

# Удалим дубликаты, оставляя первое вхождение
df = union_all.drop_duplicates(subset=['city', 'date'], keep='first')
print("Осталось записей:", len(df))

Число дубликатов (city + date): 4409556
Осталось записей: 77829565


In [27]:
# сократим период данных до 2025 года
df = df[(df ['date'] >= '1975-01-01') & (df['date'] <= '2024-12-31 23:59:59')]
df.tail()

Unnamed: 0,city,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m,date
1177827,Ялта,3.1715,90.85362,0.0,0.0,0.0,False,0.0,273.99081,7.75881,2024-12-30 21:00:00
1177828,Ялта,3.6215,92.84475,0.0,0.0,0.0,False,0.0,327.72437,12.13499,2024-12-31 03:00:00
1177829,Ялта,7.8215,84.20792,0.0,0.0,0.0,True,0.0,329.74365,12.5032,2024-12-31 09:00:00
1177830,Ялта,5.2715,97.59443,0.0,0.0,0.0,False,0.0,325.30478,17.0763,2024-12-31 15:00:00
1177831,Ялта,3.9215,89.94291,0.0,0.0,0.0,False,0.0,334.05774,14.81259,2024-12-31 21:00:00


In [28]:
# определим минимальную и максимальную дату
min_date = df['date'].min()
max_date = df['date'].max()
print("Минимальная дата:", min_date)
print("Максимальная дата:", max_date)

Минимальная дата: 1975-01-01 00:00:00
Максимальная дата: 2024-12-31 21:00:00


In [29]:
# проверяем пропуски
df.isna().sum()

city                          0
temperature_2m                0
relative_humidity_2m    2556820
rain                          0
snowfall                      0
snow_depth               365260
is_day                        0
precipitation                 0
wind_direction_100m           0
wind_speed_100m               0
date                          0
dtype: int64

Исследуем пропуски в столбце `relative_humidity_2m`

In [30]:
missing_relative_humidity_2m = union_all[union_all['relative_humidity_2m'].isna()]
print(missing_relative_humidity_2m)

               city  temperature_2m  relative_humidity_2m  rain  snowfall  \
12965837  Алапаевск             NaN                   NaN   NaN       NaN   
12965838  Алапаевск             NaN                   NaN   NaN       NaN   
12965839  Алапаевск             NaN                   NaN   NaN       NaN   
12965840  Алапаевск             NaN                   NaN   NaN       NaN   
12965841  Алапаевск             NaN                   NaN   NaN       NaN   
...             ...             ...                   ...   ...       ...   
1178426        Ялта             NaN                   NaN   NaN       NaN   
1178427        Ялта             NaN                   NaN   NaN       NaN   
1178428        Ялта             NaN                   NaN   NaN       NaN   
1178429        Ялта             NaN                   NaN   NaN       NaN   
1178430        Ялта             NaN                   NaN   NaN       NaN   

          snow_depth  is_day  precipitation  wind_direction_100m  \
1296583

In [31]:
# Заменяем "_" на пробел в столбце 'city'
df['city'] = df['city'].str.replace('_', ' ', regex=False)


multi_word = df['city'].str.split().str.len() > 1
print("Список городов с названием из более чем одного слова:")
print(df.loc[multi_word, 'city'].unique())

Список городов с названием из более чем одного слова:
['Большой Камень' 'Вышний Волочёк' 'Красный Холм' 'Великий Новгород'
 'Старая Русса' 'Нижний Новгород' 'Мариинский Посад' 'Новая Ладога'
 'Вятские Поляны' 'Нижняя Тура' 'Дагестанские Огни' 'Старый Крым'
 'Новый Оскол' 'Красный Кут' 'Великие Луки' 'Старая Купавна'
 'Старый Оскол' 'Белая Холуница' 'Сергиев Посад' 'Лодейное Поле'
 'Ростов Великий' 'Великий Устюг' 'Верхняя Салда' 'Минеральные Воды'
 'Полярные Зори' 'Верхняя Тура' 'Белая Калитва' 'Сухой Лог' 'Новая Ляля'
 'Нижний Тагил' 'Малая Вишера' 'Гаврилов Посад' 'Мезень (город)'
 'Октябрьский (город)' 'Пугачёв (город)' 'Горячий Ключ' 'Верхний Уфалей'
 'Советская Гавань' 'Нижняя Салда' 'Сосновый Бор' 'Верхняя Пышма'
 'Петров Вал' 'Павловский Посад' 'Нижние Серги' 'Красный Сулин'
 'Верхний Тагил']


In [32]:
# Проверяем распределение пропусков по городам
snow_na_stats = df[df['snow_depth'].isna()]['city'].value_counts()
print("Города с наибольшим количеством пропусков snow_depth:\n", snow_na_stats.head(20))

Города с наибольшим количеством пропусков snow_depth:
 city
Геленджик           73052
Балтийск            73052
Мамоново            73052
Советская Гавань    73052
Гаджиево            73052
Name: count, dtype: int64


Если в столцбе `relative_humidity_2m` нет нулевых значений, значит причиной пропусков может послужить сбой в системе, сбой при загрузке данных с сайта. 

In [33]:
zero_humidity = df[df['relative_humidity_2m'] == 0]
print(f"Нулевая влажность: {len(zero_humidity)}")
print(f"Доля нулевых значений: {len(zero_humidity)/len(df):.2%}")

Нулевая влажность: 0
Доля нулевых значений: 0.00%


In [34]:
# Проверяем, есть ли нулевые значения
zero_snow = df[df['snow_depth'] == 0]
print(f"Количество записей с нулевой глубиной снега: {len(zero_snow)}")
print(f"Доля нулевых значений: {len(zero_snow)/len(df):.2%}")

# Анализ распределения нулей по городам
print("\nГорода с нулевой глубиной снега:")
print(zero_snow['city'].value_counts().head(10))

Количество записей с нулевой глубиной снега: 40769677
Доля нулевых значений: 55.48%

Города с нулевой глубиной снега:
city
Евпатория          134203
Феодосия           128718
Бахчисарай         125043
Красноперекопск    124639
Симферополь        120527
Алушта             115677
Ростов-на-Дону     114867
Старый Крым        109895
Саки               109338
Щёлкино            108547
Name: count, dtype: int64


Мы выявили города, в которых снега не бывает из-за теплого климата.

In [35]:
# Проверяем, есть ли города, где ВСЕ значения snow_depth - NaN
always_na_cities = df.groupby('city')['snow_depth'].apply(lambda x: x.isna().all())
print("Города, где всегда отсутствуют данные о снеге:")
print(always_na_cities[always_na_cities].index.tolist())

# Проверяем сезонность пропусков
print("\nРаспределение пропусков по месяцам:")

# Добавляем колонку месяца
df['month'] = df['date'].dt.month.astype('int8')
print(df[df['snow_depth'].isna()]['month'].value_counts().sort_index())

Города, где всегда отсутствуют данные о снеге:
['Балтийск', 'Гаджиево', 'Геленджик', 'Мамоново', 'Советская Гавань']

Распределение пропусков по месяцам:
month
1     31000
2     28260
3     31000
4     30000
5     31000
6     30000
7     31000
8     31000
9     30000
10    31000
11    30000
12    31000
Name: count, dtype: int64


In [36]:
# Просто оставляем как есть, работаем с NaN
print(f"Исходные пропуски: {df['snow_depth'].isna().sum()} из {len(df)}")
print("Это {:.1%} от всех данных".format(df['snow_depth'].isna().sum()/len(df)))

Исходные пропуски: 365260 из 73488312
Это 0.5% от всех данных


Было принято решение оставить пропуски в столбце `snow_depth`, так как он содержит нулевые значения, что означает отсутствие снега. Если заполним пропуски нулем, то можем исказить данные при последующем анализе и расчете. Возможно, пропуски появились из-за технических накладок или метеостанции не замеряли глубину снега в этих городах.

Далее присвоим координаты городов заместо их названий из датасета `city`.

In [37]:
# Заменим названия городов на ID
# Создаем уникальный ID на основе координат
city['city_id'] = (
    city['latitude'].round(4).astype(str) + 
    '_' + 
    city['longitude'].round(4).astype(str)
)

# Проверяем уникальность ID
print(f"Уникальных ID: {city['city_id'].nunique()}, всего городов: {len(city)}")

Уникальных ID: 1125, всего городов: 1125


In [38]:
# Соединяем данные с city_id
df = pd.merge(
    df,
    city[['name', 'city_id']],
    left_on='city',
    right_on='name',
    how='left'  
)

# Проверяем пропуски city_id
missing_cities = df[df['city_id'].isna()]['city'].value_counts()
print("Города без координат (city_id):")
print(missing_cities.head(20))

Города без координат (city_id):
city
Мезень (город)         73052
Октябрьский (город)    73052
Пугачёв (город)        73052
Name: count, dtype: int64


Выберем из датасета только один регион, который будем анализировать посредством визуализаций.

In [39]:
# Объединяем данные для получения данных только по одному региону
df_regions = pd.merge(
    df,
    city[['name', 'region']],  
    left_on='city',
    right_on='name',
    how='left'
)

In [40]:
# Выбираем регион, по которому будем выгружать данные
yakutia_data = df_regions[
    df_regions['region'].str.contains('Якутия', case=False, na=False)
]
print(yakutia_data['city'].unique())

['Олёкминск' 'Якутск' 'Удачный' 'Нерюнгри' 'Томмот' 'Среднеколымск'
 'Алдан' 'Покровск' 'Верхоянск' 'Ленск' 'Нюрба' 'Вилюйск']


In [41]:
# Удалим лишние колонки
yakutia_data = yakutia_data.drop(columns=['city', 'month', 'name_x', 'name_y', 'region'])

In [42]:
yakutia_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 875492 entries, 2775976 to 72766911
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   temperature_2m        875492 non-null  float32       
 1   relative_humidity_2m  875492 non-null  float32       
 2   rain                  875492 non-null  float32       
 3   snowfall              875492 non-null  float32       
 4   snow_depth            875492 non-null  float32       
 5   is_day                875492 non-null  bool          
 6   precipitation         875492 non-null  float32       
 7   wind_direction_100m   875492 non-null  float32       
 8   wind_speed_100m       875492 non-null  float32       
 9   date                  875492 non-null  datetime64[ns]
 10  city_id               875492 non-null  object        
dtypes: bool(1), datetime64[ns](1), float32(8), object(1)
memory usage: 47.6+ MB


In [43]:
yakutia_data.to_csv('yakutia_data.csv')

Мы получили данные по республике Саха (Якутия). Городам также присвоили ID в виде координат.

In [44]:
# Удаляем старые колонки (название и name из правой таблицы)
df = df.drop(columns=['city', 'name', 'month'])

Мы приняли решение убрать пропуски, так как их немного и на анализ не повлияют.

In [45]:
# Создаем копию перед удалением (на всякий случай)
df_clean = df.dropna(subset=['city_id']).copy()

# Проверяем результат
print(f"Было строк: {len(df)}")
print(f"Стало строк: {len(df_clean)}")
print(f"Удалено строк: {len(df) - len(df_clean)} ({291612/len(df)*100:.2f}%)")

Было строк: 74145244
Стало строк: 73926088
Удалено строк: 219156 (0.39%)


Мы удалили 3 города с пропусками: Мезень, Октябрьский, Пугачев.

In [46]:
df_clean.head()

Unnamed: 0,temperature_2m,relative_humidity_2m,rain,snowfall,snow_depth,is_day,precipitation,wind_direction_100m,wind_speed_100m,date,city_id
0,-19.5185,82.29417,0.0,0.0,0.6,False,0.0,165.96373,1.48432,1975-01-01 00:00:00,55.555_98.6654
1,-16.5185,76.5923,0.0,0.0,0.6,True,0.0,203.96249,3.54559,1975-01-01 06:00:00,55.555_98.6654
2,-19.4185,82.30859,0.0,0.0,0.6,False,0.0,212.61923,10.68539,1975-01-01 12:00:00,55.555_98.6654
3,-22.3185,79.70546,0.0,0.0,0.6,False,0.0,208.44283,9.82609,1975-01-01 18:00:00,55.555_98.6654
4,-23.4185,78.80305,0.0,0.0,0.6,False,0.0,226.27295,11.45796,1975-01-02 00:00:00,55.555_98.6654


In [47]:
df_clean.isna().sum()

temperature_2m                0
relative_humidity_2m    2556820
rain                          0
snowfall                      0
snow_depth               365260
is_day                        0
precipitation                 0
wind_direction_100m           0
wind_speed_100m               0
date                          0
city_id                       0
dtype: int64

Вернемся к пропускам в `relative_humidity_2m`. Мы заполним их с помощью иерархического подхода.
1. Заполняем по группе "город + месяц + час". Группируем данные по уникальным комбинациям. Для каждой группы пропуски заполняются медианой влажности в этой группе.

*Почему медиана?*
Медиана устойчива к выбросам.

2. Если в группе "город + месяц + час" нет данных, заполняем по "город + месяц". Если для конкретного часа в месяце нет данных, используем медиану за весь месяц.
3. Если всё ещё есть пропуски, заполняем общей медианой для строк, где не сработали предыдущие шаги.

In [48]:
# Добавляем месяц и час
df_clean['month'] = df_clean['date'].dt.month
df_clean['hour'] = df_clean['date'].dt.hour

# Заполняем иерархически
df_clean['relative_humidity_2m'] = df_clean.groupby(['city_id', 'month', 'hour'])['relative_humidity_2m'] \
    .transform(lambda x: x.fillna(x.median()))

# Если остались пропуски, заполняем по city_id + month
df_clean['relative_humidity_2m'] = df_clean.groupby(['city_id', 'month'])['relative_humidity_2m'] \
    .transform(lambda x: x.fillna(x.median()))

# Если всё ещё есть пропуски, заполняем общим median()
df_clean['relative_humidity_2m'] = df_clean['relative_humidity_2m'].fillna(
    df_clean['relative_humidity_2m'].median()
)

# Удаляем вспомогательные колонки
df_clean = df_clean.drop(columns=['month', 'hour'])
print("Осталось пропусков:", df_clean['relative_humidity_2m'].isna().sum())

  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  return np.nanmean(a, axis, ou

Осталось пропусков: 0


In [49]:
print("Осталось пропусков:", df_clean['relative_humidity_2m'].isna().sum())

Осталось пропусков: 0


In [50]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 73926088 entries, 0 to 74145243
Data columns (total 11 columns):
 #   Column                Dtype         
---  ------                -----         
 0   temperature_2m        float32       
 1   relative_humidity_2m  float32       
 2   rain                  float32       
 3   snowfall              float32       
 4   snow_depth            float32       
 5   is_day                bool          
 6   precipitation         float32       
 7   wind_direction_100m   float32       
 8   wind_speed_100m       float32       
 9   date                  datetime64[ns]
 10  city_id               object        
dtypes: bool(1), datetime64[ns](1), float32(8), object(1)
memory usage: 3.9+ GB


**Вывод:**
- у нас осталось 74145243 строк
- типы данных указаны корректно
- оставили пропуски в `snow_depth`
- больше нигде пропусков нет
- дубликатов нет
- изменили названия городов на их ID в виде координат

In [53]:
# Экспорт данных в csv файл
df_clean.to_csv('merged_data.csv', index=False, encoding='utf-8')