In [1]:
# Стандартные библиотеки
import pandas as pd
import requests

# Сторонние библиотеки
import datetime

# Содержание
* [Обработка данных](#chapter1)
* [Описание признаков](#chapter2)

## Обработка данных <a class="anchor" id="chapter1"></a>


In [2]:
df = pd.read_csv(r'..\data\csv\housing_prices_mortgage_rates_1.csv')
print(df.shape)
df.head()


(9572, 10)


Unnamed: 0,date,key_rate,us_rate,inflation,region,avg_rate,weight_avg_rate,price,index,income
0,2019-01-01,,,,Алтайский край,9.87,9.87,44653.65,107.72,20502.222127
1,2019-01-01,7.75,694706.0,5.0,Сахалинская область,9.82,9.82,104951.18,129.42,54127.732117
2,2019-01-01,7.75,694706.0,5.0,Свердловская область,9.86,9.86,63200.01,105.06,33777.478886
3,2019-01-01,7.75,694706.0,5.0,Севастополь,10.49,10.49,65765.9,115.12,21086.930879
4,2019-01-01,7.75,694706.0,5.0,Смоленская область,9.9,9.9,40099.94,104.22,24548.672707


In [3]:
df.drop_duplicates()

Unnamed: 0,date,key_rate,us_rate,inflation,region,avg_rate,weight_avg_rate,price,index,income
0,2019-01-01,,,,Алтайский край,9.87,9.87,44653.65,107.72,20502.222127
1,2019-01-01,7.75,694706,5.00,Сахалинская область,9.82,9.82,104951.18,129.42,54127.732117
2,2019-01-01,7.75,694706,5.00,Свердловская область,9.86,9.86,63200.01,105.06,33777.478886
3,2019-01-01,7.75,694706,5.00,Севастополь,10.49,10.49,65765.90,115.12,21086.930879
4,2019-01-01,7.75,694706,5.00,Смоленская область,9.90,9.90,40099.94,104.22,24548.672707
...,...,...,...,...,...,...,...,...,...,...
9567,2024-07-01,16.00,857480,8.59,Кировская область,8.51,8.51,112219.50,116.73,43076.000000
9568,2024-07-01,16.00,857480,8.59,Костромская область,8.83,8.83,95204.88,114.60,46395.000000
9569,2024-07-01,16.00,857480,8.59,Краснодарский край,7.80,7.80,150644.14,110.00,62393.000000
9570,2024-07-01,16.00,857480,8.59,Калининградская область,8.16,8.16,121137.26,113.46,47070.000000


In [4]:
df.isna().sum()

date                0
key_rate           92
us_rate            92
inflation          92
region              0
avg_rate            0
weight_avg_rate     0
price               0
index               0
income              0
dtype: int64

In [5]:
missing_key_rate = df.loc[df['key_rate'].isnull()]
print(missing_key_rate['date'].unique())
print(missing_key_rate['region'].unique())

['2019-01-01']
['Алтайский край' 'Республика Дагестан' 'Республика Ингушетия'
 'Республика Калмыкия' 'Республика Карелия' 'Республика Коми'
 'Республика Крым' 'Республика Мордовия' 'Республика Саха (Якутия)'
 'Республика Тыва' 'Республика Хакасия' 'Республика Северная Осетия'
 'Республика Бурятия' 'Республика Башкортостан' 'Республика Марий Эл'
 'Республика Адыгея' 'Архангельская область' 'Республика Алтай'
 'Астраханская область' 'Белгородская область' 'Брянская область'
 'Владимирская область' 'Амурская область' 'Волгоградская область'
 'Воронежская область' 'Москва' 'Московская область' 'Мурманская область'
 'Ненецкий АО' 'Нижегородская область' 'Новгородская область'
 'Вологодская область' 'Омская область' 'Оренбургская область'
 'Орловская область' 'ПФО' 'Пензенская область' 'Пермский край'
 'Приморский край' 'Псковская область' 'Магаданская область'
 'Липецкая область' 'Новосибирская область' 'Курская область'
 'Ленинградская область' 'Еврейская АО' 'Забайкальский край'
 'Ивановс

Данные за 1 января до 9 января 2019 года отсутвуют, поэтому заполним их следующими значениями 

In [6]:
df['key_rate'] = df['key_rate'].fillna(7.75)
df['us_rate'] = df['us_rate'].fillna('67,0795')
df['inflation'] = df['inflation'].fillna(5.00)
df.isna().sum()

date               0
key_rate           0
us_rate            0
inflation          0
region             0
avg_rate           0
weight_avg_rate    0
price              0
index              0
income             0
dtype: int64

Изменим тип us_rate на float, но сначала заменим , на .

In [7]:
df['us_rate'] = df['us_rate'].str.replace(',', '.')

In [8]:
df['us_rate'] = df['us_rate'].astype('float')
df['date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9572 entries, 0 to 9571
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   date             9572 non-null   datetime64[ns]
 1   key_rate         9572 non-null   float64       
 2   us_rate          9572 non-null   float64       
 3   inflation        9572 non-null   float64       
 4   region           9572 non-null   object        
 5   avg_rate         9572 non-null   float64       
 6   weight_avg_rate  9572 non-null   float64       
 7   price            9572 non-null   float64       
 8   index            9572 non-null   float64       
 9   income           9572 non-null   float64       
dtypes: datetime64[ns](1), float64(8), object(1)
memory usage: 747.9+ KB


Округлим данные до двух знаков после запятой

In [10]:
df = df.round(2)

## Описание признаков <a class="anchor" id="chapter2"></a>

In [13]:
df.to_csv(r'..\data\csv\housing_prices_mortgage_rates.csv', index=False, encoding='utf-8')
df.head()

Unnamed: 0,date,key_rate,us_rate,inflation,region,avg_rate,weight_avg_rate,price,index,income
0,2019-01-01,7.75,67.08,5.0,Алтайский край,9.87,9.87,44653.65,107.72,20502.22
1,2019-01-01,7.75,69.47,5.0,Сахалинская область,9.82,9.82,104951.18,129.42,54127.73
2,2019-01-01,7.75,69.47,5.0,Свердловская область,9.86,9.86,63200.01,105.06,33777.48
3,2019-01-01,7.75,69.47,5.0,Севастополь,10.49,10.49,65765.9,115.12,21086.93
4,2019-01-01,7.75,69.47,5.0,Смоленская область,9.9,9.9,40099.94,104.22,24548.67


| Признак           | Описание                                                                 |
|-------------------|-------------------------------------------------------------------------|
| **`date`**        | Дата наблюдения.                                                       |
| **`key_rate`**    | Ключевая ставка Центрального банка на указанную дату (в процентах).     |
| **`us_rate`**     | Курс доллара США к рублю на указанную дату.                            |
| **`inflation`**   | Уровень инфляции на указанную дату (в процентах).                      |
| **`region`**      | Название региона, к которому относятся данные.     
| **`avg_rate`** | Средняя ставка по ипотеки, региональный разрез (в процентах). |                    |
| **`weight_avg_rate`** | Средневзвешенная ставка по ипотеки, региональный разрез(в процентах). |
| **`price`**       | Средняя цена на недвижимость в, региональный разрез(в рублях). |
| **`index`**       | Индекс, отражающий изменение какого-либо показателя (например, цен на недвижимость, уровня жизни). |
| **`income`**      | Средний доход населения в, региональный разрез(в рублях).                          |