# Слияние таблиц, практика

Вам предоставлены данные по рынку недвижимости в регионах России по данным сайта Дом Клик: domclick.csv

Признаки в данных:

- rating_announcement - рейтинг регионов по количеству объявлений о продаже
- rating_announcement_change - изменение рейтинга регионов по количеству объявлений о продаже
- region - регион
- announcement_count - общее количество активных объявлений о продаже
- announcement_count_resale - активных объявлений, вторичка
- announcement_count_new - активных объявлений, новостройки
- avg_price_resale - cредняя стоимость м², вторичка
- avg_price_new - cредняя стоимость м², новостройки
- rating_loan - рейтинг регионов по количеству заявок на кредит
- rating_loan_change - изменение рейтинга регионов по количеству заявок на кредит
- min_numb_of_appr_loan - минимальное количество одобренных заявок
- share_of_onln_loan - доля онлайн-заявок на кредит
- share_of_office_loan - доля заявок в офисе банка

Вам предоставлены данные по субъектам РФ: FO.xlsx

Признаки в данных: 
- Субъект РФ	
- Всё население	
- % от общ. населения	
- Городское население	
- % городского населения	
- Сельское население	
- % сельского населения	
- Площадь	
- Плотность населения	
- Федеральный округ

In [1]:
import pandas as pd

In [18]:
dom = pd.read_csv('domclick.csv')
dom.head(2)

Unnamed: 0,rating_announcement,rating_announcement_change,region,announcement_count,announcement_count_resale,announcement_count_new,avg_price_resale,avg_price_new,rating_loan,rating_loan_change,min_numb_of_appr_loan,share_of_onln_loan,share_of_office_loan
0,1,0,Краснодарский край,228037,75809,52225.0,127764,132270.0,3,0,5000.0,0.47,0.53
1,2,0,Московская область,172242,57247,34838.0,153659,181756.0,1,1,10000.0,0.62,0.38


In [3]:
fo = pd.read_excel('FO.xlsx')
fo.head(5)

Unnamed: 0,Субъект РФ,Всёнаселение,% от общ. населения,Городскоенаселение,% городского населения,Сельскоенаселение,% сельского населения,Площадь,Плотность населения,Федеральный округ
0,Москва,13104177,8.95,13015126,99.32,0,0.0,2561,5116.82,ЦФО
1,Московская область,8591736,5.87,6703233,78.02,1839024,21.4,44329,193.82,ЦФО
2,Краснодарский край,5819345,3.97,3322319,57.09,2509723,43.13,75485,77.09,ЮФО
3,Санкт-Петербург,5600044,3.82,5607916,100.14,0,0.0,1403,3991.48,СЗФО
4,Свердловская область,4239161,2.89,3658528,86.3,605163,14.28,194307,21.82,УФО


In [5]:
fo.columns = ['region', 'all', 'all_%',
       'city', 'city_%', 'village',
       'village_%', 'area', 'density',
       'FO']

In [6]:
fo.head()

Unnamed: 0,region,all,all_%,city,city_%,village,village_%,area,density,FO
0,Москва,13104177,8.95,13015126,99.32,0,0.0,2561,5116.82,ЦФО
1,Московская область,8591736,5.87,6703233,78.02,1839024,21.4,44329,193.82,ЦФО
2,Краснодарский край,5819345,3.97,3322319,57.09,2509723,43.13,75485,77.09,ЮФО
3,Санкт-Петербург,5600044,3.82,5607916,100.14,0,0.0,1403,3991.48,СЗФО
4,Свердловская область,4239161,2.89,3658528,86.3,605163,14.28,194307,21.82,УФО


### Задание 1

Создайте новый датафрейм, в котором к данным по рынку недвижимости у регионов будет проставлено всё население, % от общего населения

In [20]:
dom['region'] = dom['region'].str.capitalize()
fo['region'] = fo['region'].str.capitalize()

In [21]:
merged_table = dom.merge(fo[['region', 'all', 'all_%']], how='left', on='region')

In [23]:
merged_table.head(5)

Unnamed: 0,rating_announcement,rating_announcement_change,region,announcement_count,announcement_count_resale,announcement_count_new,avg_price_resale,avg_price_new,rating_loan,rating_loan_change,min_numb_of_appr_loan,share_of_onln_loan,share_of_office_loan,all,all_%
0,1,0,Краснодарский край,228037,75809,52225.0,127764,132270.0,3,0,5000.0,0.47,0.53,5819345.0,3.97
1,2,0,Московская область,172242,57247,34838.0,153659,181756.0,1,1,10000.0,0.62,0.38,8591736.0,5.87
2,3,0,Москва,145131,65638,56824.0,275281,315195.0,2,-1,10000.0,0.6,0.4,13104177.0,8.95
3,4,0,Санкт-петербург,93237,44008,40695.0,188425,236205.0,4,0,5000.0,0.53,0.47,5600044.0,3.82
4,5,1,Ростовская область,88638,41625,17202.0,93333,105500.0,11,-2,5000.0,0.46,0.54,4164547.0,2.84


### Задание 2

Создайте новый датафрейм, где будет агрегированная информация о том, сколько в сумме активных объявлений вторичек и новостроек в каждом федеральном округе.

In [33]:
active_fo = fo[['FO', 'region']].merge(dom[['announcement_count_resale',
                                'announcement_count_new','announcement_count',
                                'region']], how = 'left', on='region')

In [36]:
# Делаем сводную и выгружаем в эксель

active_fo.groupby('FO')[['announcement_count', 'announcement_count_resale', 'announcement_count_new']].sum().to_excel('Активные продажи по ФО.xlsx')

### Задание 3

Создайте новый датафрейм, где сохранится информация по населению в субъектах РФ, а также добавится информация по средней стоимости квадратного метра вторички и новостроек.

In [40]:
price = fo.merge(dom[['region', 'avg_price_resale', 'avg_price_new']], how='left', on='region')

In [41]:
price.head(5)

Unnamed: 0,region,all,all_%,city,city_%,village,village_%,area,density,FO,avg_price_resale,avg_price_new
0,Москва,13104177,8.95,13015126,99.32,0,0.0,2561,5116.82,ЦФО,275281.0,315195.0
1,Московская область,8591736,5.87,6703233,78.02,1839024,21.4,44329,193.82,ЦФО,153659.0,181756.0
2,Краснодарский край,5819345,3.97,3322319,57.09,2509723,43.13,75485,77.09,ЮФО,127764.0,132270.0
3,Санкт-петербург,5600044,3.82,5607916,100.14,0,0.0,1403,3991.48,СЗФО,188425.0,236205.0
4,Свердловская область,4239161,2.89,3658528,86.3,605163,14.28,194307,21.82,УФО,92459.0,115375.0


### Задание 4

Посмотрите на корреляцию между данными по субъектам РФ и стоимости квадратного метра.

In [44]:
price.corr(numeric_only=True)[['avg_price_resale', 'avg_price_new']]

Unnamed: 0,avg_price_resale,avg_price_new
all,0.630131,0.711905
all_%,0.630033,0.711731
city,0.689814,0.757557
city_%,0.329618,0.405525
village,0.008086,0.061844
village_%,-0.352624,-0.436669
area,0.13917,0.098578
density,0.728418,0.748813
avg_price_resale,1.0,0.927213
avg_price_new,0.927213,1.0
