# Задание 1

Город разбит на квадраты и для каждого квадрата известно количество людей, живущих и работающих на территории этого квадрата. Эти данные находятся в файле `data.csv`. Например, на территории квадрата `85881` живет 101 человек и работает 28 человек.

Также город разбит на административные районы, их существенно меньше. Для каждого квадрата известно то, с какими районами он пересекается и по какой части своей площади. Эти данные находятся в файле `area2district.csv`. Например, примерно 38% площади квадрата `91422` составляет район `55`.

От Вас требуется предложить способ (и реализовать его) расчета количества людей, живущих и работающих в каждом административном районе соответственно. Можно считать, что внутри каждого квадрата люди распределены равномерно.

Требования:
   * В каждом районе должно жить и работать целое неотрицательное количество людей
   * Сумма проживающих и работающих жителей города не должна измениться

В данной задаче нет строго критерия оценивания, но важно сделать упор на скорость работы, в частности не рекомендуется пользоваться циклами `for`. 

In [1]:
import pandas as pd

df_cell2adm = pd.read_csv('area2district.csv', sep=',')
df_data = pd.read_csv('data.csv', sep=',')

Для начала посчитаем сумму работающих и сидящих дома людей для всех квадратов, чтобы потом сравнить с результатом:

In [2]:
df_cell2adm.head()

Unnamed: 0,areaid,districtid,percent
0,89012,478,1.0
1,123048,55,0.984496
2,34536,7,1.0
3,91422,55,0.380014
4,106142,55,0.912069


In [45]:
df_data.head()

Unnamed: 0,areaid,home,job
0,144639,1,1
1,146472,1,1
2,18242,2,1
3,85881,101,28
4,27667,136,48


Соединим таблицы квадратов и районов, используя areaid как ключ

In [4]:
df_data_cell = df_data.join(df_cell2adm.set_index('areaid'), on='areaid')

In [10]:
df_data_cell

Unnamed: 0,areaid,home,job,districtid,percent
0,144639,1,1,466,1.0
1,146472,1,1,397,1.0
2,18242,2,1,285,1.0
3,85881,101,28,285,1.0
4,27667,136,48,285,1.0
...,...,...,...,...,...
146291,81040,16,8,297,1.0
146292,187221,15,6,472,1.0
146293,115926,9,2,47,1.0
146294,43848,3,0,5,1.0


Посчитаем долю людей для каждого района в одном квадрате, сколько не хватает, допишем

In [11]:
def calculate(num, div):
    '''Функция для промежуточных вычислений разницы округления
    num - разница между эталоном и округленным значением
    div - количество районов'''
    return [num // div + (1 if x < num % div else 0)  for x in range (div)]

Все люди распределены равномерно, возьмем разницу от округления и равномерно допишем по районам недостающее количество людей

In [33]:
def count_in_square(data):
    person_home = round(data['home'] * data ['percent']) 
    person_job = round(data['job'] * data['percent'])
    delta_home = data['home'].iloc[0] - sum(person_home) 
    delta_job = data['job'].iloc[0] - sum(person_job)
    district_num_list_home = calculate(delta_home, len(data))
    district_num_list_job = calculate(delta_job, len(data))
    data['person_home'] = person_home + district_num_list_home
    data['person_job'] = person_job + district_num_list_job
    return data

In [34]:
square_count = df_data_cell.groupby(by='areaid').apply(count_in_square)
square_count

Unnamed: 0,areaid,home,job,districtid,percent,person_home,person_job
0,144639,1,1,466,1.0,1.0,1.0
1,146472,1,1,397,1.0,1.0,1.0
2,18242,2,1,285,1.0,2.0,1.0
3,85881,101,28,285,1.0,101.0,28.0
4,27667,136,48,285,1.0,136.0,48.0
...,...,...,...,...,...,...,...
146291,81040,16,8,297,1.0,16.0,8.0
146292,187221,15,6,472,1.0,15.0,6.0
146293,115926,9,2,47,1.0,9.0,2.0
146294,43848,3,0,5,1.0,3.0,0.0


Сгруппируем таблицу по районам, посчитаем сумму по районам и посмотрим на количество жителей

In [36]:
result_table = square_count.groupby(by='districtid').agg({'person_home':'sum','person_job':'sum'})
result_table

Unnamed: 0_level_0,person_home,person_job
districtid,Unnamed: 1_level_1,Unnamed: 2_level_1
1,32629.0,13564.0
2,3712.0,534.0
3,46331.0,18060.0
4,3969.0,1246.0
5,4832.0,392.0
...,...,...
474,5561.0,1933.0
476,53656.0,19838.0
477,125350.0,76264.0
478,12270.0,4151.0


Теперь проверим, изменилось ли у нас общее количество людей

In [38]:
df_data.sum()

areaid    13901796637
home         19160892
job           9111365
dtype: int64

In [39]:
result_table.sum()

person_home    19160892.0
person_job      9111365.0
dtype: float64

In [40]:
df_data.sum()['home'] - result_table.sum()['person_home']

0.0

In [41]:
df_data.sum()['job'] - result_table.sum()['person_job']

0.0

Видим, что общее количество людей у нас не изменилось, но данное решение использует цикл for (метод apply) и работает довольно долго, другое решение пока не придумано