Нужно, используя `Spark`, `Ray datasets` или `Dask`
- найти явку (%) по всем регионам, результат отсортировать по убыванию
- выбрать  произвольного кандидата и найти тот избирательный участок, на котором он получил наибольший результат (учитывать участки на которых проголосовало больше 300 человек)
- найти регион, где разница между ТИК с наибольшей явкой и наименьшей максимальна (учитывать %)
- посчитать дисперсию по явке для каждого региона (по УИК)
- для каждого кандидата посчитать таблицу: результат (%, округленный до целого) - количество УИК, на которых кандидат получил данный результат


Результаты принимаются в виде `Jupyter Notebook`

In [1]:
import pandas as pd
import numpy as np
import dask.dataframe as dd

DATA_DIR = "./materials/tasks/cik.csv"

In [2]:
data = dd.read_csv(DATA_DIR)
data.head()

Unnamed: 0,regin,tik,uik,registered_voters,total_ballots,early_voters,tik_voters,home_voters,empty_ballots,home_ballots,...,missing_ballots,extra_ballots,baburin,grudinin,zhirinovsky,putin,sobchak,suraykin,titov,yavlinsky
0,Республика Адыгея (Адыгея),Адыгейская,УИК №1,2256,2181,0,2107,62,12,62,...,0,0,0,137,32,1977,14,0,1,5
1,Республика Адыгея (Адыгея),Адыгейская,УИК №2,2700,2633,0,2575,41,17,41,...,0,0,15,86,65,2389,13,5,6,15
2,Республика Адыгея (Адыгея),Адыгейская,УИК №3,2858,2752,0,2664,75,13,75,...,0,0,1,62,13,2645,6,3,4,0
3,Республика Адыгея (Адыгея),Адыгейская,УИК №4,2066,2034,0,1857,142,35,142,...,0,0,5,288,12,1642,21,6,2,2
4,Республика Адыгея (Адыгея),Адыгейская,УИК №5,700,714,0,676,11,27,11,...,0,0,2,44,6,624,6,0,0,2


In [3]:
def get_attendance(df):
    return (df["normal_ballots"] + df["bad_ballots"]) / df["registered_voters"]

In [4]:
# найти явку (%) по всем регионам, результат отсортировать по убыванию

data_attend = data[["regin", "registered_voters", "normal_ballots", "bad_ballots"]].groupby("regin").sum()
data_attend["attend"] = get_attendance(data_attend)
data_attend.compute().sort_values("attend", ascending=False)["attend"]

regin
Территория за пределами РФ             0.980182
Республика Тыва                        0.936254
Ямало-Ненецкий автономный округ        0.918721
Кабардино-Балкарская Республика        0.916979
Республика Северная Осетия - Алания    0.899370
                                         ...   
Забайкальский край                     0.579752
Тверская область                       0.575527
Новгородская область                   0.572796
Республика Карелия                     0.571452
Иркутская область                      0.556853
Name: attend, Length: 80, dtype: float64

In [5]:
# выбрать произвольного кандидата и найти тот избирательный участок,
# на котором он получил наибольший результат (учитывать участки, на которых проголосовало больше 300 человек)

candidate = "grudinin"
data[(data["normal_ballots"] > 300) & (data[candidate] == data[candidate].max())][["regin", "tik", "uik", candidate]].compute()

Unnamed: 0,regin,tik,uik,grudinin
52319,Московская область,Ленинская,УИК №1306,1141


In [6]:
# найти регион, где разница между ТИК с наибольшей явкой и наименьшей максимальна (учитывать %)


data_tik_attend = data[["regin", "tik", "registered_voters", "normal_ballots", "bad_ballots"]].groupby(["regin", "tik"]).sum()
data_tik_attend["attend"] = get_attendance(data_tik_attend)
region_min_attend, region_max_attend = data_tik_attend.groupby("regin")["attend"].min(), data_tik_attend.groupby("regin")["attend"].max()
max_range_region = (region_max_attend - region_min_attend).idxmax()
data_tik_attend.loc[max_range_region].sort_values("attend").compute()

Unnamed: 0_level_0,Unnamed: 1_level_0,registered_voters,normal_ballots,bad_ballots,attend
regin,tik,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Архангельская область,Верхнетоемская,14160,7037,34,0.499364
Архангельская область,"Архангельск, Исакогорская",26646,13249,116,0.501576
Архангельская область,Онежская,25929,13263,119,0.516102
Архангельская область,Лешуконская,6957,3588,10,0.517177
Архангельская область,"Архангельск, Соломбальская",62929,33060,310,0.53028
Архангельская область,Плесецкая,35107,18496,185,0.532116
Архангельская область,Виноградовская,13877,7411,46,0.537364
Архангельская область,Пинежская,21723,11673,71,0.540625
Архангельская область,Шенкурская,12263,6642,41,0.544973
Архангельская область,Устьянская,24605,13560,81,0.5544


In [7]:
# посчитать дисперсию по явке для каждого региона (по УИК)

data["attend"] = get_attendance(data)
data.groupby("regin")["attend"].var().compute()

regin
Алтайский край                     0.009840
Амурская область                   0.013917
Архангельская область              0.019866
Астраханская область               0.012645
Белгородская область               0.018929
                                     ...   
Чувашская Республика - Чувашия     0.017008
Чукотский автономный округ         0.010224
Ямало-Ненецкий автономный округ    0.008625
город Москва                       0.008085
город Санкт-Петербург              0.013723
Name: attend, Length: 80, dtype: float64

In [8]:
# для каждого кандидата посчитать таблицу: результат (%, округленный до целого) - количество УИК, на которых кандидат получил данный результат

candidates = [
    "baburin",
    "grudinin",
    "zhirinovsky",
    "putin",
    "sobchak",
    "suraykin",
    "titov",
    "yavlinsky",
]

cand_results = round(data[candidates].divide(data["normal_ballots"], axis=0).mul(100).compute())
cand_results.apply(pd.Series.value_counts)

Unnamed: 0,baburin,grudinin,zhirinovsky,putin,sobchak,suraykin,titov,yavlinsky
0.0,41958.0,1079.0,3528.0,1.0,26684.0,40148.0,46741.0,48737.0
1.0,46339.0,1680.0,3981.0,,34280.0,47310.0,38403.0,29054.0
2.0,3736.0,2338.0,4031.0,,17688.0,4018.0,6571.0,8734.0
3.0,510.0,2828.0,6156.0,,7434.0,765.0,866.0,3560.0
4.0,170.0,3317.0,9700.0,1.0,3438.0,245.0,175.0,1560.0
...,...,...,...,...,...,...,...,...
96.0,,,1.0,829.0,,,,
97.0,,,,729.0,,,,
98.0,,,,634.0,,,,
99.0,,,,349.0,,,,
