# Основы анализа данных в Python

## Домашнее задание №3

### Формат сдачи задания

Для сдачи задания необходимо добавить в текущий ipynb-файл ячейки с кодом (и текстом, если требуются содержательные ответы на вопросы) после каждого задания, сохранить изменения и загрузить итоговый файл через запрос Dropbox по ссылке, предложенной преподавателем.

Всего за задание можно получить 16 баллов. 

Дедлайн: 7 октября 23:59.

### Контекст исследования и описание данных

В рамках этого задания вам предлагается поработать с данными, которые использовались в исследовании P.Loewen et al. "A Natural Experiment in Proposal Power and Electoral Success", посвященном факторам, влияющим на процент голосов за кандидатов, избираемых в Палату общин Канады. В числе прочего, авторы задавались следующими вопросами:
        
* правда ли, что кандидаты, которые обладают возможностью вносить предложения по бюджету и другим вопросам, в целом, получают больше голосов на выборах;

* отличается ли характер взаимосвязи между процентом голосов на выборах и реальной возможностью вносить предложения во время слушаний у кандидатов, которые занимают пост в правительстве, и кандидатов, которые с правительством не аффилированы.

Пояснение. С 2004 года для членов Палаты устраивается лотерея, в ходе которой между ними распределяются места в списке очередности, который определяет порядок, когда члены парламента могут выдвигать свои предложения и выносить их на голосование. Само по себе наличие такой лотереи позволяет наблюдать за естественным экспериментом. Эксперимент — потому что места распределяются случайно, естественный — потому что условия не контролируются исследователями, а являются реально существующей формальной процедурой. 
На основе мест в списке очередности авторы создают бинарный индикатор: 0 – no proposal power, 1 – proposal power.

Мы будем работать с сокращенной версией набора данных, сохраненной в CSV-файле. Полную версию (формат STATA) можно найти на [Harvard Dataverse](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/96KNLB).

Переменные в файле:
        
* `election`: год выборов;
* `province` и `district`: регион и избирательный округ;
* `candidate`: имя кандидата;
* `media_mentions`: число упоминаний в СМИ;
* `current_vote` и `previous_vote`: процент голосов на текущих и предыдущих выборах;
* `liberal`-`other`: относится ли кандидат к соответствующей партии;
* `gender`: пол кандидата;
* `place`: место в списке очередности;
* `p2p`:  обладает ли кандидат возможностью вносить предложения во время слушаний;
* `government`: занимает ли кандидат пост в правительстве.

Так имена кандидатов/партий написаны в том числе на французском (Квебек все-таки), при чтении файла без дополнительных опций могут возникнуть проблемы, решаются через добавление `engine`: 

In [6]:
import pandas as pd
canada = pd.read_csv("canada.csv", engine='python')

### Задача 1 (2 балла)

Постройте диаграмму рассеивания для
процента голосов за кандидатов на предыдущих выборах (`previous_vote`) и процента голосов на текущих выборах (`current_vote`). Подумайте, какой из показателей логичнее расположить по горизонтальной оси, а какой – по вертикальной. Приведите диаграмму в порядок: подберите тип и цвет точек, добавьте содержательные подписи к осям и сетку. Проинтерпретируйте полученный график: наличие/отсутствие связи, при наличии – ее характер.

### Задача 2 (2 балла)

Постройте столбиковую диаграмму для переменной `p2p`. Приведите график к порядок: выберите цвет заливки для каждой категории, добавьте содержательные подписи для осей и категорий. Каких кандидатов в нашей выборке больше?

### Задача 3 (4 балла)

Выберите строки, которые соответствуют кандидатам, занимающим пост в правительстве (`government`) и обладающим возможностью вносить предложения на слушаниях (`p2p`). Сохраните их в датафрейм `govern_power`. Строки, соответствующие кандидатам без такой возможности, но при этом имеющим пост в правительстве,  сохраните в датафрейм `govern_nopower`.

Постройте гистограммы для переменной `current_vote`, отдельно для каждой группы кандидатов, определенной выше. Чтобы гистограммы было удобно сравнивать, зафиксируйте границы по оси X от 0 до 100 процентов для обеих гистограмм – добавьте в функцию для построения гистограммы аргумент `range = [0, 100]`. 

Приведите гистограммы в порядок: выберите цвет заливки и цвет границ столбцов, добавьте содержательные подписи к осям.

Можно ли считать, что распределение процента голосов на текущих выборах сильно отличаются в случае, если кандидаты обладают возможностью вносить предложения и в случае, если они такой возможностью не обладают? Что можно сказать о среднем/медианном проценте голосов в этих группах?

### Задача 4 (4 балла)

Выберите строки, которые соответствуют кандидатам, *не* занимающим пост в правительстве (`government`) и обладающим возможностью вносить предложения на слушаниях (`p2p`). Сохраните их в датафрейм `opp_power`.
Строки, соответствующие кандидатам без такой возможности и при этом *не* имеющим пост в правительстве,  сохраните в датафрейм `opp_nopower`.

Постройте гистограммы для переменной `current_vote`, отдельно для каждой группы кандидатов, определенной выше. Приведите гистограммы в порядок: выберите цвет заливки и цвет границ столбцов, добавьте содержательные подписи к осям.

Можно ли считать, что распределение процента голосов на текущих выборах сильно отличаются в случае, если кандидаты обладают возможностью вносить предложения и в случае, если они такой возможностью не обладают? Что можно сказать о среднем/медианном проценте голосов в этих группах?

### Задача 5 (4 балла)

Используя подходящий статистический критерий, проверьте, отдельно для пары групп, полученной в задаче 4, и пары групп, полученной в задаче 5, можно ли считать средний процент голосов за кандидатов, имеющих возможность вносить предложения на слушаниях и кандидатов такой возможностью не обладающих, равным. Сравните полученные результаты с тем, что вы видели ранее на гистограммах, сделайте выводы. 