# Основы работы с количественными данными

*Алла Тамбовцева*

## Практикум 4.1. Обработка и визуализация количественных данных

[Charity Navigator](https://www.charitynavigator.org/about-us/our-methodology/ratings/#accordion-0f1da9ef58-item-57920c7dce) – благотворительная организация, которая занимается независимой оценкой некоммерческих организаций в США. На основе налоговых деклараций и информации с сайтов самих некоммерческих организаций организация формирует числовые индексы качества работы организаций, а затем – рейтинги на основе этих индексов. Два основных направления оценки:

* финансовое благополучие;
* подотчётность и прозрачность.

Итак, есть индекс финансового благополучия *Financial Score* и индекс подотчётности и прозрачности *Accountability & Transparency Score*, оба индекса измерены в шкале от 0 до 100, где большие значения соответствуют лучшему качеству работы организации. Также сформирован общий индекс *Score*, в состав которого входят *Financial Score* и *Accountability & Transparency Score*.

Итак, в файле `charity_data.csv` хранится информация по некоммерческим организациям США. Некоторые показатели в файле:

* `name`: название организации;
* `category`: профиль организации;
* `description`: описание организации;
* `motto`: девиз организации;
* `size`: размер организации;
* `state`: штат, в котором находится организация;
* `ascore`: индекс подотчётности и прозрачности;
* `fscore`: индекс финансового благополучия;
* `score`: общий индекс качества работы организации.

## Часть 1: загружаем и фильтруем данные

In [None]:
import pandas as pd

### Задача 1

Загрузите данные из файла `charity_data.csv` и сохраните их в датафрейм `data`.

In [None]:
### YOUR CODE HERE ###

### Задача 2

Выведите «техническую» информацию по датафрейму `data`, включающую перечень столбцов, их типы и пропущенные значения.

In [None]:
### YOUR CODE HERE ###

### Задача 3

Выберите из датафрейма `data` столбцы `name`, `state`, `category`, `size`, `ascore`, `fscore`, `score` и сохраните их в новый датафрейм `char`.

*Подсказка:* пример выбора столбцов `A`, `B`, `C` из датафрейма `df`:

    df[["A", "B", "C"]]

In [None]:
### YOUR CODE HERE ###

### Задача 4

Выведите на экран описательные статистики для всех числовых столбцов датафрейма `char`. Прокомментируйте полученные результаты для столбца `fscore`. 

In [None]:
### YOUR CODE HERE ###

### Задача 5

Выведите на экран описательные статистики для столбца `ascore` с делением на группы по размеру организаций (столбец `size`). Прокомментируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

### Задача 6

Выведите уникальные значения и соответствующие им частоты для столбца `category`.

*Подсказка:* выберите столбец и примените к нему метод `.value_counts()`.

In [None]:
### YOUR CODE HERE ###

### Задача 7

Выберите из датафрейма `char`:

* строки, соответствующие организациям с профилем деятельности «здравоохранение» (`Health` в `category`);
* строки, соответствующие организациям со значением индекса подотчётности и прозрачности выше 90;
* строки, соответствующие организациям с профилем деятельности «здравоохранение» со значением индекса подотчётности и прозрачности не ниже 80.

In [None]:
### YOUR CODE HERE ###

### Задача 8

Выберите из датафрейма `char` строки, соответствующие профилям деятельности `Arts, Culture, Humanities` или `Education`. Сохраните их в датафрейм `chosen`. Во второй части практикума мы будем работать именно с датафреймом `chosen`.

In [None]:
### YOUR CODE HERE ###

## Часть 2: визуализируем данные

Для более продвинутой визуализации средств библиотеки `pandas` нам будет недостаточно, поэтому импортируем модуль `pyplot` из библиотеки `matplotlib` для построения графиков. Он обычно импортируется с сокращённым названием `plt`:

In [None]:
from matplotlib import pyplot as plt

В этом модуле есть функция `subplots()`, которая создает один или несколько подграфиков внутри одного изображения. Так, мы можем создать заготовку для одного графика:

In [None]:
plt.subplots()

А можем создать сетку из графиков из одной строки и трёх столбцов, то есть поставить три графика в один ряд:

In [None]:
plt.subplots(nrows = 1, ncols = 3)

Пока это набор из пустых координатных плоскостей (массив из осей `AxesSubplot`) внутри одной картинки (изображение `Figure` фиксированного размера). При дальнейшей работе мы будем вносить изменения в каждую координатную плоскость `AxesSubplot`, а затем обновлённый результат в `Figure` выгружать в файл, например, с расширением `.jpeg` или `.png`.

Для этого сохраним результаты, возвращённые функцией, в переменные. Проделаем это на примере одного графика. Так как первый результат – это изображение, его часто называют `fig` (от *figure*). Второй результат – это набор осей, его обычно сокращают до `ax` (*axes*).

In [None]:
fig, ax = plt.subplots();

### Задача 1

Постройте гистограмму для индекса подотчётности и прозрачности, измените цвет заливки и цвет границ столбцов. 

*Подсказка:* для построения примените метод `.hist()` к осям `ax`, в качестве аргумента внутри метода укажите соответствующий столбец таблицы.

In [None]:
fig, ax = plt.subplots();

### YOUR CODE HERE ###

### Задача 2

Добавьте к гистограмме, созданной выше:

* подписи по горизонтальной и вертикальной осям (методы `.set_xlabel()` и `.set_ylabel()`);
* координатную сетку (метод `.grid()`).

Чтобы убрать координатную сетку под график (иначе она перекрывает гистограмму, что не очень красиво), можно применить метод `.set_axisbelow()` и указать внутри `True`.

In [None]:
### YOUR CODE HERE ###

### Задача 3

Измените число столбцов в построенной гистограмме, указав желаемое число столбцов в аргументе `bins` внутри метода `.hist()`. Число столбцов выберите самостоятельно.

In [None]:
### YOUR CODE HERE ###

### Задача 4

Измените шаг построенной гистограммы – сделайте его равным стандартному отклонению показателя. Для этого сохраните в переменные `min_`, `max_` и `std_` минимум, максимум и стандартное отклонение, посчитанные по выборке в столбце `ascore`, и подставьте `new_bins` в аргумент `bins`.

In [None]:
import numpy as np

### YOUR CODE HERE ###

new_bins = np.arange(min_, max_ + 1, std_)

### YOUR CODE HERE ###

### Задача 5
 
Экспортируйте полученный график с гистограммой в файл `ascore_hist.png`. Для экспорта примените метод `.savefig()` к изображению `fig` и укажите в качестве аргумента внутри название файла.

In [None]:
### YOUR CODE HERE ###

### Задача 6

Постройте два графика в рамках одного изображения (два графика в одной строке):

* гистограмму для `ascore`;
* ящик с усами для `ascore`.

In [None]:
fig, axes = plt.subplots(nrows = 1, ncols = 2);

### YOUR CODE HERE ###

### Задача 7

По аналогии с предыдущей задачей постройте в рамках одного изображения гистограммы (каждая гистограмма в своём окне) для следующих показателей: 

* индекс финансового благополучия (`fscore`);
* индекс подотчётности и прозрачности (`ascore`);
* общий индекс качества работы (`score`).

In [None]:
### YOUR CODE HERE ###

## Часть 3: знакомство с библиотекой `seaborn`

В этой части практикума мы познакомимся ещё с одной графической библиотекой, которая была разработана специально для визуализации данных и построения графиков, используемых в статистике и прикладном анализе данных. Это библиотека `seaborn`, она представляет собой надстройку над библиотекой `matplotlib`, которую мы в этом практикуме активно использовали.

Установим эту библиотеку:

In [None]:
!pip install seaborn

Импортируем её с сокращённым названием `sns`:

In [None]:
import seaborn as sns

Установим тему всех последующих графиков (про темы см. [здесь](https://python-charts.com/seaborn/themes/)):

In [None]:
sns.set_theme(style = "whitegrid")

### Задача 1

Постройте гистограмму для индекса подотчётности и прозрачности, используя функцию `displot()` из библиотеки `seaborn`. При необходимости скорректируйте число или ширину столбцов.

*Подсказка:* внутри функции `displot()` в аргументе `data` указывается название датафрейма, а в аргументе `x` – название столбца; аргумент `bins` отвечает за число столбцов, а аргумент `binwidth` – за ширину столбцов.

In [None]:
### YOUR CODE HERE ###

### Задача 2

Постройте графики плотности индекса финансового благополучия с делением на группы по размеру организации.

*Подсказка:* в функцию `displot()` нужно добавить аргумент `kind="kde"` (оценка плотности вместо базовой гистограммы), в аргумент `hue` поместить название столбца – основания группировки; добавить заливку можно через аргумент `fill=True`.

In [None]:
### YOUR CODE HERE ###

### Задача 3

Постройте ящики с усами для индекса финансового благополучия с делением на группы по размеру организации, используя функцию `boxplot()` из библиотеки `seaborn`. 

*Подсказка:* внутри функции `boxplot()` в аргументе `data` указывается название датафрейма, в аргументе `y` – название столбца для визуализации, в аргументе `x` – название столбца, используемого как основание группировки.

In [None]:
### YOUR CODE HERE ###