# Основы работы с количественными данными

*Алла Тамбовцева*

## Практикум 2. Описательные статистики

[Charity Navigator](https://www.charitynavigator.org/about-us/our-methodology/ratings/#accordion-0f1da9ef58-item-57920c7dce) – благотворительная организация, которая занимается независимой оценкой некоммерческих организаций в США. На основе налоговых деклараций и информации с сайтов самих некоммерческих организаций организация формирует числовые индексы качества работы организаций, а затем – рейтинги на основе этих индексов. Два основных направления оценки:

* финансовое благополучие;
* подотчётность и прозрачность.

Итак, есть индекс финансового благополучия *Financial Score* и индекс подотчётности и прозрачности *Accountability & Transparency Score*, оба индекса измерены в шкале от 0 до 100, где большие значения соответствуют лучшему качеству работы организации. Также сформирован общий индекс *Score*, в состав которого с весами примерно 0.3 и 0.7 входят *Financial Score* и *Accountability & Transparency Score*.

## Часть 1: базовые описательные статистики и поиск нетипичных значений

В массиве `scores` сохранены значения итогового индекса качества работы НКО для организаций штата Мэриленд.

In [None]:
import numpy as np

In [None]:
scores = np.array([85.59, 85.81, 90.75, 90.04, 85.85, 81.58, 81.86,  
                  84.98, 60.29, 81.65, 98.23, 97.17, 96.66, 90.97,  
                  88.93, 90.20, 77.26, 82.30, 94.69, 90.94, 80.33, 
                  80.56, 75.80, 95.12, 82.58, 84.20, 82.13, 90.13,  
                  95.70, 87.58, 95.11, 89.48, 76.03, 83.95, 76.07,  
                  94.81, 82.26, 90.81, 50.19, 92.02, 78.86, 80.87,  
                  75.18, 87.87, 85.15, 93.31, 91.85, 83.08, 92.48,  
                  91.26, 86.15, 87.54, 79.87, 88.79, 87.39, 90.71,
                  85.34, 90.00, 83.56, 89.88, 95.00, 84.78, 87.77,  
                  85.43, 96.16, 82.79, 94.74, 86.07, 94.18, 90.31,  
                  89.87, 82.18, 70.41, 83.55, 88.53, 89.02, 91.57,  
                  86.10, 76.25, 28.86, 91.20, 91.36, 80.68, 93.31,  
                  92.22, 86.21, 75.84, 90.15, 82.37, 77.23, 100.0,  
                  97.17, 91.51, 78.71, 83.65, 90.58, 77.15, 73.76,  
                  93.98, 91.36, 88.57, 88.18, 79.90, 82.58, 79.84,  
                  86.20, 85.93, 96.17, 89.09, 88.05, 74.78, 89.35,
                  94.88, 90.71, 92.74, 80.71, 87.35, 85.88, 90.54,  
                  75.88, 87.25, 86.35, 85.81, 97.13, 91.29, 97.23,  
                  94.91, 96.74, 86.65, 79.24, 97.17, 87.17, 83.76,  
                  90.00, 90.45, 29.25, 89.44, 83.40, 90.22, 79.19,  
                  94.66, 76.31, 90.27, 92.92, 91.61, 82.11, 96.20,  
                  80.34, 99.83, 84.63, 67.46, 92.41, 92.38, 85.57,  
                  92.24, 88.56, 76.67, 80.81, 91.94, 83.22, 83.62,  
                  97.17, 70.94, 89.18, 84.66, 80.55, 82.93])

### Задача 1.1

Определите, данные по скольким организациям сохранены в массиве `scores`.

In [None]:
### YOUR CODE HERE ###

### Задача 1.2

Вычислите минимальное, максимальное, среднее и медианное значение индекса и сохраните результаты в переменные `min_`, `max_`, `mean_`, `median_` соответственно. Вычислите нижний и верхний квартили выборки, сохраните их в переменные `q1` и `q3`. 

*Подсказка:* функции `min()`, `max()`, `mean()` и `median()` из `np`; функция `quantile()` из `np`, на втором месте нужно указать уровень квантиля в виде дробного числа. 

Прокомментируйте полученные значения. Можно ли считать на этом этапе, что в выборке могут присутствовать нетипично маленькие или нетипично большие значения? Обоснуйте свой ответ.

In [None]:
### YOUR CODE HERE ###

### Задача 1.3

Используя посчитанные в предыдущей задаче описательные статистики, вычислите границы типичных значений и сохраните их в переменные `lower` и `upper`. Выберите значения из `scores`, которые являются нетипичными, и сохраните их в массив `out`. Посчитайте их количество.

In [None]:
### YOUR CODE HERE ###

### Задача 1.4

Выберите из `scores` типичные значения и сохраните их в массив `scores_typ`. Вычислите среднее и медиану выборки, сохранённой в `scores_typ`. Сравните полученные результаты со средним и медианой из задачи 1.2. Прокомментируйте сходства/различия.

In [None]:
### YOUR CODE HERE ###

## Часть 2: дисперсия и стандартное отклонение

Даны две выборки – два массива со значениями индекса качества работы некоммерческих организаций в штатах Орегон (`OR`) и Луизиана (`LA`).

In [None]:
OR = np.array([91.94, 84.18, 92.74, 90.17, 91.45, 83.26, 85.87, 
               93.49, 78.76, 95.77, 88.55, 83.43, 86.81, 89.39, 
               92.85, 91.31, 81.54, 89.68, 82.77, 91.32, 94.75, 
               89.51, 87.08, 90.24, 94.83, 92.8 , 96.45, 92.77, 
               90.76, 91.7 , 90.96, 89.18, 96.4 , 90.58, 91.78, 
               89.71, 86.48, 89.68, 94.17, 78.88, 89.93, 92.18, 
               93.31, 79.08, 90.89, 74.03, 90.22, 73.03, 95.57, 
               78.43, 86.84, 96.53, 87.37, 86.57, 86.33, 86.32, 
               93.91, 94.69, 86.28, 82.66, 84.05, 89.7 , 92.33,
               83.48, 97.58, 95.81, 84.37, 92.79, 92.24, 91.90, 
               93.09, 86.16, 88.63, 80.57, 78.05, 92.24, 67.12, 
               83.70, 70.49, 87.20, 75.05, 82.82, 82.81, 92.92, 
               91.16, 95.38, 92.56, 89.24, 86.00, 90.17, 86.84, 
               85.69, 95.93, 83.5 , 84.44, 95.34, 88.19, 89.27, 
               81.80, 92.87, 93.21, 89.63, 81.56, 93.04, 82.30, 
               83.77, 80.79, 95.77, 90.50, 92.06, 89.70, 93.04, 
               89.24, 91.02, 95.47])

LA = np.array([94.54, 90.70, 86.10, 67.93, 72.62, 96.30, 71.54, 
                86.72, 85.55, 73.05, 77.53, 72.39, 89.93, 94.07, 
                87.91, 87.44, 72.47, 71.13, 89.5 , 89.39, 82.42, 
                76.42, 77.27, 94.69, 65.56, 95.12, 59.85, 90.45, 
                92.54, 90.73, 85.22, 76.97, 92.41, 94.94, 96.46, 
                89.88, 79.73, 14.48, 86.02, 75.99, 81.30, 78.68, 
                83.70, 93.08, 97.82, 87.95, 85.48, 82.76, 87.30, 
                93.42, 96.66, 90.94, 90.02, 91.06, 85.85, 82.32, 
                83.73, 88.68, 92.22, 89.66])

### Задача 2.1

Вычислите число наблюдений в каждой выборке и сохраните их в переменные `n1` и `n2`.

In [None]:
### YOUR CODE HERE ###

### Задача 2.2

Вычислите среднее значение индекса по каждой выборке. В каком штате, в среднем, качество работы некоммерческих организаций выше?

In [None]:
### YOUR CODE HERE ###

### Задача 2.3

Вычислите дисперсию и стандартное отклонение индекса по каждой выборке. В каком штате значения индекса качества работы организаций более разнообразны?

*Подсказка:* функции `var()` и `std()` из `np`, для вычисления оценки с $n-1$ в знаменателе нужно добавить аргумент `ddof = 1`.

In [None]:
### YOUR CODE HERE ###

## Часть 3: взвешенное среднее

*Задача выбивается из контекста изучаемых данных, но она нужна для лучшего понимания дальнейших действий.*

В массиве `grades` сохранены оценки студента за элементы контроля на курсе по статистике, а в массиве `weights` – веса этих элементов контроля в оценке (сумма весов равна 1). Используя приведённые веса, вычислите взвешенное среднее оценок и округлите его до целых – это будет итоговая оценка студента за курс. 

*Подсказка:* для суммы элементов можно воспользоваться базовой функцией `sum()`.

Выведите на экран взвешенное среднее до округления и после. Осознайте, что с помощью одной-двух строк кода можно написать грустный рассказ о жизни студента Вышки.

In [None]:
grades = np.array([3, 4, 5, 2, 3])
weights = np.array([0.38, 0.28, 0.15, 0.09, 0.1])

### YOUR CODE HERE ###

## Часть 4: взвешенное среднее и нетипичные значения

В массиве `AR` сохранены значения индекса качества работы некоммерческих организаций в штате Арканзас:

In [None]:
AR = np.array([85.39, 74.57, 82.95, 78.05, 83.35, 60.50, 100.00, 87.02,  
               89.38, 83.56, 81.61, 68.33, 83.85, 74.89, 81.79, 89.38, 
               83.59, 82.15, 90.22, 86.51, 87.93, 83.32, 92.55, 85.27, 
               83.44, 88.23, 84.32, 92.92, 84.01, 77.30, 84.81])

Для выполнения следующих содержательных задач нам потребуется функция `where()` из `np`. Эта функция умеет выполнять две операции:

* возвращать индексы элементов, которые удовлетворяют сформулированному условию;
* заменять элементы, которые удовлетворяют сформулированному условию, на новые значения. 

Примеры работы этой функции:

In [None]:
# элементы с какими индексами из AR более 85

np.where(AR > 85)

In [None]:
# новый массив с 1 на тех местах, где значения AR более 85,
# и 0, где значения AR не более 85

np.where(AR > 85, 1, 0)

### Задача 4.1

Для выборки в массиве `AR` вычислите нижний и верхний квартили, межквартильный размах и нижнюю и верхнюю границы типичных значений, сохраните все результаты в переменные. Выведите на экран нетипичные значения выборки.

In [None]:
### YOUR CODE HERE ###

### Задача 4.2

Посчитайте для выборки взвешенное среднее, причём так, чтобы веса у типичных наблюдений были выше, чем у нетипичных. План вычислений такой:

* создать массив `w` с весами для каждого наблюдения; если значение типичное – его вес равен 1, если нетипичное – его вес равен 0.5; 
* поэлементно перемножить массивы `AR` и `w`, посчитать сумму произведений (как в задаче из предыдущей части);
* полученный результат делим на сумму весов – сумму элементов `w`.

*Подсказка:* функция `where()` пригодится для создания массива весов.

In [None]:
### YOUR CODE HERE ###

### Задача 4.3

Вычислите обычное среднее арифметическое по выборке `AR`. Сравните с полученным взвешенным средним. Прокомментируйте различия.

In [None]:
### YOUR CODE HERE ###