# Введение в регрессионный анализ

## Семинар 1. Вспоминаем  `pandas` и `scipy`. Критерий Стьюдента для двух выборок

*Алла Тамбовцева*

Теоретическая часть (с элементами практики)

* Списки, массивы, датафреймы
* Описательные статистики и простая группировка

Практическая часть (с элементами теории)

* Работа с данными Social Media Sentiments Analysis Dataset (файл `sentiment.csv`)
* Критерий Стьюдента для двух выборок

## Теоретическая часть (с элементами практики)

### Часть 1. Списки, массивы, датафреймы

На курсе по Python в прошлом году вы познакомились с последовательностями разных видов: строками (тип `string`), списками (тип `list`) и кортежами (тип `tuple`). Самой универсальной последовательностью из перечисленных является список – во-первых, он позволяет хранить элементы разных типов, а во-вторых, его можно изменять. 

Не будем смешивать типы, рассмотрим простой список из целых чисел. Пусть это будет выборка значений веса пингвинов, обитающих на острове Мечты в Антарктике (к более интересным данным мы перейдём во второй части семинара, пока у нас «техническая» часть). На этом острове обитают пингвины Адели и антарктические пингвины, которые довольно небольшие.

In [1]:
# вес в граммах

weight = [3250, 3900, 3300, 3900, 3325, 4150, 3950, 3550, 3300, 4650, 3150,
       3900, 3100, 4400, 3000, 4600, 3425, 2975, 3450, 4150, 3350, 3550,
       3800, 3500, 3950, 3600, 3550, 4300, 3400, 4450, 3300, 4300, 3700,
       4350, 2900, 4100, 3500, 4475, 3425, 3900, 3175, 3975, 3400, 4250,
       3400, 3475, 3050, 3725, 3000, 3650, 4250, 3475, 3450, 3750, 3700,
       4000, 3500, 3900, 3650, 3525, 3725, 3950, 3250, 3750, 4150, 3700,
       3800, 3775, 3700, 4050, 3575, 4050, 3300, 3700, 3450, 4400, 3600,
       3400, 2900, 3800, 3300, 4150, 3400, 3800, 3700, 4550, 3200, 4300,
       3350, 4100, 3600, 3900, 3850, 4800, 2700, 4500, 3950, 3650, 3550,
       3500, 3675, 4450, 3400, 4300, 3250, 3675, 3325, 3950, 3600, 4050,
       3350, 3450, 3250, 4050, 3800, 3525, 3950, 3650, 3650, 4000, 3400,
       3775, 4100, 3775]

Предположим, мы хотим выполнить стандартизацию этих данных (вспоминаем ТВиМС) – вычесть из каждого значения выборки её среднее $\bar{y}$ и поделить результат на её стандартное отклонение $s$:

$$
y' = \frac{y-\bar{y}}{s}.
$$

*(вспоминаем и привыкаем к формулам)*

$$
\bar{y} = \frac{\sum_{i=1}^{n}y_i}{n}; \text{ }
s^2 = \frac{\sum_{i=1}^{n}{(y_i - \bar{y})}^2}{n - 1}.
$$

Тут возникает сразу две проблемы:

* на списках не определены готовые методы, которые вычисляют среднее и стандартное отклонение;
* без циклов и аналогичных конструкций не обойтись – нужен перебор элементов. 

Давайте вспомним, как применить цикл `for` для решения этой задачи. 

>**Задача 1.** Используя только базовые функции Python и цикл `for`:
* вычислите выборочное среднее `avg` и выборочное стандартное отклонение `s`;
* получите список `weight_norm` со стандартизованными значениями выборки `weight`.

In [2]:
# считаем среднее
# для удобства сохраним объем выборки в n

n = len(weight)
avg = sum(weight) / n
print(avg)

3712.9032258064517


In [3]:
# считаем дисперсию и ст отклонение

squares = []
for w in weight:
    r = (w - avg) ** 2
    squares.append(r)
s2 = sum(squares) / (n - 1)
s = s2 ** 0.5 # корень из дисперсии
print(s)

416.64411163709883


In [4]:
# стандартизируем элементы списка
# выводим их в отсортированном виде

weight_norm = []
for w in weight:
    st = (w - avg) / s
    weight_norm.append(st)
print(sorted(weight_norm))

[-2.4310993423776033, -1.9510733575769301, -1.9510733575769301, -1.7710636132766777, -1.7110603651765934, -1.7110603651765934, -1.591053868976425, -1.4710473727762567, -1.3510408765760886, -1.2910376284760043, -1.2310343803759203, -1.111027884175752, -1.111027884175752, -1.111027884175752, -1.111027884175752, -0.9910213879755836, -0.9910213879755836, -0.9910213879755836, -0.9910213879755836, -0.9910213879755836, -0.9310181398754995, -0.9310181398754995, -0.8710148917754154, -0.8710148917754154, -0.8710148917754154, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.6910051474751628, -0.6910051474751628, -0.6310018993750787, -0.6310018993750787, -0.6310018993750787, -0.6310018993750787, -0.5709986512749946, -0.5709986512749946, -0.5109954031749104, -0.5109954031749104, -0.5109954031749104, -0.5109954031749104, -0.45099215507482626, -0.45099215507482626, -0.3909889069747421, -0.3909889069747421, -

>**Вопрос.** Есть ли в выборке пингвины, которые обладают весом, нехарактерно большим или нехарактерно маленьким для этого набора данных? Как это понять по стандартизованным значениям?

>**Ответ.** Есть. По правилу трёх сигм, 99.8% значений стандартной нормальной случайной величины лежат в интервале от -3 до 3, а 95%  значений – в интервале от -2 до 2. Здесь точно есть потенциально нехарактерные значения, по модулю превосходящие 2, но особого внимания требует самое большое число 2.61. Если вычислять границы нехарактерных значений более привычным способом, через межквартильный размах, выбросом окажется только наблюдение, чье стандартизованное значение как раз 2.61, остальные попадут в границы типичных.

Отлично! Всё получилось, однако это выглядит слишком громоздко, даже если мы заменим циклы списковыми включениями/генераторами списков. Поэтому перейдём к более удобной структуре данных – **массиву** из библиотеки `numpy` (сокращение от *Numeric Python*) для работы с числовыми массивами. Импортируем эту библиотеку с сокращённым названием:

In [5]:
import numpy as np

Создадим массив (*array*) на основе списка `weight` с помощью функции `array()`:

In [6]:
Weight = np.array(weight)

Вычислим безо всяких циклов среднее и стандартное отклонение – воспользуемся методами `.mean()` и `.std()`:

In [7]:
# ddof = 1, так как используем оценку с (n-1) в знаменателе

average = Weight.mean()
stdev = Weight.std(ddof=1)

print(average)
print(stdev)

3712.9032258064517
416.6441116370989


Ура! Что ещё замечательней – для стандартизации циклы нам тоже не понадобятся. Операции на массивах являются *векторизованными* (в некоторых языках программирования массивы называются векторами), то есть при применении к массиву они применяются к каждому элементу по отдельности:

In [8]:
(Weight - average) / stdev

array([-1.11102788,  0.44905657, -0.99102139,  0.44905657, -0.93101814,
        1.04908905,  0.56906306, -0.39098891, -0.99102139,  2.24915401,
       -1.35104088,  0.44905657, -1.47104737,  1.64912153, -1.71106037,
        2.12914751, -0.69100515, -1.77106361, -0.6310019 ,  1.04908905,
       -0.87101489, -0.39098891,  0.20904357, -0.5109954 ,  0.56906306,
       -0.27098241, -0.39098891,  1.40910854, -0.7510084 ,  1.76912802,
       -0.99102139,  1.40910854, -0.03096942,  1.52911503, -1.95107336,
        0.92908255, -0.5109954 ,  1.82913127, -0.69100515,  0.44905657,
       -1.29103763,  0.62906631, -0.7510084 ,  1.28910204, -0.7510084 ,
       -0.57099865, -1.59105387,  0.02903383, -1.71106037, -0.15097591,
        1.28910204, -0.57099865, -0.6310019 ,  0.08903708, -0.03096942,
        0.68906956, -0.5109954 ,  0.44905657, -0.15097591, -0.45099216,
        0.02903383,  0.56906306, -1.11102788,  0.08903708,  1.04908905,
       -0.03096942,  0.20904357,  0.14904033, -0.03096942,  0.80

Результат действия выше – тоже массив, сохраним его в переменную и выведем на экран (при выводе на экран запятые убираются для красоты):

In [9]:
Res = (Weight - average) / stdev
print(Res)

[-1.11102788  0.44905657 -0.99102139  0.44905657 -0.93101814  1.04908905
  0.56906306 -0.39098891 -0.99102139  2.24915401 -1.35104088  0.44905657
 -1.47104737  1.64912153 -1.71106037  2.12914751 -0.69100515 -1.77106361
 -0.6310019   1.04908905 -0.87101489 -0.39098891  0.20904357 -0.5109954
  0.56906306 -0.27098241 -0.39098891  1.40910854 -0.7510084   1.76912802
 -0.99102139  1.40910854 -0.03096942  1.52911503 -1.95107336  0.92908255
 -0.5109954   1.82913127 -0.69100515  0.44905657 -1.29103763  0.62906631
 -0.7510084   1.28910204 -0.7510084  -0.57099865 -1.59105387  0.02903383
 -1.71106037 -0.15097591  1.28910204 -0.57099865 -0.6310019   0.08903708
 -0.03096942  0.68906956 -0.5109954   0.44905657 -0.15097591 -0.45099216
  0.02903383  0.56906306 -1.11102788  0.08903708  1.04908905 -0.03096942
  0.20904357  0.14904033 -0.03096942  0.80907606 -0.33098566  0.80907606
 -0.99102139 -0.03096942 -0.6310019   1.64912153 -0.27098241 -0.7510084
 -1.95107336  0.20904357 -0.99102139  1.04908905 -0.7

>**Задача 2.** Создайте массив `Weight_kg` со значениями веса пингвинов в килограммах.

In [10]:
Weight_kg = Weight / 1000
print(Weight_kg)

[3.25  3.9   3.3   3.9   3.325 4.15  3.95  3.55  3.3   4.65  3.15  3.9
 3.1   4.4   3.    4.6   3.425 2.975 3.45  4.15  3.35  3.55  3.8   3.5
 3.95  3.6   3.55  4.3   3.4   4.45  3.3   4.3   3.7   4.35  2.9   4.1
 3.5   4.475 3.425 3.9   3.175 3.975 3.4   4.25  3.4   3.475 3.05  3.725
 3.    3.65  4.25  3.475 3.45  3.75  3.7   4.    3.5   3.9   3.65  3.525
 3.725 3.95  3.25  3.75  4.15  3.7   3.8   3.775 3.7   4.05  3.575 4.05
 3.3   3.7   3.45  4.4   3.6   3.4   2.9   3.8   3.3   4.15  3.4   3.8
 3.7   4.55  3.2   4.3   3.35  4.1   3.6   3.9   3.85  4.8   2.7   4.5
 3.95  3.65  3.55  3.5   3.675 4.45  3.4   4.3   3.25  3.675 3.325 3.95
 3.6   4.05  3.35  3.45  3.25  4.05  3.8   3.525 3.95  3.65  3.65  4.
 3.4   3.775 4.1   3.775]


Теперь посмотрим, как выбрать элементы массива, которые удовлетворяют некоторому условию. Допустим, мы хотим выбрать только тех пингвинов, чей вес превышает 4 килограмма. Сформулируем условие и проверим его выполнение для всех элементов массива:

In [11]:
Weight_kg > 4

array([False, False, False, False, False,  True, False, False, False,
        True, False, False, False,  True, False,  True, False, False,
       False,  True, False, False, False, False, False, False, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False, False, False, False, False,  True, False,
       False, False, False, False, False,  True, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False,  True, False, False, False, False,  True, False,  True,
       False, False, False,  True, False, False, False, False, False,
        True, False, False, False,  True, False,  True, False,  True,
       False, False, False,  True, False,  True, False, False, False,
       False, False,  True, False,  True, False, False, False, False,
       False,  True, False, False, False,  True, False, False, False,
       False, False, False, False, False,  True, False])

Операция сравнения вновь выполнена поэлементно, на месте элементов, для которых условие верно, стоит `True`, а на месте элементов, для которых условие неверно – `False`. А как отфильтровать сами значения? Поместить условие в квадратные скобки, они всегда используются для выбора элементов:

In [12]:
Weight_kg[Weight_kg > 4]

array([4.15 , 4.65 , 4.4  , 4.6  , 4.15 , 4.3  , 4.45 , 4.3  , 4.35 ,
       4.1  , 4.475, 4.25 , 4.25 , 4.15 , 4.05 , 4.05 , 4.4  , 4.15 ,
       4.55 , 4.3  , 4.1  , 4.8  , 4.5  , 4.45 , 4.3  , 4.05 , 4.05 ,
       4.1  ])

>**Дополнение.** Сам по себе массив из логических значений `True` и `False` (булев массив) тоже может быть полезен. Так, например, если мы не хотим отфильтровывать элементы, а хотим просто узнать количество значений, удовлетворящих некоторому условию, мы можем применить к такому массиву метод `.sum()`. Python умеет автоматически принимать `True` за 1, а `False` за 0, поэтому сумма в данном случае будет совпадать с числом `True`:

In [13]:
(Weight_kg > 4).sum()

28

Для объединения нескольких условий используются символьные операторы:

* `&` (символьное обозначение для `and`): оба условия верны;
* `|` (символьное обозначение для `or`): хотя бы одно из условий верно;
* `^` (во многих языках `xor`): ровно одно из условий верно.

Важно: каждая часть условия должна заключаться в круглые скобки, так как символьные операторы очень сильные, и условие Python будет читать, начиная с них, что приведёт либо к ошибкам `TypeError`, либо к некорректным результатам фильтрации. 

>**Задача 3.** Используя массив `Weight_kg`, выведите на экран:
* вес пингвинов не ниже 3.5 килограммов и не выше 4.5 килограммов;
* вес пингвинов ниже 3 килограммов или выше 4.5 килограммов.

In [14]:
print(Weight_kg[(Weight_kg >= 3.5) & (Weight_kg <= 4.5)])

[3.9   3.9   4.15  3.95  3.55  3.9   4.4   4.15  3.55  3.8   3.5   3.95
 3.6   3.55  4.3   4.45  4.3   3.7   4.35  4.1   3.5   4.475 3.9   3.975
 4.25  3.725 3.65  4.25  3.75  3.7   4.    3.5   3.9   3.65  3.525 3.725
 3.95  3.75  4.15  3.7   3.8   3.775 3.7   4.05  3.575 4.05  3.7   4.4
 3.6   3.8   4.15  3.8   3.7   4.3   4.1   3.6   3.9   3.85  4.5   3.95
 3.65  3.55  3.5   3.675 4.45  4.3   3.675 3.95  3.6   4.05  4.05  3.8
 3.525 3.95  3.65  3.65  4.    3.775 4.1   3.775]


In [15]:
# здесь подойдет вариант с | (хотя бы одно верно),
# и вариант с ^ (ровно одно верно), потому что 
# условия не могут выполняться одновременно

print(Weight_kg[(Weight_kg < 3) | (Weight_kg > 4.5)])

[4.65  4.6   2.975 2.9   2.9   4.55  4.8   2.7  ]


Отлично! Массивы – очень полезная структура в Python, однако долго на них останавливаться не будем, поскольку на практике мы часто имеем дело с таблицами или базами данных, а не с небольшими перечнями элементов. Тем не менее, отметим одну важную деталь: массивы всегда хранят данные только одного типа. Если в массив вперемешку вписать элементы разных типов, более сильный тип вытеснит более слабый:

In [16]:
# тип float вытеснил integer, все числа дробные
print(np.array([2, 6, 7, 8, 5.5, 3]))

# тип string вытеснил integer, всё в кавычках
print(np.array([0, 1, 0, 1, 0, 0, "0"]))

[2.  6.  7.  8.  5.5 3. ]
['0' '1' '0' '1' '0' '0' '0']


Эту особенность стоит иметь в виду при работе с реальными данными. Как мы сейчас увидим, на столбцы таблицы можно смотреть как на массивы, а это значит, что если на этапе описания числовых данных мы получаем что-то очень странное или сталкиваемся с сообщением об ошибке, не исключено, что в столбец с интересующим нам числовым показателем закрался текст (пробел, фраза `нет ответа`, дробное число с запятой вместо точки в качестве разделителя).

В завершение этой части на примере небольшой таблицы рассмотрим устройство датафрейма `pandas` – структуры, с которой мы будем постоянно работать. Импортируем библиотеку `pandas` для работы с данными в табличном виде:

In [17]:
import pandas as pd

Представим, что теперь помимо массива `Weight` у нас есть массив `Type` с указанием вида пингвина (данные по одним и тем же птицам, массивы одинаковой длины):

In [18]:
# Adelie – пингвины Адели
# Chinstrap – Антарктические пингвины

Type = np.array(['Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie', 'Adelie',
       'Adelie', 'Adelie', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap',
       'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap', 'Chinstrap'])

Объединим их в датафрейм `pandas` с двумя столбцами, `Weight` и `Type`:

In [19]:
df = pd.DataFrame({"Weight": Weight, "Type": Type})
df

Unnamed: 0,Weight,Type
0,3250,Adelie
1,3900,Adelie
2,3300,Adelie
3,3900,Adelie
4,3325,Adelie
...,...,...
119,4000,Chinstrap
120,3400,Chinstrap
121,3775,Chinstrap
122,4100,Chinstrap


Объект `df`, который мы только что получили, это **датафрейм** `pandas`. Как можно догадаться по коду выше, эта структура изнутри похожа на словарь, где ключами являются названия столбцов, а значениями – массивы. Действительно, вызов отдельного столбца производится также, как и выбор записи по ключу словаря:

In [20]:
df["Weight"]

0      3250
1      3900
2      3300
3      3900
4      3325
       ... 
119    4000
120    3400
121    3775
122    4100
123    3775
Name: Weight, Length: 124, dtype: int64

In [21]:
# среднее по столбцу
df["Weight"].mean()

3712.9032258064517

In [22]:
# ст отклонение
df["Weight"].std()

416.64411163709883

>Обратите внимание, тут уже нет `ddof=1`, однако результат тот же, что и раньше. Метод `.std()` в `pandas` выглядит так же, как в `numpy`, но настройки по умолчанию другие. Здесь автоматически вычисление производится по формуле с $n-1$ в знаменателе, так как такая оценка обладает более хорошими свойствами и используется чаще. 

Поработаем с этим маленьким датафреймом, чтобы вспомнить полезные функции и методы, а затем перейдём к реальным данным. 

### Часть 2. Описательные статистики и простая группировка

Выведем техническую информацию о датафрейме – применим метод `.info()`:

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 124 entries, 0 to 123
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Weight  124 non-null    int64 
 1   Type    124 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.1+ KB


Этот метод возвращает сводную информацию: 

* число строк и столбцов (здесь 124 строки и два столбца);
* названия столбцов;
* число заполненных ячеек в каждом столбце (здесь все заполнены, `124 non-null`);
* типы столбцов (первый столбец целочисленный `int64`, второй – текстовый `object`).

Отдельно запросим число строк и столбцов в датафрейме. Эта информация хранится в атрибуте `shape`:

In [24]:
print(df.shape)
print("Число строк:", df.shape[0])
print("Число столбцов", df.shape[1])

(124, 2)
Число строк: 124
Число столбцов 2


Выведем описательные статистики для всех числовых столбцов датафрейма, здесь такой один:

In [25]:
df.describe()

Unnamed: 0,Weight
count,124.0
mean,3712.903226
std,416.644112
min,2700.0
25%,3400.0
50%,3687.5
75%,3956.25
max,4800.0


>**Вопрос.** Проинтерпретируйте полученные значения.

>**Ответ.** Число заполненных ячеек (`count`) – число наблюдений равно 124, средний вес пингвинов (`mean`) равен примерно 3713 граммов, стандартное отклонение веса (`std`) равно 417 граммам. Вес самого лёгкого пингвина (`min`) 2700 граммов, вес самого тяжёлого (`max`) – 4800 граммов. Вес 25% пингвинов в выборке не превосходит 3400 граммов (нижний квартиль), вес 75% пингвинов не превосходит 3956 граммов (верхний квартиль). Медиана выборки равна 3687.5 граммам, то есть вес 50% пингвинов не выше этого значения. Среднее больше медианы, разница между верхним квартилем и максимумом почти 1000 граммов, что свидетельствует о наличии нетипично больших значений (таким как раз является максимум 4800). 

Запросим, наоборот, информацию только по текстовым столбцам датафрейма (тип `object` как аналог `string`):

In [26]:
df.describe(include = "object")

Unnamed: 0,Type
count,124
unique,2
top,Chinstrap
freq,68


>**Вопрос.** Проинтерпретируйте полученные значения.

>**Ответ.** Два уникальных значения в столбце (как мы знаем, это Adelie и Chinstrap), больше всего антарктических пингвинов Chinstrap (мода в `top`), их 68 (количество в `freq`).

Сгруппируем строки в датафрейме на основе значений столбца `Type` – воспользуемся методом `.groupby()`:

In [27]:
df.groupby("Type")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fccc0100bb0>

Метод `.groupby()` возвращает объект специального типа `GroupBy`, который изнутри похож на список с парами, где на первом месте стоит название группы, а на втором – датафрейм со строками, соответствующими этой группе. Можно убедиться в этом, запустив цикл ниже:

In [28]:
for g in df.groupby("Type"):
    print(g)

('Adelie',     Weight    Type
0     3250  Adelie
1     3900  Adelie
2     3300  Adelie
3     3900  Adelie
4     3325  Adelie
5     4150  Adelie
6     3950  Adelie
7     3550  Adelie
8     3300  Adelie
9     4650  Adelie
10    3150  Adelie
11    3900  Adelie
12    3100  Adelie
13    4400  Adelie
14    3000  Adelie
15    4600  Adelie
16    3425  Adelie
17    2975  Adelie
18    3450  Adelie
19    4150  Adelie
20    3350  Adelie
21    3550  Adelie
22    3800  Adelie
23    3500  Adelie
24    3950  Adelie
25    3600  Adelie
26    3550  Adelie
27    4300  Adelie
28    3400  Adelie
29    4450  Adelie
30    3300  Adelie
31    4300  Adelie
32    3700  Adelie
33    4350  Adelie
34    2900  Adelie
35    4100  Adelie
36    3500  Adelie
37    4475  Adelie
38    3425  Adelie
39    3900  Adelie
40    3175  Adelie
41    3975  Adelie
42    3400  Adelie
43    4250  Adelie
44    3400  Adelie
45    3475  Adelie
46    3050  Adelie
47    3725  Adelie
48    3000  Adelie
49    3650  Adelie
50    4250  Adelie
5

На что похож список пар? На словарь! А это означает, что из результата, полученного с помощью `.groupby()`, можно выбрать отдельный столбец (по его названию) и запросить для него описательные статистики с учётом деления на группы:

In [29]:
df.groupby("Type")["Weight"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Adelie,56.0,3688.392857,455.146437,2900.0,3387.5,3575.0,3981.25,4650.0
Chinstrap,68.0,3733.088235,384.335081,2700.0,3487.5,3700.0,3950.0,4800.0


Отдельные описательные статистики тоже можно получить, причём очень разными способами. Однако пока мы не будем в это углубляться, метод `.describe()` выводит перечень необходимых статистик, этого на этом этапе достаточно (кому интересно – посмотрите [документацию]() для метода `.agg()` с примерами его использования). Лучше посмотрим, как выбрать строки, которые соответствуют каждой группе.

Вспомним, как мы формулировали условия для массивов и проделаем то же для датафреймов. Проверим, какие строки соответствуют пингвинам Адели:

In [30]:
df["Type"] == "Adelie"

0       True
1       True
2       True
3       True
4       True
       ...  
119    False
120    False
121    False
122    False
123    False
Name: Type, Length: 124, dtype: bool

Как и в случае с массивами, мы получили набор из `True` и `False` (только теперь это не просто массив, а столбец датафрейма, обратите внимание на индексы значений слева, это номера строк в маленькой таблице из одного столбца). Поместим условие в квадратные скобки после `df` и отфильтруем строки:

In [31]:
df_a = df[df["Type"] == "Adelie"]
df_a

Unnamed: 0,Weight,Type
0,3250,Adelie
1,3900,Adelie
2,3300,Adelie
3,3900,Adelie
4,3325,Adelie
5,4150,Adelie
6,3950,Adelie
7,3550,Adelie
8,3300,Adelie
9,4650,Adelie


Поступим точно так же со вторым видом пингвинов:

In [32]:
df_c = df[df["Type"] == "Chinstrap"]
df_c

Unnamed: 0,Weight,Type
56,3500,Chinstrap
57,3900,Chinstrap
58,3650,Chinstrap
59,3525,Chinstrap
60,3725,Chinstrap
...,...,...
119,4000,Chinstrap
120,3400,Chinstrap
121,3775,Chinstrap
122,4100,Chinstrap


Ура! Мы рассмотрели все необходимые операции для практической части. Переходим к реальным данным.

## Практическая часть (с элементами теории)

Импортируем необходимые для работы библиотеки и модули:
    
* библиотека `pandas` для загрузки и обработки данных (уже импортировали выше, продублировано для универсальности);
* модуль `stats` из библиотеки `scipy` (от *Scientific Python*) для реализации статистических критериев.

In [33]:
import pandas as pd
from scipy import stats

Загрузим данные из файла `sentiment.csv` (доработанный файл с [Kaggle](https://www.kaggle.com/datasets/kashishparmar02/social-media-sentiments-analysis-dataset?select=sentimentdataset.csv)) и выведем на экран первые 10 строк датафрейма:

In [34]:
dat = pd.read_csv("sentiment.csv")
dat.head(10)

Unnamed: 0.1,Unnamed: 0,Text,Sentiment,Timestamp,User,Platform,Hashtags,Retweets,Likes,Country,Year,Month,Day,Hour
0,0,Enjoying a beautiful day at the park! ...,Positive,2023-01-15 12:30:00,User123,Twitter,#Nature #Park,15.0,30.0,USA,2023,1,15,12
1,2,Just finished an amazing workout! 💪 ...,Positive,2023-01-15 15:45:00,FitnessFan,Instagram,#Fitness #Workout,20.0,40.0,USA,2023,1,15,15
2,3,Excited about the upcoming weekend getaway! ...,Positive,2023-01-15 18:20:00,AdventureX,Facebook,#Travel #Adventure,8.0,15.0,UK,2023,1,15,18
3,5,Feeling grateful for the little things in lif...,Positive,2023-01-16 09:10:00,GratitudeNow,Twitter,#Gratitude #PositiveVibes,25.0,50.0,India,2023,1,16,9
4,6,Rainy days call for cozy blankets and hot coc...,Positive,2023-01-16 14:45:00,RainyDays,Facebook,#RainyDays #Cozy,10.0,20.0,Canada,2023,1,16,14
5,7,The new movie release is a must-watch! ...,Positive,2023-01-16 19:30:00,MovieBuff,Instagram,#MovieNight #MustWatch,15.0,30.0,USA,2023,1,16,19
6,10,Just published a new blog post. Check it out!...,Positive,2023-01-17 15:15:00,BloggerX,Instagram,#Blogging #NewPost,22.0,45.0,USA,2023,1,17,15
7,12,Exploring the city's hidden gems. ...,Positive,2023-01-18 14:50:00,UrbanExplorer,Facebook,#CityExplore #HiddenGems,12.0,25.0,UK,2023,1,18,14
8,13,"New year, new fitness goals! 💪 ...",Positive,2023-01-18 18:00:00,FitJourney,Instagram,#NewYear #FitnessGoals,28.0,55.0,USA,2023,1,18,18
9,15,Reflecting on the past and looking ahead. ...,Positive,2023-01-19 13:20:00,Reflections,Facebook,#Reflection #Future,20.0,40.0,USA,2023,1,19,13


Показатели в файле:

* `Text`: текст поста;
* `Sentiment`: эмоциональная окраска поста (значения `Positive` и `Negative`);
* `Timestamp`: время публикации поста;
* `User`: имя пользователя;
* `Platform`: платформа (значения `Facebook`, `Instagram`, `Twitter`*);
* `Hashtags`: хэштеги;
* `Retweets`: число репостов;
* `Likes`: число лайков;
* `Country`: страна пользователя;
* `Year`: год публикации поста;
* `Month`: месяц публикации поста;
* `Day`: день публикации поста;
* `Hour`: час публикации поста.

*все три платформы запрещены в РФ.

### Задание 1

Выведите описательные статистики для всех числовых столбцов в `dat`. Выведите описательные статистики для всех текстовых столбцов в `dat`. Проинтерпретируйте полученные результаты для столбцов `Likes`, `Platform`, `Sentiment`.

In [35]:
dat.describe()

Unnamed: 0.1,Unnamed: 0,Retweets,Likes,Year,Month,Day,Hour
count,325.0,325.0,325.0,325.0,325.0,325.0,325.0
mean,376.803077,21.492308,42.815385,2021.32,5.778462,16.203077,15.430769
std,247.515228,6.833837,13.623115,2.494884,3.572896,8.716133,3.941584
min,0.0,5.0,10.0,2012.0,1.0,1.0,0.0
25%,102.0,18.0,35.0,2020.0,2.0,10.0,13.0
50%,399.0,22.0,42.0,2023.0,6.0,16.0,16.0
75%,622.0,25.0,50.0,2023.0,9.0,23.0,19.0
max,731.0,40.0,80.0,2023.0,12.0,31.0,23.0


In [36]:
dat.describe(include = "object")

Unnamed: 0,Text,Sentiment,Timestamp,User,Platform,Hashtags,Country
count,325,325,325,325,325,325,325
unique,315,2,314,311,3,311,65
top,"A playful escapade in the carnival of life, c...",Positive,2018-08-22 17:20:00,CarnivalDreamer,Twitter,#Playful #CarnivalEscapade,USA
freq,3,229,3,3,111,3,38


### Задание 2

Выберите из датафрейма `dat` строки, которые соответствуют постам, опубликованным в Instagram (запрещён в РФ) и сохраните их в датафрейм `dat_inst`.

In [37]:
dat_inst = dat[dat["Platform"] == "Instagram"]

### Задание 3

Используя данные из датафрейма `dat_inst`, сгруппируйте посты по их эмоциональной окраске (Positive/Negative) и выведите для каждой группы описательные статистики для числа лайков. Проинтерпретируйте полученные результаты – обратите особое внимание на средние и стандартные отклонения.

In [38]:
dat_inst.groupby("Sentiment")["Likes"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Sentiment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Negative,31.0,35.709677,14.706447,15.0,25.0,35.0,45.0,70.0
Positive,77.0,49.220779,14.121301,25.0,38.0,45.0,60.0,80.0


### Задание 4

Выберите из датафрейма `dat_inst` строки, соответствующие положительно окрашенным постам, и сохраните их в датафрейм `pos`. Выберите из датафрейма `dat_inst` строки, соответствующие отрицательно окрашенным постам, и сохраните их в датафрейм `neg`.

In [39]:
pos = dat_inst[dat_inst["Sentiment"] == "Positive"]
neg = dat_inst[dat_inst["Sentiment"] == "Negative"]

### Задание 5

Реализуйте критерий Стьюдента для двух выборок для сравнения среднего числа лайков положительно и отрицательно окрашенных постов.  Сформулируйте нулевую и альтернативную гипотезу. Проинтерпретируйте полученные результаты, приняв уровень доверия равным 0.95. 

Подсказка: функция `ttest_ind()` из модуля `stats`, на первое место в этой функции ставится первая выборка (список/массив/столбец датафрейма), на второе – вторая выборка.

In [40]:
# H0: E(y1) = E(y2)
# H1: E(y1) != E(y2)

stats.ttest_ind(pos["Likes"], neg["Likes"])

Ttest_indResult(statistic=4.44521674351864, pvalue=2.168633987539358e-05)

>**Гипотезы:** $H_0: E(y_1) = E(y_2)$ и $H_1: E(y_1) \ne E(y_2)$. Интерпретация: наблюдаемое значение статистики критерия (`statistic`) равное 4.445 превышает критическое значение статистики для уровня доверия 0.95, которое примерно равно 2, значит, нулевая гипотеза о равенстве математических ожиданиях отвергается, среднее число лайков для положительно окрашенных постов отличается от среднего числа лайков отрицательно окрашеных постов. Про p-value на лекции пока не вспоминали, но оно здесь примерно 0, поэтому данные не свидетельствуют о жизнеспособности нулевой гипотезы.

>**Дополнение 1.** В ещё более новой версии `scipy` (и модуля `stats`) в выдаче есть `df=106`, это число степеней свободы распределения Стьюдента, к которому принадлежит наблюдаемое значение t-статистики при условии, что нулевая гипотеза верна. На лекции обсуждали, что $\text{df} = n_1 + n_2 - 2$, можем посчитать число наблюдений в каждой выборке и убедиться в этом:

In [43]:
n1 = pos.shape[0]
n2 = neg.shape[0]
print(n1 + n2 - 2)

106


>**Дополнение 2.** На результат `ttest_ind()` можно смотреть как на простой кортеж (`tuple`) и при необходимости извлекать из него отдельно наблюдаемое значение статистики и p-value по индексу. А можно смотреть как на более интересную структуру особого типа, из которой можно извлечь значения по названию через точку: 

In [44]:
result = stats.ttest_ind(pos["Likes"], neg["Likes"])
print(result[0], result[1])
print(result.statistic, result.pvalue)

4.44521674351864 2.168633987539358e-05
4.44521674351864 2.168633987539358e-05


### Задание 6*

Используя цикл `for`, создайте датафрейм следующего вида:

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>Platform</th>
      <th>Likes (Positive)</th>
      <th>Likes (Negative)</th>
      <th>Statistic</th>
      <th>P-value</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>Facebook</td>
      <td>43.181818</td>
      <td>34.862069</td>
      <td>3.382185</td>
      <td>0.001014</td>
    </tr>
    <tr>
      <th>1</th>
      <td>Instagram</td>
      <td>49.220779</td>
      <td>35.709677</td>
      <td>4.445217</td>
      <td>0.000022</td>
    </tr>
    <tr>
      <th>2</th>
      <td>Twitter</td>
      <td>45.466667</td>
      <td>35.333333</td>
      <td>4.109807</td>
      <td>0.000077</td>
    </tr>
  </tbody>
</table>

Здесь первый столбец – название платформы, второй и третий – средние значения числа лайков для положительно и отрицательно окрашенных постов, четвёртый и пятый – наблюдаемое значение t-статистики и p-value, полученные по результатам реализации двухвыборочного критерия Стьюдента по аналогии с заданием 5.

In [None]:
### YOUR CODE HERE ###