# Основы работы с количественными данными

*Алла Тамбовцева*

## Практикум 5-6. Доверительные интервалы и проверка гипотез о средних и долях

Импортируем необходимые для работы библиотеки и модули:
    
* библиотека `pandas` для загрузки и обработки данных;
* модуль `stats` из библиотеки `scipy` (от *Scientific Python*) для построения доверительных интервалов и реализации статистических критериев.

In [None]:
import pandas as pd
from scipy import stats

Загрузим данные из файла `sentiment.csv` (доработанный файл с [Kaggle](https://www.kaggle.com/datasets/kashishparmar02/social-media-sentiments-analysis-dataset?select=sentimentdataset.csv)) и выведем на экран первые 10 строк датафрейма:

In [None]:
dat = pd.read_csv("sentiment.csv")
dat.head(10)

Показатели в файле:

* `Text`: текст поста;
* `Sentiment`: эмоциональная окраска поста (значения `Positive` и `Negative`);
* `Timestamp`: время публикации поста;
* `User`: имя пользователя;
* `Platform`: платформа (значения `Facebook`, `Instagram`, `Twitter`*);
* `Hashtags`: хэштеги;
* `Retweets`: число репостов;
* `Likes`: число лайков;
* `Country`: страна пользователя;
* `Year`: год публикации поста;
* `Month`: месяц публикации поста;
* `Day`: день публикации поста;
* `Hour`: час публикации поста.

*все три платформы запрещены в РФ.

## Часть 1: знакомство с данными

### Задание 1

Выведите описательные статистики для всех числовых столбцов в `dat`. Выведите описательные статистики для всех текстовых столбцов в `dat`. Проинтерпретируйте полученные результаты для столбцов `Likes`, `Platform`, `Sentiment`.

In [None]:
### YOUR CODE HERE ###

### Задание 2

Выберите из датафрейма `dat` строки, которые соответствуют постам, опубликованным в Instagram (запрещён в РФ) и сохраните их в датафрейм `dat_inst`.

In [None]:
### YOUR CODE HERE ###

### Задание 3

Используя данные из датафрейма `dat_inst`, сгруппируйте посты по их эмоциональной окраске (Positive/Negative) и выведите для каждой группы описательные статистики для числа лайков. Проинтерпретируйте полученные результаты – обратите особое внимание на средние и стандартные отклонения.

In [None]:
### YOUR CODE HERE ###

### Задание 4

Выберите из датафрейма `dat_inst` строки, соответствующие положительно окрашенным постам, и сохраните их в датафрейм `pos`. Выберите из датафрейма `dat_inst` строки, соответствующие отрицательно окрашенным постам, и сохраните их в датафрейм `neg`.

In [None]:
### YOUR CODE HERE ###

## Часть 2: работа со средними

### Задание 1

Вычислите среднее число лайков у положительно окрашенных постов в `pos`, сохраните его в переменную `pos_average`. Вычислите на основе этой выборки стандартную ошибку среднего и сохраните в переменную `se_pos`. Определите объём выборки и сохраните его в переменную `pos_n`. 

Постройте 95%-ный доверительный интервал для среднего числа лайков положительно окрашенных постов. Проинтерпретируйте полученный интервал.

**Подсказка:** функция `t.interval()` из модуля `stats`; на первом месте указывается уровень доверия (в виде вероятности), на втором в аргументе `loc` – среднее, на третьем в аргументе `scale` – стандартная ошибка среднего.

In [None]:
### YOUR CODE HERE ###

### Задание 2

Вычислите среднее число лайков у отрицательно окрашенных постов в `neg`, сохраните его в переменную `neg_average`. Вычислите на основе этой выборки стандартную ошибку среднего и сохраните в переменную `se_neg`. Определите объём выборки и сохраните его в переменную `neg_n`. 

Постройте 95%-ный доверительный интервал для среднего числа лайков отрицательно окрашенных постов. Проинтерпретируйте полученный интервал.

In [None]:
### YOUR CODE HERE ###

### Задание 3

Постройте 90%-ный и 99%-ный доверительный интервал для среднего числа лайков отрицательно окрашенных постов. Прокомментируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

### Задание 4

Реализуйте критерий Стьюдента для двух выборок для сравнения среднего числа лайков положительно и отрицательно окрашенных постов.  Сформулируйте нулевую и альтернативную гипотезу. Проинтерпретируйте полученные результаты, приняв уровень доверия равным 0.95. 

Подсказка: функция `ttest_ind()` из модуля `stats`, на первое место в этой функции ставится первая выборка (список/массив/столбец датафрейма), на второе – вторая выборка.

## Часть 3: работа с долями

### Задание 1

Используя данные из датафрейма `dat_inst`, выведите таблицу частот для эмоциональной окраски поста (`Sentiment`). Постройте на её основе столбиковую диаграмму.

In [None]:
### YOUR CODE HERE ###

### Задание 2

Вычислите долю положительно окрашенных постов в `dat_inst` и сохраните ее в переменную `p`. Вычислите долю отрицательно окрашенных постов и сохраните ее в переменную `q`. Определите объём выборки и сохраните его в переменную `n`. На основе имеющихся данных вычислите стандартную ошибку доли.

Постройте 95%-ный доверительный интервал для доли положительно окрашенных постов. Проинтерпретируйте полученный интервал.

**Подсказка:** функция `norm.interval()` из модуля `stats`; на первом месте указывается уровень доверия (в виде вероятности), на втором в аргументе `loc` – доля, на третьем в аргументе `scale` – стандартная ошибка доли.

In [None]:
### YOUR CODE HERE ###