# Применение статистических методов

Этот семинар призван помочь освоиться на практике со статистическими методами, которые изучались на лекции. [Ссылка](https://colab.research.google.com/drive/1Lh8pfgZMH0gcaW3vP9DeQrXFRIhfwO7H?usp=sharing) на тетрадку.

Вам будет дан ряд экспериментов — часть по реальным данным, часть по сгенерированным — и их результаты будет нужно необходимо статистически обработать.

Применяя каждый критерий, проходите по всем стадиям статистического вывода:

- сформулируйте нулевую и альтернативную гипотезы
- выберите уровень значимости (p<0.05, p<0.01, p<0.001)
- выберите тест на основании вида ваших данных
- произведите вычисления
- сделайте вывод о значимости различий
- сделайте итоговый вывод из эксперимента

Критерии, из которых следует выбирать в заданиях:

- t-критерий
  - одновыборочный
  - двухвыборочный
- U-критерий Манна-Уитни
- критерий $\chi^2$
- критерий Фишера

см. таблицу на предпоследнем слайде лекции, где обсуждается выбор критерия; ниже не встречается случаев, для которых нужен критерий Вилкоксона или биномиальный тест

Дополнительно, в конкретном задании вам может быть нужно изменить форму данных: преобразовать вид таблички или скопировать числа из нужного места.

## Тесты из Питона

Естественно, все перечисленные тесты можно запустить из Питона

- ttest() из модуля researchpy (есть все варианты [теста](https://researchpy.readthedocs.io/en/latest/ttest_documentation.html))
- chi2_contingency() модуля scipy.stats
- mannwhitneyu() модуля scipy.stats

и т. д.

В целом они применяются несложно — код ниже. Обычно самое сложное — понять, в каком формате подавать им данные

In [1]:
%%capture
!pip install researchpy

In [2]:
import researchpy as rp
import pandas as pd

In [11]:
#Берём датасет с двумя числовыми переменными (рост в двух популяциях из презентации),
#чтобы использовать t-критерий
samples = pd.read_csv('https://raw.githubusercontent.com/alekseyst/text_analysis_2024/main/Practical_8/sample_ttest.csv')
samples.head(10)

Unnamed: 0,sample_one,sample_two
0,174.0,182.0
1,171.0,171.0
2,195.0,162.0
3,162.0,175.0
4,179.0,142.0
5,178.0,166.0
6,181.0,161.0
7,173.0,169.0
8,169.0,158.0
9,191.0,182.0


In [16]:
#Запускаем t-критерий
rp.ttest(samples['sample_one'], samples['sample_two'], equal_variances = False)

  table.iloc[0,0] = group1_name
  table2.iloc[0,0] = f"Difference ({group1_name} - {group2_name}) = "


(     Variable     N        Mean         SD        SE   95% Conf.    Interval
 0  sample_one  21.0  174.428571  11.382317  2.483825  169.247403  179.609740
 1  sample_two  21.0  165.047619   9.957290  2.172859  160.515115  169.580123
 2    combined  42.0  169.738095  11.580175  1.786860  166.129459  173.346732,
                       Satterthwaite t-test  results
 0  Difference (sample_one - sample_two) =    9.3810
 1                    Degrees of freedom =   39.3051
 2                                     t =    2.8426
 3                 Two side test p value =    0.0071
 4                Difference < 0 p value =    0.9965
 5                Difference > 0 p value =    0.0035
 6                             Cohen's d =    0.8773
 7                             Hedge's g =    0.8607
 8                        Glass's delta1 =    0.8242
 9                      Point-Biserial r =    0.4129)

## Источник данных

Данные для вычисления статистических тестов можно подготовить внутри Питона: библиотеки для вычисления тестов хорошо совместимы с pandas.

In [23]:
#Скачиваем датасеты и добавляем столбец, который говорит, из какого датасета слово
alice = pd.read_csv('https://raw.githubusercontent.com/alekseyst/text_analysis_2025/main/Practical_4/alice_corpus_words.tsv', sep='\t')
alice['source'] = 'alice'

panorama = pd.read_csv('https://raw.githubusercontent.com/alekseyst/text_analysis_2025/main/Practical_4/panorama_corpus_words.tsv', sep='\t')
panorama['source'] = 'panorama'

In [24]:
#Соединяем две таблички
joint_corpus = pd.concat([alice, panorama])
joint_corpus

Unnamed: 0,index,word,lemma,pos,feats,synt,source,text_index,head
0,0,Льюис,Льюис,PROPN,Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing,root,alice,,
1,1,Кэрролл,Кэрролл,PROPN,Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing,flat:name,alice,,
2,2,Приключения,приключение,NOUN,Animacy=Inan|Case=Nom|Gender=Neut|Number=Plur,root,alice,,
3,3,Алисы,Алиса,PROPN,Animacy=Anim|Case=Gen|Gender=Fem|Number=Sing,nmod,alice,,
4,4,в,в,ADP,,case,alice,,
...,...,...,...,...,...,...,...,...,...
9459,145,организацией,организация,NOUN,Animacy=Inan|Case=Ins|Gender=Fem|Number=Sing,obl,panorama,49.0,4.0
9460,146,",",",",PUNCT,,punct,panorama,49.0,4.0
9461,147,ещё,еще,ADV,Degree=Pos,advmod,panorama,49.0,8.0
9462,148,оценивается,оценивать,VERB,Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense...,root,panorama,49.0,0.0


In [None]:
#Аггрегируем данные, делаем таблички



При этом совсем не обязательно использовать языки программирования, чтобы посчитать тесты: можно просто зайти на сайт, выбрать тест, ввести данные и получить результаты.

Опасность состоит в том, что некоторые сайты считают с ошибками. Но вот, например, есть [такой](http://vassarstats.net/). Хи-квадрат там находится во вкладке Clinical Research Calculators и, возможно, устроен сложновато. Если не нравится — можете выбрать понравившийся вам сайт из интернета. Вот [ещё](https://www.socscistatistics.com/) сайт, там дизайн менее затейлевый и есть ограничение по количеству вводимых данных, но пользоваться попроще.

# Задание 1

Посчитайте наконец, значимо ли Толстой пишет длиннее, чем Чехов!

https://raw.githubusercontent.com/alekseyst/text_analysis_2024/main/Practical_8/author.csv

# Задание 2

Известно, что слово *друг* в милионном простом корпусе встретилось 193 раз, а в газетном — 447 раз; слово *враг* — 36 и 46 раз соответственно. Есть ли различия в употреблении на уровне значимости 0.01? 0.05? Как интерпретировать эти различия?




# Задание 3

Вы проводили социологический среди программистов и лингвистов, прося оценить от 1 до 5 удовлетворённость зарплатой, и получили следующие ответы:

Программисты: 5, 4, 5, 5, 5, 3, 3, 3, 5, 3, 3, 3, 5, 3, 5, 5, 5, 5, 4, 5, 5, 5, 5, 5, 4, 4, 5, 5, 5

Лингвисты: 1, 5, 3, 3, 5, 5, 2, 5, 4, 4, 2, 2, 3, 2, 3, 2, 3, 3, 2, 3, 5, 3, 5, 5, 5

Правда ли, что ответы этих двух групп различаются? (Обратите внимание на то, как выглядят данные.)



# Задание 4

Известно, что четырёхглазые тушканчики с далёкой планеты по данным переписи в среднем в быстрой речи произносят 2.86 слога в секунду; стандартное отклонение 0.34.

Тушканчики одной из стран, в соответствии с распространёнными на планете стереотипами, говорят гораздо медленнее, чем остальные (про это есть много анекдотов).

45 разных тушканчиков этой страны были записаны и произнесли в секунду следующие количества слогов. Правда ли они говорят значимо медленнее, или это только стереотип?

3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 3, 3, 3, 3, 2, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3

# Задание 5

Вы ведёте переписку с двумя людьми: один — ваш хороший знакомый Фёдор Михайлович, другой — тоже хороший знакомый Иван Петрович. Оба из них используют в письмах очень много обращений. В какой-то момент они пошли на литературные курсы, после которых Иван Петрович, по его утверждению, решил, что такое количество обращений — дурной вкус, А Федор Михайлович ничего не прокомментировал. Вы посчитали количество обращений до похода и после в письмах обоих друзей, чтобы определить, правда ли один из них всё тот же, а другой изменился.

Количество обращений в письме Ф. М. после похода на курсы — 12, после — 11, у И. П. 14, после — 2.