# Введение в регрессионный анализ
## Семинар 6. Модели с дамми-переменными (фиктивными переменными)
*Алла Тамбовцева*

Импортируем необходимые для работы библиотеки и функции:

In [None]:
import pandas as pd
from statsmodels.formula.api import ols

Запустим строку кода, которая будет скрывать сообщения с предупреждениями в случае, если они возникают при создании новых столбцов на основе старых:

In [None]:
pd.set_option('mode.chained_assignment', None)

## Сюжет 1: парная регрессия с одной дамми-переменной

Продолжим работать с данными из файла `english.csv` с прошлого практикума. 

**Напоминание про исследование.** Участникам эксперимента предлагают определить, является ли слово, которое они видят на экране, реально существующим в языке или нет (настоящее это слово или что-то выдуманное по правилам языка). Если участники узнают слово, они должны прочитать его вслух и нажать на специальную кнопку. Время, затраченное на узнавание слова фиксируется и измеряется в милисекундах: насколько быстро человек нажал на кнопку (реальное слово или нет, *lexical decision*), или прочитал слово (*word naming*).

В файле отобраны только случаи с реально существующими словами. Переменные в файле:

* `AgeSubject`: молодой участник эксперимента или нет;
* `WordCategory`: часть речи (`N` – существительное, `V` – глагол);
* `RTlexdec`: время в милисекундах, затраченное на узнавание слова;
* `RTnaming`: время в милисекундах, затраченное на называние слова;
* `WrittenFrequency`: мера того, насколько часто слово встречается в письменных текстах;
* `LengthInLetters`: длина слова в буквах;
* `FamilySize`: мера того, насколько богата морфологическая семья слова (как много однокоренных слов с разной частью речи);
* `NumberSimplexSynsets`: мера того, насколько у слова много синонимов.

Загрузим данные и выберем только молодых участников эксперимента:

In [None]:
eng = pd.read_csv("english.csv")
df = eng[eng["AgeSubject"] == "young"]

Поскольку с данными мы уже познакомились в прошлый раз, перейдём сразу к моделям. Предположим, мы хотим построить модель, которая предсказывает время, затрачиваемое на узнавание слова, на основе его части речи. Давайте сначала пойдём по самому логичному пути и создадим бинарную переменную для части речи, где 1 соответствует глаголу, а 0 – существительному.

### Задача 1

Создайте бинарную переменную, где 1 соответствует глаголу, а 0 – существительному, и сохраните её в столбец `Verb` датафрейма `df`.

In [None]:
### YOUR CODE HERE ###

### Задача 2

Используя созданную бинарную переменную, постройте парную линейную модель, которая предсказывает время, затрачиваемое на узнавание слова, на основе его части речи. Проинтерпретируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

На самом деле, функция `ols()` умеет работать и с исходными качественными переменными. Если в качестве независимой переменной в уравнении внутри `ols()` используется текстовый столбец, функция сама создаст в рамках модели необходимую бинарную дамми-переменную. Проверим!

### Задача 3

Используя исходную переменную `WordCategory`, постройте парную линейную модель, которая предсказывает время, затрачиваемое на узнавание слова, на основе его части речи. Проинтерпретируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

По умолчанию Python выбирает в качестве базовой категории ту, которая идёт первой по алфавиту. Давайте в качестве базовой категории выберем глагол (`V`). Как это сделать? Учесть в рамках функции `ols()` это не получится, нужно перекодировать данные.

### Задача 4

Используя функцию `Categorical()` из `pandas`, измените столбец `WordCategory` таким образом, чтобы значение `V` считалось первым, а значение `N` – вторым.

Логика запуска функции:

* на первом месте указываем название столбца, который перекодируем;
* на втором месте – список значений в том порядке, который нас устраивает;
* на третьем месте – аргумент `ordered=True`, чтобы зафиксировать порядок следования.

In [None]:
### YOUR CODE HERE ###

### Задача 5

Используя обновлённую переменную `WordCategory`, постройте парную линейную модель, которая предсказывает время, затрачиваемое на узнавание слова, на основе его части речи. Сравните результаты с выдачей модели из задачи 3 и прокомментируйте различия.

In [None]:
### YOUR CODE HERE ###

## Сюжет 2: множественная модель с одной дамми-переменной

В прошлый раз мы строили множественную регрессионную модель, которая предсказывала время, затрачиваемое на узнавание слова, в зависимости от его грамматических характеристик, выраженных в числовом виде. Построим модель, которая включает не только количественные, но и качественные характеристики слова!

Постройте линейную модель, которая объясняет, как время, затрачиваемое на узнавание слова, зависит от его встречаемости в письменных текстах, размера морфологической семьи и части речи. Проинтерпретируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

## Сюжет 3: множественная модель с несколькими дамми-переменными

Давайте частично воспроизведем модель из статьи *E.Patacchini et al "Information Transmission in a Social Network: A Field Experiment"* и выясним, зависит ли успешность групповой работы от типа устройства сети сообщества, при условии, что тип сети определяет характер передачи информации, которая приближает группу к выигрышу.

В этой статье описывается экспериментальная игра, в которой участвовали ученики одной школы Италии. Школьников случайным образом распределяли на группы по 5 человек и давали каждому индивидуальное задание – угадать все цвета элементов одежды персонажа (шапка, рубашка, брюки, перчатки, ботинки), который показывался им на картинке в приложении. Каждому участнику был достоверно известен только цвет какого-то одного элемента одежды. Идея понятна: в идеальной ситуации в группе из пяти человек каждый может поделиться своей частью информации с другим, узнать все пять элементов одежды и остаться в выигрыше. Но все не так просто. Школьники не знают, с кем они находятся в группе, эта информация им доступна лишь частично: кто-то знает имена трех членов группы, кто-то – только двух, кто-то – только одного. Никакого чата в игре нет и участники не могут его создать, они могут лишь вживую, зная имя человека, обменяться с ним информацией.

Таким образом, группы из пяти человек устроены по-разному, по разным типам сети.

* Первый тип сети: довольно базовый, участники знают одного-двух участников группы, при этом есть наиболее осведомленный член группы, который знает трех участников.

* Второй тип сети: явное преимущество у одного члена группы, он знает имена всех четырех участников, остальные – лишь двоих.

* Третий тип сети: более равномерное число связей, все участники, кроме одного, знают имена двух-трех участников.

За угадывания цветов игроки получают баллы, попытки с неправильными ответами штрафуются. Участники, набравшие наибольшее число очков, могли выиграть суммы от 0 до 15 евро, выигрыш вручался в виде подарочных карт от Amazon на определенную сумму.

**Итого:** интересно посмотреть, каким образом тип сети (а, следовательно, и конфигурация системы передачи информации) сказывается на групповом выигрыше. Если смотреть только на устройство сети, кажется, что вторая сеть, где есть участник, знающий всех, идеальна, потому что он будет центральным «узлом» передачи информации для всех игроков. Но в реальности, где рациональный выбор все же существует, все может оказаться иначе: центральному игроку, знающему всех, может быть невыгодно служить источником информации для остальных, так как передавая правдивую информацию он, в том числе, повышает шансы других угадать больше ответов и получить выигрыш.

Загрузим данные с результатами эксперимента:

In [None]:
data = pd.read_csv("networks.csv")
data.head()

Итак, построим линейную модель, где зависимая переменная – число правильных ответов на группу, а независимая – тип сети:

In [None]:
model_nw = ols("grp_num_corrects ~ idnetwork", data).fit()
print(model_nw.summary())

Модель, которую мы только что построили, некорректная. Почему? Посмотрим на `idnetwork`. По-хорошему, у нас в модели должно быть две фиктивные переменные, одна для сравнения второго типа с первым, вторая – для сравнения третьего типа с первым. Здесь такого не происходит, потому что тип столбца `idnetwork` целочисленный, и Python воспринимает его как полноценную числовую переменную. Как это поправить? Можно изменить тип переменной в датафрейме глобально, а можно просто учесть это в формуле `ols()`:

In [None]:
# C() – от Categorical, то есть
# смотри на переменную как на качественную, категориальную

mod1 = ols("grp_num_corrects ~ C(idnetwork)", data).fit()
print(mod1.summary())

Теперь все нормально. Проинтерпретируем полученную модель!