In [1]:
import pandas as pd
import numpy as np

- Фиктивная переменная (англ. dummy variable) — качественная переменная, принимающая значения 0 и 1, включаемая в эконометрическую модель для учёта влияния качественных признаков и событий на объясняемую переменную. При этом фиктивные переменные позволяют учесть влияние не только качественных признаков, принимающих два значения, но и несколько возможных. 
- Если по простому, то мы категориальные переменные должны перевести в цифры, чтобы алгоритм мог их обрабатывать.

In [13]:
cinema =  pd.DataFrame({'Film': ['Анчартед', 'Доктор Стрендж', 'Соник 2', 'Одиннадцать мужчин', 
                                 'Тор', 'Мистер Нокаут', 'Я краснею'],
                        'Duration': [115, 126, 122, 121, 119, 118, 100],
                        'Genre': ['боевик', 'фантастика', 'боевик', 'драма', 'фантастика', 'спорт', 
                                  'приключения']})

In [14]:
cinema

Unnamed: 0,Film,Duration,Genre
0,Анчартед,115,боевик
1,Доктор Стрендж,126,фантастика
2,Соник 2,122,боевик
3,Одиннадцать мужчин,121,драма
4,Тор,119,фантастика
5,Мистер Нокаут,118,спорт
6,Я краснею,100,приключения


In [18]:
#Создадим матрицу фиктивных переменных
pd.get_dummies(cinema)

Unnamed: 0,Duration,Film_Анчартед,Film_Доктор Стрендж,Film_Мистер Нокаут,Film_Одиннадцать мужчин,Film_Соник 2,Film_Тор,Film_Я краснею,Genre_боевик,Genre_драма,Genre_приключения,Genre_спорт,Genre_фантастика
0,115,1,0,0,0,0,0,0,1,0,0,0,0
1,126,0,1,0,0,0,0,0,0,0,0,0,1
2,122,0,0,0,0,1,0,0,1,0,0,0,0
3,121,0,0,0,1,0,0,0,0,1,0,0,0
4,119,0,0,0,0,0,1,0,0,0,0,0,1
5,118,0,0,1,0,0,0,0,0,0,0,1,0
6,100,0,0,0,0,0,0,1,0,0,1,0,0


In [19]:
#Присвоим матрицу Датафрэйму
m = pd.get_dummies(cinema['Genre'])

In [22]:
#Соединим наши датафрэймы
cinema.join(m)

Unnamed: 0,Film,Duration,Genre,боевик,драма,приключения,спорт,фантастика
0,Анчартед,115,боевик,1,0,0,0,0
1,Доктор Стрендж,126,фантастика,0,0,0,0,1
2,Соник 2,122,боевик,1,0,0,0,0
3,Одиннадцать мужчин,121,драма,0,1,0,0,0
4,Тор,119,фантастика,0,0,0,0,1
5,Мистер Нокаут,118,спорт,0,0,0,1,0
6,Я краснею,100,приключения,0,0,1,0,0


In [23]:
#Возьмем только нужные нам столбцы, чтобы было покрасивее)))
cinema[['Film', 'Duration']].join(m)

Unnamed: 0,Film,Duration,боевик,драма,приключения,спорт,фантастика
0,Анчартед,115,1,0,0,0,0
1,Доктор Стрендж,126,0,0,0,0,1
2,Соник 2,122,1,0,0,0,0
3,Одиннадцать мужчин,121,0,1,0,0,0
4,Тор,119,0,0,0,0,1
5,Мистер Нокаут,118,0,0,0,1,0
6,Я краснею,100,0,0,1,0,0


- Параметр Prefix. Необходим для того. чтобы было понятнее откуда появились данные колонки
Не прям полезная вещь. Ни разу пока что не видел, чтобы ее использовали

In [24]:
m = pd.get_dummies(cinema['Genre'], prefix='genre')
cinema[['Film', 'Duration']].join(m)

Unnamed: 0,Film,Duration,genre_боевик,genre_драма,genre_приключения,genre_спорт,genre_фантастика
0,Анчартед,115,1,0,0,0,0
1,Доктор Стрендж,126,0,0,0,0,1
2,Соник 2,122,1,0,0,0,0
3,Одиннадцать мужчин,121,0,1,0,0,0
4,Тор,119,0,0,0,0,1
5,Мистер Нокаут,118,0,0,0,1,0
6,Я краснею,100,0,0,1,0,0


### Двойные значения категориальных переменных

In [28]:
films = pd.DataFrame([['Анчартед', 115, 'боевик|приключения'], 
                      ['Доктор Стрэндж', 126, 'фантастика|боевик|приключения'], 
                      ['Соник', 122, 'боевик|приключения'], 
                      ['Одиннадцать', 121, 'драма|спорт'], 
                      ['Тор', 119, 'фантастика|боевик'], 
                      ['Мистер нокаут', 118, 'спорт'],
                      ['Я краснею', 100, 'приключения']], 
                     columns=['Film', 'Duration', 'Genres'])
films

Unnamed: 0,Film,Duration,Genres
0,Анчартед,115,боевик|приключения
1,Доктор Стрэндж,126,фантастика|боевик|приключения
2,Соник,122,боевик|приключения
3,Одиннадцать,121,драма|спорт
4,Тор,119,фантастика|боевик
5,Мистер нокаут,118,спорт
6,Я краснею,100,приключения


In [29]:
all_genres = []

In [32]:
for x in films['Genres']:
    all_genres.extend(x.split('|'))

In [34]:
all_genres

['боевик',
 'приключения',
 'фантастика',
 'боевик',
 'приключения',
 'боевик',
 'приключения',
 'драма',
 'спорт',
 'фантастика',
 'боевик',
 'спорт',
 'приключения']

In [41]:
#Получим только униклаьные значения
genres = pd.unique(all_genres)

In [48]:
m = np.zeros((len(films), len(genres)), dtype='int')
m

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [49]:
matrix = pd.DataFrame(m, columns=genres)
matrix

Unnamed: 0,боевик,приключения,фантастика,драма,спорт
0,0,0,0,0,0
1,0,0,0,0,0
2,0,0,0,0,0
3,0,0,0,0,0
4,0,0,0,0,0
5,0,0,0,0,0
6,0,0,0,0,0


In [51]:
for i, genre in enumerate(films['Genres']):
    print(i, genre)
    idx = matrix.columns.get_indexer(genre.split('|'))
    matrix.iloc[i, idx] = 1

0 боевик|приключения
1 фантастика|боевик|приключения
2 боевик|приключения
3 драма|спорт
4 фантастика|боевик
5 спорт
6 приключения


In [52]:
matrix

Unnamed: 0,боевик,приключения,фантастика,драма,спорт
0,1,1,0,0,0
1,1,1,1,0,0
2,1,1,0,0,0
3,0,0,0,1,1
4,1,0,1,0,0
5,0,0,0,0,1
6,0,1,0,0,0


In [53]:
films.join(matrix.add_prefix('genres_'))

Unnamed: 0,Film,Duration,Genres,genres_боевик,genres_приключения,genres_фантастика,genres_драма,genres_спорт
0,Анчартед,115,боевик|приключения,1,1,0,0,0
1,Доктор Стрэндж,126,фантастика|боевик|приключения,1,1,1,0,0
2,Соник,122,боевик|приключения,1,1,0,0,0
3,Одиннадцать,121,драма|спорт,0,0,0,1,1
4,Тор,119,фантастика|боевик,1,0,1,0,0
5,Мистер нокаут,118,спорт,0,0,0,0,1
6,Я краснею,100,приключения,0,1,0,0,0


Необзятально матрицу строить на категориальной переменной, можно и на количественной

In [54]:
films

Unnamed: 0,Film,Duration,Genres
0,Анчартед,115,боевик|приключения
1,Доктор Стрэндж,126,фантастика|боевик|приключения
2,Соник,122,боевик|приключения
3,Одиннадцать,121,драма|спорт
4,Тор,119,фантастика|боевик
5,Мистер нокаут,118,спорт
6,Я краснею,100,приключения


In [60]:
m = pd.get_dummies(pd.qcut(films['Duration'], 2))
m

Unnamed: 0,"(99.999, 119.0]","(119.0, 126.0]"
0,1,0
1,0,1
2,0,1
3,0,1
4,1,0
5,1,0
6,1,0


In [61]:
films.join(m)

Unnamed: 0,Film,Duration,Genres,"(99.999, 119.0]","(119.0, 126.0]"
0,Анчартед,115,боевик|приключения,1,0
1,Доктор Стрэндж,126,фантастика|боевик|приключения,0,1
2,Соник,122,боевик|приключения,0,1
3,Одиннадцать,121,драма|спорт,0,1
4,Тор,119,фантастика|боевик,1,0
5,Мистер нокаут,118,спорт,1,0
6,Я краснею,100,приключения,1,0


# Практика

## Задача 1
Сегодня мы работаем с данными некоторого онлайн-кинотеатра:
![](https://ucarecdn.com/4db034c8-4d0b-4708-a2eb-4ea2600222ab/)
(первые 4 строчки датафрейма)

account - аккаунт пользователя

lang - предпочитаемый язык озвучки фильма у пользователя

tarif - активный тариф пользователя

 

Постройте две матрицы фиктивных переменных: одну для lang, а вторую для tarif. Объедините их с исходным датафреймом. А затем удалите столбцы lang и tarif. Результат:
![](https://ucarecdn.com/fbe3cf95-8b75-4f69-b387-c68dfefdfd9a/)
(первые 4 строчки итогового датафрейма)

Важные дополнения:

-Если у пользователя пропущен тариф, то установите тариф regular.

-Добавьте префиксы чтобы было понятно откуда взялись фиктивные (дамми) переменные

In [129]:
df = pd.DataFrame([['ivan333@gmail.com', 'matvey443@mail.ru', 'jeck44@meil.ru',
                     'katy4443@mail.ru', 'roma443@mail.ru'],
                   ['ru', 'en', 'jp', 'ru', 'kz'],
                    ['demo', 'demo', 'regular', 'regular', np.NAN]]
                   ).T
df.columns = ['account', 'lang', 'tarif']

In [130]:
df

Unnamed: 0,account,lang,tarif
0,ivan333@gmail.com,ru,demo
1,matvey443@mail.ru,en,demo
2,jeck44@meil.ru,jp,regular
3,katy4443@mail.ru,ru,regular
4,roma443@mail.ru,kz,


In [131]:
df = df.fillna('regular')

In [132]:
df = df[['account']].join(pd.get_dummies(df[['lang', 'tarif']]))
df

Unnamed: 0,account,lang_en,lang_jp,lang_kz,lang_ru,tarif_demo,tarif_regular
0,ivan333@gmail.com,0,0,0,1,1,0
1,matvey443@mail.ru,1,0,0,0,1,0
2,jeck44@meil.ru,0,1,0,0,0,1
3,katy4443@mail.ru,0,0,0,1,0,1
4,roma443@mail.ru,0,0,1,0,0,1


# Задача 2
Датафрейм с прошлого задания немного усложнился:
![](https://ucarecdn.com/18eceda4-2adf-4f21-980d-98b47fed1e4d/)
теперь в столбце lang несколько языков. Доработайте алгоритм, который вы сделали для предыдущего задания, с учётом нескольких языков. На выходе должен получиться датафрейм:
![](https://ucarecdn.com/3aa1f5c3-4172-4f43-a079-0c572fd48dbf/)

In [138]:
df = pd.DataFrame({'account': {0: 'ivan111@gmail.com', 1: 'ivan000@mail.ru', 2: 'je=ack123@mail.ru', 
                               3: 'petr432@yandex.ru', 4: 'jack000@yandex.ru'},

                'lang': {0: 'ru', 1: 'en,jp', 2: 'jp,en', 3: 'ru,en', 4: 'jp,ru'},

                'tarif': {0: 'demo', 1: 'demo', 2: 'regular', 3: 'regular', 4: 'demo'}})

In [139]:
df

Unnamed: 0,account,lang,tarif
0,ivan111@gmail.com,ru,demo
1,ivan000@mail.ru,"en,jp",demo
2,je=ack123@mail.ru,"jp,en",regular
3,petr432@yandex.ru,"ru,en",regular
4,jack000@yandex.ru,"jp,ru",demo


In [145]:
all_langs = []
for x in df['lang']:
    all_langs.extend(x.split(','))

In [146]:
langs = pd.unique(all_langs)

In [147]:
m = np.zeros((len(df), len(langs)), dtype='int')
m

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [148]:
matrix = pd.DataFrame(m, columns=langs)
matrix

Unnamed: 0,ru,en,jp
0,0,0,0
1,0,0,0
2,0,0,0
3,0,0,0
4,0,0,0
