# Основы работы с количественными данными

*Алла Тамбовцева*

## Практикум 4.2. Обработка и визуализация качественных данных

В файле `NPK_24_last.xlsx` сохранены результаты опроса студентов Вышки, в ходе которого респондентам предлагалось выбрать наиболее интересных героев сказки «Не покидай...» на основе следующей информации:

* по предложенному текстовому описанию (как в пьесах, без подробностей, намекающих на развитие сюжета);
* по предложенным кадрам из фильма (актёры в образе героев в разных ситуациях).

По итогам опроса фиксировалось следующее: выбор героев по текстовому описанию (не более двух героев), итоговый выбор героев после ознакомления с кадрами из фильма (не более двух героев), лайки/дизлайки представленным образам героев. Ознакомиться с опросником, чтобы быть более погружённым в контекст задания, можно по [ссылке](https://forms.gle/pdsfRoRK6suGYASdA). 

* лист `описание`: выбор героев по текстовому описанию;
* лист `лайки`: лайки/дизлайки, поставленные на основе кадров;
* лист `итоговый выбор`: итоговый выбор героев.

Таблицы на всех листах обладают одинаковой структурой, в первых столбцах зафиксирован профиль обучения респондентов, уровень обучения, пол. В столбцах с именами основных героев сохранены бинарные индикаторы, отражающие факт выбора героя на разных этапах опроса:

* в таблицах `описание` и `итоговый выбор` значение 1 означает, что респондент проголосовал за героя, то есть выбрал его как интересного (можно было выбрать не более двух);

* в таблице `лайки` значение 1 соответствует лайку, значение 0 – дизлайку.

Импортируем библиотеку `pandas` для загрузки и обработки данных в табличном виде, а также модуль `pyplot` для отрисовки графиков:

In [None]:
import pandas as pd
from matplotlib import pyplot as plt

## Часть 1: изучаем участников опроса

Загрузим данные из файла `NPK_24_last.xlsx` с помощью функции `read_excel()`. Эта функция считывает только один лист из файла Excel, и если мы не указываем иное, считывается первый лист. На этом листе сохранены ответы на первую часть опроса, где героев выбирали только по текстовому описанию, поэтому давайте считаем их в датафрейм `df_text`:

In [None]:
df_text = pd.read_excel("NPK_24_last.xlsx")

Выведем описательные статистики для всех текстовых столбцов в датафрейме:

In [None]:
df_text.describe(include = "object")

### Задача 1

Выведите уникальные значения и соответствующие им частоты для столбца `профиль`. Сохраните полученный результат в переменную `tab`. 

Сохраните уникальные значения профиля обучения в переменную `values`, а соответствующие им частоты – в переменную `counts` (этот код уже написан).

In [None]:
### YOUR CODE HERE ###

values = tab.index
counts = tab.values

### Задача 2

Используя данные из `values` и `counts`, постройте столбиковую диаграмму, отображающую количество студентов каждого профиля среди участников опроса.

*Подсказка:* примените метод `.bar()` к осям графика, внутри метода на первом месте укажите названия профилей, а на втором – соответствующие им частоты; список `my_colors` можно добавить в аргумент `color`, если хотите присвоить разным столбцам разный цвет заливки.

In [None]:
my_colors = ["#355070", "#6d597a", "#b56576", 
             "#e56b6f", "#eaac8b"]

fig, ax = plt.subplots(figsize = (16, 9))

### YOUR CODE HERE ###

### Задача 3

Используя данные из `values` и `counts`, постройте круговую диаграмму, отображающую количество студентов каждого профиля среди участников опроса. Убедитесь, что круговая диаграмма выглядит не очень эстетично.

*Подсказка:* примените метод `.pie()` к осям графика, внутри метода в аргументе `labels` укажите названия профилей, в аргументе `x` – соответствующие им частоты; список `my_colors` можно добавить в аргумент `colors`, если хотите изменить цвета секторов, присвоенные по умолчанию.

In [None]:
fig, ax = plt.subplots(figsize = (16, 9))

### YOUR CODE HERE ###

Построим вместе кольцевую диаграмму!

In [None]:
fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

# немного магии – очерчиваем белый круг
# радиуса 0.6 с центром в (0, 0)
# fc = face color, цвет заливки

centre_circle = plt.Circle((0, 0), 0.6, fc = 'white')

# сохраняем текущий график – тот, что ниже через pie()
# gcf = get current figure

fig = plt.gcf()

# изменяем расстояние до подписей с процентами от центра на 0.8
# pctdistance = 0.8

ax.pie(counts,
        colors = my_colors,
        labels = values,
        autopct = '%i%%',
        pctdistance = 0.8)

# в оси уже существующего графика добавляем круг
# gca = get current axes

fig.gca().add_artist(centre_circle);

## Часть 2*: изучаем ответы

Выберем бинарные столбцы с выбором героев (со столбца `Теодор` по столбец `Марселла` включительно):

In [None]:
df_text.loc[:, "Теодор" : "Марселла"]

Посчитаем по каждому из них сумму:

In [None]:
df_text.loc[:, "Теодор" : "Марселла"].sum()

Отсортируем результаты по возрастанию:

In [None]:
df_text.loc[:, "Теодор" : "Марселла"].sum().sort_values()

А теперь – по убыванию:

In [None]:
df_text.loc[:, "Теодор" : "Марселла"].sum().sort_values(reverse = True)

Раз есть метод `.sort_values()`, который выполняет сортировку по значениям (то есть по частотам для каждой категории), есть и метод `.sort_index()`, который выполняет сортировку по их индексам (то есть по названияи категорий):

In [None]:
df_text.loc[:, "Теодор" : "Марселла"].sum().sort_index()

Зачем нам здесь сортировка героев по алфавиту? Если мы захотим сравнить количество «голосов», отданных за каждого героя на разных этапах опроса, нам будет важно, чтобы одни и те же герои в таблице частот стояли на одних и тех же местах, сортировка по полулярности здесь не подойдёт. Сохраним результат выше в таблицу `tab_text`:

In [None]:
tab_text = df_text.loc[:, "Теодор" : "Марселла"].sum().sort_index()

Чтобы сравнения результатов разных этапов опроса стали возможными, сохраним данные с двух оставшихся листов файла Excel. Для этого в функцию `read_excel()` добавим аргумент `sheet_name` с индексом или названием листа (не забывайте, что нумерация в Python с нуля):

In [None]:
# лайки/дизлайки по кадрам
df_image = pd.read_excel("NPK_24_last.xlsx", sheet_name = 1)

# итоговый выбор героя
df_fin = pd.read_excel("NPK_24_last.xlsx", sheet_name = 2)

Создадим таблицы с частотами по аналогии с `tab_text`:

In [None]:
tab_image = df_image.loc[:, "Теодор" : "Марселла"].sum().sort_index()
tab_image

In [None]:
tab_fin = df_fin.loc[:, "Теодор" : "Марселла"].sum().sort_index()
tab_fin

Теперь мы сможем вычислять разницы между частотами внутри `tab_text`, `tab_image` и `tab_fin` и изучать, как увеличивалось или уменьшалось число голосов за героев на разных этапах опроса!

In [None]:
# давайте подумаем, что здесь означают 
# отрицательные и положительные значения

tab_fin - tab_text

Если мы захотим изучить, какие герои были наиболее популярны у студентов разного пола или профиля, удобнее будет сохранить все названия столбцов с именами героев в отдельный список `heroes`:

In [None]:
heroes = ['Альбина', 'Давиль', 'Жак', 'Марселла', 'Марта', 
          'Оттилия', 'Патрик','Пенапью', 'Теодор', 'Флора']

Теперь мы сможем выполнить группировку через знакомый нам метод `.groupby()`, только вместо одного столбца, который мы хотим описать, укажем набор столбцов из `heroes`. Так как на все описательные статистики смотреть тут не имеет смысла, мы просто применим метод `.sum()`, который посчитает сумму единиц, то есть число голосов за каждого героя.

In [None]:
df_text.groupby("пол")[heroes].sum()

In [None]:
df_text.groupby("профиль")[heroes].sum()