# Основы анализа данных в Python

*Алла Тамбовцева*

## Практикум 3.2. Обработка опросных данных и визуализация качественных данных

## Часть 1: подготовка данных

Импортируем библиотеку `pandas` и модуль `pyplot` из библиотеки `matplotlib` для отрисовки графиков:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

Загрузим данные из Excel-файла с результатами сказочного опроса. Так как в файле Excel несколько листов (выбор героев на основе текстового описания, лайки и дизлайки, итоговый выбор героев, информация по актерам), загрузим каждый из них в отдельный датафрейм:

In [None]:
# в sheet_name может быть название листа или его индекс
# лист с актерами пока не трогаем

start = pd.read_excel("NPK_fin.xlsx", sheet_name = "описание")
likes = pd.read_excel("NPK_fin.xlsx", sheet_name = "лайки")
end = pd.read_excel("NPK_fin.xlsx", sheet_name = "итоговый выбор")

Посмотрим на первые 5 строк из каждого датафрейма и убедимся, что датафреймы имеют одинаковую структуру:

In [None]:
start.head()

In [None]:
end.head()

In [None]:
likes.head()

Возьмем для примера датафрейм `start` и запросим по нему техническую информацию:

In [None]:
start.info()

Так как номер опроса – показатель качественный, а не количественный, превратим его в текст:

In [None]:
# вспоминаем про метод .astype() 
# и меняем тип столбца в каждом датафрейме

start["опрос"] = start["опрос"].astype(str)
end["опрос"] = end["опрос"].astype(str)
likes["опрос"] = likes["опрос"].astype(str)

Так как выбор героев в нашем случае представлен в бинарном виде, никто не мешает просуммировать столбцы и получить число респондентов, проголосовавших за каждого из героев. Посмотрим, каких героев выбирали чаще, а каких – реже, причем отдельно оценим выбор в начале опроса и в конце:

In [None]:
# numeric_only = True: выбор только числовых столбцов
# добавляем сортировку по убыванию

print("Выбор по текстовому описанию:")
start.sum(numeric_only = True).sort_values(ascending = False)

In [None]:
print("Итоговый выбор:")
end.sum(numeric_only = True).sort_values(ascending = False)

Не забудем про лайки и дизлайки:

In [None]:
print("Лайки и дизлайки:")
likes.sum(numeric_only = True).sort_values(ascending = False)

Теперь перейдем к построению графиков. Логичнее всего смотреть на итоговый выбор, на нем пока и остановимся.

## Часть 2: визуализация качественных данных

### Задача 1

Из датафрейма с итоговым выбором `end` выберите строки, соответствующие политологам и студентам схожих специальностей (профиль `политология и управление`), и сохраните их в датафрейм `polit`.

In [None]:
# YOUR CODE HERE

### Задача 2

Просуммируйте все числовые столбцы в `polit` и отсортируйте строки в полученной таблице в порядке убывания результатов суммирования. Сохраните таблицу с названием `tab`.

In [None]:
# YOUR CODE HERE

### Задача 3

Используя таблицу `tab`, постройте столбиковую диаграмму для итогового выбора героев. 

In [None]:
# YOUR CODE HERE

### Задача 4

Усовершенствуйте полученную диаграмму: 

* настройте цвета;
* добавьте подписи к осям;

Сделайте картинку размера 16 на 9 дюймов с разрешением 300 точек на дюйм и выгрузите в png-файл.

In [None]:
# список цветов для примера

cc = ["#fd7f6f", "#7eb0d5", "#b2e061", "#bd7ebe", "#ffb55a",
      "#ffee65", "#beb9db", "#fdcce5", "#8bd3c7", "#0d88e6"]

# для создания графика желаемого размера с хорошим разрешением

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

# YOUR CODE HERE

### Задача 5

Постройте круговую диаграмму для итогового выбора героев. 

In [None]:
# YOUR CODE HERE

plt.pie(y, labels = x, colors = cc, autopct = "%.2f%%");

### Задача 6

Постройте кольцевую диаграмму для итогового выбора героев.

In [None]:
# вот тут нужна магия – надо очертить белый круг

centre_circle = plt.Circle((0, 0), 0.4, fc = 'white')
fig = plt.gcf()

# скопируйте код для круговой диаграммы сюда

fig.gca().add_artist(centre_circle);

## Часть 3: агрегирование и сравнение по группам

В предыдущей части мы работали только с итоговым выбором героя из датафрейма `end`. Однако более логично было бы попытаться построить сводный индекс одобрения героев, чтобы сохранить как можно больше информации о предпочтениях респондентов. 

Итак, на входе по каждому герою у нас есть три набора данных из 0 и 1: одобрение/неодобрение по текстовому описанию, одобрение/неодобрение по кадрам и одобрение/неодобрение при итоговом выборе. Никто не мешает объединить эти наборы простым суммированием и получить единый индекс одобрения героев. Если герой совсем не понравился респонденту, по всем трем измерениям у него будут нули, если понравился во всех аспектах, по всем трем измерениям у него будут единицы. В итоге при суммировании измерений мы получим вполне себе количественный индекс, принимающий целые значения от 0 до 3.

Проделаем эти манипуляции для всех героев (не закапываемся в циклы, поэтому честно пишем 10 строчек, по одному для каждого героя):

In [None]:
king = start["Теодор"] + end["Теодор"] + likes["Теодор"]
queen = start["Флора"] + end["Флора"] + likes["Флора"]
princess = start["Альбина"] + end["Альбина"] + likes["Альбина"]
poet = start["Патрик"] + end["Патрик"] + likes["Патрик"]
prince = start["Пенапью"] + end["Пенапью"] + likes["Пенапью"]
kanzler = start["Давиль"] + end["Давиль"] + likes["Давиль"]
kanzler_wife = start["Оттилия"] + end["Оттилия"] + likes["Оттилия"]
actor = start["Жак"] + end["Жак"] + likes["Жак"]
actress = start["Марта"] + end["Марта"] + likes["Марта"]
maid = start["Марселла"] + end["Марселла"] + likes["Марселла"]

Посколько здесь нас интересуют не столько сами герои, сколько то, какие студенты их выбирали чаще всего, заберем из датафрейма `start` столбцы с характеристиками самих респондентов – профиль и пол – и соберем все полученные данные в единый датафрейм `pref`:

In [None]:
pref = pd.DataFrame({"профиль" : start["профиль"], 
                     "пол" : start["пол"], 
                     "опрос" : start["опрос"],
                     "Теодор" : king, 
                     "Флора" : queen, 
                     "Альбина" : princess, 
                     "Патрик" : poet, 
                     "Пенапью" : prince, 
                     "Давиль" : kanzler,
                     "Оттилия" : kanzler_wife,
                     "Жак" : actor, 
                     "Марта" : actress,
                     "Марселла" : maid})

Посмотрим на первые 5 строк:

In [None]:
pref.head()

Вспомним группировку и агрегирование!

### Задача 7

Сгруппируйте данные по полу и вычислите средний рейтинг одобрения для каждого из героев.

In [None]:
### YOUR CODE HERE

# в новой версии pandas добавьте внутрь agg() 
# аргумент numeric_only = True

### Задача 8

Сгруппируйте данные по профилю и вычислите средний рейтинг одобрения для каждого из героев.

In [None]:
### YOUR CODE HERE

### Задача 9

Сгруппируйте данные по профилю и полу и вычислите средний рейтинг одобрения для каждого из героев.

In [None]:
### YOUR CODE HERE