# 1. Пакеты

![](http://advaitaworld.com/uploads/images/00/13/28/2012/06/15/36a8a1.png)

Разработчики языка Python придерживаются определённой философии программирования, называемой «The Zen of Python» («Дзен Питона», или «Дзен Пайтона»). 

Её текст можно поспотреть с помощью комнды import this (работает один раз за сессию). 

In [None]:
import this

Команда import позволяет подгрузить не только философию, но и какой-нибудь пакет с какими-нибудь командами.

Попробуем подгрузить несколькими разными способами пакет math.

In [None]:
import math 
math.sqrt(4)

При таком способе загрузки обращение к каждой команде модуля делается через точку. В Python работает табуляция. Если написать название модуля, поставить точку, а после нажать Tab, то Jupyter Notebook подскажет какие ещё команды есть внутри модуля.

In [None]:
math.sin(20)

Приведенный синтаксис может оказаться неудобным, если вам часто приходится вызывать какие-то математические функции. Чтобы не писать каждый раз слово «math», можно импортировать из модуля конкретные функции.

In [None]:
from math import sqrt

sqrt(4)

По аналогии можно импортировать из модуля абсолютно все функции, которые в нём есть с помощью команды *

In [None]:
from math import *
from pandas import * 
pi
DataFrame()
array()

Также можно подгрузить какой-нибудь модуль или пакет, но при этом изменить у него название на более короткое и пользоваться им.

In [None]:
import math as mh
mh.sqrt(4)

# 2. Все любят панд

Давайте подгрузим пакет для работы с таблицами, [pandas](http://pandas.pydata.org/) и попробуем немного поработать с данными, собранных по студентам из Вконтакте

## 2.1 Смотрим на данные

In [None]:
import pandas as pd  # подгружаем пакет для работы с таблицами

По имени `pd` нам теперь доступна куча команд для работы с таблицами. Давайте подгрузим данные и посмотрим что лежит внутри нашей таблички. Делать это будем командой [pd.read_csv().](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv)

Аргументов у нее очень много, критически важные:

 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - названия строк

In [None]:
# \t - это табуляция
# чтобы отработало так, как у меня, делаем следующее:
# 1) в папку, где ipynb, скопируйте файл
# 2) поправьте код
df = pd.read_csv('vk_main.csv', sep='\t')
df.head(7) # метод head выводит на экран первые 7 строк :) 

В табличке есть огромное количество самых разных переменных. Их названия довольно интуитивны. Будем разбираться с тем, за что отвечает какая колонка по мере необходимости. Отметим пока только то, что все переменные разных типов.

---

Есть несколько методов, которые мы используем сразу, как загрузили файл:
- [head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html): выводит первые 5 строк таблицы. Если задать в скобках число, то покажет ровно столько строк :)
- [info()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html): показывает сводную информацию о таблице; сколько записей, сколько колонок, сколько непустых записей в таблице, 
- [tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html): работает как head(), только наоборот, печатает с конца

На всякий случай, это **методы**. Их можно применять к датафрейму и столбцу, т.е. используем их так: <br>
**[Имя датафрейма].[Название метода с круглыми скобками]**
- df.head()
- df.tail()
- df.info()

----


На основную информацию по столбцам можно посмотреть с помощью метода `.info()`. Напротив каждого названия столбца можно увидеть, сколько в нём заполненных ячеек. Например, у $328$ человек из $425$ (общее число строк) заполнен город проживания `city`.

In [None]:
df.info()

Методов вроде `head()` и `info()` у табличек есть очень много. Давайте попробуем самые простые из них: 

### Задание 1.1:

- Выведите на экран первые 10 строк таблички 
- Выведите последние 5 строк таблички (метод `tail()`)

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


----------
### Поля
Кроме методов, у датафреймом есть еще поля. Это справочная информация о датафрейме. Список полей
<a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html"> здесь </a>.

Чаще всего мы используем поля: 
- **columns**: названия колонок
- **index**: названия строк
- **shape**: размеры датафрейма, кол-во строк и столбцов

Использование:

**[Имя датафрейма].[Имя поля]**

- df.columns
- df.index
- df.shape

Обратите внимание: нет круглых скобок!

### Задание 1.2: 
- Выясните сколько в таблице строк и столбцов (метод `shape`)
- Выведите на экран названия всех колонок таблицы (метод `columns`)

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


## 2.2 Базовые навыки по работе с табличками

### Выбор колонки

Чтобы вытащить столбец, у нему нужно через квадратные скобки обратиться по имени.

In [None]:
# цепляем head(), чтобы не получить слишком много напечатанных имен
df['first_name'].head()

Можно вытащить сразу несколько колонок и применить к ним какой-нибудь метод:

In [None]:
# обратите внимание, что в квадратные скобки мы записали только 1 объект - лист с названиями колонок. 
df[['first_name', 'last_name', 'city']].head()

Можно создавать новые колонки. Например, мы можем взять все имена и фамилии, записать их через пробел и положить в новую колонку.

In [None]:
# конкатенация - это объединение строчек в одну
df['first_last_name'] = df['first_name'] + ' ' + df['last_name']
df.head()

### Выбор подряд идущих строк

Если в квадратных скобках указать диапазон, то можно выбрать несколько строк, идущих друг за другом

In [None]:
df[:2]

In [None]:
df[1:10]

---
### Уникальные значения и частотые таблицы

Очень частой операцией является нахождение уникальных значений в колонке. В зависимости от задачи есть два метода. 
- [unique()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unique.html): возвращает массив уникальных значений в колонке - к нему можем применять только обычный питон
- [drop_duplicates()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html): удаляет дублирующиеся строчки в датафрейме/колонке и возвращает соответственно датафрейм или колонку - к ним можем дальше применять пандасовские методы

- [value_counts()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.value_counts.html): считает частотную таблицу, т.е. сколько раз мы встретили значение в колонке

### Задание 2:

- Вытащите из таблички колону с городом (city), примените к ней метод, который оставит в колонке только уникальные названия городов, `.unique()`
- Сколько всего городов есть в данных? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz

- Попробуйте вытащить ту же самую колонку и посчитать по ней, как часто, какой город встречается в данных, `.value_counts()`
- Выведите на экран $5$ самых популярных городов для жизни студентов первого курса

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


----------

Вот мы и добрались до самого главного. В pandas можно пытаться искать ответы на разные интересующие вас вопросы. Например, когда я смотрю на нашу табличку, у меня возникает вопрос:  

> Сколько девушек с именем отличающимся от "Аня" указали в профиле ссылку на свой инстаграм? 

Нас интересуют только девушки. Информация о поле лежит в колонке `male_dummy`. Если перед нами девушка, в этой колонке будет написан $0$. Сравним все значения в этой колонке с нулём. Если внутри правда $0$, на экране будет True.

In [None]:
df[(df['male_dummy'] == 0) & (df['instagram_dummy'] == 1) & (df['first_name'] != 'Аня')].shape[0]

Сделаем срез. Оставим в табличке только те строчки, где стоит True: 

In [None]:
df[df['male_dummy'] == 0].head()

Обратите внимание на номера строк. Видно, что $2$, $4$ и $5$ строчки были про мальчиков. Давайте теперь из этой, более маленькой таблички оставим только тех девушек, у которых есть инстаграм. Для этого нужен второй срез по колонке `instagram_dummy`. Если в ней стоит $1$, значит инстаграм есть.  Знак `&` между срезами говорит, что должны выполниться оба условия. Он читается как союз `и`.

Если мы хотим, чтобы выполнялось хотя бы одно из условий, можно использовать союз `или`, который обозначается значком `|`. 

In [None]:
df[(df['male_dummy'] == 0) & (df['instagram_dummy'] == 1)].head()

Выбросили ещё больше строк. Осталось добавить срез на имена. Нам нужно, чтобы девушка была с именем отличающимся от "Аня". Значки `!=` отвечают за $\neq$.

In [None]:
df[(df['first_name'] != "Аня") & (df['first_name'] != "Анна")].head()

Так мы вытащим табличку без Ань. Объединяем всё вместе.

In [None]:
# Можно аккуратно переносить строки кода в питоне для улучшения читаемости.
df[
    (df['instagram_dummy'] == 1)
    & (df['male_dummy'] == 0)
    & (df['first_name'] != "Аня") & (df['first_name'] != "Анна")
].head()

Сами условия важно не забывать оборачивать в круглые скобки `()`, чтобы питон не запутался, что с чем сравнивается. Также они определяют порядок действий, как в математике.

То есть мы командой 

`(df['instagram_dummy'] == 1) & (df['male_dummy'] == 0) & (df['first_name'] != "Аня") & (df['first_name'] != "Анна")` 

говорим табличке: 

`(у них есть инстаграм) И (они девушки) И (их зовут НЕ аня) И (их зовут НЕ анна))` 

И на выход получаем маленькую подтаблицу, где __все__ эти условия выполнены.

__Важно__: если вы хотите вывести все строки в таблице, где столбец попадает в какой-то _диапазон_ значений, придётся написать $2$ условия на этот столбец (двойное неравенство не прокатит, увы). Например, выведем всех людей, у которых количество друзей, посещающих этот курс, от $100$ до $153$:

In [None]:
df[(df['friends_from_course_cnt'] > 100) & (df['friends_from_course_cnt'] < 153)].head()

## 2.3 Работа с пропусками 


Пропуски в данных возникают по разным причинам. Кто-то забыл измерить, записать или в принципе таких данных в природе не существовало. Когда мы будем учить алгоритмы машинного обучения, нам придётся все эти пропуски заполнять. 

Количество пропусков в данных можно узнать с помощью метода [.isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html)

In [None]:
df.isnull().head() # возвращает True, если в ячейке пропуск, иначе --- False

In [None]:
df.isnull().sum()  # суммарное количество пропусков в каждом столбце

In [None]:
# отсортировали число пропусков по убыванию и вывели топ-10 
df.isnull().sum().sort_values(ascending=False).head(10)

Метод `.fillna(что-то)` позволяет заполнить пропуски чем-нибудь нейтральным. Например, посмотрим на колонку `city`. В ней сейчас есть пропуски. 

In [None]:
df['city'].head()

Давайте заполним их значением "не указано". 

In [None]:
df['city'] = df['city'].fillna('Не указано')
df['city'].head()

## 2.4 Поиск ответов на глупые вопросы 

Комбинируя все те знания, которые мы с вами добыли выше, можно искать ответы на разные вопросы.

### Задание 3

- Сколько студентов закрыли свой профиль (колонка `is_closed`)? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сколько всего в таблице студентов? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Какая доля студентов закрыла профиль? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сколько уникальных мужских имён встречается на первом курсе? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Выведите три самых популярных женских имени среди студентов

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сколько в среднем лайков ставят под мемы девушки (колонка `likes_memes`) 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сколько суммарно лайков оставили студенты в группе с мемами? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сколько в среднем лайков приходится на одного человека, подписанного на группу (колонка `in_hse_memes_group`)

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сколько лайков поставили люди, которые не подписаны на группу? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Выведите на экран колонки, в которых нет ни одного пропуска.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Выведите на экран 3 случайных записей для пользователей, которые приехали в Москву (`home_town` - откуда приехали, `city` - где живут сейчас)

- Среди двух полов найдите лидера по числу выложенных фоток (в колонке `photo_month_mean` среднемесячное кол-во фоток)

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


- Сейчас число лайков измеряется по шкале от $0$ до $1081$. В машинном обучении довольно часто возникает желание поменять у данных шкалу, в которой они измерены. Такая процедура называется скалированием. Давайте переведём лайки с отрезка $[0, 1081]$ на отрезок $[0, 1]$. Делать это будем по формуле: 

        x_new = (x-min)/(max-min)
    
        min = минимальный элемент в столбце
        max = максимальный элемент в столбце
        
Получившийся результат запишем в колонку `like_memes_scal`.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz


На последок __пара панд.__ Ведь именно в честь них (на самом деле в честь panel data) назван пакет pandas.

![](http://www.hughlansdown.com/photos/wildlife/mammals/pair-of-red-pandas.jpg)

# 3. Описательная статистика в pandas

В этом блоке мы будем смотреть, как считать различные статистики в `pandas`.

> В статистике строчка датафрейма называется «наблюдением» (*observation*), а столбец — «переменной» (*variable*). Данные в столбце должны быть однородны (например, может быть столбец, состоящий только из чисел или только из строк, но не может быть столбца, в котором перемешаны строки и числа).

## 3.1 Максимальное и минимальное значения

Посмотрим, какое в таблице есть максимальное и минимальное количество фоток в профиле.

In [None]:
df.photos_cnt.max()

In [None]:
df['photos_cnt'].min()

Обратите внимание, что мы можем обращаться к столбцам ещё и через точку (только если имя столбца не содержит пробелов / точек / запятых / и т.д.). Давайте посмотрим, кто накопил такое большое число фотографий в своём профиле. 

In [None]:
df[df.photos_cnt == df.photos_cnt.max()][['first_name','last_name']]

## 3.2 Меры центральной тенденции (среднего уровня)

Меры центральной тенденции — показатели, представляющие собой ответ на вопрос: «На что похожа середина данных?». Середину можно описывать с помощью разных показателей! Давайте посмотрим на них. 

**Среднее значение**

Среднее не нуждается в представлении. Вычислить его довольно просто: сложите все значения и разделите полученную сумму на их количество.

$$
\bar {x} =  \frac {1}{n} \sum _{i=1}^{n}x_{i}
$$

В случае со средним значением «серединой» датасета будет среднее арифметическое его значений. Среднее значение отражает типичный показатель в наборе данных. Если мы случайно выберем один из показателей, то, скорее всего, получим значение, близкое к среднему.

Найдём среднее количество друзей, которое есть у первокурсника.

In [None]:
df.friends_cnt.mean()

Это среднее значение говорит нам, что «типичный» первокурсник добавил к себе в друзяшки вконтакте $232$ человека.

**Медиана**

Медиана, как и среднее значение, нужна для определения типичного значения.

Чтобы найти медиану, данные нужно расположить в порядке возрастания. Медианой будет значение, которое совпадает с серединой набора данных. Если количество значений чётное, то берётся среднее двух значений, которые «окружают» середину.

In [None]:
df.friends_cnt.median()

Медианное число друзей составляет $185$ человек. Грубо говоря, получается, что у половины первокурсников меньше $185$ друзей, а у второй половины больше $185$ друзей. 

И медиана, и среднее значение отражают типичное значение. Когда в выборке нет выбросов, они примерно одинаковы. Если в выборке есть выбросы, то их довольно сильно разносит друг от друга, Например, если посмотреть на количество лайков, которое первокурсник оставляет в паблике "ХАЕР СКУЛ ОФ МЕМЕС", можно увидеть, что среднее значение довольно сильно отличается от медианы.

In [None]:
df.likes_memes.mean()

In [None]:
df.likes_memes.median()

Какие-то деятели лайкают слишком много мемесов и смещают среднее вверх. Давайте посмотрим на гистограмму лайков и друзей. Параметр `bins` отвечает за то, сколько столбиков строить. Длина каждого столбика расчитывается автоматически. 

In [None]:
df.likes_memes.hist(bins=50);

In [None]:
df.friends_cnt.hist(bins=50);

Видели? У лайков очень длинный хвост. Какой-то деятель оставил в паблосе аж $\approx 1000$ лайков. Чем длиннее хвост, тем страшнее выбросы. У числа друзей хвост короче. Из-за этого среднее и медианное число друзей ближе друг к другу.

Выбросы - зло. Среднее значение чувствительно к выбросам, а медиана нет. 

**Мода**

Это последняя мера центральной тенденции, о которой пойдёт речь. Мода определяется как значение, которое наиболее часто встречается в наборе данных. Давайте посмотрим на самое модное число лайков.

In [None]:
df.likes_memes.mode()

Обратите внимание, что, если значение появляется в данных неоднократно, оно приблизит среднее значение к моде. Чем чаще появляется значение, тем сильнее оно влияет на среднее. Таким образом, мода показывает наиболее значимый фактор, формирующий среднее значение.

Приятная особенность моды состоит в том, что её мы можем посмотреть не только для численных данных, но и для категориальных. Например, мы можем узнать какое имя на потоке самое частое. 

In [None]:
df.first_name.mode()

С помощью ещё одного  метода `value_counts()` мы можем посмотреть на то, как часто оно встречалось. 

In [None]:
df.first_name.value_counts()[:10]

## 3.3 Меры разброса

Выше мы посмотрели на то насколько данные типичные. Кроме типичность интересно насколько жесткий в данных разброс. Наример, в случае лайков, хвост длиннее, чем в случае друзей. Разные меры разброса помогают понять это. Они отвечают на вопрос: «Как сильно варьируются мои данные?». Например, мы поняли, что типичное число друзей находится в районе $200$. Возникает вопрос, а на сколько больше или меньше может быть число друзей.

**Дисперсия и стандартное отклонение**

Давайте посмотрим на то, насколько число друзей отличается от среднего значения. Для этого будем брать число друзей $x_i$ и вычитать из него среднее, $\bar x$:

$$
(x_i - \bar x)
$$

Предположим, что среднее значение $30$. У парня по имени Ярополк $25$ друзей. У девушки по имени Рагнеда $35$. Получается, что Ярополк отличается от типичного первокурсника на $25 - 30 = -5$ друзей. А Рагнеда на $35 - 30 = 5$ друзей. Когда мы сложим эти различия, получится $0$. Разброса нет. А это неправда. Из-за этого обычно разность возводят в квадрат. Тогда получается, что разброс в выборке составляет 

$$
\frac{1}{2} \cdot((25-30)^2 + (35-30)^2) = 25
$$ 

квадратных друзей. 

Ещё квадрат нужен для того, чтобы подчеркнуть, что чем сильнее число друзей отличается от среднего, тем выше разброс. Посчитанная нами выше величина называется *дисперсией*

$$
\sigma^2= \frac{1}{n} \sum_{i=1}^{n} (x_{i}-{\bar {x}})^{2}
$$

Проблема дисперсии в том, что она измеряется в квадратных друзьях. Чтобы вернуться назад, к обычным друзьям, нужно извлечь из неё корень. Тогда получится величина, которая называется *среднеквадратическим отклонением* или *стандартным отклонением*. 

In [None]:
df.friends_cnt.var() # дисперсия, variance

In [None]:
df.friends_cnt.std() # стандартное отклонение, standard deviation

Часто дисперсию считают по формуле 

$$
\sigma^2= \frac{1}{n-1} \sum_{i=1}^{n} (x_{i}-{\bar {x}})^{2}
$$

Это правильнее. Хэштег из курса тервера и матстатистики: несмещенная оценка.

Давайте вручную убедимся, что питон считает именно по такой формуле. Для этого вытащим в переменную `friends` число друзей. Иногда в табличке встречаются пропуски, которые обозначаются символом `NA` (not availible). Нужно избавиться от пропусков. Это помогает сделать метод `.dropna()`. Он выбросит все пропуски.

In [None]:
friends = df.friends_cnt.dropna() # выбросили все пропуски
n = friends.shape[0]              # узнали сколько всего осталось строк

# посчитали дисперсию по классной формуле, результат совпадает с методом .var()
sum((friends - friends.mean())**2) / (n - 1)

In [None]:
# посчитали дисперсию по недостаточно классной формуле, есть небольшое отличие от предыдущего значения
sum((friends - friends.mean())**2) / n

## 3.4 Метод describe

**Метод describe** считает всё и сразу! 

In [None]:
df.info()

In [None]:
df.describe()

Для каждой переменной мы видим: 

* `count` - число наблюдений, которое есть без пропусков
* `mean` - среднее значение
* `std` - стандартное отклонение
* `min` -  минимум
* `max` -  максимум
* `50%` -  медиана (половина выборки больше неё, половина меньше)
* `25%` -  25% квантиль (четверть выборки меньше, 75% больше)
* `75%` -  75% квантиль

Можно построить такую же табличку только для категориальных переменных. 

In [None]:
df.describe(include='object')

* `count` -  число наблюдений, которое есть без пропусков
* `unique` - число уникальных значений (категорий), которые принимает переменная
* `top` - мода для каждой категории
* `freq` - частота, с которой встречается мода

Кстати говоря, любой квантиль можно посчитать следующей функцией. Обратите внимание, что в качестве аргумента здесь пишется не значение процента $0-100$, а доля из диапазона $0-1$.

In [None]:
df.friends_cnt.quantile(0.95)

Выходит, что у $95\%$ людей из выборки меньше $511$ друзей, и у $5\%$ --- больше. Т.е. чтобы вывести топ-$5\%$ по дружелюбности, достаточно построить условие `количество друзей > квантиль-95`.

In [None]:
df[df.friends_cnt > df.friends_cnt.quantile(0.95)]

Да-да, примерно так вас можно "отсеять" по рейтингу при _распределении различных студенческих благ_ (c) 

__Подробнее тут:__  https://www.hse.ru/studyspravka/rate/.

## 3.4. Группировка

Если бы нас попросили посчитать, какое среднее число лайков ставят под мемы парни и девушки, мы могли бы сделать это с помощью срезов: 

In [None]:
df[df.male_dummy == 0].likes_memes.mean()

In [None]:
df[df.male_dummy == 1].likes_memes.mean()

Судя по всему, парни чаще проявляют свою любовь к мемам, так как в среднем они оставляют в паблике больше лайков. Не факт, что это правда. Вполне может быть, что у нас не очень удачная выборка. Статистика требует, чтобы подобные вещи проверялись более аккуратно.

Код пришлось продублировать дважды. А что, если бы полов было не два, а десять? Пришлось бы копировать и вставлять код десяток раз. Это не очень эффективно. Чтобы так не делать, придумали группировки. Их обычно делают с помощью метода `groupby`.

In [None]:
df.groupby('male_dummy').likes_memes.mean()

In [None]:
df.groupby(['male_dummy', 'instagram_dummy']).likes_memes.mean()

In [None]:
df.groupby(['male_dummy', 'instagram_dummy'])[['likes_memes', 'friends_cnt']].agg(['mean', 'min'])

В качестве аргумента в этой переменной нужно указать по каким переменным мы хотели бы осуществить группировку применяемой функции. В данной ситуации это пол. 

Можно делать `groupby` по нескольким колонкам, получать результаты по нескольким колонкам и даже применять несколько функций за раз! Например, можно сравнить количество лайков и фото под записями на стене у парней / девушек без / с инстаграмом.

In [None]:
df.groupby(['male_dummy', 'instagram_dummy'])[['wall_like_cnt', 'photos_cnt']].agg(['count','min','max','mean'])

А если вместо конкретных статистик хочется вывести просто всё сразу для всех, можно снова обратиться к `describe`:

In [None]:
df.groupby(['male_dummy', 'instagram_dummy']).describe()

## 3.5  Apply

Можно делать с ячейками разные страшные вещи. Например, можно применить к каждому объекту ячейки одну и ту же функцию. Это можно сделать это методом `apply`. Например, вот так можно посчитать число букв в имени каждого человека из таблицы: 

In [None]:
df.first_name.apply(len)[:10]

Можно даже построить распределение длин имён. 

In [None]:
df.first_name.apply(len).hist();

А ещё посчитать среднюю длину имени и многое другое. 

In [None]:
df.first_name.apply(len).mean()

Можно написать свою функцию и применить её к колонке. Например, вот так можно достать первую букву каждого имени: 

In [None]:
def my_function(name):
    return name[0]

example = "Настя"

my_function(example)

In [None]:
df.first_name.apply(my_function)[:10]

Ровно то же самое можно сделать в одну строчку с помощью лямбда-функций. Это как обычная функци, но её нигде не надо объявлять. 

In [None]:
df.first_name.apply(lambda name: name[0]).value_counts().plot(kind='bar')

Преобразования можно делать сколь угодно сложными.

## 3.6 Поиск ответов на глупые вопросы 

#### Задание 1

В переменной `wall_text` лежат тексты со стен всех пользователей.

* Постройте распределение длин для всех стен. 
* Сколько людей написали на своей стенке хотябы раз название своего вуза? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz




#### Задание 2

Вывести имена самых больших любителей мемов (топ 1\% значений по колонке `likes_memes`. Итоговую табличку отсортировать по числу оставленных в группе лайков. 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  your turn!


#### Задание 3

Построить гистограммы для параметров `wall_emoji_cnt` (число эмодзи на стене у человека) и `wall_comment_cnt` (число коментов на стене у человека). Где больше выбросов?

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  your turn!


#### Задание 4

Посчитайте соотношение полов в направлениях по маркетингу и менеджменту (`is_bmm` - если с маркетинга $1$, с менеджмента $0$). Проинтерпретируйте итоговые показатели. Где больше парней? Во сколько раз? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  your turn!


#### Задание 5

Каждый студент добавляет к себе в друзья людей со своего потока. В переменной `friends_mail_from_course_pct` записана доля парней-друзей с потока (то, что переменная называется не `male` - опечатка).

Постройте гистограмму для распределения доли парней в друзьях для девушек и для парней. Обе гистограммы постройте на одной картинке. 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  your turn!

Посчитайте для обеих групп среднее и дисперсию. Какие выводы вы можете сделать на основе посчитанных статистик? 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  your turn!


__Выводы:__

- Средняя доля друзей парней у парней гораздо выше, чем средняя доля друзей парней у девушек
- Разброс в доле друзей парней у парней выше, чем у девушек, этот показатель более непредсказуем. 

Только не надо делать из этой статистики вывод, что дружба между мужчиной и женщиной невозможна. Эту гипотезу можно попытаться проверить на данных с помощью немного иного статистического арсенала.

![](https://images.aif.ru/018/038/7ad2753867ed0c5d0281f453bb55bf8a.jpg)

# 4. Визуализация

In [None]:
import matplotlib.pyplot as plt

In [None]:
# зададим параметры рисуемых нами графиков, например, размер
plt.rcParams['figure.figsize'] = (16, 8)

In [None]:
youtube = pd.read_csv("../data/youtube_data.csv", sep = "\t")
print(youtube.shape)
youtube.head()

In [None]:
youtube.dtypes

Добавим несколько столбцов, которые будут отражать _возраст видео_ в более удобной форме. Заодно научимся работать с датами. 

In [None]:
from datetime import datetime  # пакет для работы с датами

In [None]:
pd.to_datetime()

Сейчас все даты записаны как текст. Буква $T$ отделяет дату от времени, буква $Z$ означает, что это время по нулевому мередиану (Григвич).

In [None]:
x = youtube.publishedAt.iloc[0]
x

Распарсим дату пакетом `datetime`, чтобы питон понимал сколько часов, дней минут и т.д. было в момент публикации видео.

In [None]:
y = datetime.strptime(x, "%Y-%m-%dT%H:%M:%S.%fZ")
y

Можно представить время в целого числа: 

In [None]:
y.timestamp()  # число секунд с 1 января 1970 года до публикации видео

Подробнее про подобный формат времени [читай тут.](https://ru.wikipedia.org/wiki/Unix-время) Кстати говоря, с таким форматом записи времени связана [проблема 2038 года.](https://ru.wikipedia.org/wiki/Проблема_2038_года) Именно тогда может настать цифровой апокалипсис. Почитайте про это, чтобы быть в курсе. 

Между распаршеными датами можно считать число секунд/минут/часов и тп 

In [None]:
date0 = datetime.strptime(youtube.publishedAt.iloc[0], "%Y-%m-%dT%H:%M:%S.%fZ")
date1 = datetime.strptime(youtube.publishedAt.iloc[1], "%Y-%m-%dT%H:%M:%S.%fZ")

diff = date0 - date1
diff

Завернём это всё в функции. 

In [None]:
def get_ts(timestamp_iso8601):
    timestamp = datetime.strptime(timestamp_iso8601, "%Y-%m-%dT%H:%M:%S.%fZ")
    return timestamp.timestamp()

def get_age(published_at, now = "2019-03-15T00:00:00.000Z"):
    age = datetime.strptime(now, "%Y-%m-%dT%H:%M:%S.%fZ") -  datetime.strptime(published_at, "%Y-%m-%dT%H:%M:%S.%fZ")
    return int(age.total_seconds() / 86400)

__Вопрос:__ откуда число $86400$?

In [None]:
youtube['publishedAt_ts'] = youtube.publishedAt.apply(get_ts)
youtube['video_age'] = youtube.publishedAt.apply(get_age)

## 4.1 Гистограммы 

In [None]:
plt.hist(youtube['video_age'], bins=100)
plt.show()

In [None]:
youtube[youtube.video_age >= youtube.video_age.max() - 100]

Можно сгладить распределение!

In [None]:
youtube['video_age'].hist(bins=100, density=True)

youtube['video_age'].plot(kind='kde', linewidth=4)

plt.xlim(0, 4000)
plt.title("Распределение возраста  видео");

Можно посмотреть на основные описательные статистики получившегося распределения. 

In [None]:
youtube['video_age'].describe()

Давайте введём новую колонку `is_rap`. И запишем в неё $1$, если видео с рэпчиной. 

In [None]:
youtube['is_rap'] = 1*(youtube['music_style']  == 'rap')

Можно теперь построить две гистограмы. На одной будет возраст рэпчины, на второй возраст остальных видео. 

In [None]:
youtube['video_age'][youtube.is_rap == 1].hist(bins=100, alpha=0.4, label="rap", density=True)
youtube['video_age'][youtube.is_rap == 0].hist(bins=100, alpha=0.4, label="no_rap", density=True)

plt.legend()

plt.title("Распределение возраста  видео");

Можно построить сразу много гистограмм! 

In [None]:
columns = ['viewCount', 'likeCount', 'dislikeCount']
youtube[columns].hist(figsize=(20, 6));

Можно построить много гистограмм для логарифмов показателей. Тогда выбросы (помните? обсуждали на прошлой паре) сгладятся и будет чётче видно природу данных. 

In [None]:
columns = ['viewCount', 'likeCount', 'dislikeCount']
youtube[columns].apply(lambda x: np.log(x + 1)).hist(figsize=(20, 6));

## 4.2  Усатый ящик  и seaborn 

Многие картинки в matplotlib рисовать не очень удобно и приходится делать много циклов. Для простоты был сделан специальный пакет для графики `seaborn`. В нём все картинки строятся в одну-две команды.

Давайте построим в seaborn boxplot.  Некоторые называют его "ящик с усиками". 

![](https://upload.wikimedia.org/wikipedia/commons/3/32/Densityvsbox.png)

Представляет из себя визуальное описание одномерной величины: отражает медиану, верхнюю и нижнюю квартиль, выбросы и минимальное и максимальное значения.

In [None]:
import seaborn as sns

In [None]:
columns

In [None]:
df_log = youtube[columns].apply(lambda x: np.log(x + 1)) # снова прологарифмируем
df_log['music_style'] = youtube['music_style']
df_log.head()

In [None]:
sns.boxplot(x='music_style', y='likeCount', data=df_log);

Можно построить похожую картинку под названием виалончель. Она отражает то же самое, что и ящики с усами, но выглядит более красиво. 

In [None]:
sns.violinplot(x='music_style', y='likeCount', data=df_log);

Теперь давайте немного поработаем со сложными картинками, которые состоят из кучи более маленьких картинок. Например, я хочу, чтобы слева сверху была гистограмма с лайками под рэпчиной. Справа снизу гистограмма с лайками под всем остальным. А на побочной диагонали виалончели и ящики с усами. 

In [None]:
df_log['is_rap'] = 1*(youtube['music_style']  == 'rap')

In [None]:
# Первая строчка говорит что я буду строить матрицу из картинок размера 2 x 2
_, axes = plt.subplots(2, 2, figsize=(12,12))

# дополнительной опцией ax = axes[i,j] я говорю где рисовать картинку! 
df_log['likeCount'][df_log.is_rap == 1].hist(bins=100, density=True, ax=axes[0, 0])
df_log['likeCount'][df_log.is_rap == 0].hist(bins=100, density=True, ax=axes[1, 1])

sns.boxplot(x='is_rap', y='likeCount', data=df_log, ax=axes[1, 0])
sns.violinplot(x='is_rap', y='likeCount', data=df_log, ax=axes[0, 1]);

## 4.3 Немного столбцовых диаграмм 

Давайте чуть детальнее посмотрим на возраст видео и заведём новую колонку: сколько видео лет.

In [None]:
def get_year(x):
    return datetime.strptime(x, "%Y-%m-%dT%H:%M:%S.%fZ").year

youtube['year'] = youtube.publishedAt.map(get_year)

Построим стобиковую диаграмку для жанров, чтобы понять как они распределены. 

In [None]:
sns.catplot('music_style', data=youtube, kind='count')

Можно постэкать жанры между собой на одной картинке и посмотреть как их соотношение изменялось год от года.

In [None]:
df = youtube.pivot_table(index='year', columns='music_style', values='video_age', aggfunc='count')
df

In [None]:
df.plot(kind='bar', stacked=True)

## 4.4 Scatterplot (облако рассеивания) 

In [None]:
columns = ['viewCount', 'likeCount', 'dislikeCount']
sns.pairplot(df_log[columns], height=4, aspect=1);

In [None]:
sns.pairplot(df_log, hue='is_rap');

In [None]:
sns.jointplot(x="likeCount", y="viewCount", data=df_log, kind="reg");

In [None]:
sns.jointplot(x="likeCount", y="viewCount", data=df_log, kind="kde");

## 4.5 Heatmap 

Можно посчитать между признаками корреляцию и построить картинку для неё :) 

Оставляем в табличке только числовые признаки. 

In [None]:
object_names = ['music_style', 'performer', 'publicStatsViewable', 'publishedAt', 'tags',
                'video_id', 'duration', 'license', 'licensedContent', 'duration', 'license',
                'definition', 'description', 'title', 'caption', 'year', 'is_rap', 'categoryId', 
                'publishedAt_ts']

df_numeric = youtube.drop(object_names, axis=1)

In [None]:
sns.set(font_scale=1)
plt.subplots(figsize=(12, 12))
sns.heatmap(df_numeric.corr( ), square=True,
              annot=True, fmt=".1f", linewidths=0.1, cmap="RdBu");