# Функции в Pandas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
stats = pd.read_excel('../files/ad_campaigns.xlsx')
stats.head()

In [None]:
stats.columns = ['group', 'phrase', 'effect', 'ad_id', 'title', 'text', 'link']
stats.head()

### Lambda-функции (Анонимные функции)
Хотим посчитать распределение количества слов в столбце с фразами

In [None]:
stats['word_count'] = stats['phrase'].apply(lambda x: len(x.split(' ')))
stats.head()

In [None]:
# вариант с передачей всей строчки функции
# тут надо обязательно указать параметр axis = 1

stats['word_count'] = stats.apply(lambda x: len(x['phrase'].split(' ')), axis=1)
stats.head()

In [None]:
stats['word_count'].hist(bins=30)

### Упражнение
Поисковые запросы с каким количеством слов встречаются в наших данных чаще всего? Выведите топ-5

### Произвольные функции
В URL кампаний есть названия. С этим надо что-то делать

In [None]:
# пример ссылки
url = stats.loc[0, 'link']
url

In [None]:
from urllib import parse

In [None]:
parsed = parse.urlsplit(url)
parsed

In [None]:
# как доставать значения
parsed.netloc

In [None]:
params = parse.parse_qs(parsed.query)
params

In [None]:
# вот и кампании
params['utm_campaign'][0]

In [None]:
# оборачиваем все в функцию
# в качестве аргумента будет строка датафрейма
def campaign_name(row):
    """Получение названия кампании из ссылки внутри строки row"""
    parsed = parse.urlsplit(row['link'])
    params_dict = parse.parse_qs(parsed.query)
    return params_dict['utm_campaign'][0]

In [None]:
stats['campaign'] = stats.apply(campaign_name, axis=1)
stats.head()

In [None]:
# как передать несколько аргументов
def power_up(row, n):
    """Возводит значение столбца effect в степень n"""
    return row['effect'] ** n

In [None]:
stats['power_up'] = stats.apply(power_up, n=2, axis=1)
stats.head()

### Упражнение
В наших данных есть много объявлений с услугой МРТ (в названии группы есть слово 'мрт') круглосуточно (в тексте объявления есть '24 часа'). Выделите строки, в которых не упоминается МРТ, но прием идет круглосуточно. Сколько таких строк в датасете?

# Группировки

In [None]:
# подсчет количества записей по колонкам
stats['campaign'].value_counts().head()

In [None]:
# нужно что-то более универсальное например аггрегированные табилицы
stats.groupby('campaign').count().head()

In [None]:
# тоже самое, что с value_counts
stats.groupby('campaign').count().reset_index().sort_values('group', ascending=False).head() 

In [None]:
# но теперь можно менять функции
stats.groupby('campaign').sum().sort_values('effect').head()

### Упражнение
Для каждой кампании campaign найдите минимальное значение столбца effect и постройте рейтинг кампаний по этим значениям, начиная с самого низкого.

### Упражнение
Какая кампания имеет наименьшую сумму по столбцу effect? 

# Агрегированные группировки
Считаем метрики для пользователей, которые выставили 100 и более оценок

In [None]:
ratings = pd.read_csv('../files/ratings.csv')
ratings.head()

### Упражнение
Получите список пользователей film_fans_user_ids, которые выставили 100 и более оценок фильмам. Чтобы перевести pandas series в список можно использовать метод tolist():

film_fans_user_ids = some_dataframe['userId'].tolist()

# Сводные таблицы
Прям как в экселе

In [None]:
data = pd.read_csv('../files/ratings.csv')
data.head()

In [None]:
# какие оценки поставил пользователь №1
data[ data['userId'] == 1 ]['rating'].value_counts()

In [None]:
# а для всех пользователей сразу?
data.pivot_table(index = 'userId', columns = 'rating', values = 'timestamp', aggfunc = 'count', fill_value = 0)

In [None]:
# можно итоги добавить
data.pivot_table(index = 'userId', columns = 'rating', values = 'timestamp', aggfunc = 'count', fill_value = 0,
                 margins = True)

### Упражнение
Какой пользователь выставил больше всех пятерок?

# Немного про визуализации

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('sales_data.csv', sep=';')
data.head()

In [None]:
plt.plot(data['month'], data['2016'])
plt.plot(data['2017'])
plt.plot(data['2018'])

In [None]:
plt.plot(data['month'], data['2016'], marker='o')
plt.plot(data['2017'], linestyle='dashed')
plt.plot(data['2016'], linewidth=5)

plt.legend()

### Seaborn
http://seaborn.pydata.org/examples/

In [None]:
features = pd.read_csv('correlation.tsv', sep='\t')
features.head()

In [None]:
# месяц сейчас не пригодится

features.drop('month', axis=1, inplace=True)
features.head()

In [None]:
features.corr()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
f, ax = plt.subplots(figsize=(9, 6))

sns.heatmap(features.corr())

In [None]:
# добавляем наглядности

f, ax = plt.subplots(figsize=(9, 6))

sns.heatmap(features.corr(), annot=True, fmt='.1f', ax=ax, cmap=sns.color_palette('coolwarm', 16))