# Функции в Pandas
Примеры из презентации

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({'user_id': [1, 2, 3], 'clicks': [163, 130, 97], 'orders': [2, 4, 0]})
df

Unnamed: 0,user_id,clicks,orders
0,1,163,2
1,2,130,4
2,3,97,0


In [3]:
df = pd.DataFrame({'user_id': [1, 2, 3], 'clicks': [163, 130, 97], 'orders': [2, 4, 0], 'calculated': [False, False, True]})
df[['user_id', 'clicks', 'orders', 'calculated']]

Unnamed: 0,user_id,clicks,orders,calculated
0,1,163,2,False
1,2,130,4,False
2,3,97,0,True


In [4]:
def watcher(param):
    """Мне только посмотреть"""
    return param == 0

In [5]:
df['watcher'] = df['orders'].apply(watcher)
df

Unnamed: 0,user_id,clicks,orders,calculated,watcher
0,1,163,2,False,False
1,2,130,4,False,False
2,3,97,0,True,True


Применяем метод apply к одному столбцу. Сейчас в переменную функции передаются значения одного столбца

In [6]:
def conversion(row):
    """Подсчет конверсии переходов в покупки"""
    return row['orders'] / row['clicks']

### Как потестировать функцию со значениями одной строки

In [7]:
row1 = pd.DataFrame({'clicks': [163], 
                     'orders': [2], 
                     'user_id': [1]})
conversion(row1)

0    0.01227
dtype: float64

Применяем метод apply к датафрейму. В переменную функции передаются строки целиком

In [8]:
df = pd.DataFrame({'user_id': [1, 2, 3], 'clicks': [163, 130, 97], 'orders': [2, 4, 0]})
df[['user_id', 'clicks', 'orders']]

Unnamed: 0,user_id,clicks,orders
0,1,163,2
1,2,130,4
2,3,97,0


In [9]:
df['conversion'] = df.apply(conversion, axis=1)

In [10]:
df[['user_id', 'clicks', 'orders', 'conversion']]

Unnamed: 0,user_id,clicks,orders,conversion
0,1,163,2,0.01227
1,2,130,4,0.030769
2,3,97,0,0.0


### Анализ рекламных кампаний

In [40]:
import pandas as pd

In [41]:
stats = pd.read_excel('ad_campaigns.xlsx')
stats.head()

Unnamed: 0,Название группы,Фраза (с минус-словами),Продуктивность,ID объявления,Заголовок,Текст,Ссылка
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...


In [42]:
stats.columns = ['group', 'phrase', 'effect', 'ad_id', 'title', 'text', 'link']
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...


### Lambda-функции
Хотим посчитать распределение количества слов в столбце с фразами

In [43]:
phrase = 'МРТ на Менделеевской от 2000'

In [44]:
len(phrase.split(' '))

5

In [45]:
stats['word_count'] = stats['phrase'].apply(lambda word: len(word.split(' ')))
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2


In [46]:
# вариант с передачей всей строчки функции
# тут надо обязательно указать параметр axis = 1

stats['word_count'] = stats.apply(lambda x: len(x['phrase'].split(' ')), axis=1)
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2


### Упражнение
Напишите отдельную функцию word_count, которая считает количество слов в столбце phrase. Функцию можно применять как к столбцу phrase, так и к строке целиком.

In [47]:
words = []
new_words_count = []
def word_count():
    for row in stats['phrase']:
        words = len(row.split(' '))
        new_words_count.append(words)
word_count()
stats["new_words_count"] = new_words_count
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2


######**Для проверки правильности работы решил добавить новый столбец "new_words_count" для своей функции вместо перезаписи уже существующего word_count.**


### Произвольные функции
В URL кампаний есть названия. С этим надо что-то делать

In [48]:
# обращение к индексу и значениям Series
res = stats.word_count.value_counts()
res

3     1129
4      529
2      189
5      137
6       84
7       38
8       30
9       12
10       6
12       2
11       1
17       1
21       1
Name: word_count, dtype: int64

In [49]:
#res = stats.new_words_count.value_counts()
#res

In [50]:
res.index[0]

3

In [51]:
res.values[0]

1129

In [52]:
# пример ссылки
url = stats.loc[0, 'link']
url

'https://awesome-site.ru/?utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}'

In [53]:
from urllib import parse

In [54]:
parse.urlsplit('https://ya.ru/news/sport?search=footbal#abc')

SplitResult(scheme='https', netloc='ya.ru', path='/news/sport', query='search=footbal', fragment='abc')

In [55]:
parsed = parse.urlsplit(url)
parsed

SplitResult(scheme='https', netloc='awesome-site.ru', path='/', query='utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}', fragment='')

In [56]:
# можно конечно вручную
parsed.query.split('&')[2].split('=')[1]

'a825749b87'

In [57]:
# как доставать значения

parsed.netloc

'awesome-site.ru'

In [58]:
params = parse.parse_qs(parsed.query)
params

{'utm_source': ['yandex'],
 'utm_medium': ['cpc'],
 'utm_campaign': ['a825749b87'],
 'utm_content': ['dev_{device_type}']}

In [59]:
# вот и кампании

params['utm_campaign'][0]

'a825749b87'

In [60]:
# зачем тут везде списки?

url_with_doubles = 'https://awesome-site.ru/?a=1&a=2&a=3'

parsed = parse.urlsplit(url_with_doubles)
parse.parse_qs(parsed.query)

{'a': ['1', '2', '3']}

In [61]:
# оборачиваем все в функцию
# в качестве аргумента будет строка датафрейма

def campaign_name(row):
    """Получение названия кампании из ссылки внутри строки row"""

    parsed = parse.urlsplit(row['link'])
    params_dict = parse.parse_qs(parsed.query)

    return params_dict['utm_campaign'][0]

In [62]:
# проверяем датафрейм
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2


In [63]:
stats['campaign'] = stats.apply(campaign_name, axis=1)
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count,campaign
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,a825749b87
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca


### Как передать в функцию несколько аргументов

In [35]:
# как передать несколько аргументов

def power_up(row, n):
    """Возводит значение столбца effect в степень n"""
    return row['effect'] ** n

In [36]:
stats['power_up'] = stats.apply(power_up, n=3, axis=1)
stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count,campaign,power_up
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87,91.125
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87,91.125
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,a825749b87,405.224
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca,125.0
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca,125.0


### Упражнение
В наших данных есть много объявлений с услугой МРТ (в столбце group есть слово 'мрт') круглосуточно (в тексте объявления text есть '24 часа'). Отфильтруйте строки, в которых НЕ упоминается МРТ, но прием идет круглосуточно. Сколько таких строк в датасете?

In [65]:
len(stats['group'])

2159

In [77]:
stats['text'].value_counts()

24 часа. МРТ в день обращения. Консультация врача бесплатно. Без очередей.    1541
24 часа. МРТ в день обращения. Консультация врача бесплатно. Без очередей      549
24 часа. От 2 000₽. Консультация врача бесплатно. Без очередей                  39
24 часа. От 2 000₽. Консультация врача бесплатно. Без очередей.                 30
Name: text, dtype: int64

***Сперва найдем в скольких строках столбца "group" имеется слово мрт***

In [66]:
stats_with_mrt = stats[stats['group'].str.contains('мрт')]
stats_with_mrt

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count,campaign
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,a825749b87
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca
...,...,...,...,...,...,...,...,...,...,...
2154,мрт палиха,"""мрт вднх""",7.4,3826704858,МРТ на ВДНХ в Москве от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9bf072c32b
2155,клиника москва мрт,мрт вднх -головы -касаткина -позвоночника -сде...,7.2,3826704858,МРТ на ВДНХ в Москве от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,8,8,9bf072c32b
2156,клиника москва мрт,мрт палиха -10 -головы -позвоночника -сделать ...,7.4,3826704860,МРТ на ул. Палиха от 2 000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,9,9,a117c5fc1b
2157,клиника москва мрт,"""клиника москва мрт""",8.7,3826704862,Клиники МРТ в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3,23d6da5a5a


**Изначальный размер датасета составлял 2159 строк. После нахождения всех строк с "мрт" в стоблце group получаем 2120 оставшихся строк и записываем их в новый датасет.
Далее объединим два датасета.**

In [67]:
stats_without_mrt = pd.concat([stats, stats_with_mrt], axis = 0, ignore_index = True)
len(stats_without_mrt)

4279

**Получаем 4279 строк в датасете. Сумма строк двух датасетов совпадает. Далее были удалены одинаковые строки, следовательно у нас останется датасет без вхождения мрт в столбце group.** 

In [107]:
stats_without_mrt = stats_without_mrt.drop_duplicates(keep=False)
stats_without_mrt.reset_index().head(5)

Unnamed: 0,index,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count,campaign
0,1570,перово томография центр,на мрт щукинский -голова -позвоночника -сделат...,6.6,2428554709,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,8,8,8e77a0e565
1,1571,перово томография центр,"""!на !сиреневом !бульвар !мрт""",1.8,2428554711,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,4,4,8e77a0e565
2,1572,перово томография центр,перово томография центр,7.7,2428554713,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3,8e77a0e565
3,1573,свао томография,"""!перово !томография !центр""",3.3,2428554713,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3,8e77a0e565
4,1574,свао томография,"""перово томография центр""",4.8,2428554713,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3,8e77a0e565


In [78]:
print(f'Всего осталось {len(stats_without_mrt)} строк в которых не содержится слово "мрт" в столбце group. Проверка на 24 часа в столбце text не является необходимой, поскольку не существует ни единой строки без этой надписи.')

Всего осталось 39 строк в которых не содержится слово "мрт" в столбце group. Проверка на 24 часа в столбце text не является необходимой, поскольку не существует ни единой строки без этой надписи.


# Группировки

In [79]:
df = pd.DataFrame({'order_id': [1, 2, 3, 4, 5], 'country': ['Россия', 'Китай', 'Китай', 'Россия', 'Россия'], 
                   'category': ['Электроника', 'Авто', 'Электроника', 'Авто', 'Авто'], 
                   'amount': [100, 80, 90, 140, 90]})
df

Unnamed: 0,order_id,country,category,amount
0,1,Россия,Электроника,100
1,2,Китай,Авто,80
2,3,Китай,Электроника,90
3,4,Россия,Авто,140
4,5,Россия,Авто,90


Создадим датафрейм df_russia, в котором оставим заказы из России. И аналогично df_china (заказы из Китая).

In [85]:
df_russia = df[ (df['country']=='Россия')]
df_russia

Unnamed: 0,order_id,country,category,amount
0,1,Россия,Электроника,100
3,4,Россия,Авто,140
4,5,Россия,Авто,90


In [84]:
df_china = df[(df['country'] == 'Китай')]
df_china

Unnamed: 0,order_id,country,category,amount
1,2,Китай,Авто,80
2,3,Китай,Электроника,90


Посчитаем для df_russia и df_china:
- среднюю стоимость заказа
- разницу между максимальной и минимальной стоимостью заказа

In [87]:
df_russia['amount'].mean()

110.0

In [88]:
df_china['amount'].mean()

85.0

In [90]:
df_russia['amount'].max() - df_russia['amount'].min()

50

In [91]:
df_china['amount'].max() - df_china['amount'].min()

10

Объединим процесс разбиения на датафреймы

In [92]:
def groupby_function(data):
    return data.amount.max() - data.amount.min()

In [93]:
df.groupby('country').apply(groupby_function)

country
Китай     10
Россия    50
dtype: int64

Вернемся к статистике рекламных кампаний

In [94]:
# раньше использовали value_counts

stats['campaign'].value_counts().head()

7f35591a28    456
8e77a0e565    348
2cc2e7d770    240
f6d2ae1e3d    220
e90f4db55a    218
Name: campaign, dtype: int64

In [95]:
# более универсальный способ

stats.groupby('campaign').count().head()

Unnamed: 0_level_0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
034ada41b6,3,3,3,3,3,3,3,3,3
03fcaecd1d,2,2,2,2,2,2,2,2,2
0697a81555,2,2,2,2,2,2,2,2,2
08cdcb57a3,3,3,3,3,3,3,3,3,3
0f0ba311fb,2,2,2,2,2,2,2,2,2


In [96]:
stats.groupby('campaign').count()[['group', 'effect']].head()

Unnamed: 0_level_0,group,effect
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1
034ada41b6,3,3
03fcaecd1d,2,2
0697a81555,2,2
08cdcb57a3,3,3
0f0ba311fb,2,2


### Как вернуть столбец из индекса - метод reset_index()

In [104]:
stats.groupby('campaign').count().reset_index()

Unnamed: 0,campaign,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count
0,034ada41b6,3,3,3,3,3,3,3,3,3
1,03fcaecd1d,2,2,2,2,2,2,2,2,2
2,0697a81555,2,2,2,2,2,2,2,2,2
3,08cdcb57a3,3,3,3,3,3,3,3,3,3
4,0f0ba311fb,2,2,2,2,2,2,2,2,2
...,...,...,...,...,...,...,...,...,...,...
110,f6d2ae1e3d,220,220,220,220,220,220,220,220,220
111,f80e902d76,1,1,1,1,1,1,1,1,1
112,fbed7afb58,3,3,3,3,3,3,3,3,3
113,fe6fa9154a,2,2,2,2,2,2,2,2,2


### К группировке можно применять разные функции такие образом:

In [109]:
obj = stats.groupby('campaign')
obj.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count,campaign
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,a825749b87
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,a825749b87
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9cc0c5f6ca
...,...,...,...,...,...,...,...,...,...,...
2154,мрт палиха,"""мрт вднх""",7.4,3826704858,МРТ на ВДНХ в Москве от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,9bf072c32b
2155,клиника москва мрт,мрт вднх -головы -касаткина -позвоночника -сде...,7.2,3826704858,МРТ на ВДНХ в Москве от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,8,8,9bf072c32b
2156,клиника москва мрт,мрт палиха -10 -головы -позвоночника -сделать ...,7.4,3826704860,МРТ на ул. Палиха от 2 000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,9,9,a117c5fc1b
2157,клиника москва мрт,"""клиника москва мрт""",8.7,3826704862,Клиники МРТ в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3,23d6da5a5a


In [99]:
obj.max().head()

Unnamed: 0_level_0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
034ada41b6,в недорого москва мрт,в москве открытого типа адрес мрт -цена,9.0,2428554779,Адрес МРТ открытого типа в Москве,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,7,7
03fcaecd1d,сделать мрт сущевский вал,сделать мрт стромынка,6.5,2101705759,Сделайте МРТ на ул. Стромынка!,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3
0697a81555,мрт позвоночника сущевский вал,мрт позвоночника стромынка,5.5,2101706415,МРТ позвоночника на ул. Стромынка,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3
08cdcb57a3,мрт сао,мрт сао -головы -москве -позвоночника -сделать...,7.4,2101705000,МРТ в САО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,7,7
0f0ba311fb,сделать мрт октябрьский,сделать мрт новослободская,6.4,2101705726,Сделайте МРТ на Новослободской,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3


In [173]:
obj['effect'].mean().head()

campaign
034ada41b6    7.200000
03fcaecd1d    5.250000
0697a81555    4.750000
08cdcb57a3    6.133333
0f0ba311fb    5.400000
Name: effect, dtype: float64

Для каждой кампании campaign найдем минимальное значение столбца effect и построим рейтинг кампаний по этим значениям, начиная с самого низкого.

In [202]:
stats3 = stats.drop_duplicates(subset=['campaign', 'effect'])

In [203]:
stats3['campaign'].value_counts()

8e77a0e565    41
7f35591a28    41
2cc2e7d770    33
7388fb4c7b    22
be97523396    22
              ..
63153306ff     1
22797af531     1
e2e45b2b2a     1
28d8dca4df     1
23d6da5a5a     1
Name: campaign, Length: 115, dtype: int64

In [204]:
stats3.groupby('effect')['campaign'].min()

effect
1.6    8e77a0e565
1.7    7f35591a28
1.8    7f35591a28
1.9    1a39ecc6ce
2.0    8d3a748298
          ...    
8.6    55188f1274
8.7    23d6da5a5a
8.8    41af22f2cc
9.0    034ada41b6
9.3    88dfb2a17b
Name: campaign, Length: 74, dtype: object

In [211]:
stats3 = stats.drop_duplicates(subset=['campaign', 'effect'])
stats4 = stats3.sort_values(by=['effect'], ascending=True)
stats4

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,word_count,new_words_count,campaign
1578,семеновский томография,"""семеновский томография""",1.6,2428554717,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,2,2,8e77a0e565
404,мрт на алексеевской кулаков переулок 13 отзывы,"""!мрт !на !алексеевской !кулаков !переулок !от...",1.7,2101705366,МРТ в Москве от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,7f35591a28
2137,мрт на шолохова,"""!круглосуточный !мрт !в !москве""",1.8,3826704844,МРТ круглосуточно. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,4,4,d96029561c
344,мрт иваньковское шоссе 3,мрт иваньковское шоссе 3,1.8,2101705307,МРТ в Москве от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,4,4,7f35591a28
604,сделать мрт в районе ул лобненская,сделать мрт в районе ул лобненская,1.8,2101705540,МРТ у метро в Москве от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,be97523396
...,...,...,...,...,...,...,...,...,...,...
483,мрт в свао адреса и цены,сделать мрт в свао -где,8.7,2101705467,Сделать МРТ в СВАО Москвы 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,5,5,3cba0fca70
1772,вао москва мрт цена,в стопы москва мрт,8.8,2428554789,МРТ стопы в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,4,4,41af22f2cc
1333,мрт позвоночника варшавская,мрт позвоночника вао,9.0,2101706306,МРТ позвоночника в ВАО Москвы!,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,3,3,5ba2e2d560
1765,в мрт химки,"""в москве открытого типа адрес мрт""",9.0,2428554779,Адрес МРТ открытого типа в Москве,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,6,6,034ada41b6


### Несколько функций в группировках

In [None]:
# задаем несколько функций сразу

stats.groupby('campaign').agg(['min', 'max'])['effect'].head()

In [None]:
# разные метрики для разных столбцов

results = stats.groupby('campaign').agg({'effect': ['min', 'max'], 'power_up': 'mean'})
results.head()

### Как обращаться к вложенным столбцам

In [None]:
results['effect']['max'].head()

In [None]:
# или даже так
stats.groupby('campaign').agg({'effect': ['min', 'max'], 'power_up': 'mean'})['effect']['max'].head()

In [None]:
# группировка по нескольким столбцам

stats.groupby(['group', 'campaign']).count().head()

In [None]:
# максимальное число объявлений в одной группе

stats.groupby(['group', 'campaign']).count().sort_values('phrase', ascending=False).head()