# Простые расчеты в таблицах

Обработка списка поисковых запросов и статистики рекламных кампаний.

Такие запросы можно использовать для настройки контекстной рекламы, и они, в зависимости от сложности кампании, могут быть весьма объемными. Представим, что вам в наследство от предыдущего работника достался файл с запросами, и вам надо посчитать статистику в этом файле. 

Начнем с первой задачи: дана статистика поисковых запросов вашей потенциальной целевой аудитории за 11 дней, необходимо посчитать распределение количества слов в поисковых запросах этого файла на тему недвижимости, т. е. понять, сколько запросов содержали 1 слово, 2 слова и т. д.

In [1]:
import pandas as pd
data = pd.read_csv('keywords.csv')
data.head()

Unnamed: 0,keyword,shows
0,вк,64292779
1,одноклассники,63810309
2,порно,41747114
3,ютуб,39995567
4,вконтакте,21014195


In [2]:
data.shape

(100000, 2)

In [2]:
data['daily_shows'] = data['shows'] / 11
data.head(10)

Unnamed: 0,keyword,shows,daily_shows
0,вк,64292779,5844798.0
1,одноклассники,63810309,5800937.0
2,порно,41747114,3795192.0
3,ютуб,39995567,3635961.0
4,вконтакте,21014195,1910381.0
5,одноклассники моя страница,19976138,1816013.0
6,майл,15144673,1376788.0
7,авито,14786593,1344236.0
8,переводчик,14453469,1313952.0
9,яндекс,13344734,1213158.0


In [3]:
data['ratio'] = data['daily_shows'] / data['shows']
#data.head(10)
print (data['ratio'].mean() )

0.09090909090910855


In [4]:
del data['ratio']

In [11]:
data.drop(['ratio'], axis=1, inplace=True)

In [None]:
data.drop(['column_1', 'column_2', 'column_3'], axis=1, inplace=True)
# Параметр axis указывает Pandas, что надо удалить столбец с таким названием 
# (при значении 0 будет удаляться индекс, т. е. в нашем случае номер строки).

In [5]:
data.head()

Unnamed: 0,keyword,shows,daily_shows
0,вк,64292779,5844798.0
1,одноклассники,63810309,5800937.0
2,порно,41747114,3795192.0
3,ютуб,39995567,3635961.0
4,вконтакте,21014195,1910381.0


In [6]:
len(data[ data['keyword'].str.contains('недвиж', case=False) ])

142

In [7]:
filtered_data = data[ data['keyword'].str.contains('недвиж', case=False) ]
filtered_data.head()

Unnamed: 0,keyword,shows,daily_shows
2806,циан недвижимость москва,78729,7157.181818
3054,авито недвижимость,74037,6730.636364
3066,недвижимость,72984,6634.909091
4273,е1 недвижимость,56277,5116.090909
4912,нгс недвижимость новосибирск,54149,4922.636364


In [8]:
data = data[ data['keyword'].str.contains('недвиж') ]
data.head()

Unnamed: 0,keyword,shows,daily_shows
2806,циан недвижимость москва,78729,7157.181818
3054,авито недвижимость,74037,6730.636364
3066,недвижимость,72984,6634.909091
4273,е1 недвижимость,56277,5116.090909
4912,нгс недвижимость новосибирск,54149,4922.636364


In [9]:
data['split'] = data['keyword'].str.split(' ')
data.head()

Unnamed: 0,keyword,shows,daily_shows,split
2806,циан недвижимость москва,78729,7157.181818,"[циан, недвижимость, москва]"
3054,авито недвижимость,74037,6730.636364,"[авито, недвижимость]"
3066,недвижимость,72984,6634.909091,[недвижимость]
4273,е1 недвижимость,56277,5116.090909,"[е1, недвижимость]"
4912,нгс недвижимость новосибирск,54149,4922.636364,"[нгс, недвижимость, новосибирск]"


Иногда при расчете новых столбцов вы будете видеть предупреждение: 'A value is trying to be set on a copy of a slice from a DataFrame'. Для того, чтобы его избежать, используйте метод loc. Метод loc позволяет явно указать, каким ячейкам мы назначаем новые значения (т. е. берем все строки (знак двоеточия) и столбец 'split').

In [10]:
data['split'] = data['keyword'].str.split(' ')

In [11]:
data.loc[:, 'split'] = data['keyword'].str.split(' ')

# LAMBDA-ФУНКЦИИ
Lambda-функция позволяет сделать код более наглядным. Вместо того, чтобы заводить отдельную функцию с переменной, описывать преобразования и возвращать результат, можно использовать более короткую конструкцию.

In [12]:
data['word_count'] = data['split'].apply(lambda x: len(x))
data.head()

Unnamed: 0,keyword,shows,daily_shows,split,word_count
2806,циан недвижимость москва,78729,7157.181818,"[циан, недвижимость, москва]",3
3054,авито недвижимость,74037,6730.636364,"[авито, недвижимость]",2
3066,недвижимость,72984,6634.909091,[недвижимость],1
4273,е1 недвижимость,56277,5116.090909,"[е1, недвижимость]",2
4912,нгс недвижимость новосибирск,54149,4922.636364,"[нгс, недвижимость, новосибирск]",3


In [13]:
data['daily_shows'] = data['daily_shows'].apply(lambda x: int(x))
data.head()

Unnamed: 0,keyword,shows,daily_shows,split,word_count
2806,циан недвижимость москва,78729,7157,"[циан, недвижимость, москва]",3
3054,авито недвижимость,74037,6730,"[авито, недвижимость]",2
3066,недвижимость,72984,6634,[недвижимость],1
4273,е1 недвижимость,56277,5116,"[е1, недвижимость]",2
4912,нгс недвижимость новосибирск,54149,4922,"[нгс, недвижимость, новосибирск]",3


In [14]:
# поисковый запрос с каким количеством слов встречается в нашем датасете чаще всего?
data['word_count'].value_counts()

3    72
2    25
4    20
5    12
6     7
8     3
9     1
7     1
1     1
Name: word_count, dtype: int64

# Сложные функции для датафреймов и работа с ссылками
Про UTM метки: http://tilda.education/articles-how-to-use-utm-url

# ПАРСИНГ ССЫЛОК

In [15]:
import pandas as pd

In [16]:
ad_stats = pd.read_excel('ad_campaigns.xlsx')

In [17]:
ad_stats.shape

(2159, 7)

In [18]:
ad_stats.head()

Unnamed: 0,Название группы,Фраза (с минус-словами),Продуктивность,ID объявления,Заголовок,Текст,Ссылка
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...


In [19]:
ad_stats.rename(columns={'Название группы': 'group', 'Фраза (с минус-словами)': 'phrase', 
                         'Продуктивность': 'effect', 'ID объявления': 'ad_id', 'Заголовок': 'title', 
                         'Текст': 'text', 'Ссылка': 'link'}, inplace=True)


In [20]:
ad_stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...


In [21]:
url = ad_stats.loc[0, 'link']
url

'https://awesome-site.ru/?utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}'

In [22]:
from urllib import parse

In [23]:
parsed = parse.urlsplit(url)
parsed

SplitResult(scheme='https', netloc='awesome-site.ru', path='/', query='utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}', fragment='')

### ПОЛУЧЕНИЕ ПАРАМЕТРОВ ССЫЛКИ

In [24]:
print(parsed.netloc)

awesome-site.ru


Запишите параметры ссылки в переменную query_string, мы будем дальше с ней работать, чтобы при выводе переменной query_string на экран получить 'utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}'.

In [27]:
print(parsed)
print(parsed.netloc)
print(parsed.query) # ответ на вопрос

SplitResult(scheme='https', netloc='awesome-site.ru', path='/', query='utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}', fragment='')
awesome-site.ru
utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}


In [28]:
query_string=parsed.query
query_string

'utm_source=yandex&utm_medium=cpc&utm_campaign=a825749b87&utm_content=dev_{device_type}'

In [29]:
params_dict = parse.parse_qs(query_string)
params_dict

{'utm_source': ['yandex'],
 'utm_medium': ['cpc'],
 'utm_campaign': ['a825749b87'],
 'utm_content': ['dev_{device_type}']}

In [30]:
params_dict['utm_campaign'][0]

'a825749b87'

### КАМПАНИИ ИЗ ДАТАФРЕЙМА

In [31]:
def campaign_name(row):
    """Получение названия кампании из ссылки внутри строки row"""
    parsed = parse.urlsplit(row['link'])
    params_dict = parse.parse_qs(parsed.query)
    return params_dict['utm_campaign'][0]

In [32]:
#Чтобы применить функцию к датафрейму, используйте метод apply. Параметр axis указывает на то, что в функцию 
#в параметр row должна быть передана строка (в случае axis=0 будет передан столбец):
ad_stats['campaign'] = ad_stats.apply(campaign_name, axis=1)
ad_stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,campaign
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,a825749b87
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,a825749b87
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,a825749b87
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,9cc0c5f6ca
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,9cc0c5f6ca


In [33]:
# Считаем среднее число в названии компании
ad_stats['count'] = ad_stats['campaign'].apply(lambda x: len(x))
print(ad_stats['count'].mean())

10.0


# Группировки

ПОСТАНОВКА ЗАДАЧИ

В этом блоке мы проанализируем показатели рекламных кампаний, сгруппированных в разные столбцы. В прошлых модулях вы уже сталкивались с таким действием, когда использовали метод value_counts. Он возвращает количество строк по заданному столбцу. Теперь мы хотим расширить эту задачу, представив более общий случай: необходимо  для заданного столбца или нескольких столбцов посчитать определенные метрики. Например, найти кампании с максимальной и минимальной суммой столбца effect.

Для таких и более сложных задач предназначен метод groupby.

In [34]:
ad_stats['campaign'].value_counts().head()

7f35591a28    456
8e77a0e565    348
2cc2e7d770    240
f6d2ae1e3d    220
e90f4db55a    218
Name: campaign, dtype: int64

In [35]:
#Аналогичный результат можно получить более универсальным методом groupby.
#Например, укажем столбец, по которому мы группируем ('campaign'), и метрику, которую хотим посчитать 
#для каждого столбца датафрейма (количество строк count):
ad_stats.groupby('campaign').count().head()

Unnamed: 0_level_0,group,phrase,effect,ad_id,title,text,link,count
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
034ada41b6,3,3,3,3,3,3,3,3
03fcaecd1d,2,2,2,2,2,2,2,2
0697a81555,2,2,2,2,2,2,2,2
08cdcb57a3,3,3,3,3,3,3,3,3
0f0ba311fb,2,2,2,2,2,2,2,2


In [36]:
ad_stats.groupby('campaign').count().reset_index().head()

Unnamed: 0,campaign,group,phrase,effect,ad_id,title,text,link,count
0,034ada41b6,3,3,3,3,3,3,3,3
1,03fcaecd1d,2,2,2,2,2,2,2,2
2,0697a81555,2,2,2,2,2,2,2,2
3,08cdcb57a3,3,3,3,3,3,3,3,3
4,0f0ba311fb,2,2,2,2,2,2,2,2


In [38]:
# Добавим сортировку
ad_stats.groupby('campaign').count().reset_index().sort_values('group', ascending=False).head() 

Unnamed: 0,campaign,group,phrase,effect,ad_id,title,text,link,count
62,7f35591a28,456,456,456,456,456,456,456,456
69,8e77a0e565,348,348,348,348,348,348,348,348
22,2cc2e7d770,240,240,240,240,240,240,240,240
110,f6d2ae1e3d,220,220,220,220,220,220,220,220
105,e90f4db55a,218,218,218,218,218,218,218,218


In [39]:
# В исходной задаче нам нужно посчитать сумму столбца effect для каждой кампании. Для этого заменим метод count на сумму:
ad_stats.groupby('campaign').sum().sort_values('effect').head()

Unnamed: 0_level_0,effect,ad_id,count
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
63153306ff,2.8,2428554756,10
f80e902d76,3.3,2101705003,10
5a7508fa8d,3.5,2428554764,10
d5b16c7769,3.6,3401169381,10
7b17b2d188,5.8,2101705006,10


In [40]:
# Для каждой кампании campaign найдите минимальное значение столбца effect 
# и постройте рейтинг кампаний по этим значениям, начиная с самого низкого.
ad_stats.groupby('campaign').min().sort_values('effect').head()

Unnamed: 0_level_0,group,phrase,effect,ad_id,title,text,link,count
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
8e77a0e565,1 5 москва мрт тесла,"""!1 !мрт !нагатинский""",1.6,2101705401,МРТ центры в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,10
7f35591a28,1 градская мрт,"""!1 !градская !мрт""",1.7,2101705009,МРТ в Москве от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,10
be97523396,мрт в бабушкинском районе,"""!мрт !в !москве !метро !щелковская""",1.8,2101705493,МРТ у метро в Москве от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,10
d96029561c,круглосуточный мрт в москве,"""!круглосуточный !мрт !в !москве""",1.8,2428555742,МРТ круглосуточно. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,10
acc3077e55,алтуфьево бибирево мрт,"""!алтуфьево !бибирево !мрт""",1.9,2428554791,Томография в Москве. От 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,10


In [41]:
ad_stats.groupby('campaign').agg(['min', 'max']).head()

Unnamed: 0_level_0,group,group,phrase,phrase,effect,effect,ad_id,ad_id,title,title,text,text,link,link,count,count
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max
campaign,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
034ada41b6,в москве открытого типа адрес мрт,в недорого москва мрт,"""!в !москве !открытого !типа !адрес !мрт""",в москве открытого типа адрес мрт -цена,4.1,9.0,2428554779,2428554779,Адрес МРТ открытого типа в Москве,Адрес МРТ открытого типа в Москве,24 часа. От 2 000₽. Консультация врача бесплат...,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,https://awesome-site.ru/?utm_source=yandex&utm...,10,10
03fcaecd1d,сделать мрт сущевский вал,сделать мрт сущевский вал,"""сделать мрт стромынка""",сделать мрт стромынка,4.0,6.5,2101705759,2101705759,Сделайте МРТ на ул. Стромынка!,Сделайте МРТ на ул. Стромынка!,24 часа. От 2 000₽. Консультация врача бесплат...,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,https://awesome-site.ru/?utm_source=yandex&utm...,10,10
0697a81555,мрт позвоночника сущевский вал,мрт позвоночника сущевский вал,"""мрт позвоночника стромынка""",мрт позвоночника стромынка,4.0,5.5,2101706415,2101706415,МРТ позвоночника на ул. Стромынка,МРТ позвоночника на ул. Стромынка,24 часа. От 2 000₽. Консультация врача бесплат...,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,https://awesome-site.ru/?utm_source=yandex&utm...,10,10
08cdcb57a3,мрт в москве в сао,мрт сао,"""!мрт !сао""",мрт сао -головы -москве -позвоночника -сделать...,5.5,7.4,2101705000,2101705000,МРТ в САО от 2000₽. Звоните!,МРТ в САО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,https://awesome-site.ru/?utm_source=yandex&utm...,10,10
0f0ba311fb,сделать мрт октябрьский,сделать мрт октябрьский,"""сделать мрт новослободская""",сделать мрт новослободская,4.4,6.4,2101705726,2101705726,Сделайте МРТ на Новослободской,Сделайте МРТ на Новослободской,24 часа. От 2 000₽. Консультация врача бесплат...,24 часа. От 2 000₽. Консультация врача бесплат...,https://awesome-site.ru/?utm_source=yandex&utm...,https://awesome-site.ru/?utm_source=yandex&utm...,10,10


In [42]:
ad_stats.groupby('campaign').agg(['min', 'max'])['effect'].head()


Unnamed: 0_level_0,min,max
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1
034ada41b6,4.1,9.0
03fcaecd1d,4.0,6.5
0697a81555,4.0,5.5
08cdcb57a3,5.5,7.4
0f0ba311fb,4.4,6.4


In [43]:
# РАЗНЫЕ МЕТРИКИ ДЛЯ РАЗНЫХ СТОЛБЦОВ
ad_stats['phrase_length'] = ad_stats.apply(lambda row: len(row['phrase']), axis=1)
ad_stats.head()

Unnamed: 0,group,phrase,effect,ad_id,title,text,link,campaign,count,phrase_length
0,мрт менделеевская,"""!мрт !менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,a825749b87,10,21
1,мрт цао,"""мрт менделеевская""",4.5,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,a825749b87,10,19
2,мрт цао,мрт менделеевская -головы -позвоночника -сдела...,7.4,2101704995,МРТ на Менделеевской от 2000₽,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,a825749b87,10,54
3,мрт цао,"""!мрт !цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,9cc0c5f6ca,10,11
4,мрт сао,"""мрт цао""",5.0,2101704999,МРТ в ЦАО от 2000₽. Звоните!,24 часа. МРТ в день обращения. Консультация вр...,https://awesome-site.ru/?utm_source=yandex&utm...,9cc0c5f6ca,10,9


In [44]:
ad_stats.groupby('campaign').agg({'effect': ['min', 'max'], 'phrase_length': 'mean'}).head()

Unnamed: 0_level_0,effect,effect,phrase_length
Unnamed: 0_level_1,min,max,mean
campaign,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
034ada41b6,4.1,9.0,38.333333
03fcaecd1d,4.0,6.5,22.0
0697a81555,4.0,5.5,27.0
08cdcb57a3,5.5,7.4,24.0
0f0ba311fb,4.4,6.4,27.0


In [46]:
# ГРУППИРОВКА ПО НЕСКОЛЬКИМ СТОЛБЦАМ
ad_stats.groupby(['group', 'campaign']).count().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,phrase,effect,ad_id,title,text,link,count,phrase_length
group,campaign,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1 5 москва мрт тесла,777160ba51,1,1,1,1,1,1,1,1
1 5 москва мрт тесла,8e77a0e565,1,1,1,1,1,1,1,1
1 5 москва мрт тесла,f0079349af,1,1,1,1,1,1,1,1
1 градская мрт,7f35591a28,3,3,3,3,3,3,3,3
1 мрт нагатинский,8e77a0e565,1,1,1,1,1,1,1,1


In [47]:
ad_stats.groupby(['group', 'campaign']).count().sort_values('phrase', ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,phrase,effect,ad_id,title,text,link,count,phrase_length
group,campaign,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
мрт на алексеевской кулаков переулок 13,7f35591a28,3,3,3,3,3,3,3,3
мрт каширское шоссе,7f35591a28,3,3,3,3,3,3,3,3
мрт кутузовский,7f35591a28,3,3,3,3,3,3,3,3
мрт куркинское шоссе 30,7f35591a28,3,3,3,3,3,3,3,3
мрт куркино,7f35591a28,3,3,3,3,3,3,3,3


In [50]:
# Какая кампания имеет наименьшую сумму по столбцу effect? 
ad_stats.groupby('campaign').sum().sort_values('effect').head()

Unnamed: 0_level_0,effect,ad_id,count,phrase_length
campaign,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
63153306ff,2.8,2428554756,10,27
f80e902d76,3.3,2101705003,10,18
5a7508fa8d,3.5,2428554764,10,22
d5b16c7769,3.6,3401169381,10,19
7b17b2d188,5.8,2101705006,10,14


## ПОСТАНОВКА ЗАДАЧИ
Работаем с файлом keywords.csv из первой части модуля.

Наша задача — написать гео-классификатор, который каждой строке сможет выставить географическую принадлежность определенному региону. Т. е. если поисковый запрос содержит название города региона, то в столбце 'region' пишется название этого региона. Если поисковый запрос не содержит названия города, то ставим 'undefined'.

Правила распределения зададим простые:

geo_data = {
    'Центр': ['москва', 'тула', 'ярославль'],
    'Северо-Запад': ['петербург', 'псков', 'мурманск'],
    'Дальний Восток': ['владивосток', 'сахалин', 'хабаровск']
}

Регионов, по которым будем классифицировать запросы, будет три: Центр, Северо-Запад и Дальний Восток. Вам необходимо написать функцию geo_classification, внутри которой происходит следующий алгоритм:

1. Для каждой строки датафрейма row пробегаем ключи и значения словаря geo_data. Напомним, для этого синтаксис в питоне такой: 

for region, city_list in geo_data.items():
2. Для каждого города из списка city_list необходимо проверить, содержится ли его название в поисковом запросе строки row (т. е. в row['keyword']). Если содержится, то возвращаем значение region.

3. Если после всех циклов ни один город не подошел, то возвращаем значение 'undefined'.

Примечание. Реализовать классификацию по регионам можно множеством способов. Здесь мы выбрали один из них, чтобы проверить, как вы научились применять материалы модуля. Пожалуйста, следуйте указанному алгоритму, чтобы ваш ответ сошелся с онлайн-проверкой. В реальных задачах вы легко сможете написать гораздо более совершенные классификаторы.

In [51]:
data = pd.read_csv('keywords.csv')
data.head()

Unnamed: 0,keyword,shows
0,вк,64292779
1,одноклассники,63810309
2,порно,41747114
3,ютуб,39995567
4,вконтакте,21014195


In [52]:
geo_data = {
    'Центр': ['москва', 'тула', 'ярославль'],
    'Северо-Запад': ['петербург', 'псков', 'мурманск'],
    'Дальний Восток': ['владивосток', 'сахалин', 'хабаровск']
}

In [53]:
# Напишем функцию, которая по городу определяет тип региона
def geo_classification(row):
    
    # Пробегаемся по всем городам всех регионов и,
    # если такой город имеется в запросе, то возвращаем регион
    for region, city_list in geo_data.items():
        for city in city_list:
            if city in row['keyword']:
                return region
    # Если такого города нет, то возвращаем 'undefined'
    return 'undefined'

# Применяем
data['city_group'] = data.apply(geo_classification, axis=1)

data.groupby('city_group').count().head()

Unnamed: 0_level_0,keyword,shows
city_group,Unnamed: 1_level_1,Unnamed: 2_level_1
undefined,99253,99253
Дальний Восток,94,94
Северо-Запад,266,266
Центр,387,387
