# Задание 1
Для датафрейма log из материалов занятия создайте столбец source_type по следующим правилам:

- если источник traffic_source равен yandex или google, то в source_type ставится organic
- для источников paid и email из России - ставим ad
- для источников paid и email не из России - ставим other
- все остальные варианты берем из traffic_source без изменений



In [21]:
import pandas as pd

log = pd.read_csv('visit_log.csv', sep=';')
log.head()

Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source
0,1549980692,e3b0c44298,https://host.ru/3c19b4ef7371864fa3,Russia,b1613cc09f,yandex
1,1549980704,6e340b9cff,https://host.ru/c8d9213a31839f9a3a,Russia,4c3ec14bee,direct
2,1549980715,96a296d224,https://host.ru/b8b58337d272ee7b15,Russia,a8c40697fb,yandex
3,1549980725,709e80c884,https://host.ru/b8b58337d272ee7b15,Russia,521ac1d6a0,yandex
4,1549980736,df3f619804,https://host.ru/b8b58337d272ee7b15,Russia,d7323c571c,yandex


In [40]:
def row_source_type(row):
    """
    вернуть тип источника по зашитым правилам
    
    Parameters:
      row (dataframe row) - строка
    
    Returns:
    str - в зависимости от строки dataframe'а возвращает: 
          organic, ad, other
          или значение из столбца traffic_source
    """
    ts = row.traffic_source.lower()
    if ts in ['yandex', 'google']:
        return 'organic'
    if ts in ['paid', 'email']:
        if row.region.lower() == 'russia':
            return 'ad'
        return 'other'
    return row.traffic_source

log['source_type'] = log.apply(row_source_type, axis=1)


## Проверки
~~методом пристального взгляда~~

In [37]:
log['source_type'].unique()

array(['organic', 'direct', 'ad', 'other'], dtype=object)

In [39]:
for stype in log['source_type'].unique():
    print('source type "{}" lines:'.format(stype))
    display(log[log.source_type == stype].head(5))
    print("\n\n")

source type "organic" lines:


Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source,source_type
0,1549980692,e3b0c44298,https://host.ru/3c19b4ef7371864fa3,Russia,b1613cc09f,yandex,organic
2,1549980715,96a296d224,https://host.ru/b8b58337d272ee7b15,Russia,a8c40697fb,yandex,organic
3,1549980725,709e80c884,https://host.ru/b8b58337d272ee7b15,Russia,521ac1d6a0,yandex,organic
4,1549980736,df3f619804,https://host.ru/b8b58337d272ee7b15,Russia,d7323c571c,yandex,organic
5,1549980742,8855508aad,https://host.ru/df646c3676cc259fa0,Russia,fc43898e47,yandex,organic





source type "direct" lines:


Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source,source_type
1,1549980704,6e340b9cff,https://host.ru/c8d9213a31839f9a3a,Russia,4c3ec14bee,direct,direct
7,1549980754,837885c8f8,https://host.ru/108ce4b365afb7b88e,Russia,cb5082b6f6,direct,direct
8,1549980760,af5570f5a1,https://host.ru/3004a8273caeef2867,China,45664f7af2,direct,direct
10,1549980777,01d448afd9,https://host.ru/a5dda93e70318570c0,India,27e76a4a80,direct,direct
13,1549980792,dd46c3eebb,https://host.ru/3004a8273caeef2867,China,7e301c8c41,direct,direct





source type "ad" lines:


Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source,source_type
6,1549980742,b0f66adc83,https://host.ru/b8b58337d272ee7b15,Russia,13fc55e781,paid,ad
9,1549980765,3e7077fd2f,https://host.ru/df646c3676cc259fa0,Russia,6f9de8c8b6,email,ad
12,1549980789,15ec7bf0b5,https://host.ru/8e88d4703848cc0ec4,Russia,6d1d81f7f8,paid,ad
23,1549980839,015275e61f,https://host.ru/c8d9213a31839f9a3a,Russia,21bdc57777,email,ad
26,1549980852,659d36ca56,https://host.ru/4adc8a29b212051b04,Russia,c4bd1ae3af,paid,ad





source type "other" lines:


Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source,source_type
15,1549980797,5322fecfc9,https://host.ru/4adc8a29b212051b04,Belarus,9a45d98867,paid,other
17,1549980807,0a88111852,https://host.ru/2fcb223266880ccf57,Ukraine,a2ba8fa3db,paid,other
20,1549980816,de47c9b27e,https://host.ru/8fe7c39e5c598bbc54,Ukraine,2f25b6e26a,email,other
33,1549980897,7f9c9e31ac,https://host.ru/ac2d98a5a63e7c6e28,Belarus,38f45e7f9b,email,other
43,1549980949,859732b973,https://host.ru/4adc8a29b212051b04,Ukraine,80f2fd30f8,email,other







# Задание 2
В файле URLs.txt содержатся url страниц новостного сайта. Вам необходимо отфильтровать его по адресам страниц с текстами новостей. Известно, что шаблон страницы новостей имеет внутри url следующую конструкцию: /, затем 8 цифр, затем дефис.  

Выполните следующие действия:
1. Прочитайте содержимое файла с датафрейм
2. Отфильтруйте страницы с текстом новостей, используя метод str.contains и регулярное выражение в соответствии с заданным шаблоном



In [42]:
!head URLs.txt -n5

url
/world/
/latest/
/?updated=top
/politics/36188461-s-marta-zhizn-rossiyan-suschestvenno-izmenitsya-iz-za-novyh-zakonov/


In [45]:
import re
import pandas as pd 

news_post_re = re.compile(r'/\d{8}\-')

df = pd.read_csv('URLs.txt') # а что, вполне себе csv
df.head() # проверим, что столбцов не прибавилось

Unnamed: 0,url
0,/world/
1,/latest/
2,/?updated=top
3,/politics/36188461-s-marta-zhizn-rossiyan-susc...
4,/world/36007585-tramp-pridumal-kak-reshit-ukra...


In [43]:
# фильтрация
df[df.url.str.contains(news_post_re)]

Unnamed: 0,url
3,/politics/36188461-s-marta-zhizn-rossiyan-susc...
4,/world/36007585-tramp-pridumal-kak-reshit-ukra...
5,/science/36157853-nasa-sobiraet-ekstrennuyu-pr...
6,/video/36001498-poyavilis-pervye-podrobnosti-g...
7,/world/36007585-tramp-pridumal-kak-reshit-ukra...
...,...
88,/cis/35984145-kreml-prokommentiroval-soobschen...
89,/video/36071019-olimpiyskie-obekty-rio-prevrat...
90,/science/36151301-nazvano-posledstvie-zloupotr...
91,/incidents/36027330-vospitatelnitsu-zatravili-...


# Задание 3

В датафрейме data создайте столбец lemmas, в котором вычислите леммы поисковых запросов из столбца keyword. Леммы должны иметь строковый тип.

In [9]:
import pandas as pd 

data = pd.DataFrame({
    'keyword': ['курс гривны к рублю', 'доллары в рубли', '100 долларов в рублях', 'курс рубля'],
    'shows': [125076, 114173, 97534, 53546],
})
data.head()

Unnamed: 0,keyword,shows
0,курс гривны к рублю,125076
1,доллары в рубли,114173
2,100 долларов в рублях,97534
3,курс рубля,53546


In [12]:
!pip install pymystem3

Collecting pymystem3
  Using cached https://files.pythonhosted.org/packages/00/8c/98b43c5822620458704e187a1666616c1e21a846ede8ffda493aabe11207/pymystem3-0.2.0-py3-none-any.whl
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0


In [46]:
from pymystem3 import Mystem

m = Mystem()
data['lemmas'] = data['keyword'].apply(lambda kw: ''.join(m.lemmatize(kw)).strip())
data.head()

Unnamed: 0,keyword,shows,lemas,lemmas
0,курс гривны к рублю,125076,курс гривна к рубль,курс гривна к рубль
1,доллары в рубли,114173,доллар в рубль,доллар в рубль
2,100 долларов в рублях,97534,100 доллар в рубль,100 доллар в рубль
3,курс рубля,53546,курс рубль,курс рубль
