## Задание 1

Для датафрейма log из материалов занятия создайте столбец source_type по следующим правилам:

- если источник traffic_source равен yandex или google, то в source_type ставится organic
- для источников paid и email из России - ставим ad
- для источников paid и email не из России - ставим other
- все остальные варианты берем из traffic_source без изменений

In [1]:
import pandas as pd
import re
from pymystem3 import Mystem

In [10]:
df_log = pd.read_csv('visit_log.csv', delimiter=';')

In [11]:
# если источник traffic_source равен yandex или google, то в source_type ставится organic
df_log.loc[df_log.traffic_source.str.contains('yandex|google'), 'source_type'] = 'organic'

# для источников paid и email из России - ставим ad
df_log.loc[(df_log.traffic_source.str.contains('paid|email')) & (df_log.region == 'Russia'), 'source_type'] = 'ad'

# для источников paid и email не из России - ставим other
df_log.loc[(df_log.traffic_source.str.contains('paid|email')) & (df_log.region != 'Russia'), 'source_type'] = 'other'

# все остальные варианты берем из traffic_source без изменений
df_log.loc[pd.isnull(df_log.source_type), 'source_type'] = df_log.loc[pd.isnull(df_log.source_type), 'traffic_source']

# выводим 5 строк по каждому типу source_type
display(df_log.groupby(by='source_type').head())

Unnamed: 0,timestamp,visit_id,url,region,user_id,traffic_source,source_type
0,1549980692,e3b0c44298,https://host.ru/3c19b4ef7371864fa3,Russia,b1613cc09f,yandex,organic
1,1549980704,6e340b9cff,https://host.ru/c8d9213a31839f9a3a,Russia,4c3ec14bee,direct,direct
2,1549980715,96a296d224,https://host.ru/b8b58337d272ee7b15,Russia,a8c40697fb,yandex,organic
3,1549980725,709e80c884,https://host.ru/b8b58337d272ee7b15,Russia,521ac1d6a0,yandex,organic
4,1549980736,df3f619804,https://host.ru/b8b58337d272ee7b15,Russia,d7323c571c,yandex,organic
5,1549980742,8855508aad,https://host.ru/df646c3676cc259fa0,Russia,fc43898e47,yandex,organic
6,1549980742,b0f66adc83,https://host.ru/b8b58337d272ee7b15,Russia,13fc55e781,paid,ad
7,1549980754,837885c8f8,https://host.ru/108ce4b365afb7b88e,Russia,cb5082b6f6,direct,direct
8,1549980760,af5570f5a1,https://host.ru/3004a8273caeef2867,China,45664f7af2,direct,direct
9,1549980765,3e7077fd2f,https://host.ru/df646c3676cc259fa0,Russia,6f9de8c8b6,email,ad


## Задание 2

В файле URLs.txt содержатся url страниц новостного сайта. Вам необходимо отфильтровать его по адресам страниц с текстами новостей. Известно, что шаблон страницы новостей имеет внутри url следующую конструкцию: /, затем 8 цифр, затем дефис. 

Выполните следующие действия:

- Прочитайте содержимое файла с датафрейм
- Отфильтруйте страницы с текстом новостей, используя метод str.contains и регулярное выражение в соответствии с заданным шаблоном

In [4]:
df_urls = pd.read_csv('URLs.txt')

In [5]:
df_urls.loc[df_urls.url.str.contains(r'\/\d{8}-', regex=True)]

Unnamed: 0,url
3,/politics/36188461-s-marta-zhizn-rossiyan-susc...
4,/world/36007585-tramp-pridumal-kak-reshit-ukra...
5,/science/36157853-nasa-sobiraet-ekstrennuyu-pr...
6,/video/36001498-poyavilis-pervye-podrobnosti-g...
7,/world/36007585-tramp-pridumal-kak-reshit-ukra...
...,...
88,/cis/35984145-kreml-prokommentiroval-soobschen...
89,/video/36071019-olimpiyskie-obekty-rio-prevrat...
90,/science/36151301-nazvano-posledstvie-zloupotr...
91,/incidents/36027330-vospitatelnitsu-zatravili-...


## Домашнее задание 3

В датафрейме data создайте столбец lemmas, в котором вычислите леммы поисковых запросов из столбца keyword. Леммы должны иметь строковый тип.

In [6]:
data = pd.DataFrame({
    'keyword': ['курс гривны к рублю', 'доллары в рубли', '100 долларов в рублях', 'курс рубля'],
    'shows': [125076, 114173, 97534, 53546],
})

In [7]:
def lemmatize(elem, column_name='keyword'):
    """
    Функция для определения лемм в строке.
    
    Функцию можно применять к отдельному столбцу или строке датафрейма pandas.
    
    Входные параметры:
        elem -- строка датафрейма с типом Series или значение столбца с типом str
        column_name -- название индекса, в котором хранятся значения рейтинга. Используется только 
                       в случае значения elem в формате Series
                       
    Возвращаемые данные: строка с леммами
    """
    
    elem_is_str = isinstance(elem, str)
    elem_is_Series = isinstance(elem, pd.core.series.Series)
    
    if (not elem_is_Series and not elem_is_str):
        raise TypeError("Параметр elem должен иметь тип str или pandas.core.series.Series") 
    
    # Переменную column_name преобразуем в строку, так как функция ожидает здесь значение str
    column_name = str(column_name)
    
    # Создаем переменную для анализа в завивимости от типа параметра elem
    if elem_is_str:
        keyword = elem
    elif elem_is_Series:
        if column_name not in elem.index:
            raise ValueError(f"Значение column_name='{column_name}' отсутствует в индексе объекта elem")
        keyword = elem[column_name]
      
    keyword = keyword.strip()
    lemmatizator = Mystem()
    lemms = ' '.join(filter(lambda x: x != ' ' and x != '\n', lemmatizator.lemmatize(keyword)))
    
    return lemms
    

In [8]:
data['lems'] = data.keyword.apply(lemmatize, column_name='keyword')

In [9]:
display(data)

Unnamed: 0,keyword,shows,lems
0,курс гривны к рублю,125076,курс гривна к рубль
1,доллары в рубли,114173,доллар в рубль
2,100 долларов в рублях,97534,100 доллар в рубль
3,курс рубля,53546,курс рубль
