# Что будет
- сводные таблицы
- фильтры и вычисления с помощью метода loc
- фильтрация пустых значений через isnull
- время в pandas
- строковые методы
- немного про учет форм слов

# Сводные таблицы
Прям как в экселе

In [None]:
import pandas as pd

In [None]:
ratings = pd.read_csv('ml-latest-small/ratings.csv')
ratings.head()

### Упражнение
Какие оценки поставил пользователь №1 и в каком количестве?

Что делаем:
1. Фильтруем датафрейм ratings для userId = 1
2. Считаем для этого пользователя сколько он выставил единиц, двоек итд

Как это сделать для всех пользователей сразу:

In [None]:
ratings.pivot_table(index = 'userId', columns = 'rating', values = 'timestamp', aggfunc = 'count', fill_value = 0).head()


In [None]:
# можно итоги добавить
ratings.pivot_table(index = 'userId', columns = 'rating', values = 'timestamp', aggfunc = 'count', fill_value = 0, 
                    margins = True).head()

### Упражнение
Какой пользователь выставил больше всех пятерок?

### Фильтры и вычисления с помощью loc и iloc

In [None]:
log = pd.read_csv('visit_log.csv', sep=';')
log.head()

### Но сначала упражнение
Сколько различных страниц есть в столбце url? Постройте топ-5 страниц по посещаемости.

Бонусный вариант: выведите топ-5 страниц без указания хоста https://host.ru

In [None]:
# метод loc позволяет выбрать строки и столбцы в соответствии с условиями
# двоеточие означает выбор всех значений

log.loc[:, ['user_id', 'region']].head()

In [None]:
# iloc работает аналогично, но с указанием номера строки / столбца

log.iloc[:, [1, -3]].head()

In [None]:
# пример фильтра на страну
# если столбцы не надо фильтровать, то второй параметр можно не указывать

log.loc[log.region == 'Russia'].head()

In [None]:
# пример вычисления нового столбца с НДС для страны

log.loc[log.region == 'Russia', 'VAT'] = 1.2
log.head(10)

In [None]:
# вариант с вычисляемым фильтром

log.loc[lambda row: row.region == 'Russia'].head(10)

### Упражнение
Какие варианты источников трафика есть в столбце traffic_source?

Создайте столбец traffic_type, в котором для источников 'yandex' и 'google' будет стоять значение 'organic'. А для остальных вариантов - NaN.

### Методы isnull, isna
Определение пустых или None значений. По сути одинаковые методы

In [None]:
import numpy as np

In [None]:
df = pd.DataFrame({'value': [123, None, np.nan, np.NaN, np.NAN, 456]})
df

In [None]:
# фильтр на пустые значения в столбце value

df.loc[pd.isnull(df.value), :]

### Упражнение
Для пустых значений в столбце traffic_type выставьте значение 'other'

### Дата и время в pandas

In [None]:
log['date'] = pd.to_datetime(log['timestamp'], unit='s')
log.head()

In [None]:
# столбец datetime64[ns] теперь имеет тип даты
log.info()

In [None]:
# получим час визита

log['hour'] = log.date.dt.hour
log.head()

### Упражнение
Дан датафрейм df с временем визита и соответствующей покупки. Сделайте следующее:
1. Создайте столбцы visit_dt и purchase_dt типа datetime из столбцов visit_datetime и purchase_datetime
2. Посчитайте разницу между временем визита и покупки (простым вычитанием)
3. Переведите полученный столбец с длительностью покупки в минуты:
```python
(df.purchase_dt - df.visit_dt).astype('timedelta64[m]')
```
4. Посчитайте среднее время покупки в минутах

In [None]:
df = pd.DataFrame({'visit_datetime': ['2019-11-04T00:05:13', '2019-11-04T00:06:19', '2019-11-04T01:35:14'], 
                   'purchase_datetime': ['2019-11-04T00:15:53', '2019-11-04T00:07:59', '2019-11-04T03:15:30']})
df

### Методы работы со строками

In [None]:
stats = pd.read_csv('keywords.csv')
stats.head()

Проверка наличия подстроки в строке в питоне:

In [None]:
'охотник' in 'каждый охотник желает знать...'

Аналог в pandas:

In [None]:
stats[stats.keyword.str.contains('охотник')].head()

[Документация](https://www.geeksforgeeks.org/python-pandas-series-str-contains/)

Syntax: Series.str.contains(pat, case=True, flags=0, na=nan, regex=True)

Parameter :
- pat : Character sequence or regular expression.
- case : If True, case sensitive.
- flags : Flags to pass through to the re module, e.g. re.IGNORECASE.
- na : Fill value for missing values.
- regex : If True, assumes the pat is a regular expression.

In [None]:
# поиск одного из нескольких слов

stats[stats.keyword.str.contains('охотник|фильм|2016')].head()

### Упражнение
Отфильтруйте датафрейм stats по поисковым запросам, которые содержат строку "погода в" и упоминают один из городов: Москва, Новосибирск, Краснодар.

### replace

In [None]:
'отпуск начнется завтра'.replace('завтра', 'через месяц')

Аналог в pandas на запросах про сериалы:

In [None]:
serial = stats[stats.keyword.str.contains('сериалы')]
serial.head()

In [None]:
serial.keyword.str.replace('сериалы', 'книги').head()

### Как учитывать разное написание слов
Самое простое - методы upper и lower

In [None]:
serial.keyword.str.upper().head()

In [None]:
serial.keyword.str.lower().head()

### Что делать если нужно учесть формы написания слов?

In [None]:
stats[stats.keyword.str.contains('рубл')].head()

Почему нельзя просто оставить str.contains('рубл'):

In [None]:
non_financial_search = 'рубленая котлетка'

### Библиотека [pymystem](https://pypi.org/project/pymystem3/)

In [45]:
from pymystem3 import Mystem

ModuleNotFoundError: No module named 'pymystem3'

In [None]:
search = 'курс гривны к рублю рубли рублях'

In [None]:
m = Mystem()
lemmas = m.lemmatize(search)
lemmas

In [None]:
' '.join(lemmas)

### Домашнее задание 3
В датафрейме data создайте столбец lemmas, в котором вычислите леммы поисковых запросов из столбца keyword. Леммы должны иметь строковый тип.

In [43]:

data = pd.DataFrame({
    'keyword': ['курс гривны к рублю', 'доллары в рубли', '100 долларов в рублях', 'курс рубля'],
    'shows': [125076, 114173, 97534, 53546],
})

In [None]:
from pymystem3 import Mystem
import pandas as pd

m = Mystem()
data = pd.read_csv('keywords.csv')
data['lemmas'] = data.apply(lambda x: m.lemmatize(x['keyword']), axis =  1)
lemmas = m.lemmatize(search)
lemmas

In [35]:
import pandas as pd

data = pd.read_csv('visit_log.csv', sep=';')
data['source_type'] = data['traffic_source']
data.loc[data['traffic_source'].isin(['yandex', 'google']), 'source_type'] = 'organic'
data.loc[data['traffic_source'].isin(['paid', 'email']), 'source_type'] = 'other'
data.loc[((data['traffic_source'].isin(['paid', 'email'])) & (data['region'] == 'Russia')), 'source_type'] = 'ad'
data.to_csv('visit_log1.csv', sep=';')
print(data)

        timestamp    visit_id                                 url   region  \
0      1549980692  e3b0c44298  https://host.ru/3c19b4ef7371864fa3   Russia   
1      1549980704  6e340b9cff  https://host.ru/c8d9213a31839f9a3a   Russia   
2      1549980715  96a296d224  https://host.ru/b8b58337d272ee7b15   Russia   
3      1549980725  709e80c884  https://host.ru/b8b58337d272ee7b15   Russia   
4      1549980736  df3f619804  https://host.ru/b8b58337d272ee7b15   Russia   
...           ...         ...                                 ...      ...   
18933  1550094288  57e5ba8560  https://host.ru/c2382eb3d6afc8d0f3  Belarus   
18934  1550094296  6f9389ec1b  https://host.ru/f1eb4601740d627ab0   Russia   
18935  1550094308  e8cf2eb8e6  https://host.ru/a5dda93e70318570c0  Belarus   
18936  1550094314  79530b9a67  https://host.ru/6fda01ec57f23abc9e   Russia   
18937  1550094323  b3b634f824  https://host.ru/39fa884393666d45fc   Russia   

          user_id traffic_source source_type  
0      b1613cc09

In [41]:
import pandas as pd

data = pd.read_csv('URLs.txt')
data1 =data.loc[data['url'].str.contains('\d{8}[-]{1}', regex=True)]
print(data1)

                                                  url
3   /politics/36188461-s-marta-zhizn-rossiyan-susc...
4   /world/36007585-tramp-pridumal-kak-reshit-ukra...
5   /science/36157853-nasa-sobiraet-ekstrennuyu-pr...
6   /video/36001498-poyavilis-pervye-podrobnosti-g...
7   /world/36007585-tramp-pridumal-kak-reshit-ukra...
..                                                ...
88  /cis/35984145-kreml-prokommentiroval-soobschen...
89  /video/36071019-olimpiyskie-obekty-rio-prevrat...
90  /science/36151301-nazvano-posledstvie-zloupotr...
91  /incidents/36027330-vospitatelnitsu-zatravili-...
92  /world/36103095-dominikanskih-zhurnalistov-ubi...

[84 rows x 1 columns]
