# Извлечение значений из текста

Последние годы языки общего назначения стали чаще использоваться для анализа данных. Разработчики и организации используют Python или Javascript для решения своих задач. И в этом им помогают регулярные выражения. Они — незаменимый инструмент для упорядочивания, причесывания, поиска или извлечения текстовых данных.

Проще говоря, регулярное выражение используется для поиска паттернов в указанной строке.
Паттерном может быть все что угодно.

Можно создавать паттерны соответствия электронной почте или мобильному номеру. Можно создать паттерны, которые ищут слова в строке, начинающиеся на “a” и заканчивающиеся на “z”.

Например:

```python
import re
pattern='\d\d\d'
match = re.search(pattern, 'Номер поезда 234. Номер вагона 5') 
print(match[0] if match else 'Не найдено совпадений') #коротка форма if ... else...
```

Чаще всего регулярные выражения используются для:
- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

Регулярные выражения используют два типа символов:

- специальные символы: как следует из названия, у этих символов есть специальные значения. Все специальные символы `. ˆ $ * + ? { } [ ] | ( )`;
- литералы (например: a, b, 1, 2 и т. д.).

Любая строка (в которой нет символов `.^$*+?{}[]\|())` сама по себе является регулярным выражением. Так, выражению Хаха будет соответствовать строка “Хаха” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “хаха” (с маленькой буквы) уже не будет соответствовать выражению выше. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `.^$*+?{}[]\|()`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \. Так же, как и в питоне, в регулярных выражениях выражение \n соответствует концу строки, а \t — табуляции.

Специальные символы используются для того, чтобы искать не только полные совпадения, но и выражения согласно каким-то правилам. Например, слово должно стоять в начале строки или содержать от 5 до 10 цифр разделенных запятой. Одинаковые по своей сути паттерны можно использовать в любом методе библиотки Re.

- `.`	Один любой символ, кроме новой строки \n.
- `?`	0 или 1 вхождение шаблона слева
- `+`	1 и более вхождений шаблона слева
- `*`	0 и более вхождений шаблона слева
- `\w`	Любая цифра или буква (\W — все, кроме буквы или цифры)
- `\d`	Любая цифра [0-9] (\D — все, кроме цифры)
- `\s`	Любой пробельный символ (\S — любой непробельный символ)
- `\b`	Граница слова
- `[..]`	Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
- `\`	Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
- `^` и `$`	Начало и конец строки соответственно
- `{n,m}`	От n до m вхождений ({,m} — от 0 до m)
- `a|b`	Соответствует a или b
- `()`	Группирует выражение и возвращает найденный текст
- `\t, \n, \r`	Символ табуляции, новой строки и возврата каретки соответственно

## Примеры решаемых задач и регулярных выражений

Возьмем за основу текст:
```python
txt="""Погрузка на сети ОАО "Российские железные дороги" в 2018 году, по оперативным данным, составила 1 млрд 289,6 млн тонн, что на 2,2% больше, чем за предыдущий год. Железными дорогами погружено: каменного угля – 374,9 млн тонн (+4,6% к 2017 году); кокса – 11,3 млн тонн (+0,8%); нефти и нефтепродуктов – 236,4 млн тонн (+0,4%). По оперативной информации, погрузка на сети ОАО "РЖД" в декабре 2018 года составила 109 млн тонн, что ниже показателя аналогичного периода предыдущего года на 1,1%. Грузооборот за декабрь 2018 года вырос к аналогичному периоду предыдущего года на 2,3% и составил 224,4 млрд тарифных тонно-км. Грузооборот с учетом пробега вагонов в порожнем состоянии за этот же период увеличился на 2,1% и составил 285,1 млрд тонно-км."""
```

### Найти полное совпадение

`'Российские железные дороги'` - постарается в тексте найти полное совпадение. Но если мы изменим хотя бы одну букву, совпадений не будет.

### Найти цифры по шаблону

Например, все проценты: `'\d{1,5}%'`. Но мы видим, что нашло только часть значений. 

Изменим выражение, укажем, что между цифрами может быть запятая `'\d{1,3},\d{1,2}%'`. 

Еще усилим регулярное выражение, чтобы захватывать и знак `'[-+]?\d{1,3},\d{1,2}%'`.

Можем записать регулярное выражение и по другому `'[-+]?\d{1,3},\d+%'`.

Это же правило можно записать и несколько в другой форме, оно проще запоминается `'[-+]?[0-9]{1,3},[0-9]+%'`.

### Логическое ИЛИ

Например, мы хотим найти вхождение всех слов из списка:
- тонн
- тонно-км
- год
Регулярное выражение будет выглядеть так: `'тонн|тонно-км|год'`. Обратине внимание, что не верно находит вхождения. Нам надо изменить правило на `r'тонн\b|тонно-км|год'`

### Просмотр вперед или назад

Допустим, мы хотим выделить только то значение, которое относится к приросту кокса. Для этого будем использовать шаблоны соответсвия позиции.
- `(?=...)`	lookahead assertion, соответствует каждой позиции, сразу после которой начинается соответствие шаблону
- `(?!...)`	negative lookahead assertion, соответствует каждой позиции, сразу после которой НЕ может начинаться шаблон 
- `(?<=...)`	positive lookbehind assertion, соответствует каждой позиции, которой может заканчиваться шаблон. Длина шаблона должна быть фиксированной, то есть abc и a|b — это ОК, а a* и a{2,3} — нет.
- `(?<!...)`	negative lookbehind assertion, соответствует каждой позиции, которой НЕ может заканчиваться шаблон ...

В нашем случае это выражение `r'(?<=кокса – )\d+,\d+'`.

Если мы бы хотели собрать все процентные значения с учетом знака, но без значка процентов, то модифицировали бы регулярное выражение следующим образом `r'[-+]?\d+,\d+(?=%)'`.

В качестве тренажера используйте следующий код.

```python
txt="""Погрузка на сети ОАО "Российские железные дороги" в 2018 году, по оперативным данным, составила 1 млрд 289,6 млн тонн, что на 2,2% больше, чем за предыдущий год. Железными дорогами погружено: каменного угля – 374,9 млн тонн (+4,6% к 2017 году); кокса – 11,3 млн тонн (+0,8%); нефти и нефтепродуктов – 236,4 млн тонн (+0,4%). По оперативной информации, погрузка на сети ОАО "РЖД" в декабре 2018 года составила 109 млн тонн, что ниже показателя аналогичного периода предыдущего года на 1,1%. Грузооборот за декабрь 2018 года вырос к аналогичному периоду предыдущего года на 2,3% и составил 224,4 млрд тарифных тонно-км. Грузооборот с учетом пробега вагонов в порожнем состоянии за этот же период увеличился на 2,1% и составил 285,1 млрд тонно-км."""

pattern=r'[-+]?\d+,\d+(?=%)'
match = re.findall(pattern, txt) 
if match:
    for i in match:
        print(i)
else:
    print('Ничего не найдено')
```


## Другие полезные методы библиотеки Re

`re.match(pattern, string)`

Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод match() на строке «AV Analytics AV» с шаблоном «AV», то он завершится успешно. Однако если мы будем искать «Analytics», то результат будет отрицательный.

`re.search(pattern, string)`

Этот метод похож на match(), но он ищет не только в начале строки. В отличие от предыдущего, search() вернет объект, если мы попытаемся найти «Analytics».

`re.fullmatch(pattern, string)`

Проверить, подходит ли строка string под шаблон pattern

`re.split(pattern, string, [maxsplit=0])`

Этот метод разделяет строку по заданному шаблону.

`re.sub(pattern, repl, string)`
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

```python
import re 

print(re.match('\d+', '123ilnurgi123'))
#-> <_sre.SRE_Match object; span=(0, 3), match='123'>

match = re.search(r'\d\d\D\d\d', r'Телефон 123-12-12') 
print(match[0] if match else 'Not found') 
# -> 23-12 
match = re.search(r'\d\d\D\d\d', r'Телефон 1231212') 
print(match[0] if match else 'Not found') 
# -> Not found 

match = re.fullmatch(r'\d\d\D\d\d', r'12-12') 
print('YES' if match else 'NO') 
# -> YES 
match = re.fullmatch(r'\d\d\D\d\d', r'Т. 12-12') 
print('YES' if match else 'NO') 
# -> NO 

print(re.split(r'\W+', 'Где, скажите мне, мои очки??!')) 
# -> ['Где', 'скажите', 'мне', 'мои', 'очки', ''] 

print(re.sub(r'\d\d\.\d\d\.\d{4}', 
             r'DD.MM.YYYY', 
             r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017')) 
# -> Эта строка написана DD.MM.YYYY, а могла бы и DD.MM.YYYY 
```

## Задание

```python
txt_exam="""Число ДТП на железнодорожных переездах в 2019 году снизилось на 4 %
Причинами дорожно-транспортных происшествий стали нарушения ПДД водителями либо неисправность автомобиля, повлекшая столкновение с проходящим подвижным составом. На железнодорожных переездах сети ОАО «Российские железные дороги» в 2019 году зафиксировано 248 дорожно-транспортных происшествий, это на 4% меньше, чем в 2018 году, сообщила пресс-служба компании.
«Причинами ДТП стали нарушения Правил дорожного движения водителями либо неисправность автомобиля, повлекшая столкновение с проходящим подвижным составом», — говорится в сообщении.
Наибольшее количество аварий произошло на Северо-Кавказской железной дороге (30 случаев), Московской железной дороге (33 случая) и Октябрьской магистрали (23 случая). В результате происшествий пострадали 129 человек. Для сравнения: в 2018 году на сети железных дорог произошло 259 дорожно-транспортных происшествий, в которых пострадали 175 человек.
Ранее Gudok.ru сообщал, что количество ДТП на переездах Дальневосточной железной дороги сократилось на 35% в 2019 году."""
```

Из текста приведенного выше:
1. Извлеките все числа
2. Извлеките все упоминания процентов, включая знак процентов
3. Извлеките все числа, которые стоят рядом с упоминанием слова "случаев", но это слово извлекать не надо, только значение.
4. Извлеките все числа, которые указаны в скобках.

# Библиотека Pandas

Pandas — это высокоуровневая библиотека Python с открытым исходным кодом, предоставляющая высокопроизводительный инструмент для обработки и анализа данных с использованием его мощных структур данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности. Название Pandas происходит от слова Panel Data — эконометрика из многомерных данных.

В 2008 году разработчик Уэс МакКинни начал разработку панд, когда им нужен высокопроизводительный, гибкий инструмент для анализа данных. До Pandas Python в основном использовался для сбора и подготовки данных. Это имело очень небольшой вклад в анализ данных. Панды решили эту проблему. Используя Pandas, мы можем выполнить пять типичных шагов по обработке и анализу данных, независимо от происхождения данных: загрузить, подготовить, манипулировать, моделировать и анализировать.

Ключевые особенности pandas:
- Быстрый и эффективный объект DataFrame с индивидуальной индексацией по умолчанию.
- Инструменты для загрузки данных в объекты данных в памяти из разных форматов файлов.
- Выравнивание данных и интегрированная обработка отсутствующих данных.
- Изменение формы и поворот наборов дат.
- Метка нарезки, индексация и подмножество больших наборов данных.
- Столбцы из структуры данных могут быть удалены или вставлены.
- Группировка по данным для агрегации и преобразований.
- Высокая производительность слияния и объединения данных.
- Функциональность временных рядов.

[Документация](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html)

Загрузка библиотеки

```python
import pandas as pd
import numpy as np
```

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

Создадим DataFrame из обычного двухмерно списка. Воспользуемся данными о численности сотурдников и выручке крупнейших компаний.

```python
df=pd.DataFrame([['Магнит', 297460, 1237], 
                 ['X5', 278399, 1533], 
                 ['Сургутнефтегаз', 112808, 1867],
                 ['Лукойл', 102500, 8036],
                 ['УГМК', 80000, 165.9]])
df # выведем результаты
```

Обратите внимание на цифры от 0-5 слева. Это индексы, упрощенно - номера строк. 0-2 - это столбцы. Давайте дадим им названия. Чаще всего столбцы именуют латиницей.

```python
df.columns=['Company', 'Personal', 'Revenue']
df
```

Часто удобнее использовать другие методы для отображения части DataFrame:
- `.head()` первые пять строк (можно указать другое значение).
- `.tail()` последние пять строк 
- `.sample()` случайные строки в указанном количестве.

Чтобы получить список столбоц можно прибегнуть к внутренней переменной `df.columns`. Где `df` - это наименование таблицы.

Чтобы получить список индексов воспользуемся переменной `df.index`.

Чтобы обратиться к DataFrame, можно использовать срезы. Точно также, как мы обращаемся к спискам.

`df[0:3]`

Но обратиться к одной строке так не получится.

`df[1]`

Для этого мы должны использовать методы `.loc[]` или `.iloc[]`

```python
print(df.loc[1])

print(df.loc[1,'Company'])
```


Отличие методы .iloc - мы можем обращаться не по названию, а по номер столбца по порядку `df.iloc[1,2]`

Чтобы изменить значение - надо просто обратиться к конретной ячейке и присвоить новое значение `df.loc[1,'Company']='X5 Retail Group'`

Можно обращаться не только к строкам, но и столбцам `df['Company']`

Обратите внимание, что столбец - это объект типа Series. Это аналог списков, которые использует библиотека numpy. Фактически этот тип объектов ближе к словарям, так как все объекты проиндексированы и связаны с индексами.

Чтобы преобразовать в тип список, надо вызвать методы array `df['Company'].array`


Кстати, обратиться к столбцу можно и проще, не используя квадратных скобок `df.Company.array`

Легко выполнять выборки из таблицы по критериям.

```python
print(df[df['Personal']>100000])

print(df[df['Personal']>100000][['Company', 'Revenue']])
```

Добавить столбец очень просто. Надо просто объявить его и присвоить значение. Например, заполнить нулями.

```python
df['Temp']=0
df
```

Или вычислить значения нового столбца. Расчитаем производительность.

```python
df['Labor']=df['Revenue']/df['Personal']
df
```

или присвоить значения из списка, длина которого равна длине таблицы DataFrame

```python
t_arr=[10,20,30,40,50]
df['Temp2']=t_arr
df
```

Изменить значения столца очень легко.

```python
df['Labor']=df['Labor']*1000000
df
```


Также достаточно просто удалить строку или столбец. Удаляем столбец.

```python
df.drop(columns=['Temp'], inplace=True)
df
```
А следующая команда удаляет строки.

```python
df.drop([1, 2], inplace=True)
df
```

Очень удобно для операций над столбцами использовать сочетание функций apply и lambda.

Лябмда-выражения — это особый синтаксис в Python, необходимый для создания анонимных функций. Давайте назовем синтаксис лямбда как лямбда-выражение, а получаемую функцию — лямбда-функцию.

Лямбда-выражения в Python позволяют функции быть созданной и переданной (зачастую другой функции) в одной строчке кода.

Например, простая функция так:

```python
#объявим функцию
def d100(x,y):
    return x/y

#вызовем функцию
d100(1000,10)
```

А можно объявить ее и в одну строчку, причем, часто нет необходимости присваивать ее переменной.

```python
f= lambda x,y: x/y
f(1000,100)
```

Анонимные функции (labmbda) используют как аргумент нескольких функций - map(), filter(), reduce(), apply().

`apply()` работает в Series и в качестве аргумента может принимать функции и применяет ее ко всем элементам списка.

```python
df['Revenue']=df['Revenue'].apply(lambda x: x*1000)
df.head()
```

Apply() можно вызывать и к строке, обращаясь затем к элементам строки по номеру или названии. Для этого надо указать параметр axis=1.

Ниже мы перемножаем два столбца между собой. 

```python
df['Labor']=df.apply(lambda x:x['Revenue']/x['Personal'], axis=1)
df.head()
```

DataFrame позволяет легко делать группировки.
Загрузим таблицу ots_p.

```python
import sqlalchemy

engine = sqlalchemy.create_engine(
                "mysql+pymysql://root:__PASS__@__IP___/rzd", encoding='utf8', convert_unicode=True
            )

with engine.connect() as session:
    df=pd.read_sql('SELECT * FROM ots_p LIMIT 1000', con=session)
```

Выполним агрегацию по столбцу "Категория" и посчитаем количество случаев по каждой категории.

```python
df.groupby(["Категория"])['Категория'].count()
```

К результатам можно применять слудующие функции:
- `count`	Количество строк
- `sum`	Сумма
- `mean`	Среднее значение
- `mad`	Средняя абсолютное отклонение
- `median`	Медиана
- `min`	Минимум
- `max`	Максимум
- `mode`	Мода
- `abs`	Абсолютное значение
- `std`	Стандартное отклонение
- `var`	Вариация

Также можно получить результат сразу по нескольким столбцам. 

Имеет библиотека и аналог сводных таблиц в Excel. Общий синтаксис метода:

```python
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean')
```

Простой вариант применения сводных таблиц. Посчитаем среднюю продолжительность в разрезе типа и категории отказа. 

```python
df.pivot_table(index=['Тип'], columns=['Категория'], values='Длительность', aggfunc='mean')
```

Более сложный вариант, когда мы применяем разные функции к агрегируемым данным.

```python
df.pivot_table(values=['Категория', 'Тип', 'Длительность', 'От', 'Кому'], index='Тех.средство',
                        aggfunc={ 'Категория': np.median, 'Тип':'first', 'Длительность':np.mean, 'От': 'last', 
                                 'Кому':'last'})
```


## Задание

Прочитайте 1000 строк таблицы `grdp`. 

На ее примере:
- Умножьте на 10 столбец "Продолжительность" с использованием функции `apply()`
- Удалите столбец "index"
- Добавьте столбец с названием"Временный", заполните его значением 1
- Выполните группировку по столбцу "Деффект" и посчитайте среднее по столбцу "Продолжительность"
- Постройте сводную таблицу с индексом "Деффект" и агрегируйте поля "Телеграмма", "Продолжительность", "Грз", "Характер" используя функции на Ваше усмотрение. 

# Кодирование категориальных переменных

Категориальные признаки называют по-разному: факторными, номинальными. Их значения определяют факт принадлежности к какой-то категории. Примеры таких признаков: пол, страна проживания, номер группы, категория товаров и т.п. Ясно, что для компьютерной обработки вместо «понятного для человека» значения (в случае страны — ‘Russia’, ‘GB’, ‘France’ и т.п.) хранят числа. 

Создадим для примера небольшой DataFrame.

```python
import pandas as pd
df = pd.DataFrame({'Имя':['Иван', 'Петр', 'Мария', 'Ирина'],
                    'Пол':['М','М', 'Ж', 'Ж'], 
                    'Волосы':['Шатен', 'Блонд', 'Рыжий', 'Блонд'],
                    'Английский':['Хорошо', 'Хорошо', 'Отлично', 'Не владеет'],
                    'Возраст':[12, 25, 27, 33]})

# удобный код, который делит на количественные и категориальные переменные
categorical_columns = [c for c in df.columns if df[c].dtype.name == 'object']
numerical_columns   = [c for c in df.columns if df[c].dtype.name != 'object']
print("Категориальные:", categorical_columns, "Числовые",numerical_columns)

df
```

Посмотреть количество переменных можно с помощьюме метода `.unique()`

```python
print(df['Пол'].unique()) #['М' 'Ж']

print(df['Волосы'].unique()) #['Шатен' 'Блонд' 'Рыжий']
```

Способ кодирования зависит от количества уникальных значений. Если их всего два, то используем значения 0 и 1. Если больше, нужны более сложные походы.

Чтобы закодировать столбец с двумя значениями подойдет метода pandas
```python
pd.get_dummies(df['Пол'], drop_first=True)
```

Таким же образом можем закодировать и столбец "Волосы". Фактически сразу добавим новые столбцы к нашей таблице.

```python
pd.get_dummies(df, columns=['Волосы'])
```

Как правило, чтолбцов делают меньше чем переменных в столбце на единицу.

Если цвет мы должны кодировать именно фиктивными переменными, то знание языка мы можем закодировать порядковыми номерами. Поясню: если цвет волос "Шатен" закодирован номером 0, "Блонд" - 2, "Рыжий" - 3, то это ошибка, так как это разные цвета. Между "Блонд" и "Шатен" расстояние не больше, чем между "Блонд" и "Рыжий". А вот между знанием хорошо и отлично английского языка действительно может быть меньше, чем полное незнание языка и отличное им владение.

Можно использовать метод factorize: он автоматически сформирует список, который можно использовать как значения столбца.

```python
print(pd.factorize(df['Английский'])[0])
print(pd.factorize(df['Английский'])[1])
```

Описанный выше подход хорош если нам не надо делить выборку на тестовую и обучающую. В противном случае, мы фактически получаем "утечку" информации из тестового набора. А также возникают сложности с кодированием новых данных. В этом случае применим методы из библиотеки `sklearn `. Посомтрим вначале на более простой вариант, кодирование через метки.

[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

```python
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder() #создаем объект
#тренируем и сразу преобразовываем. Могут быть и последовательные операции
label_encoded_data = label_encoder.fit_transform(df['Английский']) 

print(label_encoded_data) #[2 2 1 0]
# закодируем новые данные
print(label_encoder.transform(['Хорошо', 'Отлично'])) #[2 1]
#обратное преобразование
print(label_encoder.inverse_transform(label_encoded_data)) #['Хорошо' 'Хорошо' 'Отлично' 'Не владеет']
```

Аналогичным образом выполним dummy кодирование. Единственное, что мы можем кодировать сразу несколько столбцов.

[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

```python
onehotencoder = OneHotEncoder() #объект класса
# преобразуем
x = onehotencoder.fit_transform(df[['Английский', "Волосы"]]).toarray()
print(x) 
# выполним преобразование новых данных
print(onehotencoder.transform([['Хорошо', 'Шатен']]).toarray()) #[[0. 0. 1. 0. 0. 1.]]
#получим уникальные значения категорий
print(onehotencoder.categories_)
# выполним обратное преобразование
print(onehotencoder.inverse_transform([[0, 0, 1, 0, 0, 1]]))
#получим названия столбцов
print(onehotencoder.get_feature_names(['Английский','Волосы']))
```

При создании объекта класса можно передать следующие параметры:
- `handle_unknown='ignore'` - игнорировать при преобразовании неизвестные значения
- `drop='first'` - удалить первый

Полный код преобразования для нашего примера может выглядеть следующим образом.
```python
onehotencoder = OneHotEncoder(drop='first')
x = onehotencoder.fit_transform(df[["Пол", "Английский", "Волосы"]]).toarray()
col=onehotencoder.get_feature_names(["Пол", "Английский", "Волосы"])
df_data=pd.DataFrame(x, columns=col) #создадим новый DataFrame
df_data['Возраст']=df['Возраст'] #добавим столбец с возрастом из оригинальной таблицы
df_data
```


## Умные способы кодирования

Когда не хотят заполонять признаковую матрицу кучей бинарных признаков, применяют кодировки, в которых категории кодируются какими-то интерпретируемыми значениями. Например, если это категория товаров в интернет-магазине, то логично её закодировать средней ценой товара. Тогда, по крайней мере, наш новый признак упорядочивает категории по дороговизне. В любом случае, делается это с помощью функции map и groupby. Кстати, даже если бы функции map не было, можно было бы обойтись выражением `data[feature].apply(lambda x: dct[x])`

Самый примитивный способ кодирования — заменить каждую категорию числом входящих в неё объектов (т.е. знания других признаков вообще не нужно). Это делается в одну строчку кода: `data[newfeature] = data[feature].map(data.groupby(feature).size())`.

## Биннинг

Биннинг или объединение данных - это метод предварительной обработки данных, используемый для уменьшения влияния незначительных ошибок наблюдения. Исходные значения данных, попадающие в заданный небольшой интервал (бин), заменяются значением, представляющим этот интервал, часто центральным значением. Это форма квантования.

Ниже простая техника для разделения на группы.

```python
bins = [0, 10, 20, 30, 40] #границы классов
labels = [1,2,3, 4] # меток на одну меньше, чем границ корзин
#добавим столбец
df['binned'] = pd.cut(df['Возраст'], bins=bins, labels=labels) 
print (df)
```

## Задание

Загрузите 1000 строк таблицы `grdp`, закодировать OneHotEncoder столбцы:
- Регион
- Тип виновного предприятия
- Вид работ.

Закодировать LabelEncoder столбец "статус события".

Создать новый DataFrame с данными и добавить столбец "Итоговый суммарный ущерб (тыс.руб.)".

# Проверка и подготовка данных

Одна из самых трудоемких задачи при анализе, это первичная подготовка данных. Где нам надо решить целый комплекс задач:
- проблема пропусков
- оценить значимость информации
- выполнить кодирование
- провести первичный разведовательный анализ данных.

В этой задаче будем работать с набором данных ku_asrb.

```python
import pandas as pd
import numpy as np
import sqlalchemy

engine = sqlalchemy.create_engine(
                "mysql+pymysql://root:__PASSS__@__IP___/rzd", encoding='utf8', convert_unicode=True
            )

with engine.connect() as session:
    df=pd.read_sql('SELECT * FROM ku_asrb LIMIT 1000', con=session)
    
df.sample(4)
```

Команды `df.info()` позволит получить первчиную информацию о датасете: `1000 non-null int64`. Первое число это количество не нулевых значений (non-null), а int64 тип значения поля.

Для учебного примера будем использовать только часть данных (столбцов).

```python
col=['Уникальный идентификатор события (внутри дороги)',
       'Код дороги', 'Статус события', 'Дата события',
       'Дата создания события в системе AC PБ', 'Тип виновного предприятия',
       'Функциональный филиал', 'Региональный центр',
       'Количество задержанных поездов',
       'Размер возмещенного ущерба (тыс.руб.)',
       'Итоговый суммарный ущерб (тыс.руб.)']
df=df[col]
```

Оценим количество пропусков по столбцам. На это удобно взглянуть как при помощи диаграммы, так и вывести статистику. Сам код мы изучим подробно чуть позже. Пока важнее результат.

```python
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
plt.style.use('ggplot')
from matplotlib.pyplot import figure

%matplotlib inline
matplotlib.rcParams['figure.figsize'] = (12,8)
sns.heatmap(df.isnull())
```

И посчитаем процент пропусков.

```python
for col in df.columns:
    pct_missing = np.mean(df[col].isnull())
    print('{} - {}%'.format(col, round(pct_missing*100)))
```

### Что делать с пропущенными значениями?

Не существует общих решений для проблемы отсутствующих данных. Для каждого конкретного набора приходится искать наиболее подходящие методы или их комбинации.

Разберем четыре самых распространенных техники. Они помогут в простых ситуациях, но, скорее всего, придется проявить творческий подход и поискать нетривиальные решения, например, промоделировать пропуски.

#### Отбрасывание записей

Первая техника в статистике называется методом удаления по списку и заключается в простом отбрасывании записи, содержащей пропущенные значения. Это решение подходит только в том случае, если недостающие данные не являются информативными.

```python
df.dropna(axis='index', how='any') #чтобы применить изменения, добавить в скобки inplace=True
```

Также можно использовать параметр `how='all'` - будет удалять только пустые строки. А также `thresh=int` - требуется не менее какого-то количества не нулевых значений. `subset` принимает список столбцов, которые надо включить в анализ.

#### Отбрасывание признаков

Как и предыдущая техника, отбрасывание признаков может применяться только для неинформативных признаков.

```python
df.dropna(axis='columns', how='any')
```

#### Внесение недостающих значений

Для численных признаков можно воспользоваться методом принудительного заполнения пропусков. Например, на место пропуска можно записать среднее или медианное значение, полученное из остальных записей.

Для категориальных признаков можно использовать в качестве заполнителя наиболее часто встречающееся значение.

Изучим частоту встречаемости значений.

```python
df['Функциональный филиал'].value_counts()
```

Проведем замену.

```python
df['Функциональный филиал'].fillna('ЦДИ ОАО "РЖД"', inplace=True)
```

#### Замена недостающих значений

Можно использовать некоторый дефолтный плейсхолдер для пропусков, например, новую категорию _MISSING_ для категориальных признаков или число -999 для числовых.

Таким образом, мы сохраняем данные о пропущенных значениях, что тоже может быть ценной информацией.

```python
df['Региональный центр'].fillna('_MISSING_', inplace=True)
```

## Преобразование типов

Изучая образцы данных, мы видим, что числа обозначены как нечисловые значения. В этих случаях важно выполнить приведение типов. Но рекомендуется это делать только после заполнения пропусков.

Проще всего выполнить преобразование с использованием метода `.astype()`

```python
df['Итоговый суммарный ущерб (тыс.руб.)']=df['Итоговый суммарный ущерб (тыс.руб.)'].astype(float)
```

Но он выдаст исключение, так как не сможет преобразавать некоторые значения. Можно было бы использовать параметр `errors=‘ignore’`, но проблемы бы появились позже. Исследуем ситуацию.

```python
for i in df['Итоговый суммарный ущерб (тыс.руб.)'].array:
    try:
        z=float(i)
    except:
        print(i)
```

Мы видим, что часть значений ошибочны. Нам надо их заменить на нули (или удалить), фактически это пропуски. А затем выполнить преобразование типа.

```python
df.loc[df['Итоговый суммарный ущерб (тыс.руб.)']=='.', 'Итоговый суммарный ущерб (тыс.руб.)']='0'
df['Итоговый суммарный ущерб (тыс.руб.)']=df['Итоговый суммарный ущерб (тыс.руб.)'].astype(float)
```

Тоже самое проделаем со столбцом "Размер возмещенного ущерба (тыс.руб.)".

Со столбцом "Количество задержанных поездов" несколько сложнее. Мы видим, что время можно преобразовать в секунды для удобства наализа. Или в другой формат времени. 

Напишем небольшую вспомогательную функцию.

```python
def time_to_sec(s):
    s3=s.split(':')
    if len(s3)<3:
        return 0
    else:
        return int(s3[0])*60*60+int(s3[1])*60+int(s3[2])
    
df['Количество задержанных поездов']=df['Количество задержанных поездов'].apply(lambda x: time_to_sec(x))
```

У нас есть еще два столбца с датами "Дата события" и "Дата создания события в системе AC PБ". Здесь нам придется "разобрать" строку в дату по шаблону.

```python
df['Дата события']=df['Дата события'].apply(lambda x: pd.to_datetime(x, format='%d%b%Y:%H:%M:%S'))
```

Получим ошибку, так как не все строки введены корректно. Придется также написать небольшую функцию.

```python
def ddate(s):
    try:
        res=pd.to_datetime(s, format='%d%b%Y:%H:%M:%S')
    except:
        res=np.NaN
    return res
df['Дата события']=df['Дата события'].apply(lambda x: ddate(x))
```

[Инструкция по формату](https://www.programiz.com/python-programming/datetime/strptime)

Посмотрим, в каких строках не смогло прозойти преобразование.

```python
df[df['Дата события'].isna()]
```

Удалим эти строки и проделаем операцию преобразования со столбцом "Дата создания события в системе AC PБ"

```python
df.drop(df[df['Дата события'].isna()].index, axis='index', inplace=True)
df['Дата создания события в системе AC PБ']=df['Дата создания события в системе AC PБ'].apply(lambda x: ddate(x))
df[df['Дата события'].isna()]
```

А также можем создать новый признак, это количество времени в секундах между временем события и его регистрацией.

```python
df['Время до регистрации']=df.apply(lambda x:(x['Дата создания события в системе AC PБ']-x['Дата события']).total_seconds(), axis=1)
```

## Задание

Загрузите 1000 строк таблицы ku_asutnbd. Проведите преобразование и очистку данных по столбцам `'Дата нарушения', 'Дата расшифровки', 'Скорость фактич', 'Начальный км', 'Путь', 'Вес'`.

А именно, отработайте по пропущенным значениям:
- удаление
- замену

Преобразуйе в даты и числовой формат столбцы. Учтите, что сменился шаблон даты.

# Визуализация данных

Для того, чтобы эффективно проводить разведочный анализ, нам надо познакомитсья со способами визуализации данных в Python.

Самая популярная библиотека визуализации данных, интегрированная в том числе в библиотеку pandas - это `matplotlib`.

Matplotlib cостоит из множества модулей. Модули наполнены различными классами и функциями, которые иерархически связаны между собой.

### Иерархическая структура рисунка в matplotlib

Главной единицей (объектом самого высокого уровня) при работе с matplotlib является рисунок (Figure). Любой рисунок в matplotlib имеет вложенную структуру и чем-то напоминает матрёшку. Пользовательская работа подразумевает операции с разными уровнями этой матрёшки:

Figure(Рисунок) -> Axes(Область рисования) -> Axis(Координатная ось)

#### Рисунок (Figure)

Рисунок является объектом самого верхнего уровня, на котором располагаются одна или несколько областей рисования (Axes), элементы рисунка Artisits (заголовки, легенда и т.д.) и основа-холст (Canvas). На рисунке может быть несколько областей рисования Axes, но данная область рисования Axes может принадлежать только одному рисунку Figure.

#### Область рисования (Axes)

Область рисования является объектом среднего уровня, который является, наверное, главным объектом работы с графикой matplotlib в объектно-ориентированом стиле. Это то, что ассоциируется со словом "plot", это часть изображения с пространством данных. Каждая область рисования Axes содержит две (или три в случае трёхмерных данных) координатных оси (Axis объектов), которые упорядочивают отображение данных.

#### Координатная ось (Axis)

Координатная ось являются объектом среднего уровня, которые определяют область изменения данных, на них наносятся деления ticks и подписи к делениям ticklabels. Расположение делений определяется объектом Locator, а подписи делений обрабатывает объект Formatter. Конфигурация координатных осей заключается в комбинировании различных свойств объектов Locator и Formatter.

#### Элементы рисунка (Artists)

Элементы рисунка Artists являются как бы красной линией для всех иерархических уровней. Практически всё, что отображается на рисунке является элементом рисунка (Artist), даже объекты Figure, Axes и Axis. Элементы рисунка Artists включают в себя такие простые объекты как текст (Text), плоская линия (Line2D), фигура (Patch) и другие.

Когда происходит отображение рисунка (figure rendering), все элементы рисунка Artists наносятся на основу-холст (Canvas). Большая часть из них связывается с областью рисования Axes. Также элемент рисунка не может совместно использоваться несколькими областями Axes или быть перемещён с одной на другую.


```python
# де-факто стандарт вызова pyplot в python
import matplotlib.pyplot as plt

fig = plt.figure()   # Создание объекта Figure
print (fig.axes)   # Список текущих областей рисования пуст
print (type(fig))   # тип объекта Figure
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)

plt.show()
```

### Элементы рисунка Artists

Всё пространство рисунка Figure (прямоугольной или иной формы) можно использовать для нанесения других элементов рисунка, например, контейнеров Axes, графических примитивов в виде линий, фигур, текста и так далее. В любом случае каждый рисунок можно структурно представить следующим образом:

- Область рисования Axes
  - Заголовок области рисования -> plt.title();
- Ось абсцисс Xaxis
  - Подпись оси абсцисс OX -> plt.xlabel();
- Ось абсцисс Yaxis
  - Подпись оси абсцисс OY -> plt.ylabel();
- Легенда -> plt.legend()
- Цветовая шкала -> plt.colorbar()
  - Подпись горизонтальной оси абсцисс OY -> cbar.ax.set_xlabel();
  - Подпись вертикальной оси абсцисс OY -> cbar.ax.set_ylabel();
- Деления на оси абсцисс OX -> plt.xticks()
- Деления на оси ординат OY -> plt.yticks()

Для каждого из перечисленных уровней-контейнеров есть возможность нанести заголовок (title) или подпись (label). Подписи к рисунку облегчают понимание того, в каких единицах представлены данные на графике или диаграмме.

Также часто на рисунок наносятся линии вспомогательной сетки (grid). В pyplot она вызывается командой plt.grid(). Вспомогательная сетка связана с делениями координатных осей (ticks), которые определяются автоматически исходя из значений выборки. В дальнейшем будет показано как определять положение и задавать значения делений на координатных осях. Стоит сказать, что в matplotlib существуют главные деления (major ticks) и вспомогательные (minor ticks) для каждой координатной оси. По умолчанию рисуются только главные делений и связанные с ними линии сетки grid. В плане настройки главные деления ничем не отличаются от вспомогательных.

```python
import matplotlib.pyplot as plt
import numpy as np

lag = 0.1
x = np.arange(0.0, 2*np.pi+lag, lag)
y = np.cos(x)

fig = plt.figure()
plt.plot(x, y)

plt.text(np.pi-0.5, 0,  '1 Axes', fontsize=26, bbox=dict( color='w'))
plt.text(0.1, 0, '3 Yaxis', fontsize=18, bbox=dict(color='w'), rotation=90)
plt.text(5, -0.9, '2 Xaxis', fontsize=18, bbox=dict(color='w'))

plt.title('1a TITLE')
plt.ylabel('3a Ylabel')
plt.xlabel('2a Xlabel ')

plt.text(5, 0.85, '6 Xticks', fontsize=12, bbox=dict( color='w'), rotation=90)
plt.text(0.95, -0.55, '6 Xticks', fontsize=12, bbox=dict( color='w'), rotation=90)

plt.text(5.75, -0.5, '7 Yticks', fontsize=12, bbox=dict( color='w'))
plt.text(0.15, 0.475, '7 Yticks', fontsize=12, bbox=dict(color='w'))

plt.grid(True)

plt.show()
```

Параметры, которые определяют эти свойства в различных графических командах, обычно имеют одинаковый синтаксис, то есть называются одинаково. Стандартным способом задания свойств какого либо создаваемого объекта (или методу) является передача по ключу: ключ=значение. Наиболее часто встречаемые названия параметров изменения свойств графических объектов перечислены ниже:
- color/colors/c - цвет;
- linewidth/linewidths - толщина линии;
- linestyle - тип линии;
- alpha - степень прозрачности (от полностью прозрачного 0 до непрозрачного 1);
- fontsize - размер шрифта;
- marker - тип маркера;
- s - размер маркера в методе plt.scatter(только цифры);
- rotation - поворот строки на X градусов.

### Графические команды

В Matplotlib заложены как простые графические команды, так и достаточно сложные. Доступ к ним через pyplot означает использование синтаксиса вида "plt.название_команды()".

Наиболее распространённые команды для создания научной графики в matplotlib это:

- Самые простые графические команды:
  - plt.scatter() - маркер или точечное рисование;
  - plt.plot() - ломаная линия;
  - plt.text() - нанесение текста;
- Диаграммы:
  - plt.bar(), plt.barh(), plt.barbs(), broken_barh() - столбчатая диаграмма;
  - plt.hist(), plt.hist2d(), plt.hlines - гистограмма;
  - plt.pie() - круговая диаграмма;
  - plt.boxplot() - "ящик с усами" (boxwhisker);
  - plt.errorbar() - оценка погрешности, "усы".
- Изображения в изолиниях:
  - plt.contour() - изолинии;
  - plt.contourf() - изолинии с послойной окраской;
- Отображения:
  - plt.pcolor(), plt.pcolormesh() - псевдоцветное изображение матрицы (2D массива);
  - plt.imshow() - вставка графики (пиксели + сглаживание);
  - plt.matshow() - отображение данных в виде квадратов.
- Заливка:
  - plt.fill() - заливка многоугольника;
  - plt.fill_between(), plt.fill_betweenx() - заливка между двумя линиями;
- Векторные диаграммы:
  - plt.streamplot() - линии тока;
  - plt.quiver() - векторное поле.

Несколько примеров. Точечная диаграмма.

```python
import random
import numpy as np
x=[random.randint(0,100) for i in range(50)]
y=[random.randint(100,300) for i in range(50)]

fig = plt.figure()
# Добавление на рисунок прямоугольной (по умолчанию) области рисования
plt.xlabel('Ось X')
plt.ylabel('Ось Y')
scatter = plt.scatter(x, y)
plt.show()
```

Столбчатая диаграмма.

```python
fig = plt.figure()
# Добавление на рисунок прямоугольной (по умолчанию) области рисования
scatter = plt.bar(x, y)
plt.show()
```
 
Ящик с усиками.
```python
fig = plt.figure()
scatter = plt.boxplot(x)
plt.show()
```

Более подробно в практике применения. [Документация](https://pythonworld.ru/novosti-mira-python/scientific-graphics-in-python.html)

## Seaborn

Seaborn — это более высокоуровневое API на базе библиотеки matplotlib. Seaborn содержит более адекватные дефолтные настройки оформления графиков. Если просто добавить в код import seaborn, то картинки станут гораздо симпатичнее. Также в библиотеке есть достаточно сложные типы визуализации, которые в matplotlib потребовали бы большого количество кода.

Для визуализации распределения метрических переменных используются следующие типы графиков:

- distplot
- jointplot
- rugplot
- kdeplot

### distplot

distplot одновременно показывает гистограмму и график плотности распределения.

Загрузим вначале библиотеки и набо данных для иллюстрации. 

```python
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

tips = sns.load_dataset('tips')
tips.head()
```

```python
sns.distplot(tips['total_bill']);
```

Можно оставить только гистограмму.

```python
sns.distplot(tips['total_bill'], kde=False, bins=30);
```

```python
sns.displot(data=tips, x="total_bill", col="time", kde=True)
```

### jointplot

Функция jointplot() показывает совместное распределение по двум переменным. Она имеет параметр kind который может принимать следующие значения:

- “scatter”
- “reg”
- “resid”
- “kde”
- “hex”

```python
sns.jointplot(x='total_bill', y='tip', data=tips, kind='scatter');
```

```python
sns.jointplot(x='total_bill',y='tip',data=tips,kind='hex');
```

### pairplot

pairplot показывает отношения между всеми парами переменных.

```python
sns.pairplot(tips);
```

Или другой вариант.

```python
sns.pairplot(tips, hue='sex', palette='Set1');
```

### lmplot

```python
sns.lmplot(data=tips, x="total_bill", y="tip", col="time", hue="smoker")
```

### boxplot и violinplot

Эти два графика используются для изучения формы распределения.

#### boxplot

Другое название boxplot — ящик с усами или диаграмма размаха. Он был разработан Джоном Тьюки в 1970-х годах.

Такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим; их можно располагать как горизонтально, так и вертикально. Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы.

```python
sns.boxplot(x="day", y="total_bill", data=tips, palette='rainbow');
```
Несколько другое представление.

```python
sns.boxplot(data=tips, palette='rainbow', orient='h');
```

#### violinplot

Выполняет ту же функцию, что и boxplot. По сути это два повёрнутые на 90 и -90 градусов графика плотности распределения, слипшиеся друг с другом.

```python
sns.violinplot(x="day", y="total_bill", data=tips, palette='rainbow');
```

```python
sns.violinplot(x="day", y="total_bill", data=tips, hue='sex', palette='Set1');
````

### Тепловая карта

```python
sns.heatmap(tips.corr());
```

Можно сменить цвета.

```python
sns.heatmap(tips.corr(),cmap='coolwarm',annot=True);
```

## Встроенные функции pandas

Часто проще построить фигуру следующим образом.

[Документация](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.bar.html)

```python
tips["total_bill"].plot()
```

Или 

```python
tips.hist(column=["total_bill"], figsize=(10,4), bins=10);
```