# Оглавление

* [Оглавление](#1)

* [Извлечение значений из текста](#2)

* [Примеры решаемых задач и регулярных выражений](#3)

	* [Найти полное совпадение](#3-1)

	* [Найти цифры по шаблону](#3-2)

	* [Логическое ИЛИ](#3-3)

	* [Просмотр вперед или назад](#3-4)

	* [Другие полезные методы библиотеки Re](#3-5)

	* [Задание](#3-6)

* [Библиотека Pandas](#4)

	* [Создание DataFrame](#4-1)

	* [Доступ к элементам и строкам](#4-2)

	* [Изменить значение](#4-3)

	* [Выборки ](#4-4)

	* [Сортировка](#4-5)

	* [Добавление столбцов](#4-6)

	* [Изменить значение](#4-7)

	* [Удалить строки и столбы](#4-8)

	* [Apply и Lambda](#4-9)

	* [Группировки](#4-10)

	* [Сводные таблицы](#4-11)

	* [Задание](#4-12)

* [Кодирование категориальных переменных](#5)

	* [Понятие категориальных переменных](#5-1)

	* [Dummies кодирование](#5-2)

	* [Sklearn LabelEncoder](#5-3)

	* [Sklearn OneHot](#5-4)

	* [Полное преобразование](#5-5)

	* [Умные способы кодирования](#5-6)

	* [Биннинг](#5-7)

	* [Задание](#5-8)

* [Проверка и подготовка данных](#6)

	* [Отбрасывание записей](#6-1)

	* [Отбрасывание признаков](#6-2)

	* [Внесение недостающих значений](#6-3)

	* [Замена недостающих значений](#6-4)
    * [Преобразование типов](#6-5)


# Извлечение значений из текста<a class="anchor" id="2"></a>

Последние годы языки общего назначения стали чаще использоваться для анализа данных. Разработчики и организации используют Python или Javascript для решения своих задач. И в этом им помогают регулярные выражения. Они — незаменимый инструмент для упорядочивания, причесывания, поиска или извлечения текстовых данных.

Проще говоря, регулярное выражение используется для поиска паттернов в указанной строке.
Паттерном может быть все что угодно.

Можно создавать паттерны соответствия электронной почте или мобильному номеру. Можно создать паттерны, которые ищут слова в строке, начинающиеся на “a” и заканчивающиеся на “z”.

Например:

```python
import re
pattern='\d\d\d'
match = re.search(pattern, 'Номер поезда 234. Номер вагона 5') 
print(match[0] if match else 'Не найдено совпадений') #коротка форма if ... else...
```

Чаще всего регулярные выражения используются для:
- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

Регулярные выражения используют два типа символов:

- специальные символы: как следует из названия, у этих символов есть специальные значения. Все специальные символы `. ˆ $ * + ? { } [ ] | ( )`;
- литералы (например: a, b, 1, 2 и т. д.).

Любая строка (в которой нет символов `.^$*+?{}[]\|())` сама по себе является регулярным выражением. Так, выражению Хаха будет соответствовать строка “Хаха” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “хаха” (с маленькой буквы) уже не будет соответствовать выражению выше. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `.^$*+?{}[]\|()`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \. Так же, как и в питоне, в регулярных выражениях выражение \n соответствует концу строки, а \t — табуляции.

Специальные символы используются для того, чтобы искать не только полные совпадения, но и выражения согласно каким-то правилам. Например, слово должно стоять в начале строки или содержать от 5 до 10 цифр разделенных запятой. Одинаковые по своей сути паттерны можно использовать в любом методе библиотки Re.

- `.`	Один любой символ, кроме новой строки \n.
- `?`	0 или 1 вхождение шаблона слева
- `+`	1 и более вхождений шаблона слева
- `*`	0 и более вхождений шаблона слева
- `\w`	Любая цифра или буква (\W — все, кроме буквы или цифры)
- `\d`	Любая цифра [0-9] (\D — все, кроме цифры)
- `\s`	Любой пробельный символ (\S — любой непробельный символ)
- `\b`	Граница слова
- `[..]`	Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
- `\`	Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
- `^` и `$`	Начало и конец строки соответственно
- `{n,m}`	От n до m вхождений ({,m} — от 0 до m)
- `a|b`	Соответствует a или b
- `()`	Группирует выражение и возвращает найденный текст
- `\t, \n, \r`	Символ табуляции, новой строки и возврата каретки соответственно

# Примеры решаемых задач и регулярных выражений<a class="anchor" id="3"></a>

Возьмем за основу текст:
```python
txt="""Погрузка на сети ОАО "Российские железные дороги" в 2018 году, по оперативным данным, составила 1 млрд 289,6 млн тонн, что на 2,2% больше, чем за предыдущий год. Железными дорогами погружено: каменного угля – 374,9 млн тонн (+4,6% к 2017 году); кокса – 11,3 млн тонн (+0,8%); нефти и нефтепродуктов – 236,4 млн тонн (+0,4%). По оперативной информации, погрузка на сети ОАО "РЖД" в декабре 2018 года составила 109 млн тонн, что ниже показателя аналогичного периода предыдущего года на 1,1%. Грузооборот за декабрь 2018 года вырос к аналогичному периоду предыдущего года на 2,3% и составил 224,4 млрд тарифных тонно-км. Грузооборот с учетом пробега вагонов в порожнем состоянии за этот же период увеличился на 2,1% и составил 285,1 млрд тонно-км."""
```

## Найти полное совпадение<a class="anchor" id="3-1"></a>

`'Российские железные дороги'` - постарается в тексте найти полное совпадение. Но если мы изменим хотя бы одну букву, совпадений не будет.

## Найти цифры по шаблону<a class="anchor" id="3-2"></a>

Например, все проценты: `'\d{1,5}%'`. Но мы видим, что нашло только часть значений. 

Изменим выражение, укажем, что между цифрами может быть запятая `'\d{1,3},\d{1,2}%'`. 

Еще усилим регулярное выражение, чтобы захватывать и знак `'[-+]?\d{1,3},\d{1,2}%'`.

Можем записать регулярное выражение и по другому `'[-+]?\d{1,3},\d+%'`.

Это же правило можно записать и несколько в другой форме, оно проще запоминается `'[-+]?[0-9]{1,3},[0-9]+%'`.

## Логическое ИЛИ<a class="anchor" id="3-3"></a>

Например, мы хотим найти вхождение всех слов из списка:
- тонн
- тонно-км
- год
Регулярное выражение будет выглядеть так: `'тонн|тонно-км|год'`. Обратине внимание, что не верно находит вхождения. Нам надо изменить правило на `r'тонн\b|тонно-км|год'`

## Просмотр вперед или назад<a class="anchor" id="3-4"></a>

Допустим, мы хотим выделить только то значение, которое относится к приросту кокса. Для этого будем использовать шаблоны соответсвия позиции.
- `(?=...)`	lookahead assertion, соответствует каждой позиции, сразу после которой начинается соответствие шаблону
- `(?!...)`	negative lookahead assertion, соответствует каждой позиции, сразу после которой НЕ может начинаться шаблон 
- `(?<=...)`	positive lookbehind assertion, соответствует каждой позиции, которой может заканчиваться шаблон. Длина шаблона должна быть фиксированной, то есть abc и a|b — это ОК, а a* и a{2,3} — нет.
- `(?<!...)`	negative lookbehind assertion, соответствует каждой позиции, которой НЕ может заканчиваться шаблон ...

В нашем случае это выражение `r'(?<=кокса – )\d+,\d+'`.

Если мы бы хотели собрать все процентные значения с учетом знака, но без значка процентов, то модифицировали бы регулярное выражение следующим образом `r'[-+]?\d+,\d+(?=%)'`.

В качестве тренажера используйте следующий код.

```python
txt="""Погрузка на сети ОАО "Российские железные дороги" в 2018 году, по оперативным данным, составила 1 млрд 289,6 млн тонн, что на 2,2% больше, чем за предыдущий год. Железными дорогами погружено: каменного угля – 374,9 млн тонн (+4,6% к 2017 году); кокса – 11,3 млн тонн (+0,8%); нефти и нефтепродуктов – 236,4 млн тонн (+0,4%). По оперативной информации, погрузка на сети ОАО "РЖД" в декабре 2018 года составила 109 млн тонн, что ниже показателя аналогичного периода предыдущего года на 1,1%. Грузооборот за декабрь 2018 года вырос к аналогичному периоду предыдущего года на 2,3% и составил 224,4 млрд тарифных тонно-км. Грузооборот с учетом пробега вагонов в порожнем состоянии за этот же период увеличился на 2,1% и составил 285,1 млрд тонно-км."""

pattern=r'[-+]?\d+,\d+(?=%)'
match = re.findall(pattern, txt) 
if match:
    for i in match:
        print(i)
else:
    print('Ничего не найдено')
```

## Другие полезные методы библиотеки Re<a class="anchor" id="3-5"></a>

`re.match(pattern, string)`

Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод match() на строке «AV Analytics AV» с шаблоном «AV», то он завершится успешно. Однако если мы будем искать «Analytics», то результат будет отрицательный.

`re.search(pattern, string)`

Этот метод похож на match(), но он ищет не только в начале строки. В отличие от предыдущего, search() вернет объект, если мы попытаемся найти «Analytics».

`re.fullmatch(pattern, string)`

Проверить, подходит ли строка string под шаблон pattern

`re.split(pattern, string, [maxsplit=0])`

Этот метод разделяет строку по заданному шаблону.

`re.sub(pattern, repl, string)`
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

```python
import re 

print(re.match('\d+', '123ilnurgi123'))
#-> <_sre.SRE_Match object; span=(0, 3), match='123'>

match = re.search(r'\d\d\D\d\d', r'Телефон 123-12-12') 
print(match[0] if match else 'Not found') 
# -> 23-12 
match = re.search(r'\d\d\D\d\d', r'Телефон 1231212') 
print(match[0] if match else 'Not found') 
# -> Not found 

match = re.fullmatch(r'\d\d\D\d\d', r'12-12') 
print('YES' if match else 'NO') 
# -> YES 
match = re.fullmatch(r'\d\d\D\d\d', r'Т. 12-12') 
print('YES' if match else 'NO') 
# -> NO 

print(re.split(r'\W+', 'Где, скажите мне, мои очки??!')) 
# -> ['Где', 'скажите', 'мне', 'мои', 'очки', ''] 

print(re.sub(r'\d\d\.\d\d\.\d{4}', 
             r'DD.MM.YYYY', 
             r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017')) 
# -> Эта строка написана DD.MM.YYYY, а могла бы и DD.MM.YYYY 
```

## Задание<a class="anchor" id="3-6"></a>

```python
txt_exam="""Число ДТП на железнодорожных переездах в 2019 году снизилось на 4 %
Причинами дорожно-транспортных происшествий стали нарушения ПДД водителями либо неисправность автомобиля, повлекшая столкновение с проходящим подвижным составом. На железнодорожных переездах сети ОАО «Российские железные дороги» в 2019 году зафиксировано 248 дорожно-транспортных происшествий, это на 4% меньше, чем в 2018 году, сообщила пресс-служба компании.
«Причинами ДТП стали нарушения Правил дорожного движения водителями либо неисправность автомобиля, повлекшая столкновение с проходящим подвижным составом», — говорится в сообщении.
Наибольшее количество аварий произошло на Северо-Кавказской железной дороге (30 случаев), Московской железной дороге (33 случая) и Октябрьской магистрали (23 случая). В результате происшествий пострадали 129 человек. Для сравнения: в 2018 году на сети железных дорог произошло 259 дорожно-транспортных происшествий, в которых пострадали 175 человек.
Ранее Gudok.ru сообщал, что количество ДТП на переездах Дальневосточной железной дороги сократилось на 35% в 2019 году."""
```

Из текста приведенного выше:
1. Извлеките все числа
2. Извлеките все упоминания процентов, включая знак процентов
3. Извлеките все числа, которые стоят рядом с упоминанием слова "случаев", но это слово извлекать не надо, только значение.
4. Извлеките все числа, которые указаны в скобках.

# Библиотека Pandas<a class="anchor" id="4"></a>

Pandas — это высокоуровневая библиотека Python с открытым исходным кодом, предоставляющая высокопроизводительный инструмент для обработки и анализа данных с использованием его мощных структур данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности. Название Pandas происходит от слова Panel Data — эконометрика из многомерных данных.

В 2008 году разработчик Уэс МакКинни начал разработку панд, когда им нужен высокопроизводительный, гибкий инструмент для анализа данных. До Pandas Python в основном использовался для сбора и подготовки данных. Это имело очень небольшой вклад в анализ данных. Панды решили эту проблему. Используя Pandas, мы можем выполнить пять типичных шагов по обработке и анализу данных, независимо от происхождения данных: загрузить, подготовить, манипулировать, моделировать и анализировать.

Ключевые особенности pandas:
- Быстрый и эффективный объект DataFrame с индивидуальной индексацией по умолчанию.
- Инструменты для загрузки данных в объекты данных в памяти из разных форматов файлов.
- Выравнивание данных и интегрированная обработка отсутствующих данных.
- Изменение формы и поворот наборов дат.
- Метка нарезки, индексация и подмножество больших наборов данных.
- Столбцы из структуры данных могут быть удалены или вставлены.
- Группировка по данным для агрегации и преобразований.
- Высокая производительность слияния и объединения данных.
- Функциональность временных рядов.

[Документация](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html)

Загрузка библиотеки

```python
import pandas as pd
import numpy as np
```

## Создание DataFrame<a class="anchor" id="4-1"></a>

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

Создадим DataFrame из обычного двухмерно списка. Воспользуемся данными о численности сотрудников и выручке крупнейших компаний.

```python
df=pd.DataFrame([['Магнит', 297460, 1237], 
                 ['X5', 278399, 1533], 
                 ['Сургутнефтегаз', 112808, 1867],
                 ['Лукойл', 102500, 8036],
                 ['УГМК', 80000, 165.9]])
df # выведем результаты
```

## Доступ к элементам и строкам<a class="anchor" id="4-2"></a>

Обратите внимание на цифры от 0-5 слева. Это индексы, упрощенно - номера строк. 0-2 - это столбцы. Давайте дадим им названия. Чаще всего столбцы именуют латиницей.

```python
df.columns=['Company', 'Personal', 'Revenue']
df
```

Часто удобнее использовать другие методы для отображения части DataFrame:
- `.head()` первые пять строк (можно указать другое значение).
- `.tail()` последние пять строк 
- `.sample()` случайные строки в указанном количестве.

Чтобы получить список столбоц можно прибегнуть к внутренней переменной `df.columns`. Где `df` - это наименование таблицы.

Чтобы получить список индексов воспользуемся переменной `df.index`.

Чтобы обратиться к DataFrame, можно использовать срезы. Точно также, как мы обращаемся к спискам.

`df[0:3]`

Но обратиться к одной строке так не получится.

`df[1]`

Для этого мы должны использовать методы `.loc[]` или `.iloc[]`

```python
print(df.loc[1])

print(df.loc[1,'Company'])
```


Отличие методы .iloc - мы можем обращаться не по названию, а по номер столбца по порядку `df.iloc[1,2]`

## Изменить значение<a class="anchor" id="4-3"></a>

Чтобы изменить значение - надо просто обратиться к конкретной ячейке и присвоить новое значение `df.loc[1,'Company']='X5 Retail Group'`

Можно обращаться не только к строкам, но и столбцам `df['Company']`

Обратите внимание, что столбец - это объект типа Series. Это аналог списков, которые использует библиотека numpy. Фактически этот тип объектов ближе к словарям, так как все объекты проиндексированы и связаны с индексами.

Чтобы преобразовать в тип список, надо вызвать методы array `df['Company'].array`


Кстати, обратиться к столбцу можно и проще, не используя квадратных скобок `df.Company.array`

## Выборки <a class="anchor" id="4-4"></a>

Легко выполнять выборки из таблицы по критериям.

```python
print(df[df['Personal']>100000])

print(df[df['Personal']>100000][['Company', 'Revenue']])
```

Или на соответствие значению.

```python
df[df['Company']=='Магнит']
```

Если хотим вывести строки, где есть значения из списка, то используем метод `isin()`.

```python
df[df['Company'].isin(['Магнит', 'X5'])]
```

## Сортировка<a class="anchor" id="4-5"></a>

Также есть возможность быстро и удобно делать сортировки.

```python
df.sort_values(by=['Personal'])
```

Параметр ascending регулирует сортировку по убыванию или возрастанию. Также одновременно можно сортировать по нескольким столбцам.

```python
df.sort_values(by=['Personal', 'Revenue'], ascending=False)
```

## Добавление столбцов<a class="anchor" id="4-6"></a>

Добавить столбец очень просто. Надо просто объявить его и присвоить значение. Например, заполнить нулями.

```python
df['Temp']=0
df
```

Или вычислить значения нового столбца. Рассчитаем производительность.

```python
df['Labor']=df['Revenue']/df['Personal']
df
```

или присвоить значения из списка, длина которого равна длине таблицы DataFrame

```python
t_arr=[10,20,30,40,50]
df['Temp2']=t_arr
df
```

## Изменить значение<a class="anchor" id="4-7"></a>

Изменить значения столбца очень легко.

```python
df['Labor']=df['Labor']*1000000
df
```

## Удалить строки и столбы<a class="anchor" id="4-8"></a>

Также достаточно просто удалить строку или столбец. Удаляем столбец.

```python
df.drop(columns=['Temp'], inplace=True)
df
```

А следующая команда удаляет строки.

```python
df.drop([1, 2], inplace=True)
df
```

## Apply и Lambda<a class="anchor" id="4-9"></a>

Очень удобно для операций над столбцами использовать сочетание функций apply и lambda.

Лябмда-выражения — это особый синтаксис в Python, необходимый для создания анонимных функций. Давайте назовем синтаксис лямбда как лямбда-выражение, а получаемую функцию — лямбда-функцию.

Лямбда-выражения в Python позволяют функции быть созданной и переданной (зачастую другой функции) в одной строчке кода.

Например, простая функция так:

```python
#объявим функцию
def d100(x,y):
    return x/y

#вызовем функцию
d100(1000,10)
```

А можно объявить ее и в одну строчку, причем, часто нет необходимости присваивать ее переменной.

```python
f= lambda x,y: x/y
f(1000,100)
```

Анонимные функции (labmbda) используют как аргумент нескольких функций - map(), filter(), reduce(), apply().

`apply()` работает в Series и в качестве аргумента может принимать функции и применяет ее ко всем элементам списка.

```python
df['Revenue']=df['Revenue'].apply(lambda x: x*1000)
df.head()
```

Apply() можно вызывать и к строке, обращаясь затем к элементам строки по номеру или названии. Для этого надо указать параметр axis=1.

Ниже мы перемножаем два столбца между собой. 

```python
df['Labor']=df.apply(lambda x:x['Revenue']/x['Personal'], axis=1)
df.head()
```

## Группировки<a class="anchor" id="4-10"></a>

DataFrame позволяет легко делать группировки.

Загрузим таблицу ots_p.

```python
import sqlalchemy

engine = sqlalchemy.create_engine(
                "mysql+pymysql://root:%s@159.69.219.206:3307/rzd" %(sql_pass), encoding='utf8', convert_unicode=True
            )

with engine.connect() as session:
    df=pd.read_sql('SELECT * FROM ots_p LIMIT 1000', con=session)
```

**Добавим переменную sql_pass!**

Выполним агрегацию по столбцу "Категория" и посчитаем количество случаев по каждой категории.

```python
df.groupby(["Категория"])['Категория'].count()
```

К результатам можно применять следующие функции:
- `count`	Количество строк
- `sum`	Сумма
- `mean`	Среднее значение
- `mad`	Средняя абсолютное отклонение
- `median`	Медиана
- `min`	Минимум
- `max`	Максимум
- `mode`	Мода
- `abs`	Абсолютное значение
- `std`	Стандартное отклонение
- `var`	Вариация
- `first` Первое значение
- `last` Последнее значение

Также можно получить результат сразу по нескольким столбцам. 

Другой вариант записи позволяет выполнить над каждый столбцом свой вариант операции.

```python
df.groupby("Тех.средство").agg({'Длительность':['min'], 'Категория':['median', 'count']})
```

Иногда необходимо уточнить самое часто встречаемое значение. Здесь прибегаем к помощи следующей конструкции.

```python
df.groupby("Тех.средство").agg({'Длительность':'min','Категория':pd.Series.mode})
```

## Сводные таблицы<a class="anchor" id="4-11"></a>

Имеет библиотека и аналог сводных таблиц в Excel. Общий синтаксис метода:

```python
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean')
```

Простой вариант применения сводных таблиц. Посчитаем среднюю продолжительность в разрезе типа и категории отказа. 

```python
df.pivot_table(index=['Тех.средство'], columns=['Категория'], values='Длительность', aggfunc='mean')
```

## Задание<a class="anchor" id="4-12"></a>

Прочитайте 1000 строк таблицы `grdp`. 

На ее примере:
- Умножьте на 10 столбец "Продолжительность" с использованием функции `apply()`
- Удалите столбец "index"
- Добавьте столбец с названием "Временный", заполните его значением 1
- Выполните группировку по столбцу "Дефект" и посчитайте среднее по столбцу "Продолжительность"
- Постройте сводную таблицу с индексом "Деффект", колонка "Телеграмма" и значение "Продолжительность". Используйте функцию нахождения среднего значения. 

# Кодирование категориальных переменных<a class="anchor" id="5"></a>

## Понятие категориальных переменных<a class="anchor" id="5-1"></a>

Категориальные признаки называют по-разному: факторными, номинальными. Их значения определяют факт принадлежности к какой-то категории. Примеры таких признаков: пол, страна проживания, номер группы, категория товаров и т.п. Ясно, что для компьютерной обработки вместо «понятного для человека» значения (в случае страны — ‘Russia’, ‘GB’, ‘France’ и т.п.) хранят числа. 

Создадим для примера небольшой DataFrame.

```python
import pandas as pd
df = pd.DataFrame({'Имя':['Иван', 'Петр', 'Мария', 'Ирина'],
                    'Пол':['М','М', 'Ж', 'Ж'], 
                    'Волосы':['Шатен', 'Блонд', 'Рыжий', 'Блонд'],
                    'Английский':['Хорошо', 'Хорошо', 'Отлично', 'Не владеет'],
                    'Возраст':[12, 25, 27, 33]})

# удобный код, который делит на количественные и категориальные переменные
categorical_columns = [c for c in df.columns if df[c].dtype.name == 'object']
numerical_columns   = [c for c in df.columns if df[c].dtype.name != 'object']
print("Категориальные:", categorical_columns, "Числовые",numerical_columns)

df
```

Посмотреть количество переменных можно с помощью метода `.unique()`

```python
print(df['Пол'].unique()) #['М' 'Ж']

print(df['Волосы'].unique()) #['Шатен' 'Блонд' 'Рыжий']
```

Не только посомтреть список уникальных значений, но и посчитать их встречаемость, можно при помощи метода `value_counts()`

```python
df['Пол'].value_counts()
```

## Dummies кодирование<a class="anchor" id="5-2"></a>

Способ кодирования зависит от количества уникальных значений. Если их всего два, то используем значения 0 и 1. Если больше, нужны более сложные походы.

Чтобы закодировать столбец с двумя значениями подойдет метода pandas
```python
pd.get_dummies(df['Пол'], drop_first=True)
```

Таким же образом можем закодировать и столбец "Волосы". Фактически сразу добавим новые столбцы к нашей таблице.

```python
pd.get_dummies(df, columns=['Волосы'])
```

Как правило, столбцов делают меньше чем переменных в столбце на единицу.

Если цвет мы должны кодировать именно фиктивными переменными, то знание языка мы можем закодировать порядковыми номерами. Поясню: если цвет волос "Шатен" закодирован номером 0, "Блонд" - 2, "Рыжий" - 3, то это ошибка, так как это разные цвета. Между "Блонд" и "Шатен" расстояние не больше, чем между "Блонд" и "Рыжий". А вот между знанием хорошо и отлично английского языка действительно может быть меньше, чем полное незнание языка и отличное им владение.

Можно использовать метод factorize: он автоматически сформирует список, который можно использовать как значения столбца.

```python
print(pd.factorize(df['Английский'])[0])
print(pd.factorize(df['Английский'])[1])
```

## Sklearn LabelEncoder<a class="anchor" id="5-3"></a>

Описанный выше подход хорош если нам не надо делить выборку на тестовую и обучающую. В противном случае, мы фактически получаем "утечку" информации из тестового набора. А также возникают сложности с кодированием новых данных. В этом случае применим методы из библиотеки `sklearn `. Посмотрим вначале на более простой вариант, кодирование через метки.

[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

```python
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder() #создаем объект
#тренируем и сразу преобразовываем. Могут быть и последовательные операции
label_encoded_data = label_encoder.fit_transform(df['Английский']) 

print(label_encoded_data) #[2 2 1 0]
#закодируем новые данные
print(label_encoder.transform(['Хорошо', 'Отлично'])) #[2 1]
#обратное преобразование
print(label_encoder.inverse_transform(label_encoded_data)) #['Хорошо' 'Хорошо' 'Отлично' 'Не владеет']
```

## Sklearn OneHot<a class="anchor" id="5-4"></a>

Аналогичным образом выполним dummy кодирование. Единственное, что мы можем кодировать сразу несколько столбцов.

[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

```python
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder() #объект класса
#преобразуем
x = onehotencoder.fit_transform(df[['Английский', "Волосы"]]).toarray()
print(x) 
#выполним преобразование новых данных
print(onehotencoder.transform([['Хорошо', 'Шатен']]).toarray()) #[[0. 0. 1. 0. 0. 1.]]
#получим уникальные значения категорий
print(onehotencoder.categories_)
#выполним обратное преобразование
print(onehotencoder.inverse_transform([[0, 0, 1, 0, 0, 1]]))
#получим названия столбцов
print(onehotencoder.get_feature_names(['Английский','Волосы']))
```

При создании объекта класса можно передать следующие параметры:
- `handle_unknown='ignore'` - игнорировать при преобразовании неизвестные значения
- `drop='first'` - удалить первый

## Полное преобразование<a class="anchor" id="5-5"></a>

Полный код преобразования для нашего примера может выглядеть следующим образом.
```python
onehotencoder = OneHotEncoder(drop='first')
x = onehotencoder.fit_transform(df[["Пол", "Английский", "Волосы"]]).toarray()
col=onehotencoder.get_feature_names(["Пол", "Английский", "Волосы"])
df_data=pd.DataFrame(x, columns=col) #создадим новый DataFrame
df_data['Возраст']=df['Возраст'] #добавим столбец с возрастом из оригинальной таблицы
df_data
```


## Умные способы кодирования<a class="anchor" id="5-6"></a>

Когда не хотят заполонять признаковую матрицу кучей бинарных признаков, применяют кодировки, в которых категории кодируются какими-то интерпретируемыми значениями. Например, если это категория товаров в интернет-магазине, то логично её закодировать средней ценой товара. Тогда, по крайней мере, наш новый признак упорядочивает категории по дороговизне. В любом случае, делается это с помощью функции map и groupby. Кстати, даже если бы функции map не было, можно было бы обойтись выражением `data[feature].apply(lambda x: dct[x])`

Самый примитивный способ кодирования — заменить каждую категорию числом входящих в неё объектов (т.е. знания других признаков вообще не нужно). Это делается в одну строчку кода: `data[newfeature] = data[feature].map(data.groupby(feature).size())`.

## Биннинг<a class="anchor" id="5-7"></a>

Биннинг или объединение данных - это метод предварительной обработки данных, используемый для уменьшения влияния незначительных ошибок наблюдения. Исходные значения данных, попадающие в заданный небольшой интервал (бин), заменяются значением, представляющим этот интервал, часто центральным значением. Это форма квантования.

Ниже простая техника для разделения на группы.

```python
bins = [0, 10, 20, 30, 40] #границы классов
labels = [1,2,3, 4] # меток на одну меньше, чем границ корзин
#добавим столбец
df['binned'] = pd.cut(df['Возраст'], bins=bins, labels=labels) 
print (df)
```

## Задание<a class="anchor" id="5-8"></a>

Загрузите 1000 строк таблицы `grdp`, закодировать OneHotEncoder столбцы:
- Регион
- Тип виновного предприятия
- Вид работ.

Закодировать LabelEncoder столбец "статус события".

Создать новый DataFrame с данными и добавить столбец "Итоговый суммарный ущерб (тыс.руб.)".

# Проверка и подготовка данных<a class="anchor" id="6"></a>

Одна из самых трудоемких задачи при анализе, это первичная подготовка данных. Где нам надо решить целый комплекс задач:
- проблема пропусков
- оценить значимость информации
- выполнить кодирование
- провести первичный разведовательный анализ данных.

В этой задаче будем работать с набором данных ku_asrb.

```python
import pandas as pd
import numpy as np
import sqlalchemy

engine = sqlalchemy.create_engine(
                "mysql+pymysql://root:%s@159.69.219.206:3307/rzd" %(sql_pass), encoding='utf8', convert_unicode=True
            )

with engine.connect() as session:
    df=pd.read_sql('SELECT * FROM ku_asrb LIMIT 1000', con=session)
    
df.sample(4)
```

Команды `df.info()` позволит получить первчиную информацию о датасете: `1000 non-null int64`. Первое число это количество не нулевых значений (non-null), а int64 тип значения поля.

Для учебного примера будем использовать только часть данных (столбцов).

```python
col=['Уникальный идентификатор события (внутри дороги)',
       'Код дороги', 'Статус события', 'Дата события',
       'Дата создания события в системе AC PБ', 'Тип виновного предприятия',
       'Функциональный филиал', 'Региональный центр',
       'Количество задержанных поездов',
       'Размер возмещенного ущерба (тыс.руб.)',
       'Итоговый суммарный ущерб (тыс.руб.)']
df=df[col]
```

Оценим количество пропусков по столбцам. На это удобно взглянуть как при помощи диаграммы, так и вывести статистику. Сам код мы изучим подробно чуть позже. Пока важнее результат.

```python
#загрузим библиотеки, которые отвечают за отрисовку графиков
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
plt.style.use('ggplot')
from matplotlib.pyplot import figure
#выводить график сразу после ячейки с кодом
%matplotlib inline 
matplotlib.rcParams['figure.figsize'] = (12,8) #установим размер графика
sns.heatmap(df.isnull());
```

И посчитаем процент пропусков.

```python
for col in df.columns:
    pct_missing = np.mean(df[col].isnull())
    print('{} - {}%'.format(col, round(pct_missing*100)))
```

# Что делать с пропущенными значениями<a class="anchor" id="6-1"></a>

Не существует общих решений для проблемы отсутствующих данных. Для каждого конкретного набора приходится искать наиболее подходящие методы или их комбинации.

Разберем четыре самых распространенных техники. Они помогут в простых ситуациях, но, скорее всего, придется проявить творческий подход и поискать нетривиальные решения, например, промоделировать пропуски.

## Отбрасывание записей

Первая техника в статистике называется методом удаления по списку и заключается в простом отбрасывании записи, содержащей пропущенные значения. Это решение подходит только в том случае, если недостающие данные не являются информативными.

```python
df.dropna(axis='index', how='any') #чтобы применить изменения, добавить в скобки inplace=True
```

Также можно использовать параметр `how='all'` - будет удалять только пустые строки. А также `thresh=int` - требуется не менее какого-то количества не нулевых значений. `subset` принимает список столбцов, которые надо включить в анализ.

## Отбрасывание признаков<a class="anchor" id="6-2"></a>

Как и предыдущая техника, отбрасывание признаков может применяться только для неинформативных признаков.

```python
df.dropna(axis='columns', how='any')
```

## Внесение недостающих значений<a class="anchor" id="6-3"></a>

Для численных признаков можно воспользоваться методом принудительного заполнения пропусков. Например, на место пропуска можно записать среднее или медианное значение, полученное из остальных записей.

Для категориальных признаков можно использовать в качестве заполнителя наиболее часто встречающееся значение.

Изучим частоту встречаемости значений.

```python
df['Функциональный филиал'].value_counts()
```

Проведем замену.

```python
df['Функциональный филиал'].fillna('ЦДИ ОАО "РЖД"', inplace=True)
```

## Замена недостающих значений<a class="anchor" id="6-4"></a>

Можно использовать некоторый дефолтный плейсхолдер для пропусков, например, новую категорию _MISSING_ для категориальных признаков или число -999 для числовых.

Таким образом, мы сохраняем данные о пропущенных значениях, что тоже может быть ценной информацией.

```python
df['Региональный центр'].fillna('_MISSING_', inplace=True)
```

## Преобразование типов<a class="anchor" id="6-5"></a>

Изучая образцы данных, мы видим, что числа обозначены как нечисловые значения. В этих случаях важно выполнить приведение типов. Но рекомендуется это делать только после заполнения пропусков.

Проще всего выполнить преобразование с использованием метода `.astype()`

```python
df['Итоговый суммарный ущерб (тыс.руб.)']=df['Итоговый суммарный ущерб (тыс.руб.)'].astype(float)
```

Но он выдаст исключение, так как не сможет преобразовать некоторые значения. Можно было бы использовать параметр `errors=‘ignore’`, но проблемы бы появились позже. Исследуем ситуацию.

```python
s=[]
for i in df['Итоговый суммарный ущерб (тыс.руб.)'].array:
    try:
        z=float(i)
    except:
        s.append(i)
print(set(s))
```

Мы видим, что часть значений ошибочны. Нам надо их заменить на нули (или удалить), фактически это пропуски. А затем выполнить преобразование типа.

```python
df.loc[df['Итоговый суммарный ущерб (тыс.руб.)']=='.', 'Итоговый суммарный ущерб (тыс.руб.)']='0'
df['Итоговый суммарный ущерб (тыс.руб.)']=df['Итоговый суммарный ущерб (тыс.руб.)'].astype(float)
```

Тоже самое проделаем со столбцом "Размер возмещенного ущерба (тыс.руб.)".

Со столбцом "Количество задержанных поездов" несколько сложнее. Мы видим, что время можно преобразовать в секунды для удобства анализа. Или в другой формат времени. 

Напишем небольшую вспомогательную функцию.

```python
def time_to_sec(s):
    s3=s.split(':')
    if len(s3)<3:
        return 0
    else:
        return int(s3[0])*60*60+int(s3[1])*60+int(s3[2])
    
df['Количество задержанных поездов']=df['Количество задержанных поездов'].apply(lambda x: time_to_sec(x))
```

У нас есть еще два столбца с датами "Дата события" и "Дата создания события в системе AC PБ". Здесь нам придется "разобрать" строку в дату по шаблону.

```python
df['Дата события']=df['Дата события'].apply(lambda x: pd.to_datetime(x, format='%d%b%Y:%H:%M:%S'))
```

Получим ошибку, так как не все строки введены корректно. Придется также написать небольшую функцию.

```python
def ddate(s):
    try:
        res=pd.to_datetime(s, format='%d%b%Y:%H:%M:%S')
    except:
        res=np.NaN
    return res
df['Дата события']=df['Дата события'].apply(lambda x: ddate(x))
```

[Инструкция по формату](https://www.programiz.com/python-programming/datetime/strptime)

Посмотрим, в каких строках не смогло произойти преобразование.

```python
df[df['Дата события'].isna()]
```

Удалим эти строки и проделаем операцию преобразования со столбцом "Дата создания события в системе AC PБ"

```python
df.drop(df[df['Дата события'].isna()].index, axis='index', inplace=True)
df['Дата создания события в системе AC PБ']=df['Дата создания события в системе AC PБ'].apply(lambda x: ddate(x))
df[df['Дата события'].isna()]
```

А также можем создать новый признак, это количество времени в секундах между временем события и его регистрацией.

```python
df['Время до регистрации']=df.apply(lambda x:(x['Дата создания события в системе AC PБ']-x['Дата события']).total_seconds(), axis=1)
```

## Задание<a name="i18"></a>

Загрузите 1000 строк таблицы ku_asutnbd. Проведите преобразование и очистку данных по столбцам `'Дата нарушения', 'Дата расшифровки', 'Скорость фактич', 'Начальный км', 'Путь', 'Вес'`.

А именно, отработайте по пропущенным значениям:
- удаление
- замену

Преобразуйте в даты и числовой формат столбцы. Учтите, что сменился шаблон даты.