# Технологии искусственного интеллекта

© Петров М.В., старший преподаватель кафедры суперкомпьютеров и общей информатики, Самарский университет

План:
1. Библиотека Pandas
2. Библиотеки визуализации данных
3. Классификация в scikit-learn (бинарная, многоклассовая)
4. Деревья решений (библиотека scikit-learn)
5. Линейная регрессия в scikit-learn
6. Библиотека CatBoost (классификация, регрессия)

## Лекция 1. Библиотека Pandas

### Содержание

1. [Введение](#1.1-Введение)
2. [Pandas](#1.2-Pandas)
3. [Предобработка данных](#1.3-Предобработка-данных)

### 1.1 Введение

Что потребуется:
- [Python 3](https://www.python.org/)
- Библиотеки:
  - [NumPy](https://numpy.org/)
  - [SciPy](https://scipy.org/)
  - [Pandas](https://pandas.pydata.org/)
  - [Matplotlib](https://matplotlib.org/)
  - [Plotly](https://plotly.com/python/)
  - [Scikit-learn](https://scikit-learn.org/stable/)
  - [CatBoost](https://catboost.ai/)
  - [Jupyter Notebook или JupyterLab](https://jupyter.org/)

#### Python

`Python` – объектно-ориентированный язык программирования с динамической типизацией.

<div align="center">
  <img src="images/Python_logo_and_wordmark.svg" width="400" title="Python logo"/>
</div>

- [Установка](https://www.python.org/downloads/)
- [Документация](https://docs.python.org/3/library/index.html)
- [Туториал (официальный)](https://docs.python.org/3/tutorial/)

Туториалы:
- [Real Python Tutorials](https://realpython.com/)
- [Python Tutorial @ W3Schools](https://www.w3schools.com/python/)
- [Питонтьютор](https://pythontutor.ru/)
- …
- [StackOverflow](https://stackoverflow.com/questions/tagged/python) :)

<div align="center">
  <img src="images/l1_1.png" width="1000" title="Активные релизы Python"/>
  <p style="text-align: center">
    Рисунок 1 - Активные релизы Python
  </p>
</div>

<div align="center">
  <img src="images/l1_2.png" width="1000" title="Релизы Python определенной версии"/>
  <p style="text-align: center">
    Рисунок 2 - Релизы Python определенной версии
  </p>
</div>

`PyPI` – `Python Package Index` – репозиторий «пакетов» (библиотек), написанных с использованием Python (https://pypi.org/).

<div align="center">
  <img src="images/l1_3.png" width="1000" title="PyPI"/>
  <p style="text-align: center">
    Рисунок 3 - PyPI
  </p>
</div>

`pip` – система управления пакетами, которая используется для установки и управления программными пакетами.

<div align="center">
  <img src="images/l1_4.png" width="1000" title="Описание NumPy в PyPI"/>
  <p style="text-align: center">
    Рисунок 4 - Описание NumPy в PyPI
  </p>
</div>

Установка `NumPy` в Linux:

```bash
pip3 install -U numpy
```

Установка `NumPy` в Windows:

```commandline
pip install -U numpy
```

<div align="center">
  <img src="images/l1_5.png" width="1000" title="Установка пакетов"/>
  <p style="text-align: center">
    Рисунок 5 - Установка пакетов
  </p>
</div>

#### JupyterLab

[Установка](https://jupyter.org/install) JupyterLab:

```commandline
pip install -U jupyterlab
```

<div align="center">
  <img src="images/l1_6.png" width="1000" title="JupyterLab"/>
  <p style="text-align: center">
    Рисунок 6 - JupyterLab
  </p>
</div>

Отдельная IDE - [JupyterLab Desktop](https://github.com/jupyterlab/jupyterlab-desktop/releases).

<div align="center">
  <img src="images/l1_7.png" width="1000" title="JupyterLab Desktop"/>
  <p style="text-align: center">
    Рисунок 7 - JupyterLab Desktop
  </p>
</div>

#### NumPy

NumPy – Numerical Python – библиотека для работы с многомерными массивами.

<div align="center">
  <img src="images/NumPy_logo_2020.svg" width="400" title="NumPy"/>
</div>

- [Документация](https://numpy.org/doc/stable/)
- [API](https://numpy.org/doc/stable/reference/index.html)

[Примеры работы с numpy](numpy_examples.ipynb)

#### SciPy

`SciPy` – библиотека, предназначенная для выполнения научных и инженерных расчётов.

<div align="center">
  <img src="images/SciPy_logo.svg" width="200" title="SciPy"/>
</div>

Ключевые особенности:
- Использует типы данных и функции NumPy
- Модуль `sparse` – работа с разреженными матрицами (плюс линейная алгебра для "sparse" данных)
- Модуль `optimize`– методы оптимизации (поиск минимумов и максимумов функций)
- Модуль `ndimage` – обработка изображений
- Модуль `fft` – БПФ
- Модуль `integrate` – вычисление интегралов
- И т.д.

### 1.2 Pandas
`pandas` — это высокоуровневая Python библиотека для работы с табличными данными.

Гайды:
- [pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)
- [pandas API reference](https://pandas.pydata.org/docs/reference/index.html)
- [Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas](https://habr.com/company/ods/blog/322626/)

In [None]:
import pandas as pd

In [None]:
from pathlib import Path
# путь к папке с данными
data_path = "data"
# Чтение данных из csv-файла
# датасет: Goodreads Books - 31 Features: https://www.kaggle.com/datasets/austinreese/goodreads-books
data = pd.read_csv(Path(data_path, 'goodreads_books.csv'))
type(data)

> [DataFrame](https://pandas.pydata.org/docs/reference/frame.html) - Two-dimensional, size-mutable, potentially heterogeneous tabular data

In [None]:
# возвращает первые n строк, n=5 по-умолчанию
data.head()

[Pandas options and settings](https://pandas.pydata.org/pandas-docs/stable/reference/options.html):  
- `display.max_columnsint`  
    If max_cols is exceeded, switch to truncate view. Depending on large_repr, objects are either centrally truncated or printed as a summary view. ‘None’ value means unlimited.  
    In case python/IPython is running in a terminal and large_repr equals ‘truncate’ this can be set to 0 or None and pandas will auto-detect the width of the terminal and print a truncated object which fits the screen width. The IPython notebook, IPython qtconsole, or IDLE do not run in a terminal and hence it is not possible to do correct auto-detection and defaults to 20.

In [None]:
# set the max columns to none
pd.set_option('display.max_columns', None)

In [None]:
data.head()

In [None]:
data.shape

In [None]:
# информация о данных в DataFrame, тип данных признаков
data.info()

In [None]:
# статистика по числовым признакам
data.describe()

In [None]:
data.drop(columns=['settings', 'amazon_redirect_link', 'worldcat_redirect_link', 
                   'recommended_books', 'books_in_series', 'description', 'asin',
                   'link', 'author_link', 'cover_link','original_title'], inplace=True)

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
data['title']

In [None]:
type(data['title'])

> [Series](https://pandas.pydata.org/docs/reference/series.html) - One-dimensional ndarray with axis labels (including time series).

In [None]:
data['title'].head(3)

#### Индексация

In [None]:
# срез с указанием признаков
data.loc[200:204, ['title', 'five_star_ratings']]

In [None]:
# срез numpy-like
data.iloc[200:204, 0:3]

In [None]:
data['five_star_ratings'] > 2500

In [None]:
data[data['five_star_ratings'] > 2500]

In [None]:
type(data[data['five_star_ratings'] > 2500])

In [None]:
data[data['five_star_ratings'] > 2500]['number_of_pages'].mean()

In [None]:
data[data['five_star_ratings'] > 3500]['number_of_pages'].mean()

In [None]:
data['date_published']

In [None]:
data[data['date_published'].str.len() == 3]

In [None]:
len(data[data['date_published'].str.len() == 3])

In [None]:
df = data[data['date_published'].str.len() > 3]

In [None]:
df.info()

In [None]:
df['date_published'].str.extract(r'(\d{4})')

In [None]:
df['year_published'] = df['date_published'].str.extract(r'(\d{4})')

In [None]:
import numpy as np
df['year_published'].isnull()

In [None]:
df[df['year_published'].isna()]

In [None]:
df[df['year_published'].isna()].index

In [None]:
df = df.drop(df[df['year_published'].isna()].index)

In [None]:
df.info()

In [None]:
df['year_published'] = df['year_published'].astype(int)

In [None]:
dfgby = df.groupby('year_published')

In [None]:
type(dfgby)

In [None]:
len(dfgby)

In [None]:
for year, sub_df in dfgby:
    if year == 2009:
        print(sub_df)

In [None]:
dfgby['three_star_ratings'].mean()

In [None]:
dfgby['five_star_ratings'].apply(np.sum, axis=0)

#### Иерархические индексы (MultiIndex)
Иерархические индексы позволяют организовать несколько (два и более) уровней индексирования по одной оси. Другими словави, это способ работать с многомерными данными, представив их в форме с меньшей размерностью.

In [None]:
# сгенерируем series с multiindex
data = pd.Series(np.random.randn(10),
    index= [ ['a', 'a', 'a', 'b', 'b', 'b', 'с', 'с', 'd', 'd'],
             [1, 2, 3, 1, 2, 3, 1, 2, 2, 3] ]
)
data

In [None]:
# сгенерируем dataframe с multiindex
data = pd.DataFrame(np.random.randn(10,2),
    index= [ ['a', 'a', 'a', 'b', 'b', 'b', 'с', 'с', 'd', 'd'],
             [1, 2, 3, 1, 2, 3, 1, 2, 2, 3] ]
)
data

In [None]:
data.index

In [None]:
# доступ по частичному значению индекса
data.loc['a']

In [None]:
# доступ по полному значению индекса
data.loc[('a', 1)]

In [None]:
# Можно даже сразу получить значение поля
data.loc[('a', 1), 1]

### 1.3 Предобработка данных

Предобработка данных — это предварительный этап работы с данными, цель которого - почистить данные от ненужного или дополнить их. Может включать в себя центрирование, нормализацию, сдвиг, вращение, обрезку.

#### Виды проблем в данных

- **Неполные данные**  
  Заказчик выслал не все данные, в них есть пропуски, нет данных за определённый период, есть данные только для части задач. Например, есть рейсы только одной авиакомпании, есть суммы покупок с января по март и с июня по декабрь.
- **Грязные данные**
   - данные в плохом или разном формате;
   - в данных есть мусор, например, смешиваются русские и английские буквы, данные в виде шифра;
   - разные меры данных, например, часть в метрах, часть в футах;
   - данные старые, значения признака перемешиваются.
- **Плохая разметка**
   - в данных есть ошибки;
   - разная оценка данных из-за человеческого фактора;
   - разметка не соответствует реальности;
   - размеченных данных очень много — должна быть «золотая середина».
  
> Чем лучше хотите получить разметку, тем больше времени придётся потратить.

- **Данные с утечкой**  
  В данных нужно избегать признаков, от которых явно зависит целевая переменная. Такая ситуация приводит к тому, что во время обучения модель всё предсказывает, но в боевых условиях бесполезна.

#### Работа с пропусками

**Пропуски** — отсутствие значений в данных. Обычно это случается из-за ошибок человека:
- забыли, какие данные не внесли;
- не всё перенесли из другого документа;
- неверно заполнили документ;
- случайно удалили часть данных.

Например, при опросе респонденты отвечали только на часть вопросов, не указывая какие-то данные.

##### Что делать с пропусками?

- **Удалить пропуски**: удалить строки с пропусками, если таких строк немного, или столбцы (признаки) в данных, если их много, и это не повлияет на результат в целом.
- **Заменить пропуски**: заменить на среднее значение (медианой) или на самый часто попадающийся вариант. Например, опрос респондентов проходил в Москве, вероятнее, большинство — жители города, а не туристы. Значит, в графе город можно поставить «Москва». Или же по другим данным в документе можно восстановить пол людей, которые его не указали.
- **Записать новое значение**: например, вместо пропуска в столбце «Пол» указать «не определён».
- **Заменить алгоритмами МО**: признак можно считать целевой переменной и обучать модель, чтобы предсказать пропущенные значения.лезна.

#### Нормализация признаков
Некоторые алгоритмы чувствительны к масштабу признаков: если масштаб разный — алгоритмы хуже сходятся к оптимальным значениям. Один из способов обработки данных — **нормализация** — процесс приведения данных к одному масштабу, обеспечивает лучшие условия выборки, изменения, удаления данных.

Базовые методы нормализации:

- **MinMax** нормализация — приведение данных к масштабу $[0, 1]$.
- **Стандартная** нормализация — данные имеют среднее 0 и стандартное отклонение 1.
Иногда данные лучше удалить, если они не несут пользы. Например, столбец считался по ошибке и содержит мусор, или признак не имеет полезной информации, или столбец содержит всегда одинаковое значение.ачение.

#### Преобразование признаков, имеющих не нормальное распредление

Один из способов визуализации — **гистограмма** — вид диаграммы, показывающий данные в форме столбцов. Демонстрирует распределение данных по выборке внутри столбца и значений в признаке. Позволяет увидеть проблемы или некорректные значения в данных, преобразовать их в наглядную форму и распределить, чтобы облегчить работу.

**Графики Q-Q (квантиль-квантиль)** сравнивают два распределения вероятностей путем построения совместных квантилей. График Q-Q используется для сравнения форм распределений, обеспечивая графическое представление того, насколько подобны или различны положение, масштаб и асимметрия двух распределений.

Многие алгоритмы работают лучше, когда на вход принимают нормально распределённые данные. Один из способов сделать данные «нормальными» — взять **логарифм**. При этом не должно быть значений, равных 0, иначе метод `np.log` выдаст бесконечность.  
Если значения всё-таки начинаются с 0, то перед тем, как взять логарифм, можно прибавить к данным 1.  
Другой способ — взять квадратный корень от данных.

#### Скореллированные признаки

**Correlation plot** — корреляционный график. Признаки в данных могут иметь сильную корреляцию, то есть линейную зависимость. Если зависимость большая, признаки несут избыточную информацию, поэтому скореллированные признаки лучше удалять.

#### Поиск выбросов (outliers)

**Выброс** — результат измерения, который выделяется из общей выборки. Выбросы появляются из-за ошибок в данных и сильно выделяются среди остальных значений. Их нужно искать и удалять, иначе данные будут подстраиваться под них и давать неверный результат.

Как искать выбросы:
- **Поиск и удаление по порогу**
  Способ нахождения выбросов, основанный на здравом смысле и методе пристального взгляда. Посмотреть на данные и поискать невозможные и/или нелогичные значения, например, в столбце «высота здания» стоит 30 км.
- **Поиск с помощью статистики**  
  Поиск с помощью здравого смысла трудно автоматизировать, поэтому эффективнее статистические методы. Например, поиск по отклонению или по распределению IQR (interquartile range, межквартильное расстояние).
- **Поиск с помощью DBSCAN**
  Поиск с помощью методов кластеризации, один из таких методов — DBSCAN, который может автоматически находить шум в данных.  
Разные способы поиска выбросов могут давать разные результаты. Не всегда выделяющееся значение будет являться выбросом, возможно, у нас пока просто не хватает данных.ет данных.

#### Создание новых признаков - feature engineering

**Feature Engineering** — способ создания признаков, техника решения задач МО, которая увеличивает качество разрабатываемых алгоритмов. Превращает специфичные данные в понятные для модели векторы.

Способы:
- **Ручное создание признаков**  
  Новые признаки можно создавать на основе имеющихся, если понятно, что означает тот или иной признак. Техника может значительно улучшить модель, но требуется погружение в предметную область. Например, зная массу и рост человека, можно посчитать индекс массы тела; зная координаты места нарушения ПДД и центра города, можно посчитать расстояние между ними.
- **Полиномиальные признаки**  
  Например, попарное перемножение имеющихся столбцов, чтобы получить нелинейные комбинации признаков. Другой пример — возведение признаков в квадрат или корень из признака, чтобы получить искусственные признаки.
- **Dummy-переменные**  
  Между категориальными признаками не всегда есть порядок, поэтому их следует заменять на dummy-переменные, в виде цифр, чтобы алгоритм подумал, что в данных есть порядок.
  > Например, лев, тигр, медведь лучше записать как 0, 1, 2. Расстояние между «лев» и «тигр» равно 1, а между «лев» и «медведь» — 2, хотя это не так. Решение — создать новые признаки по количеству категорий. Для признака «лев» значение будет 1, если это лев, иначе 0. Теперь расстояния между всеми признаками равны 1.
- **Работа с датой/временем**  
  Обычно дата — это строка, похожая на «2005-06-02». В таком виде признак имеет мало смысла, но его можно разделить на набор других признаков. Модель не принимает текст, поэтому заменяем его на набор других числовых признаков. Например, день, месяц, год или день недели, праздник/выходной.
- **Статистики по наборам признаков**  
  Если в данных есть признаки, описывающие значение в разные моменты времени, то они могут быть полезными. Например, зарплата_2016, зарплата_2017, зарплата_2018. Отсюда можно вытащить среднюю зарплату за 3 года, медианную зарплату, динамику зарплаты, максимальную и минимальную зарплату.ную зарплату.