# 2.00 Подготовка необходимых инструментов

Данный курс является вводным курсом в анализ данных и машинное обучение. Практические материалы курса и примеры машинного обучения созданы в виде тетрадей **Jupyter Notebook** на языке Python. Каждая тетрадь - это интерактивное приложение, где вы можете вживую менять код и сразу видеть результат этих изменений. 

Курс ориентрован на *мягкое* вхождение в тему машинного обучения. Для людей без опыта программирования, есть знакомство с языком Python. 

Необходимые инструменты:

1. Язык Python - Python 3
2. Jupyter Notebook - блокноты с живыми интерактивными вычислениями
2. Среда программирования:
    1. Google Colab
    2. Anaconda
    3. Pycharm Community
3. Репозиторий github
3. Numpy - библиотека линейной алгебры
4. pandas - библиотека для анализа и манипуляции данных
5. matplotlib и seaborn - библиотеки для визуализации данных
6. Scikit-learn - библиотека Python для машинного обучения

# 1. Python 3
Все примеры кода созданы в третьей версии Python. 

# 2. Jupyter Notebook
Jupyter Notebook - веб приложение для интерактивных вычислений. Файлы jupyter, которые также называются блокнотами или тетрадями, имеют расширение **ipynb**.

Каждый отдельный файл представляет веб страницу, которая состоит из ячеек. Каждая ячейка может быть двух видов: 1. Markdown  или 2. Code.

### Ячейка Markdown
В Markdown ячейках можно создавать текст в [markdown формате](http://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Working%20With%20Markdown%20Cells.html). Поддерживаются различные способы форматирования, которые можно посмотреть по ссылке. Текст, который вы сейчас читаете, также находится в markdown ячейке.

Кроме форматирования текста также поддерживается возможность создания математических формул с помощью LaTex. Формулу можно встроить в текст (например, $e^{i\pi}=-1$) или создать в отдельной строке:

$$e^x=\sum_{k=0}^\infty \frac{x^k}{k!}$$

Для редактирования текста в markdown ячейке необходимо два раза кликнуть по ней.

### Ячейка Code
Следующая ячейка является Code ячейкой и в ней можно писать код и выполнять его. Для выполнения кода необходимо нажать **Ctrl + Enter** (выполнить и остаться в текущей ячейке) или **Shift + Enter** (выполнить и перейти в следующую ячейку)

In [None]:
print("Hello!")

## 3.A Google Colab
Colaboratory, или просто Colab, позволяет писать и выполнять код Python в браузере. При этом:

    не требуется никакой настройки;
    бесплатный доступ к графическим процессорам;
    предоставлять доступ к документам другим людям очень просто.

Это отличное решение для студентов, специалистов по обработке данных и исследователей в области искусственного интеллекта. 

Мы будем использовать именно эту среду, так как она хорошо подходит для начинающих. При этом все представленные примеры будут работать и в других средах, но может потребоваться дополнительная настройка.

Для использования Google Colab нужен аккаунт Google.

## 3.B Anaconda

Для выполнения расчетов с помощью Python, как правило, требуются дополнительные библиотеки. Удобным способом является использование программного пакета [Anaconda](https://anaconda.org/). Это удобный менеджер пакетов Python, предназначенный для создания изолированных окружений Python и автоматического разрешения зависимостей.

## 3.C Pycharm Community

PyCharm – это одна из наиболее удобных сред разработки на языке Python. [PyCharm Community](https://www.jetbrains.com/ru-ru/pycharm/) – свободно-распространяемая версия с открытым исходным кодом.

В PyCharm есть все инструменты, чтобы писать, отлаживать и тестировать код. Например, можно быстро исправить программу сразу в нескольких местах, а встроенный форматер приведёт её в соответствие со стандартом PEP 8.

Также IDE позволяет использовать в проектах другие языки программирования, синхронизировать код с системами контроля версий и развёртывать его.

Базовый набор функций PyCharm можно расширять с помощью плагинов, которые позволяют, например, настраивать внешний вид интерфейса и подключать дополнительные инструменты.

# 4. Репозиторий github

Для удобной загрузки данных и блокнотов ipynb создан репозиторий на [github](https://github.com/yakushinav/omo/tree/main).



# 5. Numpy - библиотека линейной алгебры

Библиотека NumPy (Numerical Python) - это пакет высокоуровневых математических и числовых функций и инструментов, предназначенных для работы с массивами numpy. Массив numpy - это высокопроизводительная многомерная структура данных, более эффективная и удобная, чем список Python.

In [3]:
# подключение библиотеки numpy

import numpy as np

# 6. pandas - библиотека для анализа и манипуляции данных

В машинном обучении, как правило, всё сводится к анализу табличных данных. Начинать мы можем с большого количества сложных таблиц, изображений, текстов или ещё чего-то непростого, но в итоге всё это обычно сводится к одной таблице, где каждый объект описывается набором признаков. Поэтому важно уметь работать с таблицами.

А ещё есть некоторые исследования, показывающие, что в решении задачи интеллектуального анализа данных обычно 20% времени уходит на построение моделей и прочую интересную работу, а 80% времени специалисты тратят на подготовку и обработку данных. Сюда входит формирование признаков, устранение выбросов и пропусков и т.д. И это тоже, по сути дела, манипуляции с таблицами.

Вывод: важно уметь работать с табличными данными. В Python для этого есть библиотека **pandas**.

In [5]:
# подключение библиотеки pandas

import pandas as pd

# 7. matplotlib и seaborn - библиотеки для визуализации данных

**Matplotlib**, вероятно, самая известная библиотека для построения графиков, которая доступна в Python и других языках программирования, таких как R. 

Разработчики создали новую библиотеку на основе matplotlib, которая называется seaborn. **Seaborn** такая же мощная, как и matplotlib, но в то же время предоставляет большую абстракцию для упрощения графиков и привносит некоторые уникальные функции.

In [None]:
# подключение библиотек matplotlib и seraborn

import seaborn as sns
import matplotlib

# 8. Scikit-learn - библиотека Python для машинного обучения

Scikit-learn - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.

Scikit-learn — библиотека машинного обучения на языке программирования Python с открытым исходным кодом. Содержит реализации практически всех возможных преобразований, и нередко ее одной хватает для полной реализации модели. В данной библиотеки реализованы методы разбиения датасета на тестовый и обучающий, вычисление основных метрик над наборами данных, проведение Кросс-валидация. В библиотеке также есть основные алгоритмы машинного обучения: линейной регрессии и её модификаций, опорных векторов, решающих деревьев и лесов и др. Есть и реализации основных методов кластеризации. Кроме того, библиотека содержит  методы работы с признаками: например, понижение размерности методом главных компонент. 

In [8]:
# подключение библиотеки sklearn

import sklearn