# Введение Машинное обучение

# Что такое машинное обучение
Машинное обучение (Machine Learning) — обширный подраздел искусственного интеллекта, 
изучающий методы построения алгоритмов, способных обучаться.   

Различают два типа обучения: 
* Обучение по прецедентам, или индуктивное обучение (обучение без учителя), 
основано на выявлении общих закономерностей по частным эмпирическим данным.   
* Дедуктивное обучение (обучение с учителем) предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний.  
Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.
### Решаемые задачи:
* Предсказание спроса
* Распознавание изображений
* Распознавание людей
* Определение возраста
* Детектирование объектов
* Определение позы
* Чат-боты
* Переводчики

![alt text](https://banner2.kisspng.com/20180419/qzq/kisspng-object-detection-deep-learning-convolutional-neura-taobao-real-shot-5ad9392f2abcb5.7623907415241853911751.jpg "Detection")

![alt text](https://1.bp.blogspot.com/-1rNIXR8OGxk/WDfrkuzNbvI/AAAAAAAABew/SM1A4UqYwIAeL9wtVMjT0nFyGx4iorK2wCLcB/s640/image01.gif "Translation")


# Работа с данными

Большинство моделей для машинного обучения представляют собой математические модели с обучаемыми коэффициентами.  
К примеру, с помощью Машина Опорных Векторов задаётся гиперплоскостями, которые разделяют заданные характеристики на 2 группы. Параметры этих плоскостей являются обучаемыми параметрами


![alt text](http://www.machinelearning.ru/wiki/images/4/47/Pic_l_1.jpg "SVM")

# Основные задачи машинного обучения

__Задача классификации__ — задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы.

Примеры задач классификации:
* Задачи медицинской диагностики
* Предсказание месторождений полезных ископаемых
* Предсказание оттока клиентов
* Оптическое распознавание символов
* Обнаружение спама
* Предсказание возраста



__Задача регрессии__ - задача, которая позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.

Примеры задач регрессии:
* Восстановление зависимости переменных
* Предсказание добычи
* Предсказание возраста

__Задача кластеризации__ - задача, которая заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Примеры задач кластеризации:
* Разбиение клиентов на целевые группы
* Выделение групп людей на основе графа связей в социальных сетях
* Повышение релевантности ответов на поисковые запросы путем группировки веб-сайтов по смысловым значениям поискового запроса
* Кластеризация используется в сегментации изображений для определения границ и распознавания объектов

# Scikit-learn

Для работы с Машинным обучением в Python используется библиотека Scikit-learn.  

__Библиотека Scikit-learn__ — самый распространенный выбор для решения задач классического машинного обучения. Она предоставляет широкий выбор алгоритмов обучения с учителем и без учителя. Одно из основных преимуществ библиотеки состоит в том, что она работает на основе нескольких распространенных математических библиотек, и легко интегрирует их друг с другом. Еще одним преимуществом является широкое сообщество и подробная документация. 


Библиотека реализует следующие основные методы:

* __Линейные__: модели, задача которых построить разделяющую (для классификации) или аппроксимирующую (для регрессии) гиперплоскость.
* __Деревья решений__: обучение моделей, базирующихся на множестве условий, оптимально выбранных для решения задачи.
* __Ансамблевые методы__: методы, основанные на деревьях решений, которые комбинируют мощь множества деревьев, и таким образом повышают их качество работы, а также позволяют производить отбор признаков (бустинг, бэггинг, случайный лес, мажоритарное голосование).
* __Нейронные сети__: комплексный нелинейный метод для задач регрессии и классификации.
* __SVM__: нелинейный метод, который обучается определять границы принятия решений.
* __Наивный Байес__: прямое вероятностное моделирование для задач классификации.
* __PCA__: линейный метод понижения размерности и отбора признаков
* __t-SNE__: нелинейный метод понижения размерности.
* __K-средних__: самый распространенный метод для кластеризации, требущий на вход число кластеров, по которым должны быть распределены данные.

# Работа с признаками

Работа с признаками делится на 3 этапа:
* Извлечение признаков – превращение данных, специфических для предметной области, в понятные для модели векторы
* Преобразования признаков – трансформация данных для повышения точности алгоритма
* Выбор признаков – отсечение ненужных признаков

# Извлечение признаков (Feature Extraction)

# Тексты

In [None]:
# N-граммы (комбинации из N последовательных терминов)
from sklearn.feature_extraction.text import CountVectorizer

print("Модель для N-грамм от 1 до 1 слова")
vect = CountVectorizer(ngram_range=(1, 1)) 
res = vect.fit_transform(['он не делает работу', 'не он делает работу']).toarray()
print(res)
print(vect.vocabulary_)

print()
print("Модель для N-грамм от 1 до 2 слов")
vect = CountVectorizer(ngram_range=(1, 2)) 
res = vect.fit_transform(['он не делает работу', 'не он делает работу']).toarray()
print(res)
print(vect.vocabulary_)

__TF-IDF__ — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции.

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/8ef207eb03f6e9b6f71e73739f45b5179b4f17cc "tf")
![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/b88834044365dea6aedba224eabe7147d4d328ef "idf")
![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/fa3cf0b54c09151473641f8364c2da3480cc98f1 "tfidf")

### Word2Vec
![alt text](https://miro.medium.com/max/1014/1*dm9dudL37B6JG8saeR3zIw.png "W2V")

# Изображения

In [None]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
image = plt.imread('data/eye.jpg')
print(image.shape)
print(image[:2, :3])
plt.imshow(image)
plt.show()

# Время

In [None]:
import numpy as np
import pandas as pd

# Устанавливаем точность для отображения вещественных чисел numpy массивов
np.set_printoptions(precision=3)

df = pd.read_csv('data/wells_info.csv')
df['CompletionDate'] = pd.to_datetime(df['CompletionDate'])
df.head()

In [None]:
# Получение дня недели
df['CompletionDate'].dt.dayofweek[:4]

In [None]:
# Проекция на окружность с последующим использованием двух координат
def make_harmonic_features(value, period=24):
    value *= 2 * np.pi / period
    return np.cos(value), np.sin(value)

hours = np.random.randint(0, 24, size=(10)).astype(float)
print(hours)
cos_, sin_ = make_harmonic_features(hours)
print(cos_)
print(sin_)

# Категории

In [None]:
df['formation'][8:15]

In [None]:
pd.get_dummies(df['formation'])[8:15]

# Преобразования признаков (Feature transformations)

# Нормализация и изменение распределения

In [None]:
df_num = df[['LatWGS84', 'LonWGS84', 'BottomHoleLatitude',
       'BottomHoleLongitude', 'LATERAL_LENGTH_BLEND', 'PROP_PER_FOOT',
       'WATER_PER_FOOT']]
df_num.head()

In [None]:
# Масштабирование
from sklearn.preprocessing import MinMaxScaler, StandardScaler

scaler = StandardScaler()  # (x - x.mean()) / x.std()
df_scaled = scaler.fit_transform(df_num)
print(df_scaled[:4])

scaler = MinMaxScaler()  # (x - x.min()) / (x.max() - x.min())
df_scaled = scaler.fit_transform(df_num)
print(df_scaled[:4])
print()

In [None]:
# Изменение распределения
from scipy.stats import lognorm

# Содаем случайные данные с логнормальным распределением
data = lognorm(s=1).rvs(1000)
plt.hist(data, bins=100)
plt.show()

In [None]:
# С помощью логарифмирования приводим к нормальному распределению
plt.hist(np.log(data), bins=100)
plt.show()

# Генерация новых признаков

In [None]:
# Проверка, является ли день завершения выходным
is_weekend = df['CompletionDate'].dt.dayofweek.isin([5, 6]).astype(int)

# Оставляем лишь те координаты, когда день завершения является выходным
df_coord = (df[['LatWGS84', 'LonWGS84']].T * is_weekend).T
df_coord.head()

# Заполнение пропусков

In [None]:
df_na = pd.read_csv('data/wells_info_na.csv')
df_na

In [None]:
df_na.fillna(df.median())

# Выбор признаков (Feature selection)

In [None]:
df.corr()

In [None]:
# Удаление совпадающих признаков
df_res = df.drop(['BottomHoleLatitude', 'BottomHoleLatitude'], axis=1)

# Удаление идентификаторов
df_res = df_res.drop('API', axis=1)

# Удаление признаков по экспертному мнению
df_res = df_res.drop(['SpudDate', 'PermitDate', 'operatorNameIHS'], axis=1)

### Отбор с использованием моделей
Некоторые модели (к примеру Random Forest) после обучения имеют возможность вывода важности признаков, основываясь на которую можно удалить наименее полезные.

![image.png](https://i.stack.imgur.com/uwWJS.png)

### Перебор

Обучение модели на разных подмножествах признаков и сравнение их результатов

# Разбиение данных

Данные при обучении разделяются на 3 части: тренировочная(train), валидационная(validation) и часть для тестирования(test)
 
* train — часть набора данных на основании которого будет строиться модель
* validation — часть набора данных для подбора параметров модели (опционально)
* test — часть набора данных для проверки модели

In [None]:
df_main = pd.read_csv('data/wells_info_with_prod.csv')
df_main.head()

In [None]:
X = df_main.drop(['Prod1Year', 'ProdAll'], axis=1)
y = df_main['ProdAll']

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=1)
print(X_train.shape, X_val.shape, X_test.shape)
print(y_train.shape, y_val.shape, y_test.shape)

# Метрики для сравнения

Для задачи классификации:
* Доля правильных ответов алгоритма (accuracy)
* Точность (precision)
* Полнота (recall)

![image.png](https://miro.medium.com/max/1520/1*OhEnS-T54Cz0YSTl_c3Dwg.jpeg)

$$
accuracy = {TP + TN \over TP + TN + FP + FN}
$$

$$
precision = {TP \over TP + FP}
$$

$$
recall = {TP \over TP + FN}
$$ 

Для задачи регрессии:

* Mean Absolute Error
$$
MAE = {\sum_{n}|true_i-predict_i| \over n}
$$
* Mean Squared Error
$$
MAE = {\sum_{n}(true_i-predict_i)^2 \over n}
$$

# KFold разбиение

In [None]:
from sklearn.model_selection import KFold

kf = KFold(n_splits=4)

for train, test in kf.split(X):
    print(train, test)
    X_train, X_test, y_train, y_test = X.iloc[train], X.iloc[test], y.iloc[train], y.iloc[test]
    # Обучение и проверка модели
    # ...

# Кросс валидация

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

kf = KFold(n_splits=3)
results = cross_val_score(LinearRegression(), X.select_dtypes(exclude=object), y, cv=kf)
results

# Задачи

1. Проведите извлечение признаков из *wells_info_with_prod.csv* (хоть один из столбцов с датой и категориальным признаком должен остаться). Целевой переменной будет **Prod1Year**
2. Разбейте данные на train и test
3. Отмасштабируйте train (в том числе целевую переменную)
3. Используя модель масштабирования train отмасштабируйте test (использовать метод transform у той же модели масштабирования)