### Нежное введение в ту часть машинного обучения
#### задачи из которой решает sklearn
* Supervised learning: classification/regression
* Unsupervised learning (for structure discovery and visualization): clustering, dimensionality reduction, etc.

#### Задачи, которые обычно относят к машинному обучению -- в одной куче (wiki):
* **Classification **
* **Clustering **
* **Regression **
* Anomaly detection 
* Association rules 
* Reinforcement learning 
* Structured prediction 
* **Feature engineering **
* Feature learning 
* Online learning 
* **Semi-supervised learning** 
* **Unsupervised learning** 
* Learning to rank 
* Grammar induction

Настоятельно рекомендую ознакомиться:
https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie/home/week/7
А лучше вообще пройти весь курс.

Нужно понять
1. какую задачу мы решаем;
2. как мы будем оценивать свои успехи (может, нам вовсе и не нужен машин лёрнинг?);
3. какими данными мы располагаем;
4. как именно по данным будем строить фичи (+ фичи на основе фич);
5. как отмасштабировать-отфильтровать данные, если в них есть мусор;
6. с каких моделей стоит начать;
7. как оценивать качество модели (в т.ч. случайно ли выбирать holdout).

## Supervised learning

In [2]:
"""
 Самостоятельная работа.
 
 https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0
 
 Исследовать классический датасет. 
 
 - Что за фичи? Как распределены из значения?
 
 - Сколько классов? Хорошо ли они сбалансированы?
 
 - Проверить несколько известных вам моделей для классификации методом отложенной выборки; 
   accuracy, точность, полнота, f-мера. 
   Рекомендуется попробовать как минимум KNN, LogisticRegression, DecisionTree.
   
 - Попробуйте применить какую-нибудь линейную модель для классификации. 
   Нормализуйте фичи с помощью StandardScaler или как предложено ниже.
   Снова примените линейную модель. Есть выгода?
 
 - Поменять их параметры руками; как меняется качество? есть идеи, почему?
 
 - Выбрать любимую модель, подобрать её параметры с помощью GridSearchCV (см. примеры в большом ДЗ)
"""

import numpy as np
from sklearn import preprocessing
from sklearn import datasets

iris = datasets.load_iris()

print(iris.data.shape, iris.target.shape)

# hint
unique, counts = np.unique(iris.target, return_counts=True)

# hint
X_scaled = preprocessing.scale(iris.data)

# что это значит?
np.mean(X_scaled, axis=0), np.std(X_scaled, axis=0)

(150, 4) (150,)


(array([ -1.69031455e-15,  -1.63702385e-15,  -1.48251781e-15,
         -1.62314606e-15]), array([ 1.,  1.,  1.,  1.]))

## Unsupervised learning

In [4]:
from sklearn import cluster, datasets

iris = datasets.load_iris()

X_iris = iris.data
y_iris = iris.target

k_means = cluster.KMeans(n_clusters=3)
k_means.fit(X_iris) 

k_means.labels_[:30]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0])

In [10]:
# Так уж получилось, что ирисы неплохо "кластеризованы", 
# поэтому метод ближайших соседей неплохо работал на классификации.

# Note: in real life, мы почти никогда не знаем ни полного "правильного разбиения", ни смысла кластеров.
# Поэтому нужны другие методы оценки качества кластеризации.

# Посмотрим, насколько хорошо обучилось отображение класс -> кластер

import pandas as pd # overkill, but still

df = pd.DataFrame()
df["true"] = iris.target
df["cluster"] = k_means.labels_

# print(df.groupby(["true", "cluster"]).size())

# видим, что один класс разбивается на два кластера 
# было бы здорово взглянуть на это всё на картинке

In [9]:
# Adapted from
# http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
%matplotlib inline

import matplotlib.pyplot as plt
from sklearn import datasets
# from sklearn.decomposition import PCA
# from mpl_toolkits.mplot3d import Axes3D

features = ["sepal length", "sepal width", "petal length", "petal width"]

X = iris.data
Y = iris.target

plt.figure(1) 
plt.clf()

# Отрисовываем по двум фичам
# for f0 in range(4):
#     for f1 in range(f0):
#         plt.scatter(X[:, f0], X[:, f1], c=Y * Y, cmap=plt.cm.Paired)
#         plt.xticks(())
#         plt.yticks(())
#         plt.xlabel(features[f0])
#         plt.ylabel(features[f1])
#         plt.show()


# Можно и в трёх измерениях
# Самостоятельное изучение
"""
fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
X_reduced = PCA(n_components=2).fit_transform(iris.data)

ax.scatter(X_reduced[:, 0], X_reduced[:, 1], X_reduced[:, 2], c=Y, cmap=plt.cm.Paired)
ax.set_title("First three PCA directions")
ax.set_xlabel("1st eigenvector")
ax.w_xaxis.set_ticklabels([])
ax.set_ylabel("2nd eigenvector")
ax.w_yaxis.set_ticklabels([])
ax.set_zlabel("3rd eigenvector")
ax.w_zaxis.set_ticklabels([])
plt.show()
"""

# ...и тут мы понимаем, что линейному классификатору действительно должно быть оооочень просто!
# Но кластеризатор "думает сам", двумерные проекции хорошо показывают деление на два кластера,
# впрочем, они действительно могут рассказать не всё. 

# Самостоятельная работа
# 0) *Посмотреть то же в 3D.
# 1) Поменять метки класса на метки кластера и сформулировать, как именно "глупит" KMeans.
# 2) Применить другой метод кластеризации для малых размерностей из sklearn; посмотреть на разные варианты 
#    расстояний между объектами.
# 3) *Неплохие инструменты есть и в scipy: https://docs.scipy.org/doc/scipy-0.18.1/reference/cluster.html

'\nfig = plt.figure(1, figsize=(8, 6))\nax = Axes3D(fig, elev=-150, azim=110)\nX_reduced = PCA(n_components=2).fit_transform(iris.data)\n\nax.scatter(X_reduced[:, 0], X_reduced[:, 1], X_reduced[:, 2], c=Y, cmap=plt.cm.Paired)\nax.set_title("First three PCA directions")\nax.set_xlabel("1st eigenvector")\nax.w_xaxis.set_ticklabels([])\nax.set_ylabel("2nd eigenvector")\nax.w_yaxis.set_ticklabels([])\nax.set_zlabel("3rd eigenvector")\nax.w_zaxis.set_ticklabels([])\nplt.show()\n'

<matplotlib.figure.Figure at 0xb4e0c50>

In [8]:
"""
Самостоятельная работа

Загрузите, кластеризуйте и визуализируйте (google the docs) разбиение датасетов несколькими алгоритмами: 
BIRCH, DBSCAN, agglomerative clustering, KMeans (MiniBatchKMeans), %your_favourive_clustering_algorithm%

Сделайте выводы об их ограничениях и преимуществах.

"""
from sklearn import cluster, datasets
import numpy as np

n_items = 2000

circles = datasets.make_circles(n_samples=n_items, factor=.5, noise=.02)
moons = datasets.make_moons(n_samples=n_items, noise=.03)
blobs = datasets.make_blobs(n_samples=n_items, random_state=8)
totally_random = np.random.rand(n_items, 2)

In [None]:
"""
Самостоятельная работа

Возьмите данные из Большой Домашней Работы и примените к ним алгоритм иерархической кластеризации из
sklearn или из scipy (помните, что для некоторых расстояний векторы стоит нормализовать!).

http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering
https://docs.scipy.org/doc/scipy-0.18.1/reference/cluster.hierarchy.html

Посмотрите, что происходит при изменении числа кластеров?
"""

In [None]:
"""
Домашняя работа*

http://ling.go.mail.ru/dsm/en/about#models
Скачайте любую из моделей (рекомендую наименьшую).

Векторов много, поэтому есть смысл отфильтровать слова по "тегам" -- то есть оставить 
какую-то одну часть речи.

Векторов всё ещё много (наверняка), поэтому придётся взять случайное подмножество. 
Однако если памяти на следующие шаги хватит, то можно оставить и так.

Разбейте на кластеры (едва ли тут что-то будет работать за разумное время, кроме MiniBatchKMeans): 
n = 100, 200, 500, 1000, 1500. 
distance = косинусное, евклидово

Распечатайте кластеры слов.

Получилось что-то осмысленное, верно? :)
Какое разбиение вам больше нравится?

"""