**Машинное обучение** (Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. 

**Задача классификации** — формализованная задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой.

![](https://image.slidesharecdn.com/ml-160512180412/95/machine-learning-teach-my-shiny-metal-ass-8-638.jpg?cb=1463076396)

![](https://image.slidesharecdn.com/ml-160512180412/95/machine-learning-teach-my-shiny-metal-ass-17-638.jpg?cb=1463076396)

![](https://image.slidesharecdn.com/ml-160512180412/95/machine-learning-teach-my-shiny-metal-ass-18-638.jpg?cb=1463076396)

**Карта методов машинного обучения**  
![](http://scikit-learn.org/stable/_static/ml_map.png)

**Линейная регрессия** — метод восстановления зависимости между двумя переменными. 

![](https://hsto.org/getpro/habr/post_images/397/c30/f7f/397c30f7f15c5c68834c1471b1f64206.jpg)

**SGD**  
![](http://blog.datumbox.com/wp-content/uploads/2013/10/gradient-descent.png)

![](http://kukuruku.co/uploads/topics/preview/00/00/01/47/c854dac039.png)

**SGDClassifier**  
![](http://scikit-learn.org/stable/_images/sphx_glr_plot_sgd_separating_hyperplane_0011.png)

In [1]:
#Импортируем классификатор
from sklearn.linear_model import SGDClassifier
#Подготавливаем данные
X = [[0., 0.], [1., 1.]]
y = [0, 1]
#Настраиваем классификатор
clf = SGDClassifier(loss="hinge", penalty="l2")
#Обучаем его
clf.fit(X, y)

SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='hinge', n_iter=5, n_jobs=1,
       penalty='l2', power_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False)

In [3]:
#Проверяем классификатор
clf.predict([[2., 2.]])

array([1])

**Pandas**  https://github.com/mingfang/docker-ipython/blob/master/notebooks/10%20Minutes%20to%20Pandas.ipynb

**NLP**

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1)
corpus = [
'Это первый документ.',
'А это второй вот документ.',
'Ну а это третий.',
'А это, первый документ?']
X = vectorizer.fit_transform(corpus)
X                  

<4x7 sparse matrix of type '<class 'numpy.int64'>'
	with 13 stored elements in Compressed Sparse Row format>

In [7]:
analyze = vectorizer.build_analyzer()
analyze("A Это текстовой документ для анализа") == (['это', 'текстовой', 'документ', 'для', 'анализа'])

True

In [8]:
vectorizer.get_feature_names() 

['вот', 'второй', 'документ', 'ну', 'первый', 'третий', 'это']

In [9]:
X.toarray()

array([[0, 0, 1, 0, 1, 0, 1],
       [1, 1, 1, 0, 0, 0, 1],
       [0, 0, 0, 1, 0, 1, 1],
       [0, 0, 1, 0, 1, 0, 1]], dtype=int64)

In [10]:
bigram_vectorizer = CountVectorizer(ngram_range=(1, 2), token_pattern=r'\b\w+\b', min_df=1)
analyze = bigram_vectorizer.build_analyzer()
analyze('Би-граммы это круто!')

['би', 'граммы', 'это', 'круто', 'би граммы', 'граммы это', 'это круто']

**TF-IDF** (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.   
Подробнее тут https://ru.wikipedia.org/wiki/TF-IDF    
и тут http://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting

![](https://hsto.org/getpro/habr/post_images/c38/11f/4a1/c3811f4a1a24fb0a332098395412c1c8.jpg)