## Класстеризация, классификация, регрессия

### Что такое машинное обучение?

Машинное обучение (ML) — это раздел искусственного интеллекта (ИИ), который занимается разработкой алгоритмов и моделей, способных обучаться на данных и делать прогнозы или решения без явного программирования. Основная идея машинного обучения заключается в том, чтобы компьютерная система могла "учиться" на примерах (данных) и затем применять полученные знания для выполнения различных задач.

**Unsupervised Learning**

Обучение без учителя (Unsupervised Learning) — это тип машинного обучения, в котором модели обучаются на неразмеченных данных, то есть без предоставления системе правильных ответов (меток). В отличие от обучения с учителем, где модель учится на парах «вход — выход», здесь алгоритм самостоятельно ищет закономерности и структуры в данных.

**Кластеризация**

Кластеризация — это задача группировки объектов или данных в кластеры, так чтобы объекты внутри одного кластера были более похожи друг на друга, чем на объекты в других кластерах. Этот метод используется в обучении без учителя, когда модель должна находить скрытые структуры в неразмеченных данных.

In [3]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [4]:
from sklearn.datasets import make_blobs

points, cluster_indexes = make_blobs(n_samples=300, centers=4, n_features=4, random_state=0)

In [5]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=0, n_init=10)
kmeans.fit(points)
predicted_cluster_indexes = kmeans.predict(points)

Входные данные, веса, функция активации. Обучение без учителя, класстеризация, k-NN

https://dmitrymakarov.ru

#### Входные данные (Input Data):
Это исходные данные, которые подаются в модель для обучения. В зависимости от задачи входными данными могут быть:
* Числовые данные (например, характеристики объектов).
* Изображения, тексты, звуковые данные.

Например, в задаче кластеризации данных это могут быть наборы признаков (например, возраст, доход и т. д.).

#### Веса (Weights):
В машинном обучении, особенно в нейронных сетях, веса — это параметры модели, которые оптимизируются во время процесса обучения.

Они контролируют, как сильно каждый входной признак (данные) влияет на результат модели.

Цель обучения заключается в подборе таких весов, которые минимизируют ошибку предсказаний модели.

#### Функция активации (Activation Function):
Это функция, которая применяется к результату работы нейрона или слоя нейронов в нейронной сети. Она преобразует линейную комбинацию входных данных и весов в выходное значение.

Часто используемые функции активации:

* ReLU (Rectified Linear Unit) — широко используемая в глубоких нейронных сетях.
* Sigmoid — часто используется для бинарной классификации.
* Tanh — применяется для нормализации данных.


#### K-NN (K-ближайших соседей):
K-ближайших соседей (K-Nearest Neighbors) — это алгоритм классификации или регрессии, который ищет ближайших соседей для принятия решения.

Принцип работы:

Для нового объекта алгоритм находит 𝐾-ближайших соседей из обучающего набора данных (по какому-либо метрике, например, Евклидово расстояние).

Затем класс нового объекта определяется на основе классов соседей (например, по большинству классов среди соседей).

K-NN является методом обучения c учителем.

In [1]:
from sklearn.neighbors import KNeighborsClassifier

X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]

neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y)

print(neigh.predict([[1.1]]))
print(neigh.predict_proba([[0.9]]))

[0]
[[0.66666667 0.33333333]]
