**Лекция: Введение в Машинное обучение с Python**

---

### Введение в Машинное обучение

Машинное обучение (ML) — это подраздел искусственного интеллекта (AI), который основывается на идее, что системы могут учиться из данных, идентифицировать шаблоны и принимать решения с минимальным вмешательством человека.

---

### Основные типы Машинного обучения

1. **Обучение с учителем (Supervised Learning):** Модель обучается на заранее подготовленных данных, где есть ответы (лейблы).
   
2. **Обучение без учителя (Unsupervised Learning):** Модель работает с неструктурированными данных, выявляя скрытые шаблоны без предварительно размеченных ответов.

3. **Частичное обучение (Semi-supervised Learning):** Комбинирует оба подхода, используя как размеченные, так и неразмеченные данные.

4. **Обучение с подкреплением (Reinforcement Learning):** Модель обучается, принимая решения так, чтобы максимизировать некоторый вид награды в результате своих действий.

---

### Инструменты для Машинного обучения в Python

- **Scikit-learn:** Одна из наиболее популярных библиотек ML, содержит широкий спектр алгоритмов обучения с учителем и без учителя.
- **Pandas:** Используется для удобной работы с данными.
- **NumPy:** Полезен для эффективных вычислений с массивами данных.
- **Matplotlib/Seaborn:** Для визуализации данных и результатов.
- **TensorFlow/Keras:** Библиотеки для более сложных задач и создания нейронных сетей.

---

### Пример проекта: Классификация ирисов

**Цель:** Использование классического датасета Ирисы Фишера для создания модели классификации цветков ириса.

**Шаг 1: Загрузка и подготовка данных**

```python
from sklearn import datasets
import pandas as pd

# Загрузка датасета
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target
```

**Шаг 2: Разделение данных на обучающую и тестовую выборки**

```python
from sklearn.model_selection import train_test_split

X = df.drop('species', axis=1)
y = df['species']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
```

**Шаг 3: Выбор и обучение модели**

```python
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)
```

**Шаг 4: Оценка модели**

```python
print(model.score(X_test, y_test))
```

**Шаг 5: Предсказание и анализ результатов**

```python
predictions = model.predict(X_test)
```

---

### Применения Машинного обучения

1. **Рекомендательные системы:** Как в Netflix и Amazon.
2. **Обработка естественного языка:** Перевод текста, распознавание речи.
3. **Компьютерное зрение:** Распознавание образов в изображениях и видео.
4. **Прогнозирование:** От погоды до тенденций на финансовых рынках.

---

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

**Лекция: Оценка моделей в Supervised Learning**

---

### Введение в оценку моделей

Оценка моделей является ключевым этапом в процессе разработки машинного обучения. Она позволяет оценить, насколько хорошо модель работает и каковы её слабые и сильные стороны. В supervised learning оценка модели обычно зависит от того, решается ли задача регрессии или классификации.

---

### Основные метрики для оценки моделей

#### Классификация

1. **Точность (Accuracy):** Процент правильно классифицированных случаев от общего числа случаев.

2. **Матрица ошибок (Confusion Matrix):** Таблица, показывающая истинные и предсказанные классификации.

3. **Precision и Recall:** Precision - это доля истинных положительных результатов среди всех положительных предсказаний. Recall - это доля истинных положительных результатов среди всех положительных случаев в данных.

4. **F1-Score:** Гармоническое среднее Precision и Recall.

5. **ROC-AUC:** Кривая ошибок и площадь под ней (Area Under Curve). Хорошая модель будет стремиться к AUC, равной 1.

#### Регрессия

1. **Средняя абсолютная ошибка (Mean Absolute Error - MAE):** Среднее значение абсолютных разностей между предсказанными и истинными значениями.

2. **Среднеквадратичная ошибка (Mean Squared Error - MSE):** Среднее значение квадратов разностей между предсказанными и истинными значениями.

3. **Коэффициент детерминации (R² Score):** Показывает, какая доля изменчивости зависимой переменной объясняется независимыми переменными модели.

---

### Практический пример: Оценка модели классификации

Допустим, у нас есть модель, предсказывающая выживет пассажир на Титанике или нет.

```python
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets

# Загрузка данных и создание модели
iris = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)

model = RandomForestClassifier()
model.fit(X_train, y_train)

# Предсказание
predictions = model.predict(X_test)

# Оценка модели
print(classification_report(y_test, predictions))
print("Confusion Matrix:\n", confusion_matrix(y_test, predictions))
print("Accuracy:", accuracy_score(y_test, predictions))
```

---

### Важные соображения

- **Выбор метрик:** Важно выбирать метрики, соответствующие целям вашего проекта и характеристикам данных.
- **Перекос в данных (Data Imbalance):** В случае несбалансированных данных метрики нужно выбирать особенно внимательно.
- **Переобучение и недообучение:** Хорошая оценка модели также должна учитывать, не страдает ли модель от переобучения или недообучения.

---

### Заключение

Оценка модели является критически важным шагом в процессе машинного обучения. Правильный выбор метрик и их тщательный анализ позволяют не только оценить производительность модели, но

Давайте рассмотрим пример регрессионной модели машинного обучения с использованием встроенного датасета Boston Housing из библиотеки `sklearn`. Этот датасет содержит информацию о жилье в районе Бостона и используется для предсказания стоимости жилья.

### Проект: Предсказание цен на недвижимость в Бостоне

**Цель проекта:** Создать модель регрессии для предсказания стоимости жилья на основе различных характеристик недвижимости.

---

**Шаг 1: Импорт библиотек и загрузка данных**

```python
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Загрузка датасета
boston = load_boston()
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = pd.Series(boston.target)
```

**Шаг 2: Разделение данных на обучающую и тестовую выборки**

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```

**Шаг 3: Создание и обучение модели линейной регрессии**

```python
model = LinearRegression()
model.fit(X_train, y_train)
```

**Шаг 4: Оценка модели**

```python
y_pred = model.predict(X_test)

# Вычисление MSE и коэффициента детерминации (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
```

**Шаг 5: Интерпретация результатов**

В этом шаге можно проанализировать веса модели (коэффициенты регрессии), чтобы понять, какие факторы больше всего влияют на стоимость недвижимости.

---

### Важные замечания

- **Предобработка данных:** Возможно, потребуется предварительная обработка данных, например, масштабирование признаков или обработка пропущенных значений.
- **Выбор модели:** Линейная регрессия - это простая и понятная модель, но для более сложных данных могут потребоваться более продвинутые методы.
- **Оценка и диагностика:** Важно тщательно оценивать и диагностировать модель, чтобы избежать переобучения и других проблем.

---

### Заключение

Использование датасета Boston Housing для построения регрессионной модели является классическим примером машинного обучения. Этот пример демонстрирует основные этапы построения и оценки модели, начиная от загрузки данных и заканчивая интерпретацией результатов.

In [1]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Загрузка датасета
boston = load_boston()
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = pd.Series(boston.target)



In [4]:
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [7]:
X.shape

(506, 13)

In [8]:
y.head()

0    24.0
1    21.6
2    34.7
3    33.4
4    36.2
dtype: float64

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [10]:
X_train.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3.0,222.0,18.7,394.12,5.21
116,0.13158,0.0,10.01,0.0,0.547,6.176,72.5,2.7301,6.0,432.0,17.8,393.3,12.04
45,0.17142,0.0,6.91,0.0,0.448,5.682,33.8,5.1004,3.0,233.0,17.9,396.9,10.21
16,1.05393,0.0,8.14,0.0,0.538,5.935,29.3,4.4986,4.0,307.0,21.0,386.85,6.58
468,15.5757,0.0,18.1,0.0,0.58,5.926,71.0,2.9084,24.0,666.0,20.2,368.74,18.13


In [12]:
X_train.shape

(354, 13)

In [14]:
y_train

5      28.7
116    21.2
45     19.3
16     23.1
468    19.1
       ... 
106    19.5
270    21.1
348    24.5
435    13.4
102    18.6
Length: 354, dtype: float64

In [15]:
model = LinearRegression()
model.fit(X_train, y_train)

LinearRegression()

In [16]:
y_pred = model.predict(X_test)

# Вычисление MSE и коэффициента детерминации (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

Mean Squared Error: 21.517444231177222
R^2 Score: 0.7112260057484932


In [17]:
y_test

173    23.6
274    32.4
491    13.6
72     22.8
452    16.1
       ... 
441    17.1
23     14.5
225    50.0
433    14.3
447    12.6
Length: 152, dtype: float64

In [18]:
y_pred

array([28.64896005, 36.49501384, 15.4111932 , 25.40321303, 18.85527988,
       23.14668944, 17.3921241 , 14.07859899, 23.03692679, 20.59943345,
       24.82286159, 18.53057049, -6.86543527, 21.80172334, 19.22571177,
       26.19191985, 20.27733882,  5.61596432, 40.44887974, 17.57695918,
       27.44319095, 30.1715964 , 10.94055823, 24.02083139, 18.07693812,
       15.934748  , 23.12614028, 14.56052142, 22.33482544, 19.3257627 ,
       22.16564973, 25.19476081, 25.31372473, 18.51345025, 16.6223286 ,
       17.50268505, 30.94992991, 20.19201752, 23.90440431, 24.86975466,
       13.93767876, 31.82504715, 42.56978796, 17.62323805, 27.01963242,
       17.19006621, 13.80594006, 26.10356557, 20.31516118, 30.08649576,
       21.3124053 , 34.15739602, 15.60444981, 26.11247588, 39.31613646,
       22.99282065, 18.95764781, 33.05555669, 24.85114223, 12.91729352,
       22.68101452, 30.80336295, 31.63522027, 16.29833689, 21.07379993,
       16.57699669, 20.36362023, 26.15615896, 31.06833034, 11.98

In [22]:
mse**(1/2)

4.638689926172822