<a href="https://colab.research.google.com/github/ChiVladimir/pythonProject_2/blob/master/%22%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BA%D0%BE%D0%BD%D1%86%D0%B5%D0%BF%D1%86%D0%B8%D0%B8_%D0%B8_%D1%82%D0%B5%D1%80%D0%BC%D0%B8%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F_%D0%98%D0%98_%D0%94_%D0%97_cvv_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Домашнее задание

Ознакомьтесь с приведёнными ниже примерами использования алгоритмов МО и НС для решения задачи распознавания рукописных цифр.

## Порядок выполнения ДЗ

1. Сделайте копию данного блокнота себе на диск. Далее работайте со своей копией блокнота. Сохраняйте вносимые в неё изменения.
2. Ознакомьтесь с теоретическим текстом и кодом из настоящего блокнота.
3. Перенесите примеры кода в отдельные кодовые ячейки и выполните их.
4. Создайте тестовую ячейку, куда запишите ответы на теоретические вопросы.
5. Расшарьте блокнот и используйте ссылку как ответ на ДЗ.

### Учебный пример: Решение задачи классификация рукописных цифр с использованием машинного обучения, глубокого обучения и нейронных сетей

В этом задании мы будем использовать набор данных MNIST, который содержит изображения рукописных цифр (от 0 до 9). Мы реализуем три различных подхода к классификации этих изображений:

1. **Машинное обучение**: Используем метод k-ближайших соседей (k-NN).
2. **Глубокое обучение**: Используем многослойный перцептрон (MLP).
3. **Нейронные сети**: Используем сверточную нейронную сеть (CNN).

### Шаг 1: Установка библиотек

Установите необходимые библиотеки:

```bash
pip install numpy pandas scikit-learn tensorflow keras
```

### Шаг 2: Загрузка и предобработка данных

```python
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_openml
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.utils import to_categorical

# Загрузка данных MNIST
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist.data / 255.0, mnist.target.astype(int)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

### Шаг 3: Алгоритм машинного обучения (k-NN)

```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Создание и обучение модели k-NN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Прогнозирование на тестовой выборке
y_pred_knn = knn.predict(X_test)
accuracy_knn = accuracy_score(y_test, y_pred_knn)

print(f'Accuracy of k-NN: {accuracy_knn:.4f}')
```

### Шаг 4: Глубокое обучение (MLP)

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten

# Предобработка меток для MLP
y_train_mlp = to_categorical(y_train, 10)
y_test_mlp = to_categorical(y_test, 10)

# Создание модели MLP
model_mlp = Sequential([
    Flatten(input_shape=(784,)),
    Dense(128, activation='relu'),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')
])

# Компиляция и обучение модели MLP
model_mlp.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model_mlp.fit(X_train, y_train_mlp, epochs=10, batch_size=32, validation_split=0.2)

# Оценка модели на тестовой выборке
loss_mlp, accuracy_mlp = model_mlp.evaluate(X_test, y_test_mlp)

print(f'Accuracy of MLP: {accuracy_mlp:.4f}')
```

### Шаг 5: Нейронные сети (CNN)

```python
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Dropout

# Предобработка данных для CNN
X_train_cnn = X_train.values.reshape(-1, 28, 28, 1)
X_test_cnn = X_test.values.reshape(-1, 28, 28, 1)
y_train_cnn = to_categorical(y_train, 10)
y_test_cnn = to_categorical(y_test, 10)

# Создание модели CNN
model_cnn = Sequential([
    Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Conv2D(64, kernel_size=(3, 3), activation='relu'),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Flatten(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(10, activation='softmax')
])

# Компиляция и обучение модели CNN
model_cnn.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model_cnn.fit(X_train_cnn, y_train_cnn, epochs=10, batch_size=32, validation_split=0.2)

# Оценка модели на тестовой выборке
loss_cnn, accuracy_cnn = model_cnn.evaluate(X_test_cnn, y_test_cnn)

print(f'Accuracy of CNN: {accuracy_cnn:.4f}')
```

### Заключение

В этом задании мы реализовали три различных подхода к классификации изображений рукописных цифр с использованием средств машинного обучения (k-NN), глубокого обучения (MLP) и нейронных сетей (CNN). Мы увидели, что каждый из этих подходов имеет свои преимущества и недостатки, и что сложные модели глубокого обучения могут значительно улучшить точность классификации по сравнению с простыми моделями машинного обучения.

### Теоритические вопросы

1. Какие преимущества и недостатки использованных методов вы увидели?
2. В чем, на ваш взгляд, заключается принципиальная разница между многослойным перцептроном и сверточной нейронной сетью?
3. Какие методы предобработки данных были использованы в этом задании?


#Шаг 1: Установка библиотек

In [None]:
pip install numpy pandas scikit-learn tensorflow keras




#Шаг 2: Загрузка и предобработка данных

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_openml
from sklearn.preprocessing import StandardScaler
#from tensorflow.keras.utils import to_categorical

print(fetch_openml('mnist_784').keys())

# Загрузка данных MNIST
mnist = fetch_openml('mnist_784', version=1, cache=True)

X, y = mnist.data / 255.0, mnist.target.astype(int) # конвертирует метки в целочисленные значения

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url'])


Попытка обхода неработающего openml (https://github.com/openml/openml.org/issues/343) - загрузка и предобработка данных.

upd 27.01.25 - ресурс заработал, реализация исследования через альтернативный источник не дала корректного результата, оставлена, как дополнительный пример кода подготовки данных  

In [None]:
import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten
from keras.layers import Conv2D, MaxPooling2D
from keras import backend as K
import numpy as np

# скачиваем данные и разделяем на набор для обучения и тестовый
(X_train, y_train), (X_test, y_test) = mnist.load_data()

print(X_train.shape, y_train.shape)

num_classes = 10
X_train = X_train.reshape(X_train.shape[0], 28, 28, 1)
X_test = X_test.reshape(X_test.shape[0], 28, 28, 1)
input_shape = (28, 28, 1)

# преобразование векторных классов в бинарные матрицы
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_test /= 255
print('Размерность X_train:', X_train.shape)
print(X_train.shape[0], 'Размер train')
print(X_test.shape[0], 'Размер test')

(60000, 28, 28) (60000,)
Размерность X_train: (60000, 28, 28, 1)
60000 Размер train
10000 Размер test


#Шаг 3: Алгоритм машинного обучения (k-NN)

In [2]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Создание и обучение модели k-NN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Прогнозирование на тестовой выборке
y_pred_knn = knn.predict(X_test)
accuracy_knn = accuracy_score(y_test, y_pred_knn)

print(f'Accuracy of k-NN: {accuracy_knn:.4f}')

Accuracy of k-NN: 0.9713


#Шаг 4: Глубокое обучение (MLP)

In [5]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.utils import to_categorical

# Предобработка меток для MLP
y_train_mlp = to_categorical(y_train, 10)
y_test_mlp = to_categorical(y_test, 10)

# Создание модели MLP
model_mlp = Sequential([
    Flatten(input_shape=(784,)),
    Dense(128, activation='relu'),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')
])

# Компиляция и обучение модели MLP
model_mlp.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model_mlp.fit(X_train, y_train_mlp, epochs=10, batch_size=32, validation_split=0.2)

# Оценка модели на тестовой выборке
loss_mlp, accuracy_mlp = model_mlp.evaluate(X_test, y_test_mlp)

print(f'Accuracy of MLP: {accuracy_mlp:.4f}')

  super().__init__(**kwargs)


Epoch 1/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 5ms/step - accuracy: 0.8563 - loss: 0.4911 - val_accuracy: 0.9533 - val_loss: 0.1575
Epoch 2/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 4ms/step - accuracy: 0.9637 - loss: 0.1190 - val_accuracy: 0.9647 - val_loss: 0.1127
Epoch 3/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 5ms/step - accuracy: 0.9752 - loss: 0.0786 - val_accuracy: 0.9734 - val_loss: 0.0884
Epoch 4/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 4ms/step - accuracy: 0.9836 - loss: 0.0521 - val_accuracy: 0.9693 - val_loss: 0.0948
Epoch 5/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 5ms/step - accuracy: 0.9863 - loss: 0.0427 - val_accuracy: 0.9733 - val_loss: 0.0947
Epoch 6/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 4ms/step - accuracy: 0.9889 - loss: 0.0351 - val_accuracy: 0.9722 - val_loss: 0.0974
Epoch 7/10
[1m1

#Шаг 5: Нейронные сети (CNN)

In [6]:
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Dropout

# Предобработка данных для CNN
X_train_cnn = X_train.values.reshape(-1, 28, 28, 1)
X_test_cnn = X_test.values.reshape(-1, 28, 28, 1)
y_train_cnn = to_categorical(y_train, 10)
y_test_cnn = to_categorical(y_test, 10)

# Создание модели CNN
model_cnn = Sequential([
    Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Conv2D(64, kernel_size=(3, 3), activation='relu'),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Flatten(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(10, activation='softmax')
])

# Компиляция и обучение модели CNN
model_cnn.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model_cnn.fit(X_train_cnn, y_train_cnn, epochs=10, batch_size=32, validation_split=0.2)

# Оценка модели на тестовой выборке
loss_cnn, accuracy_cnn = model_cnn.evaluate(X_test_cnn, y_test_cnn)

print(f'Accuracy of CNN: {accuracy_cnn:.4f}')

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m54s[0m 37ms/step - accuracy: 0.8130 - loss: 0.5715 - val_accuracy: 0.9796 - val_loss: 0.0635
Epoch 2/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m51s[0m 36ms/step - accuracy: 0.9644 - loss: 0.1155 - val_accuracy: 0.9848 - val_loss: 0.0495
Epoch 3/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 36ms/step - accuracy: 0.9728 - loss: 0.0875 - val_accuracy: 0.9858 - val_loss: 0.0456
Epoch 4/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 37ms/step - accuracy: 0.9774 - loss: 0.0714 - val_accuracy: 0.9869 - val_loss: 0.0435
Epoch 5/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 37ms/step - accuracy: 0.9811 - loss: 0.0628 - val_accuracy: 0.9880 - val_loss: 0.0390
Epoch 6/10
[1m1400/1400[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 37ms/step - accuracy: 0.9821 - loss: 0.0564 - val_accuracy: 0.9883 - val_loss: 0.0348
Epoc

#Теоритические вопросы

**Какие преимущества и недостатки использованных методов вы увидели?**

   **Метод k-ближайших соседей (k-nearest neighbour, k-NN)**: популярный алгоритм классификации суть которого проста: посмотри на соседей вокруг, какие из них преобладают, таковым ты и являешься. Формально основой метода является гипотеза компактности: если метрика расстояния между примерами введена удачно, то схожие примеры гораздо чаще лежат в одном классе, чем в разных. Преимуществом метода прежде всего является нечувствительность к выбросам, он достаточно прост и компактен, нет необходимости строить модель, настраивать параметры и делать дополнительные допущения. Алгоритм универсален. Его можно использовать для обоих типов задач: классификации и регрессии. К недостаткам метода следует отнести его вычислительную ресурсоемкость, алгоритм работает значительно медленнее при увеличении объема выборки, предикторов или независимых переменных. К тому-же всегда  нужно определять оптимальное значение k.
   
   **Обычные нейронные сети (MLP)**: MLP чаще всего используются для обработки данных с фиксированными размерами, такими как таблицы данных или векторы признаков, а также для задач классификации, регрессии и прогнозирования. MLP имеют много параметров, особенно если они содержат много слоев и нейронов, что может привести к высокой вычислительной сложности и рискам переобучения, особенно при обучении на малом количестве данных.

   **Сверточные нейронные сети (CNN)**: CNN специально разработаны для работы с многомерными данными, такими как изображения или видео, которые имеют структуру сетки пикселей. Они хорошо справляются с обработкой изображений, распознаванием объектов, сегментацией, классификацией и другими задачами компьютерного зрения. CNN обладают относительно меньшим количеством параметров, так как каждый нейрон сверточного слоя использует одни и те же веса для обработки различных участков изображения. Это позволяет более эффективно использовать данные и уменьшить риск переобучения.



**В чем, на ваш взгляд, заключается принципиальная разница между многослойным перцептроном и сверточной нейронной сетью?**

По базовой организации они имеют один принцип - оба метода состоят из взаимосвязанных нейронов, которые обрабатывают данные через три или более уровней. Глубокая нейронная сеть (DNN) - это просто искусственная нейронная сеть с глубокими слоями. Глубокие слои в данном контексте означают, что сеть состоит из нескольких слоев, сложенных вместе для обработки и обучения на основе данных. MLP считается примером DNN - базовая структура MLP состоит из входного слоя, одного или нескольких скрытых слоев и выходного слоя. MLP является развитием базового персептрона и способная обрабатывать как линейно разделяемые, так и нелинейно разделяемые данные (отличия решений задачи AND/OR и  XOR).

Различия между многослойным персептроном и глубокой нейронной сетью в том, что Многослойный персептрон имеет небольшое количество скрытых слоев и, соответственно, короткое время обучения, Глубокая же нейронная сеть имеет большее количество скрытых слоев и более длительное время обучения.


**Какие методы предобработки данных были использованы в этом задании?**

Для работы использовался ресурс https://www.openml.org/, в частности база данных рукописных цифр MNIST с 784 признаками. Это подмножество бОльшего набора, доступного от NIST ( http://yann.lecun.com/exdb/mnist/). Цифры нормализованы по размеру и центрированы в изображении фиксированного размера. Изображения уже центрированы в изображении 28x28 путем вычисления центра масс пикселей и перевода изображения таким образом, чтобы поместить эту точку в центр поля 28x28. Так что в части предобработки была произведена только конвертиртация меток в целочисленные значения и разделение данных на обучающую и тестовую выборки. Приемущество использования таких баз очевидно, но произошедший технический ицидент (https://github.com/openml/openml.org/issues/343) подтвердил приоритет использования для решения практических задач более надежных собственных подготовленных примеров.
