## Тех. задние
______
На базе HorsesOrHumans (которая есть в открытом доступе библиотеки tensorflow) постройте автокодировщик. Предобучите автокодировщик. Возьмите предобученный encoder. Кластеризуйте скрытое пространство на два кластера, полученное из encoder (т.е. кластеризовать изображения, так как при подаче изображения на вход encoder’у получится скрытое пространство).
Проверьте насколько точно произошла кластеризация картинок лошадей и людей по двум классам.

Мы не ждём от Вас высокой точности сети, это будет проверка на взаимодействие, понимание задания и подход к обработке базы.


### Импортируем библиотеки

In [1]:
import tensorflow as tf
from tensorflow.keras.applications.inception_v3 import InceptionV3
from tensorflow.keras.applications.inception_v3 import preprocess_input
from tensorflow.keras.preprocessing import image
from tensorflow.keras.preprocessing.image import img_to_array

from sklearn.cluster import KMeans
from sklearn import metrics

import pandas as pd
import numpy as np

from tqdm import tqdm
import os
import shutil

import seaborn as sns

import matplotlib.image as implt
import matplotlib.pyplot as plt

# (Python Image Library) https://python-scripts.com/pillow
from PIL import Image

## Прописываем путь к данным

In [2]:
path_drive = "/content/drive/MyDrive/ТЗ_УИИ/"
path_jupyter = "C:/Users/DS_PC/Google Диск/ТЗ_УИИ/"

train_path = path_drive + "train"
test_path = path_drive + "validation"

train_horses = path_drive + "train/horses/"
# test_horses = "/content/drive/MyDrive/ТЗ_УИИ/validation/horses/"

train_humans = path_drive + "train/humans/"
# test_humans = "/content/drive/MyDrive/ТЗ_УИИ/validation/humans/"

In [3]:
from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google.colab'

In [None]:
# Смотрим сколько людей и лошадей (Люди, кони.. - все смешалось! :) )
category_names = os.listdir(train_path)  # output: ['humans', 'horses']
nb_categories = len(category_names)  # output: 2
train_images = []

for category in category_names:
    folder = train_path + "/" + category
    train_images.append(len(os.listdir(folder)))
    print(f"{category}", len(os.listdir(folder)))

sns.barplot(y=category_names, x=train_images).set_title(
    "Кол-во изображений для тренировочной")

In [None]:
test_images = []
for category in category_names:
    folder = test_path + "/" + category
    test_images.append(len(os.listdir(folder)))
    print(f"{category}", len(os.listdir(folder)))
sns.barplot(y=category_names, x=test_images).set_title(
    "Кол-во изображений для теста")

# Смотрим картинки

In [None]:
img1 = implt.imread(train_horses + "/horse01-0.png")
img2 = implt.imread(train_humans + "/human01-00.png")

plt.subplot(1, 2, 1)
plt.title('horse')
plt.imshow(img1)
plt.subplot(1, 2, 2)
plt.title("human")
plt.imshow(img2)
plt.show()

In [None]:
humans = Image.open(train_horses + "/horse01-0.png")
pix = humans.load()
print('размер картинки', humans.size)

## Preprocessing
____
Я использовал InceptionV3 основываясь на [документации](https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/tutorials/text/image_captioning.ipynb#scrollTo=zXR0217aRPFR)


In [None]:
# Function to Extract features from the images

def image_predict(train_path):
    img_path = os.listdir(train_path)
    model = InceptionV3(weights='imagenet', include_top=False)
    features = []
    img_name = []
    for i in tqdm(img_path):
        direc = train_path + '/' + i + '/'
        for i in os.listdir(direc):
            img = tf.io.read_file(direc+i)  # берем каждый рисунок
            x = tf.image.decode_png(img, channels=3)
            x = np.expand_dims(x, axis=0)  # добавим 4-е пространство
            x = preprocess_input(x)  # нормализуем для InceptionV3
            feat = model.predict(x)
            feat = feat.flatten()
            features.append(feat)
            img_name.append(i)
    return features, img_name

In [None]:
img_features, img_name = image_predict(train_path)

## Clustering

In [None]:
k = 2  # мы знаем что у нас 2 класса
clusters = KMeans(k, random_state=40)
clusters.fit(img_features)

In [None]:
image_cluster = pd.DataFrame(img_name, columns=['image'])
image_cluster["clusterid"] = clusters.labels_
image_cluster  # 0 denotes cat and 1 denotes dog

In [None]:
image_cluster.clusterid.value_counts()

In [None]:
# Получаем предсказанные кластеры
y_pred = clusters.labels_.astype(int)

# Координаты полученных центроидов
print("Координаты центроидов:\n", clusters.cluster_centers_)

## Метрика
____
* **Коэффициент силуэта** - показывает, насколько объект похож на свой кластер по сравнению с другими кластерами. 
* **Однородность** - кластер состоит только из объектов одного класса
* **Полнота** - достигает максимальное значение в том случае, когда все объекты из класса принадлежат одному кластеру
* **V-мера** - среднее гармоническое однородности и полноты, то есть метрика,  объединяющая эти два показателя

In [None]:
# Метрики
print("Коэффициент силуэта: %0.3f" % metrics.silhouette_score(img_features,
                                                              y_pred, metric='euclidean'))
print("Однородность: %0.3f" % metrics.homogeneity_score(img_name, y_pred))
print("Полнота: %0.3f" % metrics.completeness_score(img_name, y_pred))
print("V-мера: %0.3f" % metrics.v_measure_score(img_name, y_pred))

In [None]:
img_features_array = np.asarray(img_features)

In [None]:
y_pred = clusters.labels_.astype(np.int)
plt.subplot()
plt.xticks([])
plt.yticks([])

colors = np.array(list(['#377eb8', '#ff7f00']))
plt.scatter(img_features_array[:, 0],
            img_features_array[:, 1], color=colors[y_pred])