# Biblioteki Pythona w analizie danych
### Tomasz Rodak

Lab 3

---



In [2]:
import requests
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.utils import shuffle

## 1. Algorytm k-średnich. Segmentacja obrazów

### 1.1 Demonstracja działania algorytmu k-średnich

Podany niżej kod generuje kilka grup punktów na płaszczyźnie. Funkcja `make_blobs()` zwraca dwie wartości: macierz współrzędnych punktów oraz wektor etykiet, który określa przynależność punktów do grup. Parametry, z których korzystamy:
* `n_samples` - liczba punktów,
* `centers` - liczba grup,
* `n_features` - liczba współrzędnych punktów, czyli wymiar przestrzeni, w której punkty są generowane,
* `random_state` - ziarno generatora liczb losowych.

Funkcja działa tak: najpierw losowane są współrzędne środków grup, następnie losowane są współrzędne punktów z każdej grupy. Wartości współrzędnych punktów są losowane z rozkładu normalnego o średniej równej środkowi grupy i odchyleniu standardowym równym 1. Wartości współrzędnych punktów są zapisywane w macierzy `X`, a etykiety w wektorze `y`. 

In [None]:
n_samples = 500
n_features = 2
n_clusters = 5

# Generate random sample data
X, y = make_blobs(n_samples=n_samples, centers=n_clusters,
                  n_features=n_features, random_state=1)
plt.scatter(X[:, 0], X[:, 1], s=20);

### 1.2
Algorytm k-średnich jest rodzajem uczenia nienadzorowanego. Jego zadaniem jest przypisanie punktów do grup (poprzez nadanie im etykiet) w taki sposób, aby punkty wewnątrz grup były podobne do siebie, a różne grupy były od siebie różne. W przypadku wygenerowanych przez nas danych algorytm powinien odtworzyć etykiety `y` na podstawie współrzędnych punktów `X`. Cechą algorytmu k-średnich jest to, że liczba grup musi być z góry znana (tzn. przewidziana na jakiejś innej drodze). Jest to hiperparametr algorytmu, który musi być przekazany do algorytmu przed rozpoczęciem procesu uczenia.

Algorytm działa iteracyjnie. W każdej iteracji wyznaczane są nowe środki grup, a następnie punkty są przypisywane do grup na podstawie odległości od środków. Wartość odległości jest obliczana na podstawie wybranej metryki. My skorzystamy z (domyślnej) metryki euklidesowej.

Poniżej znajduje się kod, który trenuje algorytm k-średnich na wygenerowanych przez nas danych.
* Wyznacz środki grup.
* Wygeneruj przewidywane etykiety dla danych `X` (metoda `predict()`). Czy wyglądają one podobnie do prawdziwych etykiet `y`? Co się dzieje, gdy generujesz etykiety powtórnie?
* Narysuj dane `X` na płaszczyźnie, kolorując punkty zgodnie z przewidywanymi etykietami. Czy algorytm dobrze przypisał punkty do grup? Przeprowadź eksperymenty z różnymi wartościami hiperparametru `n_clusters`.
* Jaką rolę pełni hiperparametr `n_init`?

## 2. Segmentacja obrazów

### 2.1

Segmentacja obrazów to proces podziału obrazu na obszary, które są podobne do siebie. W przypadku obrazów rastrowych podobieństwo obszarów jest zwykle określane na podstawie podobieństwa wartości pikseli. Celem tej sekcji jest zastosowanie algorytmu k-średnich do wybranego obrazu RGB.

Pobierz dowolny obraz RGB z internetu i zapisz na dysku. Wykorzystaj bibliotekę `requests`. Nie ma znaczenia, jaki to będzie obraz, ważne, żeby był rastrem RGB i najlepiej, żeby był kolorowy. Typowe formaty takich obrazów to `jpg`, `png` czy `bmp`. 

Przykład: [latolistek cytrynek](https://upload.wikimedia.org/wikipedia/commons/thumb/0/0f/Common_brimstone_%28Gonepteryx_rhamni%29_female_underside.JPG/1280px-Common_brimstone_%28Gonepteryx_rhamni%29_female_underside.JPG), zdjęcie z Wikipedii.

### 2.2
Wykorzystaj funkcję `open()` z modułu `PIL.Image` do wczytania obrazu z dysku. Wyświetl obraz w notatniku.

### 2.3


Przekształć obiekt obrazu do trójwymiarowej tablicy `numpy` (wystarczy wywołać funkcję `np.array()` na obrazie).
Wyświetl wymiary tablicy. Porównaj je z wymiarami obrazu.

### 2.4

Zmień kształt tablicy na dwuwymiarową, tak aby każdy wiersz tablicy zawierał trzy kanały RGB dla jednego piksela. Wykorzystaj metodę tablic `reshape()`. 

### 2.5

Przeprowadź na utworzonej powyżej tablicy 2D algorytm k-średnich. Na początek wybierz liczbę grup `n_clusters` równą 2. Potem przeprowadź eksperymenty z innymi wartościami tego hiperparametru.

Po zastosowaniu algorytmu utwórz nową tablicę, w której każdy piksel będzie miał wartość środka grupy, do której został przypisany.
Wygenerowane centra będą typu `float`. Przekształć je do typu `uint8` (metoda `astype()`) zanim wykonasz mapowanie centrów na piksele (wymaga tego funkcja `Image.fromarray()`).
Zmień kształt tak uzyskanej tablicy na kształt obrazu wejściowego (`reshape()`) i utwórz obraz (`Image.fromarray()`).