# Oppimispäiväkirja - Viikko 6

Tämän viikon aiheista klusterointi eli ryvästäminen olikin entuudestaan tuttu Knowledge Mining and Big Data kurssilta, jossa käytimme Weka-ohjelmistoa. Kurssilla käytiin hyvin paljon samoja asioita läpi mitä tällä kurssilla on käyty, ja onkin ollut hauska kokeilla asioita sekä suoraan valmiin ohjelmiston avulla, että itse Python koodilla tehden. Koodilla tehdessä on toki se etu, että asioita ymmärtää ehkä hieman paremmin ja syvällisemmin, kun ei riitä pelkkä yhden napin painaminen ja koodi pitää itse tuottaa (tai katsoa mallista, mutta kuitenkin).

En ollut ennen ajatellut, että klusterointia voi käyttää hyväksi myös siinä tapauksessa, kun uutta dataa tulee sisään. Esimerkki verkkokaupan asiakkaasta oli mielestäni todella hyvä ja mielenkiintoinen. Asiakkaasta pystytään jo valmiiksi erottamaan tiettyjä piirteitä ja asettamaan asiakas johonkin asiakasryhmään aiemmin tehdyn klusteroinnin perusteella. Tämän avulla asiakkaalle voidaan kohdentaa mainontaa ja esimerkiksi alennuskoodeja. 

Toisaalta kohdennettu mainonta on näin kuluttajan näkökulmasta aika ajoin hieman pelottava ja ahdistava asia. Kun kerran nettikaupassa katsomasi vaate pyörii seuraavan viikon sosiaalisen median mainoksissa, ja verkkokauppojen alennuskoodit saapuvat sähköpostiin aina tiettynä ajanhetkenä (maanantai-iltaisin, sillä silloin teen aina eniten heräteostoksia) tulee välttämättä mieleen se, kuinka paljon omaa verkkokäyttäytymistä seurataan, ja kuinka mahdotonta siihen on tänä päivänä itse vaikuttaa. Onhan se toisaalta myös kiva, että kun miettii tarvitsevansa uudet lenkkarit, seuraavana päivänä joka paikka pursuaa lenkkarimainoksia. Tällä on siis myös hyvät ja huonot puolensa. Asiaa on nyt mielenkiintoista pohtia erityisesti siitä näkökulmasta, että on itse nyt innostunut datatieteestä todella paljon ja on todella mielenkiintoista huomata, mitä kaikkea datalla voikaan tehdä ja on itse todella kiinnostunut oppimaan alasta lisää ja jopa pyrkiä siirtymään enemmän datapuolelle myös työelämässä. Samaan aikaan kuitenkin kohdennettu mainonta on asia, joka nostattaa karvat pystyyn ja jota vastaan jopa hieman on.

Loppukevennyksenä ja luennon innoittamana halusin tutkia netflixin kategorioita, joita palvelu minulle ehdottaa. Tässä mielestäni parhaat:
- Kirjoihin perustuvat historialliset: 1900-luku
- Naisten käsikirjoittamat elokuvat
- Työpaikkasarjat
- Ongelmaperhesarjat
- Suoraan uutisotsikoista
- Kun ei nappaa olla aikuinen
- Huumeparoneita, mafiapomoja ja gangstereita
- Tarinoita mustien näkökulmasta
- Henkilökunnan suosikit: katkeransuloiset

### Tärkeimmät opit
1. Ohjattu oppiminen vs. ohjaamaton oppiminen.
2. Ei ole yhtä oikeaa tapaa luokitella asioita. Kuten Netflixin kategorioista huomaa, luovuus voi välillä olla jopa piristävää ("Kun ei nappaa olla aikuinen" vs. "Komedia"). 
3. Jos valmiita luokkia ei ole, ohjaamattoman oppimisen menetelmät sopivat paremmin.
4. Vika ei välttämättä ole analyysissa, vaan vika voi olla myös datassa - carbage in carbage out. Datan tulee olla hyvää, jotta analyysit onnistuvat. Tämän vuoksi datan esikäsittely onkin tärkein vaihe.
5. Analyyseihin tarvitaan paljon laskentatehoa.

### Risut ja ruusut luentoviikolle
+ Tällä luennolla oli hyvää vuorovaikutusta luennoitsijan ja opiskelijoiden välillä. Kysymykset olivat todella hyviä, vaikka itse ei päässyt niihin livenä vastaamaan. 
+ On hyvä, että luennolla annetaan paljon oikean elämän esimerkkejä. Kun asioita pystyy yhdistämään omaan joka päiväiseen elämäänsä, ymmärtää ja muistaa ne paremmin, sekä tajuaa asioiden merkityksen ja soveltamisen käytännössä.

### Kehitysehdotukset
Täytyy myöntää, että kehitysehdotukset alkavat käymään vähiin. Ehkä myös muita ryvästämismenetelmiä olisi voinut käsitellä, vaikka k-means klusterointi onkin niistä yleisin ja suosituin.

## Linkit ja lähteet:
Koodidemo: https://realpython.com/k-means-clustering-python/

*(Katsoin molemmat oppimistapahtumat tallenteina. Aineistona käytetty yllä olevan linkin lisäksi luentoa, luentomuistiota ja koodiklinikkaa.)*

In [2]:
!pip install kneed

Collecting kneed
  Downloading kneed-0.7.0-py2.py3-none-any.whl (9.4 kB)
Installing collected packages: kneed
Successfully installed kneed-0.7.0


You should consider upgrading via the 'c:\users\jenna.rajala\appdata\local\programs\python\python37\python.exe -m pip install --upgrade pip' command.


In [3]:
# Koodiesimerkki - vk6 

# Haetaan tarvittavat kirjastot
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

In [4]:
# Luodaan synteettinen data ja labelit
features, true_labels = make_blobs(n_samples=200, centers=3, cluster_std=2.75, random_state=42)

In [7]:
features[:5]

array([[  9.77075874,   3.27621022],
       [ -9.71349666,  11.27451802],
       [ -6.91330582,  -9.34755911],
       [-10.86185913, -10.75063497],
       [ -8.50038027,  -4.54370383]])

In [8]:
true_labels[:5]

array([1, 0, 2, 2, 2])

In [9]:
# Muutetaan datan jakauma standardoiduksi normaalijakaumaksi 
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

In [10]:
scaled_features[:5]

array([[ 2.13082109,  0.25604351],
       [-1.52698523,  1.41036744],
       [-1.00130152, -1.56583175],
       [-1.74256891, -1.76832509],
       [-1.29924521, -0.87253446]])

In [11]:
# K-means ryvästäminen
kmeans = KMeans(init="random", n_clusters=3, n_init=10, max_iter=300, random_state=42)

kmeans.fit(scaled_features)

KMeans(init='random', n_clusters=3, random_state=42)

In [12]:
# Klustereiden keskustojen (centroid) haku
kmeans.cluster_centers_

array([[-0.25813925,  1.05589975],
       [-0.91941183, -1.18551732],
       [ 1.19539276,  0.13158148]])

In [13]:
kmeans.labels_[:5]

array([2, 0, 1, 1, 1])