# JODA-oppimispäiväkirja

# Anton Tuominen

#    Viikko 1 - Mitä on datatiede?

Osallistuin ensimmäisen viikon opetukseen hieman jälkijunassa työkiireiden vuoksi. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia.

Tällä luentoviikolla käsiteltiin datatieteen määritelmää ja siihen liittyviä työvälineitä. Datatiede itsessään ei ole yhden tekijän summa, vaan se rakentuu erilaisista kokonaisuuksista: liiketoimintaosaamisesta, ohjelmointi – ja tietokantaosaamisesta, tilastollisesta analyysista sekä datalähtöisestä viestinnästä ja visualisoinnista. 

Datatieteen kehityksessä avainasemassa olivat kehittyneet kehitystyökalut sekä laskentatehon kasvaminen. Iso muutos oli, kun R -ohjelmointiympäristöstä siirryttiin Pythoniin. Toisin sanoen tilastolliseen laskentaan ja grafiikan tuottamiseen voitiin nyt myös yhdistää Pythonin kautta koneoppiminen. 

Luennolla käsiteltiin myös datan eettisyyteen liittyviä ihmisoikeuskysymyksiä; kenellä on pääsy tähän dataan? Nykypäivänä monet internet-sivut pyytävät käyttäjää hyväksymään evästeet, ennen kuin sivulla voi tehdä mitään. Nämä evästeet keräävät käyttäjästä valtavasti dataa. Esimerkiksi verkkokaupassa tekemä ostos saa aikaan sen, että käyttäjä näkee mainoksia eri sivuilla viimeisimmän ostoksensa kauppapaikasta. Tämä tapahtuu usein niin, että kauppapaikan omistaja maksaa Googlelle mainoksen näyttämisestä.

**Viisi oivallusta**
* Datatiede rakentuu neljästä laajasta kokonaisuudesta
* 80% Data Scientistin ajasta kuluu datan siivoamiseen
* Laskentateho on kasvanut valtavasti 1970-luvulta tähän päivään
* Algoritmeilla voidaan ohjata monien elämää
* Datafikaatio haastaa ihmisten yksityisyyden

**Kehityskohde**: Kehitysympäristöjen käytöstä ja asentamisesta olisi voinut ehkä olla enemmän ohjeistusta. 

**Koodiesimerkki**: Käytin koodiesimerkin tekemisessä apuna ensimmäistä demosessiota. Tavoitteena koodissa on muuttaa haluttujen attribuuttien datatyyppejä.

In [None]:
import pandas as pd

url = 'https://github.com/jodatut/2020/raw/master/koodiesimerkit/SalesJan2009.csv'

# Käytetään pandas-kirjastoa datan lukemiseen
orig_df = pd.read_csv(url)

df = orig_df.copy()
print('List of attributes:', df.columns.values.tolist())

print(df.head())
print(df.dtypes)
# Muutetaan attribuuttien datatyypit
df['Transaction_date'] = pd.to_datetime(df['Transaction_date'])
df['Account_Created'] = pd.to_datetime(df['Account_Created'])
df['Last_Login'] = pd.to_datetime(df['Last_Login'])

print(df.dtypes)

# Viikko 2 - Datan kerääminen ja jalostaminen

Osallistuin toisen luentoviikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota, luennon Jupyter-notebookkia sekä artikkelia asiakaspoistuma-analyysista (https://bilot.group/articles/asiakaspoistuma-analyysi-ja-miljoona-lisamyyntia/).

Tällä luentoviikolla käsiteltiin datatieteen työprosessia, data-analytiikan liiketoimintarelevanssia, datan keruun menetelmiä sekä datan muotoja.

Philip Guon mukaan datatieteen työprosessi koostuu neljästä päävaiheesta: datan esikäsittelystä (kerääminen, siivoaminen, jalostaminen), analyysin ja tulosten vertailusta ja sekä lopuksi tulosten esittämisestä sopivassa muodossa vastaanottajalle.  

Liiketoimintarelevanssin kannalta data-analytiikka on avainasemassa, kun katsotaan yrityksen suorituskykyä. Bilot Groupin artikkelissa käydään läpi, miten asiakaspoistuma-analyysi voi olla hyvinkin tuottoisa yritykselle. Pieni investointi analyysiin voi johtaa huimiin tuottoihin, jos analyysin tulosten perusteella asiakkaiden poistumaa voidaan pudottaa. Artikkelin mukaan yllättävän harva yritys hyödyntää asiakaspoistuma-analyysia. Syyt tähän voivat johtua tietämättömyydestä tai itsepetoksesta; ei kuvitella, että asiakkaan lähtöön vaikuttaisi mikään muu kuin tuotteen hinta. 

**Viisi oivallusta**
*	Data-analytiikka on liiketoiminnan kannalta hyvinkin relevantti asia
*	Ryömijän tarkoituksena on yleisesti sivujen indeksointi
*	Raapija hyödyntää sivuston metaelementtejä käyttäjää kiinnostavan tiedon tallentamiseen
*	Datainsinöörit keskittyvät dataan liittyviin algoritmeihin, arkkitehtuuriin sekä pitävät huolen siitä, että data kulkee vaivattomasti lähteen ja määränpään välillä 
*	Datatieteilijät keskittyvät enemmän tilastolliseen analyysiin saadusta datasta
 
**Kehityskohde:** Analytiikkatyypeistä olisi ehkä voinut olla enemmän esimerkkejä

**Koodiesimerkki:** Luentoviikolla käsiteltiin raapijoita, joten päätin tehdä yksinkertaisen RedditSpiderin, joka    Scrappya hyödyntäen hakee etusivun postauksien otsikoita.


In [None]:
import scrapy

class RedditSpider(scrapy.Spider):
    name = "reddit"
    start_urls = ['https://www.reddit.com/']

    def parse(self, response):
        for title in response.css('h3'):

            yield {
                'title': title.css('::text').extract()
            }

# Viikko 3 - Koneoppimisen periaatteet

Osallistuin kolmannen viikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia.

Tällä luentoviikolla käsiteltiin koneoppimisen periaatteita, piirteiden suunnittelua sekä yhtä koneoppimisalgoritmien tyyppiä, ohjattua oppimista.

Ohjatussa oppimisessa algoritmia opetetaan valmiiksi luokitellulla opetusdatalla. Tämä piirteiden (ennustavien muuttujien) erottelu raakadatasta on voitu tehdä joko automatisoidusti tai piirteet on voitu kehitellä ja suunnitella asiantuntijatyönä. 
Piirteiden erottelun jälkeen voidaan laatia piirrematriisi; sarakkeet piirteitä, rivit yksittäisiä havaintoja. Tässä vaiheessa siirrytään varsinaiseen opetusvaiheeseen, jonka seurauksena muodostuu malli, jota käyttäen voidaan ennustaa haluttua asiaa.
 
Käytännön esimerkki voisi olla mobiilioperaattorin asiakaspoistuma-analyysi, jonka avulla halutaan ennustaa, kuka asiakkaista tulee todennäköisesti poistumaan. Opetusdatana toimii esimerkiksi asiakkaiden henkilötiedot ja tilaukset sekä tieto siitä, kuka on poistunut ja kuka ei. Tämä data käsitellään ja kehitetään algoritmi, johon voidaan syöttää uutta dataa, ja näin saadaan ennustuksia asiakkaiden poistumistodennäköisyyksistä. 

Isoin aika tällaisten mallien kehittelyssä menee piirteiden suunnitteluun ja jalostukseen, jos piirteitä ei erotella automatisoidusti. ”Feature engineering” on olennainen osa koneoppimisen kehitystyötä, eräänlainen taiteenlaji. Asiantuntijuudella aineistosta voidaan alkaa tuottamaan laadukkaita piirteitä, jotka soveltuvat hyvin koneoppimistehtävään. Toisin sanoen kokemuksella pystyy vaikuttamaan algoritmin suorituskykyyn merkittävästi. 

**Viisi oivallusta**
*   Algoritmia voidaan parantaa piirteitä jalostamalla
*	Kun toimitaan ei-teknisten ihmisten kanssa, on tärkeää, että algoritmi on yksinkertainen ja ymmärrettävä
*	Feature engineering olennainen osa koneoppimisen kehitystyötä
*	Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallien yksityiskohdat eivät aina avaudu ihmistulkitsijalle
*	Opetusdatasetit ovat tekoälyajan tärkein resurssi

**Kehityskohde:** Luentojen esitysmateriaalin rakenteeseen voisi tehdä muutoksia, sillä se on toisinaan raskasta luettavaa pitkien koodi-outputtien takia.

**Koodiesimerkki** Päätin hyödyntää kolmannen demosession oppeja, ja poistin piirteitä Airbnb-asuntojen datasetistä sekä siivosin sitä. 


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import preprocessing
from sklearn.impute import SimpleImputer as Imputer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error, accuracy_score
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.svm import SVC

from warnings import filterwarnings
filterwarnings('ignore')

df = pd.read_csv("listings.csv")
# Poistetaan kolme piirrettä
cols_to_remove = ['listing_url', 'scrape_id', 'last_scraped']
data = df.drop(cols_to_remove, axis=1)

# Korvataan tyhjät arvot sarakkeen keskiarvolla
cols_to_clean =['review_scores_location', 'reviews_per_month']

imputer = Imputer()
data[cols_to_clean] = imputer.fit_transform(data[cols_to_clean])
data[cols_to_clean] = data[cols_to_clean].astype(int)
# Poistetaan kaikki rivit, joilla on vielä ainakin yksi NaN arvo
data.dropna()

data.head(100)

# Viikko 4 – Harjoitustyöhön tutustuminen



Osallistuin neljännen luentoviikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia.

Tällä luentoviikolla käsiteltiin kurssin harjoitustyötä, CRISP-DM -prosessia sekä Jeff Pattonin esittelemää mahdollisuuskehikkoa.

Mahdollisuuskehikko on kehitetty liiketoiminta- ja Lean -kehikkojen hengessä. Kehikon ideana on  keskustelun mahdollistaminen ideoinnin alla olevasta ratkaisusta. Keskustelun teemoina ovat mm. ratkaisun käyttötarkoitus, nykypäivänä olemassa olevat ratkaisut sekä ratkaisun vaikutukset yrityksen liiketoimintaan. 

Dataprojektin aloituksessa on tärkeää, että lähtökohtana on jonkinlainen liiketoimintaongelma, jonka ratkaiseminen tuottaisi arvoa itse liiketoimintaprosessille. Omassa harjoitustyössäni tutkin kurssilla annettua templaatti-ongelmaa, eli Airbnb-asunnon hintaan vaikuttavia tekijöitä.  Tällainen tutkimus toisi luonnollisesti lisäarvoa Airbnb-asunnon omistajalle, sillä hänelle voisi kertoa erilaisia tutkimuksessa löytyneitä tekijöitä, jotka korreloivat asunnon hinnan kanssa. Muun muassa tiedot vuokraajan vastausaktiivisuudesta sekä asunnon sijainnista voisivat olla tällaisia tekijöitä.

Kun projektin liiketoiminnan kannalta relevantti tutkimusongelma on päätetty, on CRISP-DM -prosessin seuraavien vaiheiden aika. Näihin vaiheisiin kuuluu datan kerääminen, datan ymmärtäminen ja sen jalostaminen sekä datan visualisointi ja sen mallinnuksesta tehtävät päätelmät. Prosessi on luonteeltaan iteroiva, eli vaiheesta voidaan hypätä taaksepäin edelliseen vaiheeseen ennen virallista lopputulosta. Tällainen iterointi on hyvin tärkeää, sillä matkan varrella herää varmasti uusia oivalluksia esim. siitä, miten dataa olisi voinut rikastaa paremmin, kun on syntynyt parempi kokonaiskuva datasta sekä koko prosessista. 

**Viisi oivallusta**
*	Datatiedeprojektissa lähtökohtana on liiketoimintaongelma, ei data
*	Datatiedeprojektit ovat luonteeltaan iteratiivisia 
*	Mahdollisuuskehikko kätevä työkalu, kun tarvitaan vastauksia olennaisiin kysymyksiin
*	Datan visualisointi ei itsessään tuota minkäänlaista lisäarvoa, ellei pysty selittämään miksi juuri kyseinen kuvaaja on arvokas asiaa analysoivalle taholle
*	Iteroitaessa voi syntyä paljon uusia ideoita ja kysymyksiä projektiin liittyen 

**Kehityskohde:** Breakout -roomit ja Flinga jäävät hieman turhiksi, jos liveluennolla ei ole paljon porukkaa

**Koodiesimerkki:** Päätin hyödyntää koodiesimerkissä harjoitustyössänikin olevaa koodinpätkää, joka liittyy datan siivoamiseen.



In [None]:
# 3679 rows where there values for 'reviews_per_month'
# are null, let's fix this by changing the nulls to 0
df['reviews_per_month'].fillna(0, inplace=True)


# At this point we can drop rows
# with bad values 
df = df[df.bedrooms != 0]
df = df[df.price != 0]
df = df.dropna(axis=0)

print(df.isnull().sum())
print(len(df.index))

# Viikko 5 – Solitan vierailuluento

Osallistuin neljännen luentoviikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia.

Tämän viikon luento poikkesi aiemmista luennoista, sillä kyseessä oli JODA-kurssin ensimmäinen vierailuluento. Vierailijoina toimivat Solitan Teemu Mikkonen (Data engineer) ja Timo Lehtonen (ohjelmistokehittäjä).

Luennolla käsiteltiin NLP:tä (Natural Language Processing) ja kyseisen menetelmän hyödyntämistä eduskuntadatan luokittelussa. NLP:n avulla pystymme erottamaan informaatiota (piirteet) luonnollisesta kielestä ja muuttamaan sen numeeriseen muotoon. NLP on usein linkitetty johonkin data/koneoppimisratkaisuun, sillä NLP:n avulla tehty piirteiden erotus voi tuoda uuden ulottuvuuden koneoppimisratkaisussa käytettyyn opetusdataan. 

NLP:tä hyödynnettiin luennon esimerkissä siten, että eduskuntadatasta saatujen datapisteiden (ministerien vastaukset kirjallisiin kysymyksiin) luokitteluun. Toisin sanoen koneoppimismenetelmää hyödyntämällä haluttiin kehittää malli, joka ennustaisi todennäköisyyttä siihen, mihinkä ”ministeri-salkku” -luokkaan esimerkiksi ministerin twiitti kuuluisi. 

**Viisi oivallusta**
*	Opetusdataa voidaan esikäsitellä sekä ennen mallin opettamista että mallin opetusfunktion sisällä
*	Verkkokauppojen chatbotit hyödyntävät NLP:tä
*	Yliotannan ideana on luoda datasettiin keinotekoisia arvoja, jotka ovat lähellä tunnisteen datapisteitä
*	FastText on kevyt NLP-kirjasto, joka on helppo ottaa käyttöön, mutta se ei ole läheskään yhtä kehittynyt kuin esimerkiksi ULMFiT ja BERT
*	Solitan Data Akatemia kuulostaa mielenkiintoiselta startilta datatiedeuralle

**Kehityskohde:** Mielestäni vierailuluento oli hyvin toteutettu, sillä se mahdollisti myös katsojien osallistamisen aiheeseen ajettavan koodin avulla. Ei kehitysideoita.

**Koodiesimerkki:** Päätin ottaa koodiesimerkiksi luennolla esitellyn koodinpätkän, jossa muutetaan sana sen perusmuotoon Voikkoa hyödyntämällä. Esimerkiksi sanasta "Yliopistojen" tulisi "yliopisto". Ajoin kyseistä koodia vain Colabin puolella, joten tarvittavat ennakkotoimeenpiteet (muuttujien alustus, importit) puuttuvat tästä pätkästä.


In [None]:
baseform_words = []

for word in words:
  if type(word) != None:
    #Voikon analyze-metodi muuttaa sanan sen perusmuotoon
    voikko_dict = v.analyze(word)
    if voikko_dict:
      word = voikko_dict[0]['BASEFORM']
      if word not in stopwords:
        baseform_words.append(word)

text_bf = " ".join(baseform_words)
print("Alkuperäinen:", "\n", text, "\n")
print("Perusmuotoinen:", "\n", text_bf)

# Viikko 6 – Ohjaamaton koneoppiminen

Osallistuin neljännen luentoviikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia. Tällä luentoviikolla käsiteltiin ohjaamatonta oppimista sekä sen menetelmiä, mm. ryvästämistä sekä aihemallinnusta. 

Ohjaamattomassa oppimisessa ideana on pyrkimys kuvaamaan aineiston rakennetta oppimalla jokin aineistoon sopiva malli. Isoin eroavaisuus ohjattuun oppimiseen on se, että ei pyritä ennustamaan piirteitä, vaan pikemminkin kuvaamaan aineiston rakennetta.

Ryvästäminen on yksi ohjaamattoman oppimisen menetelmä, jossa lähtödata jaetaan ryppäisiin, jotka ovat keskenään mahdollisimman samankaltaisia, mutta mahdollisimman etäällä toisistaan.  Keskeistä on siis löytää keskenään samankaltaisia havaintoja datasta. KMeans -algoritmit ovat esimerkki ryvästämisestä; ne perustuvat iteratiiviseen klustereiden perusteella tapahtuvaan keskipisteiden laskemiseen. 

Aihemallinnus on myös eräs ohjaamattoman oppimisen menetelmä, joka mahdollistaa laajojen tekstiaineistojen automaattisen ryhmittelyn. Ideana on tekstiaineistossa esiintyvien abstraktien aiheiden löytäminen; pyritään löytämään piilotetut semanttiset rakenteet. Luonteeltaan aihemallinnus on tietyllä tapaa subjektiivista, jossa piileekin vaaran paikka, nimittäin aiheiden määrän (k) valinnalla on suuri vaikutus lopputulokseen.

**Viisi oivallusta**
*	Ohjaamattomassa oppimisessa tapahtuu myös ohjaamista (esim. aiheiden määrän valinta)
*	Aihemallinnuksessa aiheiden määrän valinnalla suuri merkitys lopputuloksen kannalta
*	Kyynärpääperiaate mielenkiintoinen lähetymistapa klustereiden määrän valintaan
*	KMeans -algoritmia käytettäessä outlier -havainnoilla merkittävä vaikutus tulokseen
*	Gensim -kirjasto oiva työkalu semanttiseen analyysiin

**Kehityskohde:** Ostoskorianalyysia olisi voinut avata enemmän.

**Koodiesimerkki:** Päätin hyödyntää koodiesimerkissä luennolla esiteltyä esimerkkiä liittyen aihemallinnukseen. Oheisessa koodissa tulostetaan piilevistä 3 teemasta 10 todennäköisintä sanaa. 


In [None]:
temp_terms = lda.show_topics(num_topics=int(n_topics), num_words=11, log=False, formatted=False)
index = 0
topTerms={}
for topic in range(n_topics):
    for wordn in range(11):
        try:
            topTerms['Topic '+str(topic+1)].append(temp_terms[topic][1][wordn][0])
        except KeyError:
            topTerms['Topic '+str(topic+1)]=[temp_terms[topic][1][wordn][0]]
ldaTermsDf=pd.DataFrame(topTerms)
ldaTermsDf

# Viikko 7 – Visuaalinen analytiikka

Osallistuin neljännen luentoviikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia. Tällä luentoviikolla käsiteltiin visuaalisen analytiikan ja eksploratiivisen analytiikan hyödyntämistä datatieteen saralla. 

Visuaalisessa analytiikassa tuotetaan visuaalisia esityksiä aineistosta, jonka tavoitteena on auttaa analysoijaa ottaa vastaan informaatiota sekä tunnistamaan merkityksiä ja tekemään johtopäätöksiä esitetyn datan avulla. John Tukeyn (1980) mukaan visuaalinen analytiikka on pikemminkin lähestymistapa, eikä yksittäisiä tekniikoita.

Datavisualisoinnin eräänä tavoitteena on auttaa loppukäyttäjää ymmärtämään aineistoa paremmin. Yleisenä sääntönä voidaan pitää sitä, että vähemmän on usein enemmän. Pyrin omassa harjoitustyössäni pitämään kaaviot ja kuvaajat mahdollisimman yksinkertaisina, jotta loppukäyttäjä saisi niistä enemmän irti. Tavoitteenani oli myös olennaisten asioiden kuvaaminen. 

**Viisi oivallusta** 
*	Visualisoinnilla kaksi keskeistä sovellusta datatieteessä (kartoittava analytiikka sekä kommunikointi)
*	Ben Fryn esittelemät seitsemän askelta datan visualisoinnille 
*	Visualisoinnin asettelu on tärkeässä asemassa ymmärrettävyyden kannalta
*	Vähemmän on enemmän -> pyritään kuvaamaan olennaiset asiat
*	Visualisoinnin suunnittelu edellyttää laajaa osaamista ihmisen ja koneen vuorovaikutuksesta visualisointijärjestelmien tekniseen arkkitehtuuriin

**Kehityskohde:** Ei mitään kehityskohdetta, luentomateriaalin lisäksi oli tarjolla paljon linkkejä muihin tietolähteisiin mikä oli hieno juttu.

**Koodiesimerkki:**  Päätin hyödyntää koodiesimerkissä harjoitustyössänikin olevaa koodia, jossa visualisoin Airbnb-asunnon hinnan sekä majoittujien välistä lineearista regressiota matplotlibin avulla.


In [None]:
lr = linear_model.LinearRegression()
x = df['accommodates'].values[:, np.newaxis]
y = df['price']
clf = lr.fit(x, y)
plt.scatter(x,y,color='red')
plt.plot(x, clf.predict(x), color='black')
plt.xlabel('accommodates')
plt.ylabel('price')
plt.ylim([0, 2000])
plt.show