# JODA-oppimispäiväkirja

# Anton Tuominen

#    Viikko 1 - Mitä on datatiede?

Osallistuin ensimmäisen viikon opetukseen hieman jälkijunassa työkiireiden vuoksi. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia.

Tällä luentoviikolla käsiteltiin datatieteen määritelmää ja siihen liittyviä työvälineitä. Datatiede itsessään ei ole yhden tekijän summa, vaan se rakentuu erilaisista kokonaisuuksista: liiketoimintaosaamisesta, ohjelmointi – ja tietokantaosaamisesta, tilastollisesta analyysista sekä datalähtöisestä viestinnästä ja visualisoinnista. 

Datatieteen kehityksessä avainasemassa olivat kehittyneet kehitystyökalut sekä laskentatehon kasvaminen. Iso muutos oli, kun R -ohjelmointiympäristöstä siirryttiin Pythoniin. Toisin sanoen tilastolliseen laskentaan ja grafiikan tuottamiseen voitiin nyt myös yhdistää Pythonin kautta koneoppiminen. 

Luennolla käsiteltiin myös datan eettisyyteen liittyviä ihmisoikeuskysymyksiä; kenellä on pääsy tähän dataan? Nykypäivänä monet internet-sivut pyytävät käyttäjää hyväksymään evästeet, ennen kuin sivulla voi tehdä mitään. Nämä evästeet keräävät käyttäjästä valtavasti dataa. Esimerkiksi verkkokaupassa tekemä ostos saa aikaan sen, että käyttäjä näkee mainoksia eri sivuilla viimeisimmän ostoksensa kauppapaikasta. Tämä tapahtuu usein niin, että kauppapaikan omistaja maksaa Googlelle mainoksen näyttämisestä.

**Viisi oivallusta**
* Datatiede rakentuu neljästä laajasta kokonaisuudesta
* 80% Data Scientistin ajasta kuluu datan siivoamiseen
* Laskentateho on kasvanut valtavasti 1970-luvulta tähän päivään
* Algoritmeilla voidaan ohjata monien elämää
* Datafikaatio haastaa ihmisten yksityisyyden

**Kehityskohde**: Kehitysympäristöjen käytöstä ja asentamisesta olisi voinut ehkä olla enemmän ohjeistusta. 

**Koodiesimerkki**: Käytin koodiesimerkin tekemisessä apuna ensimmäistä demosessiota. Tavoitteena koodissa on muuttaa haluttujen attribuuttien datatyyppejä.

In [None]:
import pandas as pd

url = 'https://github.com/jodatut/2020/raw/master/koodiesimerkit/SalesJan2009.csv'

# Käytetään pandas-kirjastoa datan lukemiseen
orig_df = pd.read_csv(url)

df = orig_df.copy()
print('List of attributes:', df.columns.values.tolist())

print(df.head())
print(df.dtypes)
# Muutetaan attribuuttien datatyypit
df['Transaction_date'] = pd.to_datetime(df['Transaction_date'])
df['Account_Created'] = pd.to_datetime(df['Account_Created'])
df['Last_Login'] = pd.to_datetime(df['Last_Login'])

print(df.dtypes)

# Viikko 2 - Datan kerääminen ja jalostaminen

Osallistuin toisen luentoviikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota, luennon Jupyter-notebookkia sekä artikkelia asiakaspoistuma-analyysista (https://bilot.group/articles/asiakaspoistuma-analyysi-ja-miljoona-lisamyyntia/).

Tällä luentoviikolla käsiteltiin datatieteen työprosessia, data-analytiikan liiketoimintarelevanssia, datan keruun menetelmiä sekä datan muotoja.

Philip Guon mukaan datatieteen työprosessi koostuu neljästä päävaiheesta: datan esikäsittelystä (kerääminen, siivoaminen, jalostaminen), analyysin ja tulosten vertailusta ja sekä lopuksi tulosten esittämisestä sopivassa muodossa vastaanottajalle.  

Liiketoimintarelevanssin kannalta data-analytiikka on avainasemassa, kun katsotaan yrityksen suorituskykyä. Bilot Groupin artikkelissa käydään läpi, miten asiakaspoistuma-analyysi voi olla hyvinkin tuottoisa yritykselle. Pieni investointi analyysiin voi johtaa huimiin tuottoihin, jos analyysin tulosten perusteella asiakkaiden poistumaa voidaan pudottaa. Artikkelin mukaan yllättävän harva yritys hyödyntää asiakaspoistuma-analyysia. Syyt tähän voivat johtua tietämättömyydestä tai itsepetoksesta; ei kuvitella, että asiakkaan lähtöön vaikuttaisi mikään muu kuin tuotteen hinta. 

**Viisi oivallusta**
*	Data-analytiikka on liiketoiminnan kannalta hyvinkin relevantti asia
*	Ryömijän tarkoituksena on yleisesti sivujen indeksointi
*	Raapija hyödyntää sivuston metaelementtejä käyttäjää kiinnostavan tiedon tallentamiseen
*	Datainsinöörit keskittyvät dataan liittyviin algoritmeihin, arkkitehtuuriin sekä pitävät huolen siitä, että data kulkee vaivattomasti lähteen ja määränpään välillä 
*	Datatieteilijät keskittyvät enemmän tilastolliseen analyysiin saadusta datasta
 
**Kehityskohde:** Analytiikkatyypeistä olisi ehkä voinut olla enemmän esimerkkejä

**Koodiesimerkki:** Luentoviikolla käsiteltiin raapijoita, joten päätin tehdä yksinkertaisen RedditSpiderin, joka    Scrappya hyödyntäen hakee etusivun postauksien otsikoita.


In [None]:
import scrapy

class RedditSpider(scrapy.Spider):
    name = "reddit"
    start_urls = ['https://www.reddit.com/']

    def parse(self, response):
        for title in response.css('h3'):

            yield {
                'title': title.css('::text').extract()
            }

# Viikko 3 - Koneoppimisen periaatteet

Osallistuin kolmannen viikon opetukseen katsomalla luentovideon jälkikäteen. Hyödynsin päiväkirjan laatimisessa luentovideota sekä luennon Jupyter-notebookkia.

Tällä luentoviikolla käsiteltiin koneoppimisen periaatteita, piirteiden suunnittelua sekä yhtä koneoppimisalgoritmien tyyppiä, ohjattua oppimista.

Ohjatussa oppimisessa algoritmia opetetaan valmiiksi luokitellulla opetusdatalla. Tämä piirteiden (ennustavien muuttujien) erottelu raakadatasta on voitu tehdä joko automatisoidusti tai piirteet on voitu kehitellä ja suunnitella asiantuntijatyönä. 
Piirteiden erottelun jälkeen voidaan laatia piirrematriisi; sarakkeet piirteitä, rivit yksittäisiä havaintoja. Tässä vaiheessa siirrytään varsinaiseen opetusvaiheeseen, jonka seurauksena muodostuu malli, jota käyttäen voidaan ennustaa haluttua asiaa.

Käytännön esimerkki voisi olla mobiilioperaattorin asiakaspoistuma-analyysi, jonka avulla halutaan ennustaa, kuka asiakkaista tulee todennäköisesti poistumaan. Opetusdatana toimii esimerkiksi asiakkaiden henkilötiedot ja tilaukset sekä tieto siitä, kuka on poistunut ja kuka ei. Tämä data käsitellään ja kehitetään algoritmi, johon voidaan syöttää uutta dataa, ja näin saadaan ennustuksia asiakkaiden poistumistodennäköisyyksistä. 

Isoin aika tällaisten mallien kehittelyssä menee piirteiden suunnitteluun ja jalostukseen, jos piirteitä ei erotella automatisoidusti. ”Feature engineering” on olennainen osa koneoppimisen kehitystyötä, eräänlainen taiteenlaji. Asiantuntijuudella aineistosta voidaan alkaa tuottamaan laadukkaita piirteitä, jotka soveltuvat hyvin koneoppimistehtävään. Toisin sanoen kokemuksella pystyy vaikuttamaan algoritmin suorituskykyyn merkittävästi. 

**Viisi oivallusta**
*   Algoritmia voidaan parantaa piirteitä jalostamalla
*	Kun toimitaan ei-teknisten ihmisten kanssa, on tärkeää, että algoritmi on yksinkertainen ja ymmärrettävä
*	Feature engineering olennainen osa koneoppimisen kehitystyötä
*	Koneoppimismallien ennustuskyky on parantunut merkittävästi, mutta mallien yksityiskohdat eivät aina avaudu ihmistulkitsijalle
*	Opetusdatasetit ovat tekoälyajan tärkein resurssi

**Kehityskohde:** Luentojen esitysmateriaalin rakenteeseen voisi tehdä muutoksia, sillä se on toisinaan raskasta luettavaa pitkien koodi-outputtien takia.

**Koodiesimerkki** Päätin hyödyntää kolmannen demosession oppeja, ja poistin piirteitä Airbnb-asuntojen datasetistä, sekä siivosin sitä. 


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import preprocessing
from sklearn.impute import SimpleImputer as Imputer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error, accuracy_score
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.svm import SVC

from warnings import filterwarnings
filterwarnings('ignore')

df = pd.read_csv("listings.csv")
# Poistetaan kolme piirrettä
cols_to_remove = ['listing_url', 'scrape_id', 'last_scraped']
data = df.drop(cols_to_remove, axis=1)

# Korvataan tyhjät arvot sarakkeen keskiarvolla
cols_to_clean =['review_scores_location', 'reviews_per_month']

imputer = Imputer()
data[cols_to_clean] = imputer.fit_transform(data[cols_to_clean])
data[cols_to_clean] = data[cols_to_clean].astype(int)
# Poistetaan kaikki rivit, joilla on vielä ainakin yksi NaN arvo
data.dropna()

data.head(100)