# Oppimispäiväkirja - Johdanto datatieteeseen

Ennakko-odotukset kurssille olivat melko korkealla, sillä vuosi sitten osallistuin muutamaan luentoon, mutta jouduin jättämään kurssin kesken muiden kiireiden takia. Koen, että johdanto datatieteeseen on kuitenkin keskeinen osa sivuainettani datateknologioita. Lisäksi kurssilla käsitellään aihepiirejä, jotka kiinnostavat minua ja ovat hyödyllisiä tulevaisuudessa työelämässä. Toisaalta kurssin melko tietotekniset asiat eivät kuulu vahvuuksiini, joten ne hieman mietityttävät. Alkuun onkin ollut vaikeaa hahmottaa, mitä kaikkia ohjelmistoja ja työkaluja tulee hyödyntää kurssilla.

## Luentoviikko 1: Johdanto aihepiiriin ja suorittaminen

Ensimmäisellä luentoviikolla osallistuin niin luennolle kuin demosessioon. Käsittelyssä oli datatiede yleisesti sekä datatieteilijältä vaadittavat taidot ja osaaminen. Datatieteilijällä tulee olla monipuolisesti tietoteknistä, matemaattista, viestintä-, visualisointi- sekä liiketoimintaosaamista. Konkreettisista osaamisista tärkeimpinä koen tietokantojen tuntemisen, yhden ohjelmointikielen syvällisen osaamisen, koneoppimisen ja tilastoihin perustuvan mallinnuksen (Chandrasekaran 2013; Amsterdam School of Data Science 2017). Nykypäivänä on kuitenkin kasvavassa ja nopeasti muuttuvassa liiketoimintaympäristössä keskeistä ymmärtää varsinkin kokonaiskuva liiketoiminnasta. Muuttuva toimintaympäristö lisää myös viestintätaitojen merkitystä, jotta niin liiketoiminnan ytimeen kuin koodaamiseen erikoistuneet henkilöt ymmärtävät toisiaan. Voidaankin ajatella, että datatieteilijä kuuluu näiden välimaastoon ja auttaa kumpaakin osapuolta ymmärtämään toisiaan.

Luennolla esitetyt kuvat nykypäivän modernista datatieteilijästä ja datatietelijän osaamisvaatimuksista sekä datatieteen CRISP-DM -prosessimallista olivat tuttuja syksyltä 2019 Basics for business data analytics -kurssin kautta. Koen, että kyseinen kurssi oli hyvä suorittaa ennen, sillä siinä keskityttiin enemmän "pehmeisiin" aiheisiin ja liiketoimintalähtöiseen näkökulmaan. Tämän kurssin tietotekniset vaatimukset täydentävät hyvin edellä mainittua kurssia.

CRISP-DM -malli perustuu liiketoimintalähtöiseen ymmärrykseen sekä datan käsittelyyn. Se on jatkuva prosessi niin monesti kunnes tapahtuu ratkaisun käyttöönotto. CRISP-DM on melko samanlainen kuin liiketoimintatiedon hallinnan prosessimalli, joka perustuu tiedon jalostamiselle. Kumpaakin mallia voidaan käyttää hyöydyksi datatieteessä ja ne tukevat toisiansa.

Kaikille avointa ilmaista dataa tarjoaa esimerkiksi Kaggle, joka tarjoaa monipuolisesti erilaisia datasettejä. Datasetin voi valita tarkasteltavaksi oman mielenkiinnon kohteen mukaan. Suomen kielisiltä sivuilta avointa dataa on saatavilla avoindata.fi sivun kautta. Avoimet datasetit ovat jaettu erilaisiin kategorioihin, kuten koulutus ja urheilu, liikenne sekä ympäristö ja luonto. Harjoitustyön kannalta pohdinkin ottavani suomen kielisen datasetin, sillä ennakkoon muutenkin tuntemattomat asiat mietityttävät ja aiheuttavat haasteita.

Oivalluksia ja oppeja ensimmäiseltä luentoviikolta:

1. scikit-learn -kirjaston hyödyntäminen analyyseissa
2. Jupyter Notebookin käytön alkeet
3. Pandasin komentoja (read_csv, to_datetime)
4. Pythonin kertaamista ja yleistä datasetin käsittelyä
5. Olen itse ehkä enemmän kiinnostunut data scientistin ja analystin välimuodosta luennolla esitellyn Venn diagrammin mukaan.

Kehityskohteet:

1. Osaamattomille selkeä ja kattava ohjeistus yhdestä tavasta suorittaa oppimispäiväkirja ja harjoitustyö. Paremmin osaaville voi antaa nykyisen kaltaisesti vapaat kädet.

Valitsin tarkasteltavaksi Ilmatieteenlaitoksen avointa dataa Turusta Artukaisten mittauspisteeltä huhtikuulta 2021. Datasetti sisältää 1.4.-8.4. lämpötiloja sekä tuulen nopeuksia 10 minuutin välein mitattuna. Valitsin helpon datasetin alkuun, sillä kokemusta datan käsittelystä ei juurikaan ole varsinkaan Pythonilla. Data saatavissa osoitteesta: https://www.ilmatieteenlaitos.fi/havaintojen-lataus

Seuraavassa demossa käytetty Huhtamäen (2021) ensimmäisen luennon materiaaleja avuksi.

In [1]:
#Lisätään tarvittavat kirjastot
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#Luetaan käyettävä Ilmatieteenlaitoksen datasetti
df = pd.read_csv(r"C:\Users\pettu\Documents\Opiskelu\Joda\luentoviikko_1.csv")

In [3]:
df.head(7)

Unnamed: 0,Vuosi,Kk,Pv,Klo,Aikavyöhyke,Ilman lämpötila (degC),Tuulen nopeus (m/s)
0,2021,4,1,00:00,UTC,-0.6,1.9
1,2021,4,1,00:10,UTC,-1.0,1.8
2,2021,4,1,00:20,UTC,-1.3,1.9
3,2021,4,1,00:30,UTC,-1.5,2.4
4,2021,4,1,00:40,UTC,-1.2,2.4
5,2021,4,1,00:50,UTC,-0.8,2.3
6,2021,4,1,01:00,UTC,-0.7,2.4


In [4]:
df.tail(7)

Unnamed: 0,Vuosi,Kk,Pv,Klo,Aikavyöhyke,Ilman lämpötila (degC),Tuulen nopeus (m/s)
1002,2021,4,7,23:00,UTC,-1.8,1.3
1003,2021,4,7,23:10,UTC,-2.0,1.4
1004,2021,4,7,23:20,UTC,-1.9,1.6
1005,2021,4,7,23:30,UTC,-1.8,1.8
1006,2021,4,7,23:40,UTC,-1.7,2.4
1007,2021,4,7,23:50,UTC,-1.7,1.8
1008,2021,4,8,00:00,UTC,-2.0,1.4


In [5]:
df.dtypes

Vuosi                       int64
Kk                          int64
Pv                          int64
Klo                        object
Aikavyöhyke                object
Ilman lämpötila (degC)    float64
Tuulen nopeus (m/s)       float64
dtype: object

In [6]:
df['Lämpötila (C)'] = df['Ilman lämpötila (degC)']
df['Tuuli (m/s)'] = df['Tuulen nopeus (m/s)']

In [7]:
#Lisätään tarvittava kirjasto
import numpy as np

In [8]:
#Luodaan taulukko lämpötilojen ja tuulten keskiarvoille sekä minimi- ja maksimiarvoille
table = pd.pivot_table(df, values=['Lämpötila (C)', 'Tuuli (m/s)'], index=['Pv'],
                    aggfunc={'Lämpötila (C)': [min, max, np.mean],
                             'Tuuli (m/s)': [min, max, np.mean]})

In [9]:
table

Unnamed: 0_level_0,Lämpötila (C),Lämpötila (C),Lämpötila (C),Tuuli (m/s),Tuuli (m/s),Tuuli (m/s)
Unnamed: 0_level_1,max,mean,min,max,mean,min
Pv,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,7.9,3.483333,-1.5,5.9,3.034722,1.4
2,7.1,3.818056,1.2,6.2,3.265278,1.6
3,6.6,3.140972,0.2,6.1,3.444444,1.3
4,8.6,5.147222,2.8,6.8,4.5,1.6
5,4.8,2.310417,-0.3,8.0,4.365972,0.9
6,5.3,2.863194,-0.9,6.0,3.429861,1.5
7,4.5,1.934722,-2.0,3.8,2.175,0.5
8,-2.0,-2.0,-2.0,1.4,1.4,1.4


## Luentoviikko 2: Datan kerääminen ja jalostaminen



Myös toisella luentoviikolla osallistuin opetukseen. Toisen luennon oppimispäiväkirjassa käytetään materiaaleina luento- ja demoluentomuistiota. Erityistä kiinnostusta herätti raapijoiden ja ryömijöiden eettisyys sekä laillisuus, joihin perehdytään kahden niihin liittyvän postauksen avulla, jotka esitettiin luennolla.

Analytiikka on nykypäivänä jatkuvasti läsnä liiketoiminnassa. Jatkuvasti nopeasti muuttuva toimintaympäristö vaatii tapoja erottautua kilpalijoista. Data-analytiikka on vieläkin kasvava trendi, jota halutaan hyödyntää osana liiketoimintaa. Herää kuitenkin kysymys pystytäänkö sitä läheskään kaikissa yrityksissä hyödyntämään niin kuin halutaan vai tehdäänkö sitä vain sen takia, koska se on trendikästä. Data-analytiikan hyödyntämiselle keskeistä on yhdistää se liiketoimintaan sekä tunnistaa sen tarve eri liiketoiminnan osa-alueissa. Luennolla esitetyn analytiikan nelikentän (kuvaileva, diagnosoiva, ennakoiva ja ohjaava analytiikka) avulla on mahdollista jakaa analytiikan tarve tietyille liiketoiminnan osa-alueille. Seuraavassa listauksessa yhdistän kunkin analytiikan teeman liiketoiminnan osa-alueeseen, jotka ovat sopivia analytiikan teemoille.

1. Kuvaileva analytiikka: Tuotannon läpimenoajan kehitys vuoden aikana
2. Diagnosoiva analytiikka: Mikä johti tuotannon läpimenoajan kehittymiseen (esim. työntekijöiden oppiminen)
3. Ennakoiva analytiikka: Millainen on tuotannon oppimiskäyrä, millä kapasiteetilla voidaan tuottaa tuotetta vuoden päästä
4. Ohjaava analytiikka: Mitä pitäisi tuotannossa kehittää, jotta läpimenoaika pienenee (esim. tietty vaihe)

Vähäisen koodaustaustan vuoksi itselleni melko uutena asiana tuli raapijat ja ryömijät. Yhteenvetona itselleni luentomuistiosta: ryömijän avulla laaditaan hakuavaruus, jossa on hyperlinkkejä halutuille verkkosivuille, joista raapijan avulla kerätään annettujen kriteerien ja parametrien avulla haluttu data. Tavoitteena on luoda tämän luennon oppimispäiväkirjaan yksinkertainen demo Pythonin Scrapya käyttäen.

Datan keräämiseen liittyy vahvasti sen laillisuus ja etiikka. Kaikkea avoimesti saatavaa dataa ei ole laillista hyödyntää eikä kaikkia verkkosivuja saa käyttää datan keräämiseen. Bernard (2017) käsittelee blogissaan (https://benbernardblog.com/web-scraping-and-crawling-are-perfectly-legal-right/) datan keräämisen laillisuutta. Hän esittelee tapauksia, jotka ovat johtaneet sanktioihin sekä tapauksia, jotka ovat datan laillisen hyödyntämisen ja laittomuuden välillä. Se herättääkin eettisiä kysymyksiä datan hyödyntämisestä. Yhteenvetona blogista voidaan todeta, että ennen datan keräämistä on syytä tutustua käyttöehtoihin sekä robotin rajausstandardiin (robots.txt, joka voi kieltää robotteja tai hakukoneita tutkimasta verkkosivustoa). Mikäli ei vieläkään tiedä datan keräämisen laillisuudesta, on syytä kysyä sitä suoraan verkkosivun haltijalta tai lakimieheltä.

Laaksonen & Salonen (2018) käsittelevät kirjoituksessaan (https://rajapinta.co/2018/12/04/kuka-saa-paattaa-mita-dataa-tutkijalla-on-kaytossaan-ei-ainakaan-amerikkalainen-suuryritys/) yleisesti aineistojen saatavuutta ja datan keräämistä sekä peilaavat niitä GDPR:n ja tietosuojalain laatimiin rajoitteisiin. Tekstissä nostetaan esiin ristiriita lain ja eettisen oikeuden välillä. Laki tarjoaa mahdollisuuden hyödyntää henkilötietoja tieteellisessä tutkimuksessa, mutta voidaan pohtia onko se eettisesti oikein.

Kumpikin teksti herättää pohdintaa varsinkin datan keräämisen eettisyydestä. Mikäli datalla pystytään vahingoittamaan jonkun liiketoimintaa, aiheuttamaan pahennusta tai pyritään vain taloudelliseen hyötyyn on syytä pohtia omia eettisiä valintoja. Joka tapauksessa datan kerääminen vaatii niin lain tuntemusta kuin maalaisjärjen käyttöä sekä eettistä ymmärrystä.

Oivalluksia ja oppeja toiselta luentoviikolta:

1. Kaikilta verkkosivuilta ei voi raapia dataa.
2. Eettisen pohdinnan perusteella, joskus voidaan rikkoa käyttöehtoja esimerkiksi anonymisoimalla kerätty data, mikäli tehdään tieteellistä tutkimusta ja tuotetaan yhteiskunnalle kriittistä tietoa (Laaksonen & Salonen 2018).
3. Scrapy kokonaisuudessaan uusi juttu.
4. Pandasin to_datetime.
5. Robots.txt tiedostosta en ollut kuullut ennen. Nyt siihen tietää kiinnittää huomiota.

Kehityskohde ja flippausvinkki:

1. Raapijoihin ja ryömijöihin liittyvää koodia olisi voitu käsitellä myös luennolla hieman enemmän. 
2. Yksinkertainen etukäteistehtävä raapijoihin ja ryömijöihin liittyen voisi olla hyvä, jotta osaamattomammatkin hyötyisivät enemmän koodidemosta.

In [16]:
import scrapy

In [27]:
class DriverScraper(scrapy.Spider):
    name = 'driver'
    start_urls = ['https://golfcenter.fi/golfmailat/miesten-mailat/miesten-draiverit.html']
    
    def parse(self, response):
        for products in response.css('div.card-list--top-viewed__product-list product-list js-card-list-slider'):
            yield {
                'name': products.css('div.product__title product-card__name::text').get()
            }