In [2]:
# Ilmeisesti on best practice importtaa kaikki aina aluksi
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
style.use('ggplot')

import scrapy

# Luento 1

### Viikon Joda-opiskelut

Viikon luennon katsoin tallenteelta, mutta demoluennon ensimmäisen puoliskon katsoin livenä. Päiväkirjan laatimisessa käytetty materiaali tulee lähinnä luentomateriaaleista, mutta esimerkiksi Jupyterin käyttöönotossa hain apua YouTubesta: https://www.youtube.com/watch?v=DKiI6NfSIe8&t=2s. 

### Datatiede?

Datatiede on saanut paljon kritiikkiä siitä, että se on vain tilastotiedettä modernisoidulla nimellä ja datatieteilijä on vain tilastotieteilijä hienommalla titteliä. Asia ei todellisuudessa kuitenkaan ole näin: tilastollisen analyysin lisäksi datatieteilijän tulee hanskata monia muitakin aihealueita, kuten liiketoiminta, ohjelmointi, tietokannat sekä data tehokas viestintä yleisölleen esimerkiksi visualisoinnin kautta. Voidaan siis sanoa, että tilastotiede on osa datatiedettä.

CRIPS-DM malli kuvaa mielestäni hyvin datatieteilijän työnkuvaa. Aluksi lähetään siitä, että ymmärretään omaa liiketoimintaa ja dataa. Tämän jälkeen täytyy ymmärtää, että miten ne liittyvät yhteen ja millainen data on ylipäätänsä relevanttia liiketoiminnan kannalta. Tämä data täytyy sen jälkeen ”siivota” kaikesta kyseenomaisessa tapauksessa epärelevantista datasta ja mallintaa siten, että se on helppo viestiä ja helposti ymmärrettävissä. Lopuksi datan perusteella pitää osata tehdä johtopäätöksiä liiketoiminnan tukemiseksi.

### Data

Internet ja sen mukana tulleet hullutukset kuten sosiaalinen media ovat mahdollistaneet yritysten liiketoiminnan ainoastaan datan keräämiselle ja myymiselle (Netflixissä on tosi mielenkiintoinen dokkari asiaan liittyen). Yritykset kuten Facebook, keräävät käyttäjistään mahdollisimman paljon dataa ja selvittävät sen avulla, onko kyseinen henkilö esimerkiksi kiinnostunut ostamaan uusia kenkiä. Tämän jälkeen Facebook voi myydä esimerkiksi mainospaikkoja siten, että kenkävalmistajien mainokset näkyvät vain heille, joilla todennäköisesti on intressejä ostaa kengät. Esimerkiksi Google tililtäsi näkee, mitä kaikkea Google sinusta tietää. Netflix dokkaria lainaten, ”datankerääjän todennäköisesti tietävät poliittiset näkemyksesi paremmin kuin sinä itse”.

Datan käsittelyn välineiden, kuten tekoälyn kehitys on mahdollistanut myös sen, että tästä datasta voidaan helposti jalostaa tietoa. Myös laskentatehon kasvaminen ja uusien työvälineiden jatkuva keksiminen ja päivittyminen ovat olleet vauhdittamassa datatieteen kehitystä ja kasvua. 

### Demo

Edellä kerrotun teorian lisäksi opin myös datan käsittelemistä Jupyterilla ja Pythonilla. Alla olevan demo data on sama, kuin aiemmin linkkaamassa "Jupyter Notebook Tutorial"-videossa, ja se löytyy täältä: https://www.kaggle.com/ronitf/heart-disease-uci. 

In [None]:
# Luetaan data ja tallennetaan muuttujaan df
original_df = pd.read_csv("heart.csv")

# Kopiodaan data uuteen muuttujaan, jotta ei sörkitä vanhaa
df = original_df.copy()

In [None]:
# Tulostetaan ensimmäiset 5 riviä
df.head()

In [None]:
# Tulostetaan datatyypit
print(df.dtypes)

In [None]:
# Valitaan ja summataan kolesteroliarvot iän mukaan kolesteroliarvot
ages_chols = df.loc[:, ["age", "chol"]]

age_over_50 = ages_chols[ ages_chols["age"] <= 60]
age_over_50 = age_over_50[ age_over_50["age"] > 50]

age_over_60 = ages_chols[ages_chols["age"] <= 70]
age_over_60 = age_over_60[age_over_60["age"] >60]

age_over_70 = ages_chols[ ages_chols["age"] > 70 ]

chol_sum_over_50 = sum(age_over_50["chol"])
chol_sum_over_60 = sum(age_over_60["chol"])
chol_sum_over_70 = sum(age_over_70["chol"])

# Visualisoidaan data
df_plot = pd.DataFrame([[chol_sum_over_50, chol_sum_over_60, chol_sum_over_70]])
df_plot.columns = ['Age over 50', 'Age over 60', 'Age over 70']

df_plot.plot.bar(figsize=(13,8))
plt.legend(loc=2)
plt.ylabel('Cholesterol')
plt.show()

### Viisi oivaillusta tältä viikolta

1. Datatiede kattaa tilastoanalyysin lisäksi monia muita osaamisalueita
2. Dataa kerätään jatkuvasti ja paljon
3. Datan käsittelyn välineet kehittyvät huimaa vaihtua
4. Opin käyttämään Jupyteria datan käsittelyn välineenä
5. Datan mallintaminen voi mennä pienemmästäkin syntaksivirheestä pieleen

### Kehitysehdotukset

En keksi vielä tältä viikolta kehitysehdotuksia. Haluan esittää siitä kiitokset, että vanhoilla materiaaleilla pystyy suorittamaan kurssia juuri siinä aikataulussa, mikä itselle sopii. Tämä on suuri helpostus minulle aikatauluni suunnittelun suhteen.

# Luento 2

### Viikon Joda-opiskelut
Tällä viikolla katsoin sekä luennon, että demon tallenteilta. Päiväkirjan laadin luentomateriaalin avulla.

### Datatieteen prosesista
Datatieteen prosessiin kuuluu neljä päävaihetta: tiedon käsittely, analyysi, reflektio ja tulosten viestiminen vastaanottajalle soveltuvassa muodossa. Tästä proseduurista noin 80 % työpanoksesta menee ensimmäiseen vaiheeseen, mikä sisältää datan hankkimisen ja siivoamisen (80/20 -sääntö).  Data voidaan hakea esimerkiksi julkisten rajapintojen kautta, mittauslaitteiden avulla tai tuottamalla se manuaalisesti. Raakadatan perusteella ei usein voi suoraan tehdä analyysiä ja vetää siitä johtopäätöksiä, vaan se täytyy siivota ja formatoida uudestaan. Tämä johtuu siitä, että dataa tuskin on alun perin tuotettu sitä käyttötarkoitusta varten, mihin esimerkiksi tutkija sitä haluaa hyödyntää. Data saattaa usein sisältää myös virheitä (esim. perus kirjoitusvirheitä jne.), jotka saattavan kaataa tai aiheuttaa bugeja sitä käsittelevälle ohjelmistolle.

### Datatieteilijä vs datainsinööri
Yksi suurimmista eroista datatieteilijän ja datainsinöörin välillä on työprosessien eroavaisuus. ETL (Extract/Load/Transform) on tarkoitettu datainsinööreille ja DAD (Discover/Access /Distill) on datatieteilijöille. Datainsinöörin tehtävä on keskittyä datan käsittelyyn liittyviin teknisiin ratkaisuihin, kun taas datatieteilijä pyrkii luomaan datasta syvällisempää ymmärrystä ja luoda arvoa.

### Liiketoimintarelevanssi
Data-analytiikalla on kyky luoda yritykselle valmiudet suorituskyvyn parantamiseen. Tämä tapahtuu lisäämällä ymmärrystä liiketoimintaprosessisista. Data-analytiikan koostuu seuraavista teemoista:
- **Kuvaileva analytiikka**, mitä on tapahtunut?
- **Diagnosoiva analytiikka**, miksi se on tapahtunut?
- **Ennakoiva analytiikka**, mitä todennäköisesti tulee tapahtumaan?
- **Ohjaava analytiikka**, mitä asialle pitäisi tehdä?

Vaikka data-analytiikka luo edellytykset liiketoiminnan kehittämiselle, suurin osa yrityksistä ei kuitenkaan sitä ole vielä omaksunut.

### Ryömijät ja raapijat
Eräs tapa datankeruulle on ryömijöiden ja raapijoiden käyttö. Ryömijä on botti, joka on ohjelmoitu käymään systemaattisesti verkkosivuja läpi. Raapija on taas työkalu, joka kerää dataa verkkosivuilta. Käytännössä ryömijä ja raapija toimivat yhdessä siten, että raapija on ikään kuin ryömijän mukana ja kerää dataa samanaikaisesti, kun ryömijä käy verkkosivuja läpi. Ryömijöitä ja raapijoita käyttäessä tulee ottaa huomioon mahdolliset lailliset esteet, sillä niiden keräämä data ei välttämättä aina ole julkista. Tämä taas vaikuttaa siihen, kuinka kerättyä dataa saa käsitellä ja julkaista.

### Demo
Demona toteutan samanlaisen datascraperin Pythonin Scrapy-kirjastoa käyttäen. Otan tähä mallia YouTube-videosta: https://www.youtube.com/watch?v=ogPMCpcgb-E. Huomaa, että demo löytyy kokonaisuudessaan samasta repositoriosta (reddit_scraper.py).

In [4]:
# Asennetaan Scraoy, ja generoidaan scraperin skeleton
!pip install scrapy
!scrapy genspider reddit_scraper reddit.com

C:\Users\Anttoni\Documents\Koulu\Joda\oppimispaivakirja\reddit_scraper.py already exists


In [5]:
# Hakee Redditin langasta r/dogs kaikki .jpg-muotoiset kuvat

class RedditScraperSpider(scrapy.Spider):
    name = 'reddit_scraper'
    allowed_domains = ['reddit.com']
    start_urls = ['https://www.reddit.com/r/dogs/']

    def parse(self, response):
        links = response.xpath("//img/@src")
        html = ""

        for link in links:
            url = link.get()

            if any(extension in url for extension in [".jpg"]):
                html += """<a href="{url}" target="_blank"><img src="{url}" height="25%" width="25%"/><a/>""".format(url=url)

                with open("dogs.html", "a") as page:
                    page.write(html)
                    page.close()


In [8]:
# Ajetaan scripti syöttämällä seuraava käsky komentoriville
!scrapy runspider reddit_scraper.py

2021-03-19 10:53:13 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2021-03-19 10:53:13 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.2.0, Python 3.8.5 (default, Sep  3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1j  16 Feb 2021), cryptography 3.2.1, Platform Windows-10-10.0.19041-SP0
2021-03-19 10:53:13 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-03-19 10:53:13 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2021-03-19 10:53:13 [scrapy.extensions.telnet] INFO: Telnet Password: 0717d357272457e8
2021-03-19 10:53:13 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2021-03-19 10:53:13 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.htt

### Viisi oivaillusta tältä viikolta

1. 80/20 -sääntö: datan keräämiseen ja siivoamiseen menee usein kauemmin, kuin sen analysoimiseen
2. Datainsinööri hoitaa datankäsittelyn teknisen toteutuksen ja datatieteilijä luo sillä arvoa
3. Data-analytiikan neljä teemaa
4. Ryömijän ja raapijan yhteistoiminta
5. Ryömijän ja raapijan toteuttaminen Pythonin Scrapy-kirjastolla

### Kehitysehdotukset

En keksi vieläkään kehitysehdotuksia. Kurssi on ollut erittäin hyvin järjestetty (tähän mennessä), ja mielestäni monet kurssinvetäjät esim. tietotekniikan puolelta voisivat ottaa tästä mallia.