# Oppimispäiväkirja

---

## Viikko 1 - ohjelmien asennus

#### Datatiedeprojektin keskeiset Python-kirjastot:
- **Pandas**: Datan manipulaatio ja analyysi
- **Scikit-learn**: Luokittelu- ja regressioalgoritmit
- **Seaborn**: Datan visuaalinen analyysi
- **Holoviews**: Datan visualisointi
- **Streamlit**: Koneoppimisen ja datatieteen sovelluskehitys

#### Miten kirjastot kannattaa asentaa?

Kirjastojen asennukseen selkein tapa Windowsilla on käyttää command linea eli komentoriviä. Pip on Pythonin asennuksen mukana tuleva pakettien- ja kirjastojenhallintajärjestelmä, jonka avulla ohjelmat on helppo asentaa. Yleisesti kirjastojen asennus toimii komentorivikomennolla "pip install -kirjaston nimi-". Näin asensin Pandas-, Seaborn- ja Holoviews-kirjastot. Testataan, että asennukset onnistuivat:

In [2]:
import pandas
import seaborn
import holoviews

Huomasin kuitenkin, että Scikit-learn ja Streamlit -kirjastot eivät tue 32-bittistä Windowsia ja Pythonia. En siis itse saanut niitä asennettua, mutta muilla käyttöjärjestelmillä asennus toimisi samalla tavalla kuin yllä. 

#### Erilaisia ympäristövaihtoehtoja ovat:
- CSC Notebooks
- Google Colab
- Anaconda
- Microsoft Visual Studio Code
- Jupyter Lab
- pilvipalvelupohjainen analytiikkaympäristö, esim. Google Cloud Platform tai Microsoft Azure

**Mitkä ovat niiden vahvuudet ja heikkoudet?**

Osa ympäristöistä tukevat pilvipalvelupohjaista virtuaalikoneella tapahtuvaa laskentaa ja tallennusta. Näitä ovat Google Colab ja pilvipalvelupohjaiset ympäristöt. Kun datan käsittely ja laskeminen tehdään muualla, säästyy omalta tietokoneelta resursseja ja myös reaaliaikainen pilveen tallennus on hyötynä. Jupyter Lab on Jupyter Notebookille tarkoitettu ohjelma, joka antaa käyttöön monia ominaisuuksia, kuten erilaisia visualisointeja ja laajan määrän kirjastoja. Jupyter Lab on saman organisaation kehittämä kuin Jupyter Notebook ja siksi se on varma vaihtoehto. Samoin Anaconda on suosittu järjestelmä, sillä se sisältää valmiiksi monia tarpeellisia kirjastoja, esimerkiksi pakettienhallintaan käytetyn conda-järjestelmän. CSC Notebooks on suomalaisen organisaation vaihtoehto, joka myös käyttää ulkoista laskentatietokonetta. Virtual Studio Code sisältää IDEn ja mahdollisuuden ladata monia kirjastoja helposti.

Oikeastaan kaikki vaihtoehdot ovat hyviä ja on vaikea sanoa, mikä niistä olisi paras tai huonoin. Eniten eroja on siinä, käytetäänkö ulkoista laskentatehoa ja voiko sisältöä tallentaa helposti pilveen. Myös visuaalisissa puolissa on eroja.

**Miten teet valinnan ympäristöjen välillä?**

Valitsin itse käyttöön Visual Studio Coden, sillä olen käyttänyt sitä jo paljon aiemmin, eli käyttöönottoon ja opetteluun ei tarvitse käyttää aikaa turhaan. Pidän myös siitä, että mukana tulee kätevä ja selkeäkäyttöinen IDE ja VS Code tukee myös Gitin käyttöä samalla.

#### Miten dataa luetaan ja hallinnoidaan?

Dataa voidaan lukea esimerkiksi taulukoista tai muista tiedostoista ja tietokannoista. Näitä tiedostoja voivat olla esim. CSV ja JSON -päätteiset tiedostot. Ennen kuin dataa voidaan alkaa analysoimaan, se täytyy esikäsitellä, eli siitä poistetaan epäkelvot ja kaksinkertaiset arvot, se normalisoidaan ja voidaan muotoilla. Sitten dataa voidaan analysoida eri keinoin, esimerkiksi tilastollisella analyysilla. Tätä analyysia voidaan myös visualisoida esimerkiksi yllä mainituilla kirjastoilla. Data-analyysissa tavoitteena voi olla mm. ennustaminen, luokittelu tai ongelmien ratkaiseminen. Dataa hallinoidaan ja säilytetään usein tietokannoissa tai taulukkomuodossa.

---

## Viikko 2 - Aineiston kerääminen ja esikäsittely

#### Tämän projektin datalähde

Löysin mielenkiintoisen datalähteen Netflixin suosituimmista ohjelmista päivittäin. Dataa on saatavilla tammikuusta 2020 marraskuuhun 2022. Harmillisesti datalähdettä ei voi linkata suoraan nettisivulta, sillä sen lataaminen vaati sisäänkirjautumista. Datalähde on kuitenkin ladattuna samassa kansiossa kuin tämä päiväkirja. Datan voi myös löytää [tältä sivulta](https://www.kaggle.com/datasets/prasertk/netflix-daily-top-10-in-us?resource=download).

#### Datan lukeminen Pythonilla

Pythonilla yleisin datan lukemiseen käytetty kirjasto on Pandas. Pandasilla voi lukea tietoa suoraan erilaisista datatiedostoista, esim. CSV ja JSON tai luoda oman dataluokan kaksiulotteisena taulukkona. Esimerkkinä luku .csv-tiedostosta: 

In [5]:
pandas.read_csv("netflix_daily_top_10.csv")

Unnamed: 0,As of,Rank,Year to Date Rank,Last Week Rank,Title,Type,Netflix Exclusive,Netflix Release Date,Days In Top 10,Viewership Score
0,2020-04-01,1,1,1,"Tiger King: Murder, Mayhem …",TV Show,Yes,"Mar 20, 2020",9,90
1,2020-04-01,2,2,-,Ozark,TV Show,Yes,"Jul 21, 2017",5,45
2,2020-04-01,3,3,2,All American,TV Show,,"Mar 28, 2019",9,76
3,2020-04-01,4,4,-,Blood Father,Movie,,"Mar 26, 2020",5,30
4,2020-04-01,5,5,4,The Platform,Movie,Yes,"Mar 20, 2020",9,55
...,...,...,...,...,...,...,...,...,...,...
7095,2022-03-11,6,5,1,Worst Roommate Ever,TV Show,Yes,"Mar 1, 2022",10,81
7096,2022-03-11,7,7,2,Vikings: Valhalla,TV Show,Yes,"Feb 25, 2022",14,100
7097,2022-03-11,8,8,-,Shooter,Movie,,"Aug 1, 2014",3,7
7098,2022-03-11,9,9,7,Shrek 2,Movie,,"Mar 1, 2022",10,33


Muita vaihtoehtoja ovat esimerkiksi Pythonin moduuli "csv", jonka reader-funktion avulla voidaan lukea CSV-tiedostoja seuraavanlaisesti:

In [None]:
csv.reader("tiedoston nimi")

Pythonissa on myös toinen sisäänrakennettu paketti "json", jonka avulla JSON-tiedostoja voi muuttaa Pythonin dictionaryn muotoon. Muutos toimii seuraavasti:

In [None]:
json.loads("tiedoston nimi")

Molemmat Pythonin omat moduulit / paketit ovat kuitenkin vaikeampia käyttää kuin Pandas, sillä niissä data pitää käydä rivi kerrallaan läpi, eikä esimerkiksi kokoa taulukon tulostukseen ole suoraa funktiota.

#### Datan esittäminen ja DataFrame

Koneoppimisprojekteissa data esitetään usein taulukkomuodossa, jossa jokainen rivi vastaa yhtä havaintoa tai esimerkkiä, ja jokainen sarakkeista vastaa havainnon piirrettä tai ominaisuutta. Tämä taulukkomuotoinen esitys voi olla DataFrame, joka on Pandas-kirjaston tarjoama tietorakenne Pythonissa.  Valitussa Netflix-datasetissa jokainen rivi on yksi havainto eli päivä ja jokainen sarake päivän ohjelmien ominaisuus, (esimerkiksi ohjelman nimi).

DataFrame on taulukko, joka koostuu riveistä ja sarakkeista. Se tarjoaa kätevän tavan järjestää, analysoida ja manipuloida dataa Pythonissa. DataFrame on erityisen hyödyllinen koneoppimisprojekteissa, koska se mahdollistaa datan lataamisen, esikäsittelyn, visualisoinnin ja mallin sovittamisen helposti.

#### Datan hallinta ja to_pickle()

To_pickle() -metodi tarjoaa kätevän tavan tallentaa DataFrame-objekti binäärimuodossa, mikä helpottaa tiedon hallintaa. Tallennus on kätevää, kun DataFramen haluaa tallentaa väliaikaisesti tai jakaa sen muille. Pkl-muotoinen tiedosto on myös nopeampi lukea ja tallentaa kuin esimerkiksi csv-tiedosto.