# Oppimispäiväkirja

---

## Viikko 1 - ohjelmien asennus

#### Datatiedeprojektin keskeiset Python-kirjastot:
- **Pandas**: Datan manipulaatio ja analyysi
- **Scikit-learn**: Luokittelu- ja regressioalgoritmit
- **Seaborn**: Datan visuaalinen analyysi
- **Holoviews**: Datan visualisointi
- **Streamlit**: Koneoppimisen ja datatieteen sovelluskehitys

#### Miten kirjastot kannattaa asentaa?

Kirjastojen asennukseen selkein tapa Windowsilla on käyttää command linea eli komentoriviä. Pip on Pythonin asennuksen mukana tuleva pakettien- ja kirjastojenhallintajärjestelmä, jonka avulla ohjelmat on helppo asentaa. Yleisesti kirjastojen asennus toimii komentorivikomennolla "pip install -kirjaston nimi-". Näin asensin Pandas-, Seaborn- ja Holoviews-kirjastot. Testataan, että asennukset onnistuivat:

In [2]:
import pandas as pd
import seaborn
import holoviews

Huomasin kuitenkin, että Scikit-learn ja Streamlit -kirjastot eivät tue 32-bittistä Windowsia ja Pythonia. En siis itse saanut niitä asennettua, mutta muilla käyttöjärjestelmillä asennus toimisi samalla tavalla kuin yllä. Käytin niiden käyttämiseen Google Colabia.

#### Erilaisia ympäristövaihtoehtoja ovat:
- CSC Notebooks
- Google Colab
- Anaconda
- Microsoft Visual Studio Code
- Jupyter Lab
- pilvipalvelupohjainen analytiikkaympäristö, esim. Google Cloud Platform tai Microsoft Azure

**Mitkä ovat niiden vahvuudet ja heikkoudet?**

Osa ympäristöistä tukevat pilvipalvelupohjaista virtuaalikoneella tapahtuvaa laskentaa ja tallennusta. Näitä ovat Google Colab ja pilvipalvelupohjaiset ympäristöt. Kun datan käsittely ja laskeminen tehdään muualla, säästyy omalta tietokoneelta resursseja ja myös reaaliaikainen pilveen tallennus on hyötynä. Jupyter Lab on Jupyter Notebookille tarkoitettu ohjelma, joka antaa käyttöön monia ominaisuuksia, kuten erilaisia visualisointeja ja laajan määrän kirjastoja. Jupyter Lab on saman organisaation kehittämä kuin Jupyter Notebook ja siksi se on varma vaihtoehto. Samoin Anaconda on suosittu järjestelmä, sillä se sisältää valmiiksi monia tarpeellisia kirjastoja, esimerkiksi pakettienhallintaan käytetyn conda-järjestelmän. CSC Notebooks on suomalaisen organisaation vaihtoehto, joka myös käyttää ulkoista laskentatietokonetta. Virtual Studio Code sisältää IDEn ja mahdollisuuden ladata monia kirjastoja helposti.

Oikeastaan kaikki vaihtoehdot ovat hyviä ja on vaikea sanoa, mikä niistä olisi paras tai huonoin. Eniten eroja on siinä, käytetäänkö ulkoista laskentatehoa ja voiko sisältöä tallentaa helposti pilveen. Myös visuaalisissa puolissa on eroja.

**Miten teet valinnan ympäristöjen välillä?**

Valitsin itse käyttöön Visual Studio Coden, sillä olen käyttänyt sitä jo paljon aiemmin, eli käyttöönottoon ja opetteluun ei tarvitse käyttää aikaa turhaan. Pidän myös siitä, että mukana tulee kätevä ja selkeäkäyttöinen IDE ja VS Code tukee myös Gitin käyttöä samalla. Google Colabia suositeltiin yhdessä demosessiossa, jos kaikkia kirjastoja ei ollut asentanut vielä omalle koneelleen, joten päätin hyödyntää sitä Scikit-learn -kirjaston kanssa.

#### Miten dataa luetaan ja hallinnoidaan?

Dataa voidaan lukea esimerkiksi taulukoista tai muista tiedostoista ja tietokannoista. Näitä tiedostoja voivat olla esim. CSV ja JSON -päätteiset tiedostot. Ennen kuin dataa voidaan alkaa analysoimaan, se täytyy esikäsitellä, eli siitä poistetaan epäkelvot ja kaksinkertaiset arvot, se normalisoidaan ja voidaan muotoilla. Sitten dataa voidaan analysoida eri keinoin, esimerkiksi tilastollisella analyysilla. Tätä analyysia voidaan myös visualisoida esimerkiksi yllä mainituilla kirjastoilla. Data-analyysissa tavoitteena voi olla mm. ennustaminen, luokittelu tai ongelmien ratkaiseminen. Dataa hallinoidaan ja säilytetään usein tietokannoissa tai taulukkomuodossa.

---

## Viikko 2 - Aineiston kerääminen ja esikäsittely

#### Tämän projektin datalähde

Löysin mielenkiintoisen datalähteen Netflixin suosituimmista ohjelmista päivittäin. Dataa on saatavilla tammikuusta 2020 marraskuuhun 2022. Harmillisesti datalähdettä ei voi lukea linkistä suoraan nettisivulta, sillä sen lataaminen vaati sisäänkirjautumista. Datalähde on kuitenkin ladattuna samassa kansiossa kuin tämä päiväkirja nimellä 'netflix_daily_top_10.csv'. Datan voi myös löytää [tältä sivulta](https://www.kaggle.com/datasets/prasertk/netflix-daily-top-10-in-us?resource=download). 

Toinen datalähde, jota mahdollisesti käytän projektissa, on TMDB:n arvostelut 5000 ohjelmasta. Datalähde löytyy tästä kansiosta nimellä 'tmdb_5000_movies.csv'. TMDB:n datalähteen voi myös löytää [tältä sivulta](https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata/data).

Ajatuksena olisi yhdistää näitä Netlixin ja TMDB:n datalähdeitä jotenkin. Tällä hetkellä ideana on verrata Netflixin ohjelmien päivittäistä suosiota TMDB:n arvostelunumeroihin ja löytää, onko näillä jokin suhde.

#### Datan lukeminen Pythonilla

Pythonilla yleisin datan lukemiseen käytetty kirjasto on Pandas. Pandasilla voi lukea tietoa suoraan erilaisista datatiedostoista, esim. CSV ja JSON tai luoda oman dataluokan kaksiulotteisena taulukkona. Esimerkkinä luku Netflix-ohjelmien .csv-tiedostosta: 

In [38]:
df_nf = pd.read_csv("netflix_daily_top_10.csv")
df_nf.head()

Unnamed: 0,As of,Rank,Year to Date Rank,Last Week Rank,Title,Type,Netflix Exclusive,Netflix Release Date,Days In Top 10,Viewership Score
0,2020-04-01,1,1,1,"Tiger King: Murder, Mayhem …",TV Show,Yes,"Mar 20, 2020",9,90
1,2020-04-01,2,2,-,Ozark,TV Show,Yes,"Jul 21, 2017",5,45
2,2020-04-01,3,3,2,All American,TV Show,,"Mar 28, 2019",9,76
3,2020-04-01,4,4,-,Blood Father,Movie,,"Mar 26, 2020",5,30
4,2020-04-01,5,5,4,The Platform,Movie,Yes,"Mar 20, 2020",9,55


Tulosteen avulla voidaan tutkia datalähteen sisältöä. Jokaisella arvolla on päivämäärä, kyseisen päivän sija top 10:ssä, sija suhteessa muihin ohjelmiin samana vuonna, keskimäärinen sija kuluneelta viikolta, ohjelman nimi, ohjelman tyyppi, onko ohjelma Netflixin yksinoikeudella, julkaisupäivä Netflixissä, päivät top 10:ssä yhteensä ja katsojamäärä. 

Katsojamäärän määrittelyssä tuli muutos 16.11.2021 [tämän artikkelin mukaan](https://www.wsj.com/articles/netflix-changes-how-it-ranks-its-most-popular-shows-11637092802) eli noin puolessavälissä tätä dataa, joten en aio käyttää sitä ollenkaan. Poistetaan kyseinen sarake kokonaan:

In [18]:
df_nf = df_nf.drop(columns="Viewership Score")
df_nf.head()

Unnamed: 0,As of,Rank,Year to Date Rank,Last Week Rank,Title,Type,Netflix Exclusive,Netflix Release Date,Days In Top 10
0,2020-04-01,1,1,1,"Tiger King: Murder, Mayhem …",TV Show,Yes,"Mar 20, 2020",9
1,2020-04-01,2,2,-,Ozark,TV Show,Yes,"Jul 21, 2017",5
2,2020-04-01,3,3,2,All American,TV Show,,"Mar 28, 2019",9
3,2020-04-01,4,4,-,Blood Father,Movie,,"Mar 26, 2020",5
4,2020-04-01,5,5,4,The Platform,Movie,Yes,"Mar 20, 2020",9


Luetaan data myös TMDB:n datalähteestä:

In [19]:
df_tmdb = pd.read_csv("tmdb_5000_movies.csv")
df_tmdb.head()

Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",http://disney.go.com/disneypictures/pirates/,285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2007-05-19,961000000,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500
2,245000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.sonypictures.com/movies/spectre/,206647,"[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name...",en,Spectre,A cryptic message from Bond’s past sends him o...,107.376788,"[{""name"": ""Columbia Pictures"", ""id"": 5}, {""nam...","[{""iso_3166_1"": ""GB"", ""name"": ""United Kingdom""...",2015-10-26,880674609,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",Released,A Plan No One Escapes,Spectre,6.3,4466
3,250000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""nam...",http://www.thedarkknightrises.com/,49026,"[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853,...",en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,"[{""name"": ""Legendary Pictures"", ""id"": 923}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2012-07-16,1084939099,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Legend Ends,The Dark Knight Rises,7.6,9106
4,260000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://movies.disney.com/john-carter,49529,"[{""id"": 818, ""name"": ""based on novel""}, {""id"":...",en,John Carter,"John Carter is a war-weary, former military ca...",43.926995,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}]","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2012-03-07,284139100,132.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"Lost in our world, found in another.",John Carter,6.1,2124


Koska Netflixin datasetissä on dataa aika pieneltä aikaväliltä, aloin miettimään, onko TMDB:n datasetissä edes ohjelmia samalta ajalta. Järjestetään TMDB:n ohjelmat aikajärjestykseen ja tulostetaan uusimmat ohjelmat:

In [14]:
sorted_df = df_tmdb.sort_values(by='release_date')
sorted_df.tail()

Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
4720,8500000,"[{""id"": 18, ""name"": ""Drama""}]",http://www.foxsearchlight.com/thebirthofanation/,339408,"[{""id"": 2831, ""name"": ""slavery""}]",en,The Birth of a Nation,"Nat Turner, a former slave in America, leads a...",9.452808,"[{""name"": ""Phantom Four"", ""id"": 423}, {""name"":...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2016-09-09,15861566,120.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Untold Story of Nat Turner,The Birth of a Nation,6.5,178
3302,8000000,"[{""id"": 18, ""name"": ""Drama""}]",,374461,"[{""id"": 1650, ""name"": ""cook""}, {""id"": 6054, ""n...",en,Mr. Church,A unique friendship develops when a little gir...,7.828459,"[{""name"": ""Envision Media Arts"", ""id"": 19456},...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2016-09-16,0,104.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,He was the one person she could always count on.,Mr. Church,7.0,129
3408,0,"[{""id"": 18, ""name"": ""Drama""}, {""id"": 10749, ""n...",,325373,"[{""id"": 1415, ""name"": ""small town""}, {""id"": 46...",en,Two Lovers and a Bear,Set in a small town near the North Pole where ...,3.139294,[],[],2016-10-02,0,96.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,,Two Lovers and a Bear,6.8,27
4255,0,"[{""id"": 35, ""name"": ""Comedy""}, {""id"": 10751, ""...",http://www.growingupsmithmovie.com,426469,[],en,Growing Up Smith,"In 1979, an Indian family moves to America wit...",0.71087,[],[],2017-02-03,0,102.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,It’s better to stand out than to fit in.,Growing Up Smith,7.4,7
4553,0,[],,380097,[],en,America Is Still the Place,1971 post civil rights San Francisco seemed li...,0.0,[],[],,0,0.0,[],Released,,America Is Still the Place,0.0,0


Uusin julkaisu on vuodelta 2017. Voi kuitenkin olla, että vanhatkin ohjelmat olisivat tulleet Netflixiin vasta myöhemmin. Yhdistetään molemmat datasetit otiskkojen mukaan:

In [21]:
merged_df = pd.merge(df_nf, df_tmdb, left_on='Title', right_on='title')
print(merged_df)

          As of  Rank Year to Date Rank Last Week Rank         Title   Type  \
0    2020-04-02     7                 -              -  The Roommate  Movie   
1    2020-04-03     6                 7              -  The Roommate  Movie   
2    2020-04-04     7                 6              -  The Roommate  Movie   
3    2020-04-05     8                 7              -  The Roommate  Movie   
4    2020-04-06     9                 8              -  The Roommate  Movie   
..          ...   ...               ...            ...           ...    ...   
715  2022-03-10    10                 8              -         Shrek  Movie   
716  2022-03-11    10                10              -         Shrek  Movie   
717  2022-03-09    10                 -              -       Shooter  Movie   
718  2022-03-10     8                10              -       Shooter  Movie   
719  2022-03-11     8                 8              -       Shooter  Movie   

    Netflix Exclusive Netflix Release Date  Days In

Saadaan 720 riviä ohjelmia, mutta selkeästi suurin osa on duplikaatteja. Poistetaan ne:

In [24]:
deduplicated_df = merged_df.drop_duplicates(subset=['Title'])

# Print the deduplicated DataFrame
print(deduplicated_df)

          As of  Rank Year to Date Rank Last Week Rank             Title  \
0    2020-04-02     7                 -              -      The Roommate   
5    2020-04-03     8                 -              -  The Players Club   
7    2020-04-03     9                 -              -              Salt   
8    2020-04-06    10                 -              -      The Hangover   
11   2020-04-13     7                 -              -               Hop   
..          ...   ...               ...            ...               ...   
693  2022-03-02     6                 -              -           Shrek 2   
703  2022-03-02     7                 -              -        Battleship   
706  2022-03-02     8                 -              -  Just Like Heaven   
710  2022-03-05    10                 -              -             Shrek   
717  2022-03-09    10                 -              -           Shooter   

      Type Netflix Exclusive Netflix Release Date  Days In Top 10     budget  \
0    Mo

Nyt jäljellä on vain 106 ohjelmaa, joten joudun valitettavasti hylkäämään alkuperäisen idean datasettien yhdistämisestä. Jatketaan pelkällä Netflixin datasetilla.

Muita vaihtoehtoja datan lukemiseen ovat esimerkiksi Pythonin moduuli "csv", jonka reader-funktion avulla voidaan lukea CSV-tiedostoja seuraavanlaisesti:

In [None]:
# csv.reader("tiedoston nimi")

Pythonissa on myös toinen sisäänrakennettu paketti "json", jonka avulla JSON-tiedostoja voi muuttaa Pythonin dictionaryn muotoon. Muutos toimii seuraavasti:

In [None]:
# json.loads("tiedoston nimi")

Molemmat Pythonin omat moduulit / paketit ovat kuitenkin vaikeampia käyttää kuin Pandas, sillä niissä data pitää käydä rivi kerrallaan läpi, eikä esimerkiksi kokoa taulukon tulostukseen ole suoraa funktiota.

#### Datan esittäminen ja DataFrame

Koneoppimisprojekteissa data esitetään usein taulukkomuodossa, jossa jokainen rivi vastaa yhtä havaintoa tai esimerkkiä, ja jokainen sarakkeista vastaa havainnon piirrettä tai ominaisuutta. Tämä taulukkomuotoinen esitys voi olla DataFrame, joka on Pandas-kirjaston tarjoama tietorakenne Pythonissa.  Valitussa Netflix-datasetissa jokainen rivi on yksi havainto eli päivä ja jokainen sarake päivän ohjelmien ominaisuus, (esimerkiksi ohjelman nimi).

DataFrame on taulukko, joka koostuu riveistä ja sarakkeista. Se tarjoaa kätevän tavan järjestää, analysoida ja manipuloida dataa Pythonissa. DataFrame on erityisen hyödyllinen koneoppimisprojekteissa, koska se mahdollistaa datan lataamisen, esikäsittelyn, visualisoinnin ja mallin sovittamisen helposti.

#### Datan hallinta ja to_pickle()

To_pickle() -metodi tarjoaa kätevän tavan tallentaa DataFrame-objekti binäärimuodossa, mikä helpottaa tiedon hallintaa. Tallennus on kätevää, kun DataFramen haluaa tallentaa väliaikaisesti tai jakaa sen muille. Pkl-muotoinen tiedosto on myös nopeampi lukea ja tallentaa kuin esimerkiksi csv-tiedosto.

## Viikko 3: Datan esikäsittely ja puhdistaminen

Tutkitaan Netflix-dataa ja tulostetaan, onko siinä tyhjiä arvoja:

In [25]:
print(df_nf.isna().sum())

As of                      0
Rank                       0
Year to Date Rank          0
Last Week Rank             0
Title                      0
Type                       0
Netflix Exclusive       2501
Netflix Release Date       0
Days In Top 10             0
dtype: int64


Pelkästään 'Netflix Exclusive' -sarakkeessa on tyhjiä arvoja. Ne vaikuttavat tarkoittavan sarakkeessa eitä, sillä ainoa toinen arvo sarakkeessa on kyllä. Muutetaan arvot sanallisiksi arvoiksi:

In [27]:
df_nf.fillna("No", inplace=True)
df_nf.head()

Unnamed: 0,As of,Rank,Year to Date Rank,Last Week Rank,Title,Type,Netflix Exclusive,Netflix Release Date,Days In Top 10
0,2020-04-01,1,1,1,"Tiger King: Murder, Mayhem …",TV Show,Yes,"Mar 20, 2020",9
1,2020-04-01,2,2,-,Ozark,TV Show,Yes,"Jul 21, 2017",5
2,2020-04-01,3,3,2,All American,TV Show,No,"Mar 28, 2019",9
3,2020-04-01,4,4,-,Blood Father,Movie,No,"Mar 26, 2020",5
4,2020-04-01,5,5,4,The Platform,Movie,Yes,"Mar 20, 2020",9


Muutetaan vielä 'Netflix Release Date' -sarakkeen arvot datetime-muotoon, jotta ne ovat 'As of' -sarakkeen mukaisia ja että Pandas tunnistaa ne päivämääriksi.

In [29]:
df_nf['Netflix Release Date'] = pd.to_datetime(df_nf['Netflix Release Date'])
df_nf.head()

Unnamed: 0,As of,Rank,Year to Date Rank,Last Week Rank,Title,Type,Netflix Exclusive,Netflix Release Date,Days In Top 10
0,2020-04-01,1,1,1,"Tiger King: Murder, Mayhem …",TV Show,Yes,2020-03-20,9
1,2020-04-01,2,2,-,Ozark,TV Show,Yes,2017-07-21,5
2,2020-04-01,3,3,2,All American,TV Show,No,2019-03-28,9
3,2020-04-01,4,4,-,Blood Father,Movie,No,2020-03-26,5
4,2020-04-01,5,5,4,The Platform,Movie,Yes,2020-03-20,9


Kuten aiemmin huomattiin, jommassakummassa datasetissä oli samoja ohjelmia listattuna monta kertaa. Tarkistetaan tämän datasetin duplikaatit otsikoissa:

In [33]:
df_nf.duplicated(subset=['Title']).sum()

6455

Poistetaan duplikaatit siten, että jätetään ne arvot, joilla 'Days in Top 10' on suurin, eli jokaisen ohjelman ennätysmäärä päivistä top 10:ssä.

In [39]:
# Järjestetään siis ensin halutun arvon mukaan
dfsort = df_nf.sort_values(by = "Days In Top 10", ascending=False, na_position="last")
# Sitten poistetaan duplikaatit, näin vain ylin eli tässä suurin arvo jää datasettiin
df_nf = dfsort.drop_duplicates(subset="Title")
df_nf.head()

Unnamed: 0,As of,Rank,Year to Date Rank,Last Week Rank,Title,Type,Netflix Exclusive,Netflix Release Date,Days In Top 10,Viewership Score
6998,2022-03-01,9,-,-,Cocomelon,TV Show,,"Jun 1, 2020",428,1474
6996,2022-03-01,7,7,8,Ozark,TV Show,Yes,"Jul 21, 2017",89,536
6678,2022-01-28,9,7,5,Cobra Kai,TV Show,,"Aug 28, 2020",81,582
5347,2021-09-17,8,7,6,Manifest,TV Show,,"Jun 10, 2021",80,590
2809,2021-01-06,10,9,6,The Queenâs Gambit,TV Show,Yes,"Oct 23, 2020",73,446


Katsotaan vielä, kuinka monta ohjelmaa jäi jäljelle:

In [42]:
df_nf.shape[0]

645

## Viikko 4: Datatiedeprojektin vaiheet

Datatiedeprojektin vaiheet voivat vaihdella hieman organisaation ja projektin tarpeiden mukaan, mutta yleensä ne seuraavat suunnilleen seuraavaa rakennetta:

1. Ongelman määrittely: Ymmärrä liiketoimintaongelma tai tavoite, jota pyrit ratkaisemaan. Selvitä, mitä tietoa tarvitaan ja mitä halutaan saavuttaa.

2. Tiedon kerääminen: Hanki tarvittava data. Tämä voi sisältää tietojen keräämistä eri tietolähteistä, kuten tietokannoista, API:sta, tiedostoista jne.

3. Dataesikäsittely: Puhdista ja valmistele data analyysia varten. Tähän sisältyy puuttuvien arvojen käsittely, epäkelpojen arvojen poisto, muuttujien skaalaus ja muunnokset, sekä tarvittaessa ominaisuuksien valinta.

4. Tiedon analysointi ja tutkiminen: Tutki dataa ja etsi siitä merkityksellisiä kaavoja, trendejä ja korrelaatioita. Visualisoi dataa tarvittaessa paremman ymmärryksen saamiseksi.

5. Mallin valinta ja koulutus: Valitse sopiva koneoppimismalli ongelman ratkaisemiseksi ja kouluta se käyttäen koulutusdataa. Tämä voi sisältää päätöspuut, lineaarinen regressio, tukivektorikoneet, neuroverkot jne.

6. Mallin arviointi: Arvioi mallin suorituskykyä testidataa käyttämällä. Käytä asiaankuuluvia suorituskyvyn mittareita, kuten tarkkuutta, tarkkuutta, tarkkuutta, tarkkuutta ja/tai virheellisten positiivisten ja negatiivisten suhteiden määriä.

7. Mallin hienosäätö: Tarvittaessa hienosäädä mallia paremman suorituskyvyn saavuttamiseksi. Tämä voi sisältää hyperparametrien optimointia, ristiin validointia ja mallin uudelleenkoulutusta.

8. Mallin käyttöönotto: Aseta koulutettu malli tuotantoympäristöön tai muuhun käyttötarkoitukseen. Seuraa mallin suorituskykyä ja suorita tarvittaessa jatkuvaa ylläpitoa ja päivityksiä.

On olemassa useita viitekehyksiä ja malleja, jotka auttavat suunnittelemaan ja toteuttamaan datatiedeprojekteja tehokkaasti. Näitä ovat esimerkiksi CRISP-DM (Cross-Industry Standard Process for Data Mining) ja TDSP (Team Data Science Process). Nämä mallit tarjoavat rakenteen ja vaiheistuksen datatiedeprojektien suunnitteluun ja toteuttamiseen, mikä auttaa organisaatioita hallitsemaan projektejaan paremmin ja varmistamaan, että ne saavuttavat tavoitteensa tehokkaasti.

## Viikko x: Yksinkertainen ennustaminen

Arvioidaan Netflixin katsotuimpia ohjelmia päivittäin. Yritetään selvittää, vaikuttaako Netflixin yksinoikeus (exclusive) ohjelman suosioon, eli tässä tapauksessa sen päivien määrään top 10:ssä.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Lataa datasetti
data = pd.read_csv('netflix_daily_top_10.csv')

# Muuta Yes-arvo numeroksi 1 ja tyhjät arvot nollaksi
data['Netflix Exclusive'] = data['Netflix Exclusive'].apply(lambda x: 1 if x == 'Yes' else 0)

# Jaetaan data piirteisiin (X) ja kohdemuuttujaan (y)
X = data[['Netflix Exclusive']]
y = data['Days In Top 10']

# Jaetaan data koulutus- ja testausjoukkoihin
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Koulutetaan lineaarinen regressiomalli
model = LinearRegression()

model.fit(X_train, y_train)

# Tehdään ennuste
y_pred = model.predict(X_test)

# Sitten visualisoidaan malli
plt.figure(figsize=(10, 6))
sns.scatterplot(x=X_test['Netflix Exclusive'], y=y_test, color='blue', label='Actual Data')
sns.lineplot(x=X_test['Netflix Exclusive'], y=y_pred, color='red', label='Regression Line')
plt.xlabel('Netflixin yksinoikeus (1=on, 0=ei)')
plt.ylabel('Päivät Top 10:ssä')
plt.title('Netflixin yksinoikeuden vaikutus päivien määrään Top 10:ssä')
plt.legend()
plt.show()

Visuaalisaation avulla voidaan (ehkä) arvioida, että ohjelmat ovat kauemmin top 10:ssä katsotuimmassa ohjelmassa, kun ne eivät ole Netflixin yksinoikeudella jakamia. Mallin tarkkuutta voidaan arvioida:

In [None]:
mse = mean_squared_error(y_test, y_pred)
print('Mean Squared Error:', mse)

Virhe on aika suuri, joten en ehkä luottaisi malliin.