### Ohjattu oppiminen

Arvioidaan Netflixin katsotuimpia ohjelmia päivittäin. Yritetään selvittää, vaikuttaako Netflixin yksinoikeus (exclusive) ohjelman suosioon, eli tässä tapauksessa sen päivien määrään top 10:ssä.

Datasetin saa ladattua [tältä sivulta](https://www.kaggle.com/datasets/prasertk/netflix-daily-top-10-in-us?resource=download) (pitää kirjautua, sori) tai [GitHubista](https://github.com/Bunny-Hopper/netflix-source)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Lataa datasetti
data = pd.read_csv('netflix_daily_top_10.csv')

# Muuta Yes-arvo numeroksi 1 ja tyhjät arvot nollaksi
data['Netflix Exclusive'] = data['Netflix Exclusive'].apply(lambda x: 1 if x == 'Yes' else 0)

# Jaetaan data piirteisiin (X) ja kohdemuuttujaan (y)
X = data[['Netflix Exclusive']]
y = data['Days In Top 10']

# Jaetaan data koulutus- ja testausjoukkoihin
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Koulutetaan lineaarinen regressiomalli
model = LinearRegression()

model.fit(X_train, y_train)

# Tehdään ennuste
y_pred = model.predict(X_test)

# Sitten visualisoidaan malli
plt.figure(figsize=(10, 6))
sns.scatterplot(x=X_test['Netflix Exclusive'], y=y_test, color='blue', label='Actual Data')
sns.lineplot(x=X_test['Netflix Exclusive'], y=y_pred, color='red', label='Regression Line')
plt.xlabel('Netflixin yksinoikeus (1=on, 0=ei)')
plt.ylabel('Päivät Top 10:ssä')
plt.title('Netflixin yksinoikeuden vaikutus päivien määrään Top 10:ssä')
plt.legend()
plt.show()

Visuaalisaation avulla voidaan (ehkä) arvioida, että ohjelmat ovat kauemmin top 10:ssä katsotuimmassa ohjelmassa, kun ne eivät ole Netflixin yksinoikeudella jakamia.