# UAB - Aprendizaje Computacional  


## Cas Kaggle 

### Introducció

La base de dades consisteix en un conjunt de pel·lícules majoritàriament del segle 21 però també del segle 20.
Cada pel·lícula té marcat en quina plataforma de Streaming hi és.

Plataformes hi ha les 4 més importants avui dia: Netflix, Hulu, Prime Video i Disney +.
També conté la valoració de cadascuna de les pel·lícules a la web "Rotten Tomatoes". És una web molt coneguda i respectada a escala mundial sobre el món cinematogràfic.

La idea darrere d'aquest dataset és poder saber a quina plataforma anar quan es vulgui veure una pel·lícula en particular, i també fer un estudi sobre els conjunts de pel·lícules orientades a una franja d'edat i les plataformes que les ofereixen.

### Llibreries usades

In [1]:
import numpy as np
import os
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn import svm, ensemble,metrics
from sklearn.model_selection import train_test_split, GridSearchCV,RandomizedSearchCV,KFold, StratifiedKFold, cross_val_score,LeaveOneOut
from numpy import mean,std
import seaborn as sns
from sklearn.metrics import confusion_matrix, accuracy_score,precision_score, recall_score, f1_score, accuracy_score,roc_curve,classification_report,auc,precision_recall_curve
from sklearn.preprocessing import OneHotEncoder
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
import warnings
import altair as alt
from imblearn.under_sampling import RandomUnderSampler
import timeit
from collections import Counter

## Informació de les dades

### Càrrega del Dataset:

Primer carregarem el dataset i farem un estudi de les dades per entendre-les en profunditat. Si és necessari es farà una neteja de les dades.

In [2]:
dataset = "../data/archive/MoviesOnStreamingPlatforms.csv"
dades = pd.read_csv(dataset)

Observant les dades podem veure que la primera columna és el número de fila i que l'última és el tipus: pel·lícula o sèrie de televisió. Però observant la web kaggle sabem que totes les files corresponen a pel·lícules, no hi ha cap sèrie de televisió. Per tant, cap de les dues columnes dona cap informació rellevant, així que s'eliminen:

In [3]:
# Eliminem la primera columna perquè es tracta d'un index que no ens fa falta
dades.drop(dades.columns[0], inplace = True, axis = 1)
dades.drop(dades.columns[-1], inplace = True, axis = 1)
# Printem les 5 primeres linies per observar que s'ha eliminat correctament
dades.head()

Unnamed: 0,ID,Title,Year,Age,Rotten Tomatoes,Netflix,Hulu,Prime Video,Disney+
0,1,The Irishman,2019,18+,98/100,1,0,0,0
1,2,Dangal,2016,7+,97/100,1,0,0,0
2,3,David Attenborough: A Life on Our Planet,2020,7+,95/100,1,0,0,0
3,4,Lagaan: Once Upon a Time in India,2001,7+,94/100,1,0,0,0
4,5,Roma,2018,18+,94/100,1,0,0,0


In [4]:
print("files: {}".format(dades.shape[0]))
print("columnes: {}".format(dades.shape[1]))

files: 9515
columnes: 9


Com es pot observar a les 5 files printades d'exemple, el dataset té un id, l'any de sortida de la pel·lícula, el mínim d'edat recomanat, la valoració i a quines plataformes hi és. Equival a 8 columnes significatives, 10 el dataset total.

In [5]:
null_counts = dades.isnull().sum()
null_counts[null_counts>0]

Age                4177
Rotten Tomatoes       7
dtype: int64

Com es pot Observar hi ha un gran número de nulls a la columna "Age" i pocs a la "Rotten Tomatoes". Els nulls de la segona columna són massa pocs perquè aquests siguin rellevants per l'estudi, però els 4177 nulls de la primera si afectarien gaire als resultats. Per tant, es procedeix a eliminar les files que tinguin null:

In [6]:
dades = dades.dropna(subset=['Age'])
print("files: {}".format(dades.shape[0]))

files: 5338


## Anàlisi de la informació

Ara que ja s'ha netejat el dataset i s'ha estudiat bé les dades ja podem començar amb l'anàlisi.

Hem vist que les columnes que representen si una pel·lícula hi és o no en una plataforma de Streaming, són categòriques, és a dir, només poden tenir 2 valors: 0 o 1. Per tant, podem extreure gràfiques de la proporció dels 2 valors que té cada plataforma, i així saber quina d'elles té més pel·lícules:

In [7]:
# Funció per la visualització en un gràfic de barres per la distribució de l'atribut x que es pasa com a paràmetre 
def plot_distributionCount(x, data):
    plt.subplots(figsize=(6, 4))
    sns.countplot(x=x, data=data, order=data[x].value_counts().index, palette='icefire_r')
    plt.xlabel('sentiment')
    plt.tight_layout()
    plt.show()