# Introduction

[A écrire]

## Importation des Packages

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import urllib
import bs4
import re
import copy
import collections as co

import plotly as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.offline import init_notebook_mode
import matplotlib.pyplot as mplt



from wordcloud import WordCloud
from wordcloud import STOPWORDS
from PIL import Image
import requests
from io import BytesIO

# Récupération et traitement des données

On a les bases : 
- `All streaming shows` (AS) trouvée sur kaggle
- `Netflix titles` trouvée sur kaggle
- `IMDB 250` scrapée sur le site éponyme : df_tvshow
- `df_carac` scrappée sur "https://www.the-numbers.com/home-market/netflix-daily-chart/2020/12/06"

On avait commencé à travailler sur `Netflix Titles` mais le manque de variables exploitables pour une modélisation nous a mené à chercher d'autres bases.<br>

On avait donc scrappé IMDB pour récupérer le TOP 250 des films et des séries (selon IMDB), cette base n'a finalement pas beaucoup servi les titres étant en français (impossible de trouver une version du site où les titres étaient en anglais).<br>

On a ensuite scrapper les données du site 'https://www.the-numbers.com/home-market/netflix-daily-chart/2020/12/06' qui recense quotidiennement depuis mi mars 2020 le Top 10 Netflix, donne quelques caractéristiques de ces films et séries et calcule un score d'audience : chaque jour à la première place donne 10 points, à la deuxième 9 etc...<br>

Nous nous sommes alors heurté à un problème de cohérence temporelle. En effet notre base originale avec les caractéristiques des séries (`Netflix Titles`) s'arrêtait en janvier 2020 et notre base des Top quotidien commencaient début 2020, la plupart des titres contenus dans cette dernière n'apparaissent donc pas dans la première.<br>

Nous avons donc cherché une autre base, plus récente. Pour cela nous avons du prendre une base plus large en termes de platforme mais avec seulement des séries. `All streaming shows` recense toutes les séries diffusées sur des plateformes.<br>

## `Net-tit`

In [2]:
#cellule Myrtille
Net_tit = pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\netflix_titles.csv')

In [3]:
#cellule léo
#Net_tit = pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\netflix_titles.csv')

In [4]:
#Net_tit.head(5)

On compte le nombre de valeurs manquantes pour `date_added` et `release_year`, les deux variables sur lesquelles on peut faire des opérations numériques (pour comparer les séries/films qui ont été créés par Netflix ou juste rachetés)


In [5]:
Net_tit[['date_added']].isna().sum() #11 valeurs manquantes
Net_tit[['release_year']].isna().sum() #0 valeurs manquantes

release_year    0
dtype: int64

On créé une variable `year_added` codée en int qui renseigne l'année où le film/série a été ajouté sur Netflix et on remplace les valeurs manquantes par des zéros. Pour cela on crée une regex qui nous permet d'extraire l'année de la date complète donnée dans date_added. On remplace ensuite les NaN par des 0 et on convertit les valeurs en entiers.

In [6]:
Net_tit[['date_added']].iloc[0:6233]

Unnamed: 0,date_added
0,"September 9, 2019"
1,"September 9, 2016"
2,"September 8, 2018"
3,"September 8, 2018"
4,"September 8, 2017"
...,...
6228,
6229,
6230,
6231,


In [7]:
regex = r'([0-2][0-9][0-9][0-9])'
Net_tit['year_added'] = Net_tit['date_added'].str.extract(regex,expand=True)
Net_tit['year_added'] = Net_tit['year_added'].fillna(0)
Net_tit['year_added'] = Net_tit['year_added'].astype(str).astype(int)

### Création de `df1`

On choisit des colonnes de Net_tit puis on ordonne par ordre décroissant de sortie. Pour cela on utilise date_added, plus précis que year_added.

In [8]:
df1 = Net_tit[['type', 'title','director', 'cast', 'date_added', 'year_added', 'release_year', 'duration', 'listed_in']]
df1 = df1.sort_values('release_year', ascending = False) #probleme si on veut classer selon year_added
df1.head(5)

Unnamed: 0,type,title,director,cast,date_added,year_added,release_year,duration,listed_in
3467,TV Show,Medical Police,,"Erinn Hayes, Rob Huebel, Malin Akerman, Rob Co...","January 10, 2020",2020,2020,1 Season,"Crime TV Shows, TV Action & Adventure, TV Come..."
3249,Movie,All the Freckles in the World,Yibrán Asuad,"Hánssel Casillas, Loreto Peralta, Andrea Sutto...","January 3, 2020",2020,2020,90 min,"Comedies, International Movies, Romantic Movies"
3220,TV Show,Dracula,,"Claes Bang, Dolly Wells, John Heffernan","January 4, 2020",2020,2020,1 Season,"British TV Shows, International TV Shows, TV D..."
3427,Movie,Leslie Jones: Time Machine,"David Benioff, D.B. Weiss",Leslie Jones,"January 14, 2020",2020,2020,66 min,Stand-Up Comedy
3436,TV Show,The Healing Powers of Dude,,"Jace Chapman, Larisa Oleynik, Tom Everett Scot...","January 13, 2020",2020,2020,1 Season,"Kids' TV, TV Comedies, TV Dramas"


### Création de `df_movie` et `df_tvshow`

On sépare `df1` en deux data frames, l'un pour les séries, l'autre pour les films.

In [9]:
df1[['type']].isna().sum() #pas de valeurs manquantes

type    0
dtype: int64

In [10]:
df_tvshow = df1[df1['type'].isin(["TV Show"])]
df_movie = df1[df1['type'].isin(['Movie'])]

## Top 250 IMDB

### `recup_notes`

On crée une fonction qui met dans un data frame les notes des 250 mieux notés sur ImDB (films ou séries).

In [188]:
def recup_notes(url):

    """On récupère la page internet------------------"""
    from urllib import request
    request_text = request.urlopen(url).read()
    #print(request_text[:1000]) 
    page = bs4.BeautifulSoup(request_text, "lxml")
    #print(type(page))


    """On récupère les données------------------"""
    tableau=page.find("table",{'class' : 'chart full-width'})
    #print(tableau)
    table_body=tableau.find('tbody')
    rows = table_body.find_all('tr')
    #print (rows)


    """On récupére les élements correspondant au titre et à la note--------------"""
    new_rows=[] #on crée une liste vide dans laquelle on va mettre le contenu des lignes
    for row in rows:
        cols = row.find_all('td')
        #print(type(cols))
        new_cols = []
        for ele in cols:
            new_cols.append([ele.text.strip()])
        #print(new_cols)
        new_cols=new_cols[1:3]
        #new_cols_title=new_cols[0]
        new_cols[0]= new_cols[0][0]
        new_cols[1]= float(new_cols[1][0])
        new_rows.append(new_cols)
  #print (new_rows)

    """On nettoie les élements pour n'avoir que des listes de titres et notes"""
    """L'élement correspondant au titre est entouré d'informations parasites, on s'en
    débarasse avec 2 regex successives"""

    regex_debut = "[\d]?[\d]?[\d]\.[\n][\s]{6}"
    regex_fin="[\n]\([1-2][\d]{3}\)"

    clean_rows=copy.copy(new_rows)

    for i in range(len(new_rows)):
        a_suppr=re.findall(regex_debut,new_rows[i][0])
        #print (a_suppr[0])
        clean_rows[i][0]=new_rows[i][0].replace(a_suppr[0],"")
    #print (clean_rows)

    really_clean_rows=copy.copy(clean_rows)

    for i in range(len(clean_rows)):
        a_suppr_fin=re.findall(regex_fin,clean_rows[i][0])
        #print (a_suppr_fin[0])
        really_clean_rows[i][0]=clean_rows[i][0].replace(a_suppr_fin[0],"")
    #print (really_clean_rows)

    """On crée un dictionnaire dans lequel on met le contenu des lignes nettoyées
    La clé est le titre, la valeur la note."""
    dico_top = dict()
    for row in really_clean_rows:
        cols=row
        dico_top[cols[0]] = cols[1:]
    dico_top

    """On crée le dataframe"""
    df_top = pd.DataFrame.from_dict(dico_top,orient='index')
  

    """"On rajoute une index différente du titre"""
    df_top.reset_index(level=0, inplace=True)

    """On change le nom des colonnes"""
    df_top.rename(columns={'index': 'Title', 0: 'IMDb rating'}, inplace=True)

    #print(df_top)
    return (df_top)


Exécution sur les deux url

In [189]:
url_top_shows = "https://www.imdb.com/chart/toptv/?ref_=nv_tvv_250"
url_top_movies= "https://www.imdb.com/chart/top/?ref_=nv_mv_250"

In [13]:
df_top_shows=recup_notes(url_top_shows)
df_top_shows.head()

Unnamed: 0,Title,IMDb rating
0,Planet Earth II,9.5
1,Planète Terre,9.4
2,Frères d'armes,9.4
3,Breaking Bad,9.4
4,Chernobyl,9.4


In [14]:
df_top_movies=recup_notes(url_top_movies)
df_top_movies.head()

Unnamed: 0,Title,IMDb rating
0,Les évadés,9.2
1,Le parrain,9.1
2,"Le parrain, 2ème partie",9.0
3,The Dark Knight: Le chevalier noir,9.0
4,12 hommes en colère,8.9


On sauvegarde ces deux df dans deux fichiers csv

In [15]:
a=df_top_movies.to_csv("df_top_movies.csv", index = False)
a=df_top_shows.to_csv("df_top_shows.csv", index = False)

## Top Netflix quotidien

De mi mars à début décembre on a 252 top quotidiens d'environ 10 lignes. On a choisi de les concaténer par mois. Comme cette opération prend un certain temps nous avons enregistrer les df obtenus sous forme de csv pour éviter de devoir répéter l'opération et les opérations de concaténations sont en annexe sous forme de commentaire (pour éviter qu'elle se lancent lors d'un Run All).

### `recup_top_netflix_gen`

Pour scrapper ces 252 top quotidiens on a défini une fonction qui prend comme argument la date souhaitée *(aaaa/mm/jj)* et en argument conditionnel le début de l'url.<br>La fonction renvoie le df correspondant.

In [16]:
def recup_top_netflix_gen(date,url="https://www.the-numbers.com/home-market/netflix-daily-chart/"):
    
    url_enrichi = url+date
    from urllib.request import Request, urlopen
    req_text = urlopen(Request(url_enrichi, headers={'User-Agent': 'Mozilla/5.0'})).read()
    page = bs4.BeautifulSoup(req_text, "lxml")
    #print (page)

    """On récupère les données------------------"""
    #tableau=page.find("table",{'class' : 'chart full-width'})
    tableau=page.find("div",{'id':'page_filling_chart'})
    #print(tableau)
    #table_body=tableau.find('tbody')
    #print(table_body)
    rows = tableau.find_all('tr')
    #print (rows)

  
    """On récupére tous les élements correspondant au titre et à la note et On crée un dictionnaire dans lequel on met le contenu des lignes nettoyées
    L'index est le titre, la valeur la note.
    --------------"""
    new_rows=[]#on crée une liste vide dans laquelle on va mettre le contenu des lignes
    new_cols = 10*[[]]
    dico_top_netflix = dict()
    i = 0
    for row in rows:
        cols = row.find_all('td') # c'est une liste
        cols = [ele.text.strip() for ele in cols]
        #print (cols)
        if len(cols)> 0:
            dico_top_netflix[cols[0]] = cols[1:]
    #print(dico_top_netflix)    

    """"""

    """On crée ENFIN le dataframe"""
    df_top_netflix_gen = pd.DataFrame.from_dict(dico_top_netflix,orient='index')

    """On rajoute une index différente du titre"""
    for row in rows:
        cols = row.find_all('th')
        #print(cols)
        if len(cols) > 0 : 
            cols = [ele.get_text(separator=' ').strip().title() for ele in cols]
            columns_title = cols
    #print (columns_title)
    

    """On change le nom des colonnes"""
    df_top_netflix_gen.columns=columns_title[1:]
    
    """On vire les colonnes qui ne nous intéresse pas"""
    del(df_top_netflix_gen['Yd'])
    del(df_top_netflix_gen['Lw'])
    del(df_top_netflix_gen['Watch Now'])
    
    
    """On rajoute une colonne 'Measure Date' """
    df_top_netflix_gen['Measure Date']= [date]*df_top_netflix_gen.shape[0]
    #print ("Graph au "+ date)
    return (df_top_netflix_gen)

Le Top10 Netflix aux US le 13 décembre 2020.

In [17]:
df_12_13=recup_top_netflix_gen("2020/12/13")
df_12_13

Unnamed: 0,Title,Type,Netflix Excl.,Netflix Release Date,Days In Top 10,Viewer- Ship Score,Measure Date
1,Ava,Movie,,,6,50,2020/12/13
2,The Prom,Movie,Yes,"Dec 11, 2020",2,15,2020/12/13
3,Manhunt,TV Show,,,4,29,2020/12/13
4,How the Grinch Stole Christmas,Movie,,,14,36,2020/12/13
5,Triple 9,Movie,,,5,28,2020/12/13
6,Selena: The Series,TV Show,Yes,"Dec 4, 2020",9,81,2020/12/13
7,Big Mouth,TV Show,Yes,"Sep 29, 2017",9,74,2020/12/13
8,Virgin River,TV Show,Yes,"Nov 27, 2020",16,128,2020/12/13
9,The Christmas Chronicles 2,Movie,Yes,"Nov 25, 2020",13,90,2020/12/13
10,The Queen's Gambit,TV Show,Yes,"Oct 23, 2020",51,392,2020/12/13


### Création des df des mois et concaténation vers `df_carac`

On crée d'abord une liste de toutes les dates avec un Top 10.

Pour cela on crée une liste avec toutes les dates de 2020 puis on enlève celles pour lesquelles on a pas de Top. On compte bien 252 dates valides.

In [18]:
liste_dates_valides=[]
for m in range (3,13):
    m=str(m)
    if len(m)==1:
        m = "0"+m
    for d in range (1,32):
        d=str(d)
        if len(d)==1:
            d="0"+d
        date = "2020/"+m+"/"+d
        liste_dates_valides.append(date)

#On supprime les dates sans valeurs
for i in ['2020/03/01', '2020/03/02', '2020/03/03', '2020/03/04', '2020/03/05', '2020/03/06', '2020/03/07', '2020/03/08', 
          '2020/03/09', '2020/03/10', '2020/03/11', '2020/03/12', '2020/03/13', '2020/03/14', '2020/03/15', '2020/03/16', 
          '2020/03/17', '2020/03/18', '2020/03/19', '2020/03/20', '2020/03/21', '2020/03/22', '2020/03/23', '2020/03/28', 
          '2020/03/29', '2020/04/04', '2020/04/05', '2020/04/11', '2020/04/12', '2020/04/18', '2020/04/19', '2020/04/25', 
          '2020/04/26', '2020/08/09', '2020/08/30', '2020/12/14', '2020/12/15', '2020/12/16', '2020/12/17', '2020/12/18',
          '2020/12/19', '2020/12/20', '2020/12/21', '2020/12/22', '2020/12/23', '2020/12/24', '2020/12/25', '2020/12/26', 
          '2020/12/27', '2020/12/28', '2020/12/29', '2020/12/30', '2020/12/31', '2020/04/31', '2020/06/31', '2020/09/31', 
          '2020/11/31', '2020/08/06']:
    liste_dates_valides.remove(i)
print ('On a ',len (liste_dates_valides), ' dates valides.')

On a  252  dates valides.


On crée un string avec toutes les dates séparées par une virgule.

In [19]:
dates=""
for i in liste_dates_valides:
    dates=dates+i+','
dates=dates[:-1]

On crée une liste avec pour éléments les listes des dates valides de chaque mois. On en fait un dictionnaire : `dico_mois`.

In [20]:
janvier = []
fevrier = []
mars=[]
avril=[]
mai=[]
juin=[]
juillet=[]
aout=[]
septembre=[]
octobre=[]
novembre=[]
decembre=[]
mois = [[],janvier,fevrier,mars,avril,mai,juin,juillet,aout,septembre,octobre,novembre,decembre]
for i,moi in enumerate(mois):
    
    if i <10: regex = re.compile("([2][0][2][0]/[0]["+str(i)+"]/[0-3][0-9])")
    else : regex = re.compile("([2][0][2][0]/[1]["+str(i-10)+"]/[0-3][0-9])")
    mois[i].append(regex.findall(dates))
mois=mois[3:]

dico_mois={'mars': mars, 'avril': avril, 'mai': mai, 'juin': juin, 'juillet': juillet,'aout': aout,
           'septembre': septembre, 'octobre':octobre, 'novembre': novembre, 'decembre': decembre}

### Concaténation

On crée `dico_df_mois` qui contiendra le df de chaque mois, on l'initie en mettant le premier df de chaque mois.

In [21]:
df_mars = recup_top_netflix_gen("2020/03/24")
df_avril = recup_top_netflix_gen("2020/04/01")
df_mai = recup_top_netflix_gen("2020/05/01")
df_juin = recup_top_netflix_gen("2020/06/01")
df_juillet = recup_top_netflix_gen("2020/07/01")
df_aout = recup_top_netflix_gen("2020/08/01")
df_septembre = recup_top_netflix_gen("2020/09/01")
df_octobre = recup_top_netflix_gen("2020/10/01")
df_novembre = recup_top_netflix_gen("2020/11/01")
df_decembre = recup_top_netflix_gen("2020/11/01")

dico_df_mois={"mars" : df_mars, "avril" : df_avril, "mai":df_mai , "juin":df_juin , "juillet":df_juillet,
              "aout":df_aout ,"septembre" :df_septembre ,"octobre": df_octobre, "novembre" :df_novembre,"decembre": df_decembre}

On enrichit chaque df avec les autres jours du mois.

Cette cellule est longue à éxécuter : on la neutralise et on store les df obtenus dans des csv que nous utiliserons ensuite.

In [22]:
#for key,value in dico_mois.items():
#    print (key)
#    dico_df_mois[key] = recup_top_netflix_gen(value[0][0])
#    a_conc=0
#    for i in value[0][1:]:
#        a_conc = recup_top_netflix_gen(i)
#        dico_df_mois[key] = pd.concat([dico_df_mois[key],a_conc])
#        #print(dico_df_mois[key])


In [23]:
#for moi, df_moi in dico_df_mois.items():
#    a=df_moi.to_csv("df_"+moi+".csv", index = False) 

On récupère les CSV correspondants.

In [24]:
#Cellule Myrtille
df_mars=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_mars.csv')
df_avril=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_avril.csv')
df_mai=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_mai.csv')
df_juin=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_juin.csv')
df_juillet=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_juillet.csv')
df_aout=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_aout.csv')
df_septembre=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_septembre.csv')
df_octobre=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_octobre.csv')
df_novembre=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_novembre.csv')
df_decembre=pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\df_decembre.csv')

In [26]:
#Cellule Léo
#df_mars=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_mars.csv')
#df_avril=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_avril.csv')
#df_mai=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_mai.csv')
#df_juin=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_juin.csv')
#df_juillet=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_juillet.csv')
#df_aout=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_aout.csv')
#df_septembre=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_septembre.csv')
#df_octobre=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_octobre.csv')
#df_novembre=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_novembre.csv')
#df_decembre=pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\df_decembre.csv')

On remarque que la construction du `Score` fait qu'il est strictement croissant pour une fonction donnée.
On va donc ordonner le df d'abord par titre puis par date décroissante. Ainsi la première occurence d'un titre donne son score le plus récent (et donc maximal), pour un mois donné.


On crée une fonction `sortby` qui ordonne les df de cette manière.

In [27]:
def sortby(df):
    return df.sort_values(['Title','Measure Date'],ascending=(True,False))
#sortby(df_mars)

In [28]:
sortby(df_decembre).head(10)

Unnamed: 0,Title,Type,Netflix Excl.,Netflix Release Date,Days In Top 10,Viewer- Ship Score,Measure Date
68,Alien Worlds,TV Show,Yes,"Dec 2, 2020",5,17,2020/12/07
58,Alien Worlds,TV Show,Yes,"Dec 2, 2020",4,15,2020/12/06
47,Alien Worlds,TV Show,Yes,"Dec 2, 2020",3,13,2020/12/05
33,Alien Worlds,TV Show,Yes,"Dec 2, 2020",2,10,2020/12/04
27,Alien Worlds,TV Show,Yes,"Dec 2, 2020",1,3,2020/12/03
120,Ava,Movie,,,6,50,2020/12/13
110,Ava,Movie,,,5,40,2020/12/12
100,Ava,Movie,,,4,30,2020/12/11
92,Ava,Movie,,,3,20,2020/12/10
82,Ava,Movie,,,2,12,2020/12/09


On crée `dico_carac` où chaque entrée est un titre différent et les valeurs sont le type, l'exclusivité Netflix et le Score.
On utilise les df dans le sens anti-chronologique pour récupérer le score le plus récent.

In [35]:
liste_df = [df_decembre,df_novembre,df_octobre,df_septembre,df_aout,df_juillet,df_juin,df_mai,df_avril,df_mars]
dico_carac=dict()

for df_moi in liste_df:
    for i in range(sortby(df_moi).shape[0]):
        if sortby(df_moi)['Title'][i] not in dico_carac:
            dico_carac[sortby(df_moi)['Title'][i]]=[sortby(df_moi)['Type'][i],sortby(df_moi)['Netflix Excl.'][i],sortby(df_moi)['Viewer- Ship Score'][i]]

#dico_carac

### Création de `df_carac`
On crée le df correspondant

In [90]:
df_carac = pd.DataFrame.from_dict(dico_carac,orient='index')
df_carac.columns=['Type','Netflix Exclusive','Score']
df_carac= df_carac.sort_values('Score',ascending=False)
df_carac

Unnamed: 0,Type,Netflix Exclusive,Score
The Queen's Gambit,TV Show,Yes,340
Outer Banks,TV Show,Yes,259
The Umbrella Academy,TV Show,Yes,231
365 Dni,Movie,,198
Avatar the Last Airbender,TV Show,,196
...,...,...,...
How to Train Your Dragon 2,Movie,,1
Legacies,TV Show,,1
Community,TV Show,,1
The Christmas Chronicles,Movie,Yes,1


On remplit les valeurs manquantes de Netflix Exclusive par `'No'`. 

En effet, sur le site original la variable ne prend comme modalité que 'Yes' ou rien, on considère que rien veut dire que la série n'est pas une série originale Netflix. 

In [31]:
df_carac['Netflix Exclusive']=df_carac['Netflix Exclusive'].fillna('No')

On reset l'index et renomme la colonne `'Title'`.

In [91]:
df_carac=df_carac.reset_index()
df_carac.columns=['Title','Type','Netflix Exclusive','Score']

In [92]:
df_carac.head()

Unnamed: 0,Title,Type,Netflix Exclusive,Score
0,The Queen's Gambit,TV Show,Yes,340
1,Outer Banks,TV Show,Yes,259
2,The Umbrella Academy,TV Show,Yes,231
3,365 Dni,Movie,,198
4,Avatar the Last Airbender,TV Show,,196


On store ce df sous un csv du même nom.

In [93]:
gfg_csv_data = df_carac.to_csv('df_carac.csv', index = False)

## All Streaming Shows (`AS`)

All Streaming Shows est une base trouvée sur Kaggle qui recense les Séries (uniquement) diffusées en 2020.

Elle présente l'avantage de contenir plusieurs valeurs exploitables en particulier : le genre, la plateforme de diffusion et les notes IMDB et Rotten Tomatoes.

In [39]:
#Cellule léo
#AS= pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\All_Streaming_Shows.csv',sep=',')
#AS.shape[0] #12 353
#AS.head(5)

In [44]:
#Cellule Myrtille
AS= pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\All_Streaming_Shows.csv',sep=',')
AS.shape[0] #12 353
AS.head(5)

Unnamed: 0,Series Title,Year Released,Content Rating,IMDB Rating,R Rating,Genre,Description,No of Seasons,Streaming Platform
0,Breaking Bad,2008,18+,9.5,100,"Crime,Drama","When Walter White, a New Mexico chemistry teac...",5Seasons,Netflix
1,Game of Thrones,2011,18+,9.3,99,"Action & Adventure,Drama",Seven noble families fight for control of the ...,8Seasons,"HBO MAX,HBO"
2,Rick and Morty,2013,18+,9.2,97,"Animation,Comedy",Rick is a mentally-unbalanced but scientifical...,4Seasons,"Free Services,HBO MAX,Hulu"
3,Stranger Things,2016,16+,8.8,96,"Drama,Fantasy","When a young boy vanishes, a small town uncove...",3Seasons,Netflix
4,The Boys,2019,18+,8.7,95,"Action & Adventure,Comedy",A group of vigilantes known informally as “The...,2Seasons,Prime Video


### Nettoyage préliminaire et ajout de `Top IMDB`

On nettoie la colonne `No of Seasons` pour ne conserver que le nombre.

Pour cela on utilise une regex.

In [45]:
regex = r'([0-9]?[0-9])'
AS['No of Seasons'] = AS['No of Seasons'].str.extract(regex,expand=True)
AS['No of Seasons'] = AS['No of Seasons'].fillna(0)
AS['No of Seasons'] = AS['No of Seasons'].astype(str).astype(int)

In [46]:
AS.head()

Unnamed: 0,Series Title,Year Released,Content Rating,IMDB Rating,R Rating,Genre,Description,No of Seasons,Streaming Platform
0,Breaking Bad,2008,18+,9.5,100,"Crime,Drama","When Walter White, a New Mexico chemistry teac...",5,Netflix
1,Game of Thrones,2011,18+,9.3,99,"Action & Adventure,Drama",Seven noble families fight for control of the ...,8,"HBO MAX,HBO"
2,Rick and Morty,2013,18+,9.2,97,"Animation,Comedy",Rick is a mentally-unbalanced but scientifical...,4,"Free Services,HBO MAX,Hulu"
3,Stranger Things,2016,16+,8.8,96,"Drama,Fantasy","When a young boy vanishes, a small town uncove...",3,Netflix
4,The Boys,2019,18+,8.7,95,"Action & Adventure,Comedy",A group of vigilantes known informally as “The...,2,Prime Video


On enrichi ensuite cette base d'une variable binaire 'Top IMDB' qui prend 1 comme valeur quand la série figure dans le Top IMDB, 0 sinon.

Nous avons codé cette variable en observant dans notre base Top IMDB 250 qu'une note supérieure à 8,4 valait une inscription dans le Top.

(Il n'était pas possible de directement fusioner les deux bases à cause de l'incompatibilité des titres :en francais pour Top IMDB et anglais ici.)

In [48]:
df_top_shows.tail()

Unnamed: 0,Title,IMDb rating
239,Community,8.4
240,"Unsere Mütter, unsere Väter",8.4
241,Vikings,8.4
242,Clannad: After Story,8.4
243,Feud,8.4


In [49]:
AS['Top IMDB'] = AS['IMDB Rating'].apply(lambda x: '1' if x >= 8.4 else '0')
AS['Top IMDB'] = AS['Top IMDB'].astype(str).astype(int)

In [191]:
AS.sort_values('IMDB Rating',ascending=False)[745:760]

### Création de sous bases propres aux plateformes `AS_N`, `AS_P`, `AS_H`, `AS_F`

On aura donc une base par plateforme pour : Netflix, Prime Video, Hulu et fuboTV.

L'inconvénient de cette façon et de le faire est qu'on exclue les titres où plusieurs plateformes sont renseignées.

On peut considérer que ce sont des bases avec seulement les "exclusivités" de chaque plateforme.

In [109]:
AS['Streaming Platform'].isin(['Netflix']).sum() #1 427 titres Netflix
AS_N=AS[AS['Streaming Platform'].isin(['Netflix'])]
AS_P=AS[AS['Streaming Platform'].isin(['Prime Video'])]
AS_H=AS[AS['Streaming Platform'].isin(['Hulu'])]
AS_F=AS[AS['Streaming Platform'].isin(['fuboTV'])]

gfg_csv_data = AS_N.to_csv('AS_N.csv', index = False)

In [65]:
print ('On a ',AS['Streaming Platform'].isin(['Netflix']).sum()," titres pour Netflix, ",
       AS['Streaming Platform'].isin(['Prime Video']).sum()," pour Prime Video, ",
      AS['Streaming Platform'].isin(['Hulu']).sum(), " pour Hulu et ",
      AS['Streaming Platform'].isin(['fuboTV']).sum()," pour fuboTV.")

On a  1427  titres pour Netflix,  1184  pour Prime Video,  665  pour Hulu et  298  pour fuboTV.


## Jointures

On effectue les jointures suivantes :

- **df_tvshow x cara** = `OGTV_x_carac`

- **df_movie x carac** = `OGM_x_carac`

- **AS x carac**

- **AS_N x carac**

In [99]:
OGTV_x_carac=df_tvshow.set_index('title').join(df_carac.set_index('Title'))
OGTV_x_carac.rename(columns={'index': 'Title'}, inplace=True)
gfg_csv_data = OGTV_x_carac.to_csv('OGTV_x_carac.csv', index = False)

OGM_x_carac=df_movie.set_index('title').join(df_carac.set_index('Title'))
OGM_x_carac.rename(columns={'index': 'Title'}, inplace=True)
gfg_csv_data = OGM_x_carac.to_csv('OGM_x_carac.csv', index = False) 

In [103]:
OGTV_x_carac.sort_values('Score',ascending=False).head()

Unnamed: 0,type,director,cast,date_added,year_added,release_year,duration,listed_in,Type,Netflix Exclusive,Score
The Umbrella Academy,TV Show,,,"February 15, 2019",2019,2019,1 Season,"TV Action & Adventure, TV Mysteries, TV Sci-Fi...",TV Show,Yes,231.0
Dead to Me,TV Show,,"Christina Applegate, Linda Cardellini, James M...","May 3, 2019",2019,2019,1 Season,"TV Comedies, TV Dramas",TV Show,Yes,175.0
Ozark,TV Show,,"Jason Bateman, Sofia Hublitz, Laura Linney, Sk...","August 31, 2018",2018,2018,2 Seasons,"Crime TV Shows, TV Dramas, TV Thrillers",TV Show,Yes,169.0
The Crown,TV Show,,"Claire Foy, John Lithgow, Matt Smith, Vanessa ...","November 17, 2019",2019,2019,3 Seasons,"British TV Shows, International TV Shows, TV D...",TV Show,Yes,138.0
Riverdale,TV Show,Rob Seidenglanz,"K.J. Apa, Lili Reinhart, Camila Mendes, Cole S...","May 23, 2019",2019,2019,3 Seasons,"Crime TV Shows, TV Dramas, TV Mysteries",TV Show,,103.0


In [107]:
print ("On a seulement ",OGTV_x_carac['Score'].notna().sum()," scores, c'est très peu, d'où l'utilisation de AS et ses dérivées.")

On a seulement  45  scores, c'est très peu, d'où l'utilisation de AS et ses dérivées.


In [116]:
AS_x_carac = AS.set_index('Series Title').join(df_carac.set_index('Title'))
gfg_csv_data = AS_x_carac.to_csv('AS_x_carac.csv', index = False) 

In [117]:
print ("On a ",AS_x_carac['Score'].notna().sum()," scores, ça reste peu, mais c'est un peu mieux.")

On a  118  scores, ça reste peu, mais c'est un peu mieux.


In [110]:
AS_N_x_carac=AS_N.set_index('Series Title').join(df_carac.set_index('Title'))
AS_N_x_carac.rename(columns={'Unnamed: 0': 'Title'}, inplace=True)
gfg_csv_data = AS_N_x_carac.to_csv('AS_N_x_carac.csv', index = False) 

In [118]:
print ("Pour Netflix, on en a ",AS_N_x_carac['Score'].notna().sum())

Pour Netflix, on en a  73


# Analyse descriptive et représentation graphique

## Analyse des genres dans les premières bases Netflix : `df_tvshow` et `df_movie`

### `count_genra`
Fonction qui renvoie le nombre d'occurences de chaque genre ce qui permet de tracer les effectifs des genres les plus populaires.

In [170]:
def count_genra (data_f,nombre=22,internat=1):
    
    "---------------On récupère les catégories---------------"
    col = "listed_in"
    categories = ", ".join(data_f['listed_in']).split(", ")
    #print (categories)

    if internat != 1:
        while "International TV Shows" in categories:
            categories.remove("International TV Shows")
    while 'International Movies' in categories:
        categories.remove('International Movies')

    #print(categories)
    
    "-----On compte le nombre d'occurences de chaque type et on garde les 'nombre' qui apparaissent le plus souvent-----"
    counter_list = co.Counter(categories).most_common(nombre)
    #print (type(counter_list_all))
    
    "-----On conserve le premier élément de chaque couple de counter_list (ie. sur le genre)-----"
    #On conserve le premier élément de chaque couple de counter_list (ie. sur le genre)
    labels = [_[0] for _ in counter_list]
    #print (labels)

    "-----Idem pour le nombre d'occurences-----"
    values = [_[1] for _ in counter_list]
    
    return(labels,values)    

On peut donc comparer les genres les plus populaires et leurs effectifs pour les films et les séries.

In [186]:
from plotly.subplots import make_subplots
fig = make_subplots(rows=1, cols=2,shared_yaxes=True)

fig.add_trace(go.Bar(
    y=count_genra(df_movie,5)[1], x=count_genra(df_movie,5)[0], 
    orientation = 'v', name='Films', marker_color='yellow'),
             row = 1, col =1)

fig.add_trace(go.Bar(
    y=count_genra(df_tvshow,5)[1], x=count_genra(df_tvshow,5)[0],
    orientation = 'v', name='Séries', marker_color='#58FA82'),
             row =1, col=2)

fig.update_layout( template = 'presentation', margin=dict(l=50, r=50, t=60, b=120), title = "Effectifs des Genres")

fig.update_layout(legend=dict( yanchor="top", y=1, xanchor="left", x=0.85))

fig.show()

# Modélisation

# Conclusion

# Annexe