# Introduction

[A écrire]

## Importation des Packages

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import urllib
import bs4
import re
import copy
import collections as co

import plotly as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.offline import init_notebook_mode
import matplotlib.pyplot as mplt



from wordcloud import WordCloud
from wordcloud import STOPWORDS
from PIL import Image
import requests
from io import BytesIO

# Récupération et traitement des données

On a les bases : 
- All streaming shows (AS) trouvée sur kaggle
- Netflix titles trouvée sur kaggle
- IMDB 250 scrapée sur le site éponyme : df_tvshow
- df_carac scrappée sur "https://www.the-numbers.com/home-market/netflix-daily-chart/2020/12/06"

On avait commencé à travailler sur 'Netflix Titles' mais le manque de variables exploitables pour une modélisation nous a mené à chercher d'autres bases.

On avait donc scrappé IMDB pour récupérer le TOP 250 des films et des séries (selon IMDB), cette base n'a finalement pas servi les titres étant en français (impossible de trouver une version du site où les titres étaient en anglais).

On a ensuite scrapper les données du site 'https://www.the-numbers.com/home-market/netflix-daily-chart/2020/12/06' qui recense quotidiennement depuis mi mars 2020 le Top 10 Netflix, donne quelques caractéristiques de ces films et séries et calcule un score d'audience : chaque jour à la première place donne 10 points, à la deuxième 9 etc...

Nous nous sommes alors heurté à un problème de cohérence temporelle. En effet notre base originale avec les caractéristiques des séries ('Netflix Titles') s'arrêtait en janvier 2020 et notre base des Top quotidien commencaient début 2020, la plupart des titres contenus dans cette dernière n'apparaissent donc pas dans la première.

Nous avons donc cherché une autre base, plus récente. Pour cela nous avons du prendre une base plus large en termes de platforme mais avec seulement des séries. 'All streaming shows' recense toutes les séries diffusées sur des plateformes.

## Netflix titles

In [2]:
#cellule Myrtille
Net_tit = pd.read_csv(r'C:\Users\Utilisateur\Documents\GitHub\Projet_Python_2A\netflix_titles.csv')

In [3]:
#cellule léo
#Net_tit = pd.read_csv(r'C:\Users\User\Documents\GitHub\Projet_Python_2A\netflix_titles.csv')

In [6]:
#Net_tit.head(5)

On compte le nombre de valeurs manquantes pour 'date_added' et 'release_year', les deux variables sur lesquelles on peut faire des opérations numériques (pour comparer les séries/films qui ont été créés par Netflix ou juste rachetés)


In [11]:
Net_tit[['date_added']].isna().sum() #11 valeurs manquantes
Net_tit[['release_year']].isna().sum() #0 valeurs manquantes

release_year    0
dtype: int64

On créé une variable 'year_added' codée en int qui renseigne l'année où le film/série a été ajouté sur Netflix et on remplace les valeurs manquantes par des zéros. Pour cela on crée une regex qui nous permet d'extraire l'année de la date complète donnée dans date_added. On remplace ensuite les NaN par des 0 et on convertit les valeurs en entiers.

In [12]:
Net_tit[['date_added']].iloc[0:6233]

Unnamed: 0,date_added
0,"September 9, 2019"
1,"September 9, 2016"
2,"September 8, 2018"
3,"September 8, 2018"
4,"September 8, 2017"
...,...
6228,
6229,
6230,
6231,


In [14]:
regex = r'([0-2][0-9][0-9][0-9])'
Net_tit['year_added'] = Net_tit['date_added'].str.extract(regex,expand=True)
Net_tit['year_added'] = Net_tit['year_added'].fillna(0)
Net_tit['year_added'] = Net_tit['year_added'].astype(str).astype(int)

### Création de df1

On choisit des colonnes de Net_tit puis on ordonne par ordre décroissant de sortie. Pour cela on utilise date_added, plus précis que year_added.

In [18]:
df1 = Net_tit[['type', 'title','director', 'cast', 'date_added', 'year_added', 'release_year', 'duration', 'listed_in']]
df1 = df1.sort_values('release_year', ascending = False) #probleme si on veut classer selon year_added
df1.head(5)

Unnamed: 0,type,title,director,cast,date_added,year_added,release_year,duration,listed_in
3467,TV Show,Medical Police,,"Erinn Hayes, Rob Huebel, Malin Akerman, Rob Co...","January 10, 2020",2020,2020,1 Season,"Crime TV Shows, TV Action & Adventure, TV Come..."
3249,Movie,All the Freckles in the World,Yibrán Asuad,"Hánssel Casillas, Loreto Peralta, Andrea Sutto...","January 3, 2020",2020,2020,90 min,"Comedies, International Movies, Romantic Movies"
3220,TV Show,Dracula,,"Claes Bang, Dolly Wells, John Heffernan","January 4, 2020",2020,2020,1 Season,"British TV Shows, International TV Shows, TV D..."
3427,Movie,Leslie Jones: Time Machine,"David Benioff, D.B. Weiss",Leslie Jones,"January 14, 2020",2020,2020,66 min,Stand-Up Comedy
3436,TV Show,The Healing Powers of Dude,,"Jace Chapman, Larisa Oleynik, Tom Everett Scot...","January 13, 2020",2020,2020,1 Season,"Kids' TV, TV Comedies, TV Dramas"


### Création de df_movie et df_tvshow

On sépare df1 en deux df, l'un pour les séries, l'autre pour les films.

In [22]:
df1[['type']].isna().sum() #pas de valeurs manquantes

type    0
dtype: int64

In [None]:
df_tvshow = df1[df1['type'].isin(["TV Show"])]
df_movie = df1[df1['type'].isin(['Movie'])]

## Top 250 IMDB

On crée une fonction qui met dans un data frame les notes des 250 mieux notés sur ImDB (films ou séries).

In [50]:
def recup_notes(url):

    """On récupère la page internet------------------"""
    from urllib import request
    request_text = request.urlopen(url).read()
    #print(request_text[:1000]) 
    page = bs4.BeautifulSoup(request_text, "lxml")
    #print(type(page))


    """On récupère les données------------------"""
    tableau=page.find("table",{'class' : 'chart full-width'})
    #print(tableau)
    table_body=tableau.find('tbody')
    rows = table_body.find_all('tr')
    #print (rows)


    """On récupére les élements correspondant au titre et à la note--------------"""
    new_rows=[] #on crée une liste vide dans laquelle on va mettre le contenu des lignes
    for row in rows:
        cols = row.find_all('td')
        #print(type(cols))
        new_cols = []
        for ele in cols:
            new_cols.append([ele.text.strip()])
        #print(new_cols)
        new_cols=new_cols[1:3]
        #new_cols_title=new_cols[0]
        new_cols[0]= new_cols[0][0]
        new_cols[1]= float(new_cols[1][0])
        new_rows.append(new_cols)
  #print (new_rows)

    """On nettoie les élements pour n'avoir que des listes de titres et notes"""
    """L'élement correspondant au titre est entouré d'informations parasites, on s'en
    débarasse avec 2 regex successives"""

    regex_debut = "[\d]?[\d]?[\d]\.[\n][\s]{6}"
    regex_fin="[\n]\([1-2][\d]{3}\)"

    clean_rows=copy.copy(new_rows)

    for i in range(len(new_rows)):
        a_suppr=re.findall(regex_debut,new_rows[i][0])
        #print (a_suppr[0])
        clean_rows[i][0]=new_rows[i][0].replace(a_suppr[0],"")
    #print (clean_rows)

    really_clean_rows=copy.copy(clean_rows)

    for i in range(len(clean_rows)):
        a_suppr_fin=re.findall(regex_fin,clean_rows[i][0])
        #print (a_suppr_fin[0])
        really_clean_rows[i][0]=clean_rows[i][0].replace(a_suppr_fin[0],"")
    #print (really_clean_rows)

    """On crée un dictionnaire dans lequel on met le contenu des lignes nettoyées
    La clé est le titre, la valeur la note."""
    dico_top = dict()
    for row in really_clean_rows:
        cols=row
        dico_top[cols[0]] = cols[1:]
    dico_top

    """On crée le dataframe"""
    df_top = pd.DataFrame.from_dict(dico_top,orient='index')
  

    """"On rajoute une index différente du titre"""
    df_top.reset_index(level=0, inplace=True)

    """On change le nom des colonnes"""
    df_top.rename(columns={'index': 'Title', 0: 'IMDb rating'}, inplace=True)

    #print(df_top)
    return (df_top)


Exécution sur les deux url

In [26]:
url_top_shows = "https://www.imdb.com/chart/toptv/?ref_=nv_tvv_250"
url_top_movies= "https://www.imdb.com/chart/top/?ref_=nv_mv_250"

In [29]:
df_top_shows=recup_notes(url_top_shows)
df_top_shows.head()

Unnamed: 0,Title,IMDb rating
0,Planet Earth II,9.5
1,Planète Terre,9.4
2,Frères d'armes,9.4
3,Breaking Bad,9.4
4,Chernobyl,9.4


In [31]:
df_top_movies=recup_notes(url_top_movies)
df_top_movies.head()

Unnamed: 0,Title,IMDb rating
0,Les évadés,9.2
1,Le parrain,9.1
2,"Le parrain, 2ème partie",9.0
3,The Dark Knight: Le chevalier noir,9.0
4,12 hommes en colère,8.9


On sauvegarde ces deux df dans deux fichiers csv

In [43]:
a=df_top_movies.to_csv("df_top_movies.csv", index = False)
a=df_top_shows.to_csv("df_top_shows.csv", index = False)

## Top Netflix quotidien

De mi mars à début décembre on a 252 top quotidiens d'environ 10 lignes. On a choisi de les concaténer par mois. Comme cette opération prend un certain temps nous avons enregistrer les df obtenus sous forme de csv pour éviter de devoir répéter l'opération et les opérations de concaténations sont en annexe sous forme de commentaire (pour éviter qu'elle se lancent lors d'un Run All).

### recup_top_netflix_gen

Pour scrapper ces 252 top quotidiens on a défini une fonction qui prend comme argument la date souhaitée (aaaa/mm/jj) et en argument conditionnel le début de l'url.

La fonction renvoie le df correspondant.

In [46]:
def recup_top_netflix_gen(date,url="https://www.the-numbers.com/home-market/netflix-daily-chart/"):
    
    url_enrichi = url+date
    from urllib.request import Request, urlopen
    req_text = urlopen(Request(url_enrichi, headers={'User-Agent': 'Mozilla/5.0'})).read()
    page = bs4.BeautifulSoup(req_text, "lxml")
    #print (page)

    """On récupère les données------------------"""
    #tableau=page.find("table",{'class' : 'chart full-width'})
    tableau=page.find("div",{'id':'page_filling_chart'})
    #print(tableau)
    #table_body=tableau.find('tbody')
    #print(table_body)
    rows = tableau.find_all('tr')
    #print (rows)

  
    """On récupére tous les élements correspondant au titre et à la note et On crée un dictionnaire dans lequel on met le contenu des lignes nettoyées
    L'index est le titre, la valeur la note.
    --------------"""
    new_rows=[]#on crée une liste vide dans laquelle on va mettre le contenu des lignes
    new_cols = 10*[[]]
    dico_top_netflix = dict()
    i = 0
    for row in rows:
        cols = row.find_all('td') # c'est une liste
        cols = [ele.text.strip() for ele in cols]
        #print (cols)
        if len(cols)> 0:
            dico_top_netflix[cols[0]] = cols[1:]
    #print(dico_top_netflix)    

    """"""

    """On crée ENFIN le dataframe"""
    df_top_netflix_gen = pd.DataFrame.from_dict(dico_top_netflix,orient='index')

    """On rajoute une index différente du titre"""
    for row in rows:
        cols = row.find_all('th')
        #print(cols)
        if len(cols) > 0 : 
            cols = [ele.get_text(separator=' ').strip().title() for ele in cols]
            columns_title = cols
    #print (columns_title)
    

    """On change le nom des colonnes"""
    df_top_netflix_gen.columns=columns_title[1:]
    
    """On vire les colonnes qui ne nous intéresse pas"""
    del(df_top_netflix_gen['Yd'])
    del(df_top_netflix_gen['Lw'])
    del(df_top_netflix_gen['Watch Now'])
    
    
    """On rajoute une colonne 'Measure Date' """
    df_top_netflix_gen['Measure Date']= [date]*df_top_netflix_gen.shape[0]
    #print ("Graph au "+ date)
    return (df_top_netflix_gen)

Le Top10 Netflix aux US le 13 décembre 2020.

In [51]:
df_12_13=recup_top_netflix_gen("2020/12/13")
df_12_13

Unnamed: 0,Title,Type,Netflix Excl.,Netflix Release Date,Days In Top 10,Viewer- Ship Score,Measure Date
1,Ava,Movie,,,6,50,2020/12/13
2,The Prom,Movie,Yes,"Dec 11, 2020",2,15,2020/12/13
3,Manhunt,TV Show,,,4,29,2020/12/13
4,How the Grinch Stole Christmas,Movie,,,14,36,2020/12/13
5,Triple 9,Movie,,,5,28,2020/12/13
6,Selena: The Series,TV Show,Yes,"Dec 4, 2020",9,81,2020/12/13
7,Big Mouth,TV Show,Yes,"Sep 29, 2017",9,74,2020/12/13
8,Virgin River,TV Show,Yes,"Nov 27, 2020",16,128,2020/12/13
9,The Christmas Chronicles 2,Movie,Yes,"Nov 25, 2020",13,90,2020/12/13
10,The Queen's Gambit,TV Show,Yes,"Oct 23, 2020",51,392,2020/12/13


### Création des df des mois et concaténation vers df_carac

On crée d'abord une liste de toutes les dates avec un Top 10.

Pour cela on crée une liste avec toutes les dates de 2020 puis on enlève celles pour lesquelles on a pas de Top. On compte bien 252 dates valides.

In [56]:
liste_dates_valides=[]
for m in range (3,13):
    m=str(m)
    if len(m)==1:
        m = "0"+m
    for d in range (1,32):
        d=str(d)
        if len(d)==1:
            d="0"+d
        date = "2020/"+m+"/"+d
        liste_dates_valides.append(date)

#On supprime les dates sans valeurs
for i in ['2020/03/01', '2020/03/02', '2020/03/03', '2020/03/04', '2020/03/05', '2020/03/06', '2020/03/07', '2020/03/08', 
          '2020/03/09', '2020/03/10', '2020/03/11', '2020/03/12', '2020/03/13', '2020/03/14', '2020/03/15', '2020/03/16', 
          '2020/03/17', '2020/03/18', '2020/03/19', '2020/03/20', '2020/03/21', '2020/03/22', '2020/03/23', '2020/03/28', 
          '2020/03/29', '2020/04/04', '2020/04/05', '2020/04/11', '2020/04/12', '2020/04/18', '2020/04/19', '2020/04/25', 
          '2020/04/26', '2020/08/09', '2020/08/30', '2020/12/14', '2020/12/15', '2020/12/16', '2020/12/17', '2020/12/18',
          '2020/12/19', '2020/12/20', '2020/12/21', '2020/12/22', '2020/12/23', '2020/12/24', '2020/12/25', '2020/12/26', 
          '2020/12/27', '2020/12/28', '2020/12/29', '2020/12/30', '2020/12/31', '2020/04/31', '2020/06/31', '2020/09/31', 
          '2020/11/31', '2020/08/06']:
    liste_dates_valides.remove(i)
print ('On a ',len (liste_dates_valides), ' dates valides.')

On a  252  dates valides.


On crée un string avec toutes les dates séparées par une virgule.

In [86]:
dates=""
for i in liste_dates_valides:
    dates=dates+i+','
dates=dates[:-1]

On crée une liste avec pour élément la liste des dates de chaque mois. On en fait un dictionnaire.

In [None]:
janvier = []
fevrier = []
mars=[]
avril=[]
mai=[]
juin=[]
juillet=[]
aout=[]
septembre=[]
octobre=[]
novembre=[]
decembre=[]
mois = [[],janvier,fevrier,mars,avril,mai,juin,juillet,aout,septembre,octobre,novembre,decembre]
for i,moi in enumerate(mois):
    
    if i <10: regex = re.compile("([2][0][2][0]/[0]["+str(i)+"]/[0-3][0-9])")
    else : regex = re.compile("([2][0][2][0]/[1]["+str(i-10)+"]/[0-3][0-9])")
    mois[i].append(regex.findall(dates))
mois=mois[3:]

dico_mois={'mars': mars, 'avril': avril, 'mai': mai, 'juin': juin, 'juillet': juillet,'aout': aout,
           'septembre': septembre, 'octobre':octobre, 'novembre': novembre, 'decembre': decembre}

Concaténation

On crée un dico qui contiendra le df de chaque mois, on l'initie en mettant le premier df de chaque mois.

In [106]:
df_mars = recup_top_netflix_gen("2020/03/24")
df_avril = recup_top_netflix_gen("2020/04/01")
df_mai = recup_top_netflix_gen("2020/05/01")
df_juin = recup_top_netflix_gen("2020/06/01")
df_juillet = recup_top_netflix_gen("2020/07/01")
df_aout = recup_top_netflix_gen("2020/08/01")
df_septembre = recup_top_netflix_gen("2020/09/01")
df_octobre = recup_top_netflix_gen("2020/10/01")
df_novembre = recup_top_netflix_gen("2020/11/01")
df_decembre = recup_top_netflix_gen("2020/11/01")

dico_df_mois={"mars" : df_mars, "avril" : df_avril, "mai":df_mai , "juin":df_juin , "juillet":df_juillet,
              "aout":df_aout ,"septembre" :df_septembre ,"octobre": df_octobre, "novembre" :df_novembre,"decembre": df_decembre}

On enrichit chaque df avec les autres jours du mois

In [143]:
for key,value in dico_mois.items():
    print (key)
    dico_df_mois[key] = recup_top_netflix_gen(value[0][0])
    a_conc=0
    for i in value[0][1:]:
        a_conc = recup_top_netflix_gen(i)
        dico_df_mois[key] = pd.concat([dico_df_mois[key],a_conc])
        #print(dico_df_mois[key])


mars
avril
mai
juin
juillet
aout
septembre
octobre
novembre
decembre


Unnamed: 0,Title,Type,Netflix Excl.,Netflix Release Date,Days In Top 10,Viewer- Ship Score,Measure Date
1,Virgin River,TV Show,Yes,"Nov 27, 2020",4,39,2020/12/01
2,The Christmas Chronicles 2,Movie,Yes,"Nov 25, 2020",6,57,2020/12/01
3,The 2nd,Movie,,,1,8,2020/12/01
4,The Queen's Gambit,TV Show,Yes,"Oct 23, 2020",39,340,2020/12/01
5,The Crown,TV Show,Yes,,16,138,2020/12/01
...,...,...,...,...,...,...,...
6,Selena: The Series,TV Show,Yes,"Dec 4, 2020",9,81,2020/12/13
7,Big Mouth,TV Show,Yes,"Sep 29, 2017",9,74,2020/12/13
8,Virgin River,TV Show,Yes,"Nov 27, 2020",16,128,2020/12/13
9,The Christmas Chronicles 2,Movie,Yes,"Nov 25, 2020",13,90,2020/12/13


## All Streaming Shows

# Analyse descriptive et représentation graphique

# Modélisation

# Conclusion

# Annexe