In [2]:
# **Projet P6 - révisions et pratique**

Vous allez travailler sur des données extraites de IMDB. On a déjà un peu manipulé des données de films donc vous serez pas complètement perdus comme ça. La variable d'intérêt sera la notation IMDB des films. En effet le succès commercial d'un film n'implique pas nécessairement sa qualité et il convient donc d'aller chercher plus loin que le simple profit dégagé d'une production cinématographique...
À vous !!

Les **objectifs** de ce projet sont multiples :
1. Réviser
2. Pratiquer
3. Vous auto-évaluer et vous évaluer (pour nous)
4. Vous rassurer et vous permettre de réaliser ce que vous savez faire pour pouvoir en parler

1. [Import des librairies](#import_lib)<br>
2. [Import des données](#import_data)<br>
3. [Nettoyage des donnéees](#data_cleaning)<br>
4. [Analyse exploratoire](#exploration)<br>
5. [Pré-traitement](#preprocess)<br>
6. [Une régression linéaire](#reglin)<br>
7. [D'autres modèles de régression](#autres_reg)<br>
8. [De la régression à la classification](#reg_to_class)<br>
9. [Une régression logistique](#reglog)<br>
10. [D'autres modèles de classification](#autre_class)<br>
11. [En option](#option)<br>
    11.1 [Un outil de recommandation](#reco)<br>
    11.2 [Sauvegarder un modèle](#save)<br>
    11.3 [Analyse en composantes principales](#acp)<br>

<a id='import_lib'></a>

## **1. Import des libraries**

**À FAIRE**

> Importer dans la cellule l'ensemble des librairies nécessaires à votre travail. L'idée n'est pas de savoir immédiatement tout ce dont vous aurez besoin mais de faire des aller-retours pour y ajouter vos librairies petit à petit. L'intérêt est une meilleure lisibilité pour un lecteur extérieur qui, en quelques lignes d'import, pourra déjà avoir une idée de ce qui a été fait.

In [3]:
import sys

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

In [5]:
from pandas_profiling import ProfileReport

## **2. Import des données**

**À FAIRE**

> Importer les données `5000_movies_bis.csv` disponible à la racine de ce document.  
> Afficher les 7 premières lignes et **toutes** les colonnes.    
> Répondre aux questions suivantes (répondez à toutes les questions dans une seule cellule Markdown mais évidemment le code vous ayant permis d'extraire ces informations doit être présent):
>- combien y a-t-il d'observations/de variables ?
>- sur combien d'années se répartissent les données ?
>- combien de pays sont représentés ?
>- combien de réalisateurs différents dans la base ?
>- combien d'acteurs et d'actrices différentes ?

***Description des données***

<img src="descption-data.png">

In [6]:
#movies = pd.read_csv('5000_m#ovies.csv')
movies_bis = pd.read_csv('5000_movies_bis.csv')

In [7]:
movies_bis.head(7)

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_fb_likes,actor_3_fb_likes,actor_2_name,actor_1_fb_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_fb_likes,imdb_score,aspect_ratio,movie_fb_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
5,Color,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000
6,Color,Sam Raimi,392.0,156.0,0.0,4000.0,James Franco,24000.0,336530303.0,Action|Adventure|Romance,...,1902.0,English,USA,PG-13,258000000.0,2007.0,11000.0,6.2,2.35,0


In [8]:
movies_bis.columns

Index(['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_fb_likes', 'actor_3_fb_likes', 'actor_2_name',
       'actor_1_fb_likes', 'gross', 'genres', 'actor_1_name', 'movie_title',
       'num_voted_users', 'cast_total_fb_likes', 'actor_3_name',
       'facenumber_in_poster', 'plot_keywords', 'movie_imdb_link',
       'num_user_for_reviews', 'language', 'country', 'content_rating',
       'budget', 'title_year', 'actor_2_fb_likes', 'imdb_score',
       'aspect_ratio', 'movie_fb_likes'],
      dtype='object')

In [9]:
print("Nombre de films de ", round(movies_bis.title_year.min()), " à ", round(movies_bis.title_year.max()), " est: ", movies_bis.shape[0])
print("nombre d'observations: ", movies_bis.shape[0], " nombre de variables: ", movies_bis.shape[1])
print("Les données se répartissent sur ", round(movies_bis.title_year.max()) - round(movies_bis.title_year.min()), " ans")
print("Il y a ", len(movies_bis.country.unique()), " pays")
print("Il y a ",len(movies_bis.director_name.unique()), " réalisateurs dans Dataframe")
set_acteurs1 = set(movies_bis.actor_1_name)
set_acteurs2 = set(movies_bis.actor_2_name)
set_acteurs3 = set(movies_bis.actor_3_name)
print("Il y a ",len(set_acteurs1.union(set_acteurs2).union(set_acteurs3))," d'acteurs et actrices dans dataframe")

Nombre de films de  1916  à  2016  est:  5043
nombre d'observations:  5043  nombre de variables:  28
Les données se répartissent sur  100  ans
Il y a  66  pays
Il y a  2399  réalisateurs dans Dataframe
Il y a  6256  d'acteurs et actrices dans dataframe


trouver la ligne avec plus de valeurs manquentes 

In [10]:
index_isnan = movies_bis.isnull().any(axis=1).value_counts()
print("Le nombre des lignes avec des valeurs manquantes: ",index_isnan[index_isnan.index[1]])

Le nombre des lignes avec des valeurs manquantes:  1052


In [11]:
#Afficher le nom de la colonne et le nombre de données manquantes 
lg_null = movies_bis.isnull().sum().nlargest(28)
lg_null[lg_null != 0]

gross                     677
budget                    406
aspect_ratio              329
content_rating            303
plot_keywords             153
title_year                108
director_name             104
director_fb_likes         104
num_critic_for_reviews     50
actor_3_name               23
actor_3_fb_likes           23
num_user_for_reviews       21
color                      19
duration                   15
facenumber_in_poster       13
actor_2_name               13
actor_2_fb_likes           13
language                   12
actor_1_name                7
actor_1_fb_likes            7
country                     5
dtype: int64

#gerer une page Html contient un rapport complet présente toutes les informations utiles pour commencer à travailler les données.

In [12]:
rapport = ProfileReport(movies_bis,title="Le rapport de la data frame movies_bis",html={'style':{'full_width':True}})

In [13]:
#géneration d'un fichier html
rapport.to_file(output_file="rapport/synthese_dataframe.html")

Summarize dataset: 100%|██████████| 299/299 [00:42<00:00,  6.98it/s, Completed]                                            
Generate report structure: 100%|██████████| 1/1 [00:07<00:00,  7.92s/it]
Render HTML: 100%|██████████| 1/1 [00:09<00:00,  9.35s/it]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 22.79it/s]


Les lignes avec plus grand nombre de valeurs manquantes

In [14]:
line_nan = movies_bis.isnull().sum(axis=1).nlargest(100).value_counts()
for i in range(0,len(line_nan)):
    print(f"nombre de lignes avec {line_nan.index[i]}  valeurs manquantes : {line_nan.values[i]}")

nombre de lignes avec 6  valeurs manquantes : 36
nombre de lignes avec 5  valeurs manquantes : 26
nombre de lignes avec 7  valeurs manquantes : 21
nombre de lignes avec 8  valeurs manquantes : 10
nombre de lignes avec 11  valeurs manquantes : 2
nombre de lignes avec 10  valeurs manquantes : 2
nombre de lignes avec 15  valeurs manquantes : 1
nombre de lignes avec 14  valeurs manquantes : 1
nombre de lignes avec 9  valeurs manquantes : 1


In [15]:
movies_bis[movies_bis["actor_1_name"]=="Pablo Sevilla"]

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_fb_likes,actor_3_fb_likes,actor_2_name,actor_1_fb_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_fb_likes,imdb_score,aspect_ratio,movie_fb_likes
2241,Color,,6.0,24.0,,,,0.0,,Action|Adventure|Animation|Family|Fantasy,...,51.0,Japanese,Japan,,,,,7.0,,124


<a id='import_data'></a>

<a id='data_cleaning'></a>

## **3. Nettoyage des données**

**À FAIRE**

> Vous allez dans cette partie vous occuper de faire les opérations de nettoyage sur les données. Cela implique donc de regarder en détail :
>- les doublons
>- les variables (à supprimer, à modifier etc...)
>- les valeurs manquantes
>- les zéros
> 
>Ajouter une courte explication des décisions que vous prendrez (gestion des valeurs manquantes, suppression ou modification de certaines variables, etc...).

#### **Les doublons**

In [16]:
movies = movies_bis.copy()

In [17]:
movies[movies.duplicated()].shape[0]


45

#### **Suppression de variables**

In [18]:
#suppression des doublons 
movies.drop_duplicates(ignore_index=True, inplace=True)

In [19]:
print("nombre d'observations après suppression des doublons: ", movies.shape[0]) 

nombre d'observations après suppression des doublons:  4998


In [20]:
movies.groupby(by="color")["color"].count()

color
 Black and White     207
Color               4772
Name: color, dtype: int64

In [21]:
movies.drop(columns=["plot_keywords","movie_imdb_link","color","aspect_ratio"], inplace=True)

In [22]:
movies.shape

(4998, 24)

In [23]:
movies[["genres","imdb_score"]].sort_values(by="imdb_score", ascending=False)

Unnamed: 0,genres,imdb_score
2745,Comedy,9.5
1925,Crime|Drama,9.3
3439,Crime|Drama,9.2
3182,Drama,9.1
2801,Drama,9.1
...,...,...
4567,Action|Adventure|Comedy|Fantasy|Sci-Fi,1.9
2281,Comedy|Family|Sci-Fi,1.9
2255,Comedy,1.9
1127,Action|Animation|Comedy|Family|Fantasy,1.7


In [24]:
movies.genres.unique()

array(['Action|Adventure|Fantasy|Sci-Fi', 'Action|Adventure|Fantasy',
       'Action|Adventure|Thriller', 'Action|Thriller', 'Documentary',
       'Action|Adventure|Sci-Fi', 'Action|Adventure|Romance',
       'Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance',
       'Adventure|Family|Fantasy|Mystery', 'Action|Adventure',
       'Action|Adventure|Western', 'Action|Adventure|Family|Fantasy',
       'Action|Adventure|Comedy|Family|Fantasy|Sci-Fi',
       'Adventure|Fantasy', 'Action|Adventure|Drama|History',
       'Adventure|Family|Fantasy', 'Action|Adventure|Drama|Romance',
       'Drama|Romance', 'Action|Adventure|Sci-Fi|Thriller',
       'Action|Adventure|Fantasy|Romance',
       'Action|Adventure|Fantasy|Sci-Fi|Thriller',
       'Adventure|Animation|Comedy|Family|Fantasy',
       'Adventure|Animation|Comedy|Family|Sport', 'Action|Crime|Thriller',
       'Action|Adventure|Horror|Sci-Fi|Thriller',
       'Adventure|Animation|Family|Sci-Fi',
       'Action|Comedy|Crime|Thrille

Générer des colonnes des variables indicatrices à partir de la colonne catégorielles genres.

In [25]:
#obtenir tous les genres des films dans la dataframe dans un set() pour éviter les doublons
genre = set()
for el in movies["genres"].str.split("|"):
    for s in el:
        genre.add(s)


In [26]:
#Convertir le set en liste ensuite en numpy array
genre = np.array(list(genre))

In [27]:
#Création des colonnes pour chaque genre en dummies
for film in genre:
    movies[film] = movies["genres"].str.contains(film)

In [28]:
#suppresion de la colonne genres
movies.drop("genres", axis=1, inplace=True)

In [29]:
#Convertir les valeurs booléennes en valeur numérique
movies[genre] = movies[genre].astype(int)

#### **Les valeurs manquantes et les zéros**

In [30]:
#suppression les lignes avec le plus grands nombres de valeurs manquantes
movies.drop([279,4], axis=0, inplace=True)

**Gestion des zéros**

In [31]:
#création d'une liste des types numériques
numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']

In [32]:
num_col = movies.iloc[:,:-25].select_dtypes(include=numerics).columns

In [33]:
#les noms de colonnes avec des valeurs numérique
num_col

Index(['num_critic_for_reviews', 'duration', 'director_fb_likes',
       'actor_3_fb_likes', 'actor_1_fb_likes', 'gross', 'num_voted_users',
       'cast_total_fb_likes', 'facenumber_in_poster', 'num_user_for_reviews',
       'budget', 'title_year', 'actor_2_fb_likes', 'imdb_score',
       'movie_fb_likes', 'Horror'],
      dtype='object')

In [34]:
#remplacer les nan par 0 dans tous les colonnes numerique
for n in num_col:
    movies[n].fillna(0,inplace=True)

In [35]:
#vérification que les modifications a été executées 
movies[num_col].isnull().sum()

num_critic_for_reviews    0
duration                  0
director_fb_likes         0
actor_3_fb_likes          0
actor_1_fb_likes          0
gross                     0
num_voted_users           0
cast_total_fb_likes       0
facenumber_in_poster      0
num_user_for_reviews      0
budget                    0
title_year                0
actor_2_fb_likes          0
imdb_score                0
movie_fb_likes            0
Horror                    0
dtype: int64

In [36]:
#Nombre de lignes avec le count de ziro
nb = movies[movies[num_col] == 0].count(axis=1).sort_values(ascending=False) 
print("Nom Index  |\t Nombre de Ziro\n--------------------------------")

for j in range(0, len(nb[nb > 0])):
    print(f"{nb[nb > 0].index[j]} \t   | \t {nb[nb > 0].values[j]}")


Nom Index  |	 Nombre de Ziro
--------------------------------
276 	   | 	 11
2228 	   | 	 10
4905 	   | 	 9
4920 	   | 	 9
4424 	   | 	 8
4883 	   | 	 8
4403 	   | 	 8
4947 	   | 	 8
2328 	   | 	 8
4871 	   | 	 8
2356 	   | 	 8
2745 	   | 	 8
4048 	   | 	 8
4483 	   | 	 8
4902 	   | 	 8
2131 	   | 	 7
4380 	   | 	 7
4903 	   | 	 7
537 	   | 	 7
3633 	   | 	 7
2847 	   | 	 7
4884 	   | 	 7
3852 	   | 	 7
1698 	   | 	 7
4944 	   | 	 7
4683 	   | 	 7
4840 	   | 	 7
4432 	   | 	 7
4896 	   | 	 7
4898 	   | 	 7
677 	   | 	 7
4612 	   | 	 7
3842 	   | 	 7
4582 	   | 	 7
4728 	   | 	 7
3805 	   | 	 7
4724 	   | 	 7
2535 	   | 	 7
4989 	   | 	 7
4288 	   | 	 7
4778 	   | 	 7
817 	   | 	 7
453 	   | 	 7
4995 	   | 	 7
4056 	   | 	 6
4736 	   | 	 6
4466 	   | 	 6
638 	   | 	 6
4088 	   | 	 6
3595 	   | 	 6
3551 	   | 	 6
4758 	   | 	 6
3278 	   | 	 6
1014 	   | 	 6
4446 	   | 	 6
1608 	   | 	 6
1335 	   | 	 6
4747 	   | 	 6
4481 	   | 	 6
3622 	   | 	 6
1393 	   | 	 6
2590 	   | 	 6
2445 	   | 	

In [37]:
#Ajouter une colonne nb_0 avec des valeurs qui représente le nombre de ziro pour chaque ligne
movies.insert(0,"nb_0", nb)

In [38]:
num_col = movies.select_dtypes(include=numerics).columns

In [39]:
#trier les colonnes par rapport les valeurs la colonne nb_0
movies[num_col].sort_values(by="nb_0", ascending=False)

Unnamed: 0,nb_0,num_critic_for_reviews,duration,director_fb_likes,actor_3_fb_likes,actor_1_fb_likes,gross,num_voted_users,cast_total_fb_likes,facenumber_in_poster,...,Adventure,Music,War,Family,Mystery,Game-Show,Sport,Fantasy,Short,Documentary
276,11,0.0,22.0,0.0,0.0,5.0,0.0,6,5,0.0,...,0,0,0,0,0,0,0,0,0,0
2228,10,6.0,24.0,0.0,0.0,0.0,0.0,12417,0,0.0,...,1,0,0,1,0,0,0,1,0,0
4920,9,50.0,103.0,0.0,0.0,0.0,0.0,16701,0,0.0,...,0,0,0,0,0,0,0,0,0,1
4905,9,0.0,0.0,0.0,0.0,17.0,0.0,172,17,2.0,...,0,0,0,0,0,0,0,0,0,0
4403,8,56.0,20.0,21.0,0.0,0.0,0.0,4120,0,0.0,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2927,0,70.0,102.0,287.0,79.0,452.0,18389402.0,3000,729,1.0,...,0,0,0,0,0,0,0,0,0,0
3174,0,185.0,93.0,4.0,4.0,533.0,26583369.0,20837,578,1.0,...,0,0,0,0,1,0,0,0,0,0
1882,0,154.0,107.0,503.0,108.0,264.0,60922980.0,80958,673,2.0,...,0,0,0,0,1,0,0,1,0,0
1650,0,359.0,100.0,108.0,534.0,17000.0,35266619.0,108242,20051,1.0,...,0,0,0,0,0,0,0,1,0,0


### **Les colonnes des likes représentent le grand nombre des valeurs de 0**

In [40]:
#extraction les noms des colonnes de likes
col_likes = movies[num_col].columns[movies[num_col].columns.str.contains("likes")]  

In [41]:
col_likes

Index(['director_fb_likes', 'actor_3_fb_likes', 'actor_1_fb_likes',
       'cast_total_fb_likes', 'actor_2_fb_likes', 'movie_fb_likes'],
      dtype='object')

In [42]:
#utilisation d'un pattern pour filtrer les noms des colonnes numérique non likes
pattern = '|'.join(col_likes)

In [43]:
col_movies = movies.columns

In [44]:
#extraction des noms de colonnes non likes
col_not_likes = col_movies[~col_movies.str.contains(pattern, case=False)]

In [45]:
colonne =""
i = 0 
for col in  col_not_likes:
    colonne += f" | {col}"
    i+=1
print(colonne, "| \n il y a ", i, " colonnes sans les colonnes like")

 | nb_0 | director_name | num_critic_for_reviews | duration | actor_2_name | gross | actor_1_name | movie_title | num_voted_users | actor_3_name | facenumber_in_poster | num_user_for_reviews | language | country | content_rating | budget | title_year | imdb_score | Horror | Reality-TV | History | Musical | Drama | Romance | Action | Animation | Film-Noir | Biography | Western | Crime | Thriller | Sci-Fi | News | Comedy | Adventure | Music | War | Family | Mystery | Game-Show | Sport | Fantasy | Short | Documentary | 
 il y a  44  colonnes sans les colonnes like


In [46]:
movies[movies["gross"]!=0].sort_values(by= "gross",ascending=False)

Unnamed: 0,nb_0,director_name,num_critic_for_reviews,duration,director_fb_likes,actor_3_fb_likes,actor_2_name,actor_1_fb_likes,gross,actor_1_name,...,Adventure,Music,War,Family,Mystery,Game-Show,Sport,Fantasy,Short,Documentary
0,3,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,CCH Pounder,...,1,0,0,0,0,0,0,1,0,0
26,3,James Cameron,315.0,194.0,0.0,794.0,Kate Winslet,29000.0,658672302.0,Leonardo DiCaprio,...,0,0,0,0,0,0,0,0,0,0
29,2,Colin Trevorrow,644.0,124.0,365.0,1000.0,Judy Greer,3000.0,652177271.0,Bryce Dallas Howard,...,1,0,0,0,0,0,0,0,0,0
17,2,Joss Whedon,703.0,173.0,0.0,19000.0,Robert Downey Jr.,26000.0,623279547.0,Chris Hemsworth,...,1,0,0,0,0,0,0,0,0,0
66,2,Christopher Nolan,645.0,152.0,22000.0,11000.0,Heath Ledger,23000.0,533316061.0,Christian Bale,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4568,1,Brian Trenchard-Smith,8.0,88.0,53.0,176.0,Mariel Hemingway,563.0,721.0,David Keith,...,0,0,0,0,0,0,0,0,0,0
4569,1,Frank Whaley,9.0,96.0,436.0,4.0,Frank Whaley,474.0,703.0,Lynn Cohen,...,0,0,0,0,0,0,0,0,0,0
1717,2,Frédéric Auburtin,7.0,110.0,18.0,432.0,Thomas Kretschmann,922.0,607.0,Fisher Stevens,...,0,0,0,0,0,0,1,0,0,0
4765,1,Paul Fox,80.0,80.0,3.0,39.0,Jeff Seymour,108.0,423.0,Dov Tiefenbach,...,0,0,0,0,0,0,0,0,0,0


In [47]:
movies.imdb_score

0       7.9
1       7.1
2       6.8
3       8.5
5       6.6
       ... 
4993    7.7
4994    7.5
4995    6.3
4996    6.3
4997    6.6
Name: imdb_score, Length: 4996, dtype: float64

In [48]:
nb_film_director = movies.groupby(by="director_name")["director_name"].count().sort_values(ascending=False)
ws=" "

print(f"Nom de Réalisateur{ws*14}| Nombre de films réalisés")
print(f"{'-'*32}|{'-'*25}")

for f in range(len(nb_film_director)):
    ws = " "
    len_dir = len(nb_film_director.index[f])
    dif_len = 32 - len_dir
    wsp = (0 if dif_len == 0 else dif_len )
    ws = ws * wsp
    print(f"{nb_film_director.index[f]}{ws}|  {nb_film_director.values[f]}")
   
  

Nom de Réalisateur              | Nombre de films réalisés
--------------------------------|-------------------------
Steven Spielberg                |  26
Woody Allen                     |  22
Martin Scorsese                 |  20
Clint Eastwood                  |  20
Ridley Scott                    |  17
Spike Lee                       |  16
Tim Burton                      |  16
Steven Soderbergh               |  16
Renny Harlin                    |  15
Oliver Stone                    |  14
Michael Bay                     |  13
Robert Zemeckis                 |  13
Robert Rodriguez                |  13
Ron Howard                      |  13
Joel Schumacher                 |  13
Barry Levinson                  |  13
Sam Raimi                       |  13
Brian De Palma                  |  12
Tony Scott                      |  12
Kevin Smith                     |  12
John Carpenter                  |  12
Peter Jackson                   |  12
Richard Donner                  |  12
Richard 

In [49]:
#assignation les valeurs de X
col_X_gross = movies.columns[~movies.columns.str.contains("gross", case=False) ]
col_X = col_X_gross[~col_X_gross.str.contains("likes")]
X_data = movies[col_X].iloc[:,1:-26]

In [50]:
X_name_col = X_data.columns

In [51]:
#Assignation des valeurs de Y
Y_data = movies[col_likes]
Y_data.shape

(4996, 6)

In [52]:
Y_data = Y_data.astype(int)

In [53]:
name_col_Y = Y_data.columns

In [54]:
count_ziro = Y_data[Y_data == 0].count(axis=1).nlargest(10)
print("Nom Index | Nombre de ziro")
print("----------|----------------")
for i in range(0, len(count_ziro)):
    print(f"{count_ziro.index[i]}  \t  |\t {count_ziro.values[i]}")


Nom Index | Nombre de ziro
----------|----------------
4920  	  |	 6
2228  	  |	 5
4380  	  |	 5
4403  	  |	 5
4432  	  |	 5
4483  	  |	 5
4612  	  |	 5
4675  	  |	 5
4683  	  |	 5
4736  	  |	 5


In [55]:
Y_data[name_col_Y[0]][Y_data[name_col_Y[0]]!=0].shape[0] 


3996

In [56]:
data = movies[col_X_gross]

**Gestion des NaN**

In [57]:
g = data.isnull().sum()
g.sort_values(ascending=False )


content_rating            300
director_name             103
actor_3_name               22
actor_2_name               13
language                   11
actor_1_name                7
country                     4
Documentary                 0
facenumber_in_poster        0
imdb_score                  0
actor_2_fb_likes            0
title_year                  0
budget                      0
num_user_for_reviews        0
cast_total_fb_likes         0
Horror                      0
num_voted_users             0
movie_title                 0
actor_1_fb_likes            0
actor_3_fb_likes            0
director_fb_likes           0
duration                    0
num_critic_for_reviews      0
movie_fb_likes              0
Reality-TV                  0
Short                       0
History                     0
Fantasy                     0
Sport                       0
Game-Show                   0
Mystery                     0
Family                      0
War                         0
Music     

In [58]:
movies.columns[movies.columns.str.contains("title")]

Index(['movie_title', 'title_year'], dtype='object')

***Une analyse sur les nombre de likes des acteurs et le point accorder par imdb***

on remarque que les likes et les votes sur facebook pour les acteurs et les réaliseur n'ont aucune influence sur les points accorder par IMDB

In [59]:
movies[["movie_title","title_year","content_rating","country","facenumber_in_poster","director_name","actor_1_name","actor_2_name","actor_3_name","director_fb_likes",
        "actor_1_fb_likes","actor_2_fb_likes","actor_3_fb_likes","cast_total_fb_likes",
        "movie_fb_likes","num_voted_users","num_critic_for_reviews","imdb_score"]].sort_values(by=["country","imdb_score"], ascending=False).head(15)

Unnamed: 0,movie_title,title_year,content_rating,country,facenumber_in_poster,director_name,actor_1_name,actor_2_name,actor_3_name,director_fb_likes,actor_1_fb_likes,actor_2_fb_likes,actor_3_fb_likes,cast_total_fb_likes,movie_fb_likes,num_voted_users,num_critic_for_reviews,imdb_score
2947,Das Boot,1981.0,R,West Germany,0.0,Wolfgang Petersen,Jürgen Prochnow,Martin Semmelrogge,Herbert Grönemeyer,249.0,362.0,21.0,18.0,469,11000,168203,96.0,8.4
1803,The NeverEnding Story,1984.0,PG,West Germany,1.0,Wolfgang Petersen,Gerald McRaney,Barret Oliver,Alan Oppenheimer,249.0,523.0,312.0,271.0,1560,21000,99557,99.0,7.4
4300,The Torture Chamber of Dr. Sadism,1967.0,M,West Germany,0.0,Harald Reinl,Christopher Lee,Lex Barker,Karin Dor,2.0,16000.0,57.0,51.0,16110,200,952,38.0,6.0
4902,The Brain That Sings,2013.0,,United Arab Emirates,1.0,Amal Al-Agroobi,,,,58.0,0.0,0.0,0.0,0,54,18,0.0,8.2
1925,The Shawshank Redemption,1994.0,R,USA,0.0,Frank Darabont,Morgan Freeman,Jeffrey DeMunn,Bob Gunton,0.0,11000.0,745.0,461.0,13495,108000,1689764,199.0,9.3
3439,The Godfather,1972.0,R,USA,1.0,Francis Ford Coppola,Al Pacino,Marlon Brando,Robert Duvall,0.0,14000.0,10000.0,3000.0,28122,43000,1155770,208.0,9.2
4373,Kickboxer: Vengeance,2016.0,,USA,5.0,John Stockwell,Matthew Ziff,T.J. Storm,Sam Medina,134.0,260000.0,454.0,354.0,261818,0,246,2.0,9.1
66,The Dark Knight,2008.0,PG-13,USA,0.0,Christopher Nolan,Christian Bale,Heath Ledger,Morgan Freeman,22000.0,23000.0,13000.0,11000.0,57802,37000,1676169,645.0,9.0
2814,The Godfather: Part II,1974.0,R,USA,1.0,Francis Ford Coppola,Robert De Niro,Al Pacino,Robert Duvall,0.0,22000.0,14000.0,3000.0,39960,14000,790926,149.0,9.0
3453,Fargo,0.0,TV-MA,USA,0.0,,Kirsten Dunst,Adam Goldberg,Oliver Platt,0.0,4000.0,1000.0,1000.0,19949,61000,170055,54.0,9.0


## **5. Pré-traitement**

**À FAIRE**

>Maintenant que vous commencez à bien connaître votre base de données, on va la préparer pour la partie modélisation.
>
>Sont donc attendus dans cette partie :
>- restriction aux données utiles à la prédiction : potentiellement certaines variables conservées pour la visualisation sont à supprimer pour la modélisation
>- création des échantillons d'entraînement et de test
>- gestion des variables catégoriques d'un côté et numériques de l'autre
>
>La standardisation n'étant pas toujours nécessaire puisque ça dépend des modèles, vous pouvez choisir de la faire dès maintenant ou bien d'attendre de voir si vous en avez besoin...

In [60]:
data = movies[num_col].sort_values(by=["nb_0","imdb_score"], ascending=False)

In [61]:
#séparation des données d'entrainement de la neuvelle base qui contient seulement les valeurs numériques
#les obseravations contiennent moins de trois valeurs en ziro
df_Train = data[data["nb_0"] < 3]

In [62]:
#assignation nos features d'entrainement
X_Train = df_Train.iloc[:,1:].drop("imdb_score", axis=1)

In [63]:
#assignation notre label train
Y_train = df_Train["imdb_score"]

In [64]:
Y_train = np.round_(Y_train)

In [65]:
#Extraction les données de teste, les obseravations ne contiennent cette fois-ci plus que deux valeurs en ziro
df_test = data[(data["nb_0"]>2) & (data["nb_0"]<5) ]

In [66]:
df_test

Unnamed: 0,nb_0,num_critic_for_reviews,duration,director_fb_likes,actor_3_fb_likes,actor_1_fb_likes,gross,num_voted_users,cast_total_fb_likes,facenumber_in_poster,...,Adventure,Music,War,Family,Mystery,Game-Show,Sport,Fantasy,Short,Documentary
398,4,103.0,44.0,0.0,148.0,544.0,0.0,159910,996,1.0,...,0,0,0,0,1,0,0,0,0,0
3787,4,0.0,88.0,14.0,668.0,784.0,0.0,8,3021,2.0,...,0,0,0,1,0,0,0,0,0,0
3900,4,115.0,102.0,330.0,0.0,48.0,2601847.0,22457,48,0.0,...,0,1,0,0,0,0,0,0,0,1
1492,4,24.0,156.0,278.0,249.0,695.0,0.0,9852,1573,0.0,...,0,0,1,0,0,0,0,0,0,0
2666,4,68.0,85.0,0.0,44.0,468.0,10353690.0,2673,646,0.0,...,0,1,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1690,3,130.0,100.0,70.0,99.0,473.0,9353573.0,56451,1100,0.0,...,1,0,0,0,0,0,0,1,0,0
4436,3,16.0,82.0,19.0,134.0,700.0,0.0,5579,1499,3.0,...,0,0,0,0,0,0,0,0,0,0
4102,3,29.0,80.0,19.0,73.0,319.0,0.0,2978,845,0.0,...,0,0,0,0,0,0,0,0,0,0
489,3,174.0,119.0,64.0,41.0,743.0,21471685.0,65464,971,0.0,...,1,0,0,0,0,0,0,0,0,0


In [67]:
#assignation nos features de teste
X_test = df_test.iloc[:,1:].drop("imdb_score", axis=1)

In [68]:
#assignation notre label test
Y_test = df_test["imdb_score"]

In [69]:
Y_test = np.round_(Y_test)

In [70]:
#transforamtion de nos données avec RobustScaler qui insensible au valeurs abérantes
from sklearn.preprocessing import RobustScaler
param_grid = {
    'n_neighbors':np.arange(1,100),
    'metric':['euclidean','manhattan']
}

scaler = RobustScaler()
X_sc_train = scaler.fit_transform(X_Train)
#Estimateur
grid = GridSearchCV(KNeighborsClassifier(), param_grid, cv=15)
grid.fit(X_sc_train, Y_train)


GridSearchCV(cv=15, estimator=KNeighborsClassifier(),
             param_grid={'metric': ['euclidean', 'manhattan'],
                         'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85,
       86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])})

In [71]:
X_sc_test = scaler.transform(X_test)

In [72]:
print(f"Le meilleurs score : {grid.best_score_}, \nle meilleurs model : {grid.best_estimator_}")

Le meilleurs score : 0.49235513540446274, 
le meilleurs model : KNeighborsClassifier(metric='manhattan', n_neighbors=34)


In [73]:
model = grid.best_estimator_

In [74]:
print(f"Le modèle est mauvais il nous donne un score de : {round(model.score(X_sc_test, Y_test)*100,2)} %" )


Le modèle est mauvais il nous donne un score de : 44.46 %


In [75]:
y_pred = model.predict(X_sc_test)

In [76]:
from sklearn.metrics import confusion_matrix

In [77]:
confusion_matrix(Y_test, y_pred)

array([[  0,   0,   0,   1,   3,   1,   0,   0],
       [  0,   0,   0,   7,  11,   2,   0,   0],
       [  0,   0,   3,  18,  24,   9,   0,   0],
       [  0,   0,   1,  26,  96,  13,   0,   0],
       [  0,   0,   1,  24, 270, 107,   4,   0],
       [  0,   0,   0,  11, 216, 303,  12,   0],
       [  0,   0,   0,   3,  44, 197,  48,   0],
       [  0,   0,   0,   0,   3,   1,   3,   0]], dtype=int64)

In [78]:
from sklearn.metrics import ConfusionMatrixDisplay

In [79]:
ConfusionMatrixDisplay(confusion_matrix(Y_test, y_pred)).plot(xticks_rotation=70);                           

In [80]:
import json
from pathlib import Path
import google
from googlesearch import search 

In [81]:
DIR_CUR = Path.cwd()
jsonData = DIR_CUR/"Data"

In [82]:
if not Path.exists(jsonData):
    Path.mkdir(jsonData)


In [83]:
#Les titre des films qui ont des valeurs manquantes dans la colonne director_name
film_with_nan_director = movies["movie_title"][movies["director_name"].isnull()].str.replace("\xa0",'').str.strip()

In [84]:
list_title_films = list(film_with_nan_director)
with open(jsonData/"list_title_films.json", "w", encoding="utf-8") as f:
    json.dump(list_title_films,f, indent=4)


In [85]:
with open("Data/list_title_films.json","r") as f:
    liste_films = json.load(f)

In [86]:
%%time
import time
import socket
import sys
#création d'un dictionnaire pour stocker les urls de recherche sur les noms des films avec les valeurs manquantes des noms des réalisateurs
list_url_films ={}
try:
    for title in liste_films:
        list_url=[]
        print("Start : %s" % time.ctime())
        for j in search(title,tld="co.in", num=5, stop=5, pause=3):
            list_url.append(j)
               
        list_url_films.update({title:list_url})
except :
    print("to many request 429")
finally:
    #création un fichier json pour sauvegarder le dictionnaire des url des films
    with open(jsonData/"ste_url_film.json", "w", encoding="utf-8") as fic:
        json.dump(list_url_films,fic, indent=4)


Start : Fri Jan 14 02:06:11 2022
Start : Fri Jan 14 02:06:17 2022
Start : Fri Jan 14 02:06:22 2022
Start : Fri Jan 14 02:06:27 2022
Start : Fri Jan 14 02:06:33 2022
Start : Fri Jan 14 02:06:40 2022
Start : Fri Jan 14 02:06:45 2022
Start : Fri Jan 14 02:06:50 2022
Start : Fri Jan 14 02:06:56 2022
Start : Fri Jan 14 02:07:01 2022
Start : Fri Jan 14 02:07:06 2022
Start : Fri Jan 14 02:07:12 2022
Start : Fri Jan 14 02:07:17 2022
Start : Fri Jan 14 02:07:22 2022
Start : Fri Jan 14 02:07:28 2022
Start : Fri Jan 14 02:07:33 2022
Start : Fri Jan 14 02:07:38 2022
Start : Fri Jan 14 02:07:43 2022
Start : Fri Jan 14 02:07:49 2022
Start : Fri Jan 14 02:07:54 2022
Start : Fri Jan 14 02:07:59 2022
Start : Fri Jan 14 02:08:06 2022
Start : Fri Jan 14 02:08:12 2022
Start : Fri Jan 14 02:08:17 2022
Start : Fri Jan 14 02:08:22 2022
Start : Fri Jan 14 02:08:28 2022
Start : Fri Jan 14 02:08:33 2022
Start : Fri Jan 14 02:08:39 2022
Start : Fri Jan 14 02:08:44 2022
Start : Fri Jan 14 02:08:50 2022
Start : Fr

In [87]:
movies.isnull().sum()

nb_0                        0
director_name             103
num_critic_for_reviews      0
duration                    0
director_fb_likes           0
actor_3_fb_likes            0
actor_2_name               13
actor_1_fb_likes            0
gross                       0
actor_1_name                7
movie_title                 0
num_voted_users             0
cast_total_fb_likes         0
actor_3_name               22
facenumber_in_poster        0
num_user_for_reviews        0
language                   11
country                     4
content_rating            300
budget                      0
title_year                  0
actor_2_fb_likes            0
imdb_score                  0
movie_fb_likes              0
Horror                      0
Reality-TV                  0
History                     0
Musical                     0
Drama                       0
Romance                     0
Action                      0
Animation                   0
Film-Noir                   0
Biography 

#### **Modification de variables**

In [88]:
data.iloc[:,:-26][movies.iloc[:,:-26] == 0.0 ].count().nlargest(100)

movie_fb_likes            2160
facenumber_in_poster      2148
director_fb_likes         1000
gross                      670
budget                     400
actor_3_fb_likes           111
title_year                 106
actor_2_fb_likes            68
nb_0                        57
num_critic_for_reviews      48
actor_1_fb_likes            33
cast_total_fb_likes         33
num_user_for_reviews        20
duration                    14
num_voted_users              0
imdb_score                   0
dtype: int64

## **4. Analyse exploratoire**

<a id='exploration'></a>

Dans cette partie, vous devez "explorer" vos données. Cette tâche, qui peut s'avérer très vaste, consiste à s'intéresser à l'information contenue dans nos données "au premier abord".

Sont donc attendus dans cette partie :
>- quelques statistiques descriptives
>- entre 6 et 10 visualisations (vous pouvez bien sûr en regrouper plusieurs sur une même figure)
>- et pour chaque résultat/graphique présenté, une explication succinte

In [89]:
movies.budget[movies.budget == 0].count()

400

In [90]:
movies.to_csv(jsonData/"movies_clean.csv", index=False)

In [91]:
plt.boxplot(movies[["budget","gross"]]);

<a id='preprocess'></a>

<a id='autres_reg'></a>

## **7. D'autres modèles de régression**

**À FAIRE**

>Tout est encore dans le titre. Mettez en place le modèle **de régression** que vous souhaitez.  
>Sont donc attendus dans cette partie :
>- une petite phrase pour justifier votre choix
>- les pré-traitements supplémentaires nécessaires s'il y en a
>- évaluation du modèle avec `cross_val_score` ou `cross_validate`
>- affinage des éventuels hyperparamètres avec `GridSearchCV`

In [92]:
from sklearn.model_selection import cross_val_score
cross_val_score(model, X_sc_train, Y_train, cv=5)

array([0.51047904, 0.43413174, 0.46407186, 0.49401198, 0.46626687])

In [93]:
from sklearn.metrics import make_scorer, r2_score
cross_val_score(model, X_sc_train, Y_train, cv=5, scoring='r2')

array([0.32642429, 0.2266353 , 0.29694118, 0.32227343, 0.30899297])

In [94]:
from sklearn.metrics import mean_squared_error
cross_val_score(model, X_sc_train, Y_train, cv=5, scoring='neg_mean_squared_error')

array([-0.88922156, -1.02095808, -0.92814371, -0.89371257, -0.90104948])

In [95]:
from sklearn.model_selection import cross_validate
cross_validate(model, X_sc_train, Y_train, cv=5, scoring=dict(r2='r2', e2=make_scorer(mean_squared_error)),
              return_train_score=False)

{'fit_time': array([0.0009973 , 0.00099707, 0.0009973 , 0.0009973 , 0.00099707]),
 'score_time': array([0.09275126, 0.09374905, 0.08776736, 0.08776522, 0.11269736]),
 'test_r2': array([0.32642429, 0.2266353 , 0.29694118, 0.32227343, 0.30899297]),
 'test_e2': array([0.88922156, 1.02095808, 0.92814371, 0.89371257, 0.90104948])}

<a id='irr'></a>

<a id='reg_to_class'></a>

## **8. De la régression à la classification**

**À FAIRE**

>Transformez le problème de régression en un problème de classification par une discrétisation du score IMDB en 5 classes : nul, bof, sympa, bon, super.  
>Justifiez votre découpage en indiquant quels seuils vous avez utilisé et pourquoi.

<a id='reglog'></a>

## **9. Une régression logistique**

**À FAIRE**

>Vous devez ici entraîner et tester une régression logistique pour la prédiction de la classe du film.  
>Par ailleurs, sont attendus ici :
>- un affichage et une interprétation des *Odds-ratio* et de leur significativité
>- le choix d'une ou plusieurs mesures d'évaluation du modèle et leur interprétation
>- une validation croisée pour l'évaluation modèle
>- l'affinage des hyperparamètres avec l'outil qui va bien
>- peut-on tracer les courbes ROC et calculer l'AUC ? Pourquoi ?

<a id='autre_class'></a>

## **10. Un autre modèle de classification**

**À FAIRE**

>Au choix, une autre méthode de classification. Évidemment, sentez-vous libre d'en essayer plus d'une et de les comparer.  
>Sont donc attendus dans cette partie :
>- une petite phrase pour justifier votre choix
>- les pré-traitements supplémentaires nécessaires s'il y en a
>- évaluation du modèle
>- étude de l'importance des paramètres, si votre modèle le permet
>- affinage des éventuels hyperparamètres

<a id='option'></a>

## **11. En option**

Bravo, si vous êtes arrivés jusqu'ici !!!

Pour les flèches, hésitez pas à continuer si vous en voulez encore et pour les autres, hésitez pas à y revenir à l'occasion.

<a id='reco'></a>

### **11.1. Un outil de recommandation**

**À FAIRE**

>Question un peu plus ouverte pour terminer: en utilisant une méthode de clustering (donc d'apprentissage non-supervisé), construisez un petit outil de recommandation de films.  
>Pour un film donné, votre méthode doit donc retourner les films qui lui ressemblent le plus.  
>Pour rappel, on avait fait un petit exercice comme celui-cilorsqu'on avait vu les *k-plus proches voisins*, donc vous êtes invités à ne pas utiliser kNN, sinon c'est pas drôle...  
>Vous pourrez bientôt aller plus loin en créant une petite application web permettant une interface pour choisir un film.

<a id='save'></a>

### **11.2. Sauvegarder un modèle**

**À FAIRE**

>Utilisez le module `pickle` pour sauvegarder le meilleur de vos modèles et le recharger ensuite.

<a id='acp'></a>

### **11.3. Analyse en Composantes Principales**

**À FAIRE**

>Utilisez une ACP pour visualiser vos données en dimension 2 ou 3 avec des points dont la couleur varie en fonction de la classe.  