# Analyse de données de films

Nous proposons de travailler sur des données décrivant des films. Les possibilités sont larges et vous êtes évalués sur vos propositions et votre méthodologie plus que sur vos résultats.

Les données de départ sont disponibles sur:
https://grouplens.org/datasets/movielens/
au format CSV. 

Nous nous intéresserons en particulier au jeu de données: **MovieLens 20M Dataset**. Dans ce jeu de données, vous disposez entre autre de:
* Idendifiant du film dans IMdb et TMdb (ça sera important ensuite)
* Catégorie(s) du film
* Titre du film
* Notes données par les internautes aux films

Afin de rendre le projet plus intéressant, nous ajoutons des données sur les acteurs et producteurs associés aux films (récupéré sur TMdb). Ces données sont disponibles sur les liens suivants:

http://webia.lip6.fr/~guigue/film_v2.pkl <br>
http://webia.lip6.fr/~guigue/act_v2.pkl <br>
http://webia.lip6.fr/~guigue/crew_v2.pkl

Ces fichiers contiennent respectivement : une nouvelle description des films (dont l'identifiant TMdb et la note moyenne donnée par les internautes, la date de sortie,...), une description des acteurs de chaque film et une description des équipes (scénariste, producteur, metteur en scène) pour chaque film.

Ces données sont des listes de taille 26908, chaque élément de la liste correspondant à un dictionnaire dont vous étudierez les clés pour récupérer les informations utiles.

**ATTENTION** Les contraintes de récupération d'informations en ligne font que la base MovieLens compte 27278 films mais les fichiers ci-dessus n'en comptent que 26908. Le plus simple est probablement d'éliminer les films de MovieLens qui ne sont pas dans cette seconde base.

## Consignes générales pour l'analyse des données

Vous devez proposer plusieurs analyses des données, qui devront à minima utiliser les
 techniques suivantes:
 
1. Mettre en forme les données pour identifier les acteurs et les catégories, les indexer
1. Traiter au moins un problème de régression supervisé (par exemple la prédiction de la note moyenne donnée à un film par les internautes).
1. Traiter au moins un problème de classification supervisé (par exemple la prédiction de la catégorie d'un film)
1. Utiliser les données catégorielles (catégories, acteurs,...) de manière discrète ET de manière coninue (*dummy coding*) dans des approches différentes
1. Proposer au moins une approche de catégorisation non supervisée (pour regrouper les acteurs par exemple)
1. Mener une campagne d'expérience permettant de comparer les performances sur un problème en fonction des valeurs d'un paramètre (et donc, in fine, trouver la meilleure valeur du paramètre)
1. Proposer quelques illustrations

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import pickle as pkl

# La ligne suivante permet de préciser le chemin d'accès à la librairie iads
import sys
sys.path.append('../')

# Importation de la librairie iads
import iads as iads

# importation de LabeledSet
from iads import LabeledSet as ls

# importation de Classifiers
from iads import Classifiers as cl
import math

## Chargement des données (base MovieLens + enrichissements)

In [7]:
# Chargement des données MovieLens
fname_links = "data/ratings.csv"
ratings = pd.read_csv(fname_links, encoding='utf8')

#fname_links = "data/movies.csv"
#movies = pd.read_csv(fname_links, encoding='utf8')

fname_links = "data/moviesFiltree.csv"
movies = pd.read_csv(fname_links, encoding='utf8', index_col=0)

fname_links = "data/links.csv"
links = pd.read_csv(fname_links, encoding='utf8')

fname_links = "data/tags.csv"
ratings = pd.read_csv(fname_links, encoding='utf8')

fname_links = "data/genome-tags.csv"
ratings = pd.read_csv(fname_links, encoding='utf8')

fname_links = "data/ratings.csv"
ratings = pd.read_csv(fname_links, encoding='utf8')

In [5]:
# Chargement des données complémentaires
fname = "data/act_v2.pkl"
acteurs = pkl.load(open(fname, "rb"))

fname = "data/film_v2.pkl"
films = pkl.load(open(fname, "rb"))

fname = "data/crew_v2.pkl"
crew = pkl.load(open(fname, "rb"))

In [6]:
"""
#Eliminer les films de MovieLens qui ne sont pas dans la base complémentaire
print("BEFORE")
print(len(movies))
print(len(films))
moviesFilter = []
filmId = []
cpt = 0
for i in range(len(films)):
    filmId.append(films[i]["id"])
    
for i in range(len(movies)):
    line = links.loc[links['movieId'] == movies.iloc[i]["movieId"]]
    value = float(line.iloc[0]["tmdbId"])
    if(math.isnan(value)):
        cpt += 1
        continue
    if(value in filmId):
        moviesFilter.append(movies.iloc[i]["movieId"])
    else:
        cpt += 1
movies = movies[movies.movieId.isin(moviesFilter)]
links = links[links.movieId.isin(moviesFilter)]
ratings = ratings[ratings.movieId.isin(moviesFilter)]
print("\nAFTER")
print(len(movies))
movies.to_csv("data/moviesFiltree.csv", encoding='utf8')
"""

BEFORE
27278
26908

AFTER
26699


## 1 Feature engineering
A vous de créer les caractéristiques de description des données qui permettront d'améliorer les performances dans les tâches que vous aurez choisi d'aborder dans le projet.

In [22]:
# Faire un dictionnaire avec tous les acteurs (acteur => indice)
# + un dictionnaire inversé (indice => acteur)
actors = dict()
actors_inv = dict()
for lista in acteurs:
    for a in lista:
        # affecte une valeur à une clé si la clé n'est pas utilisée
        res = actors.setdefault(a['name'], len(actors))
        if res == len(actors)-1:
            actors_inv[len(actors)-1] = a['name']
            
dict(list(actors.items())[0:20])

# Exemple de transformation supplémentaire
# Dans combien de films de base joue Tom Hanks? (Réponse 57)
# Dans combien de comédies...

# => On voit qu'il est possible de créer facilement des nouvelles caractéristiques qui
# apporteront des informations utiles pour certaines tâches

{'Tom Hanks': 0,
 'Tim Allen': 1,
 'Don Rickles': 2,
 'Jim Varney': 3,
 'Wallace Shawn': 4,
 'John Ratzenberger': 5,
 'Annie Potts': 6,
 'John Morris': 7,
 'Erik von Detten': 8,
 'Laurie Metcalf': 9,
 'R. Lee Ermey': 10,
 'Sarah Freeman': 11,
 'Penn Jillette': 12,
 'Sherry Lynn': 13,
 'Jack Angel': 14,
 'Spencer Aste': 15,
 'Greg Berg': 16,
 'Lisa Bradley': 17,
 'Kendall Cunningham': 18,
 'Debi Derryberry': 19}

In [23]:
movies_set.head()


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [24]:
ratings_set.head()


Unnamed: 0,userId,movieId,rating,timestamp
0,1,2,3.5,1112486027
1,1,29,3.5,1112484676
2,1,32,3.5,1112484819
3,1,47,3.5,1112484727
4,1,50,3.5,1112484580


In [8]:
links_set.head()

Unnamed: 0,movieId,imdbId,tmdbId
0,1,114709,862.0
1,2,113497,8844.0
2,3,113228,15602.0
3,4,114885,31357.0
4,5,113041,11862.0


In [9]:
acteurs[1]

[{'cast_id': 1,
  'character': 'Alan Parrish',
  'credit_id': '52fe44bfc3a36847f80a7c73',
  'gender': 2,
  'id': 2157,
  'name': 'Robin Williams',
  'order': 0,
  'profile_path': '/3vypmub75rLItlC51uJUurNYkW0.jpg'},
 {'cast_id': 8,
  'character': 'Samuel Alan Parrish / Van Pelt',
  'credit_id': '52fe44bfc3a36847f80a7c99',
  'gender': 2,
  'id': 8537,
  'name': 'Jonathan Hyde',
  'order': 1,
  'profile_path': '/7il5D76vx6QVRVlpVvBPEC40MBi.jpg'},
 {'cast_id': 2,
  'character': 'Judy Shepherd',
  'credit_id': '52fe44bfc3a36847f80a7c77',
  'gender': 1,
  'id': 205,
  'name': 'Kirsten Dunst',
  'order': 2,
  'profile_path': '/5FBoENGAlSC69ZkW8KqsyUFCAYu.jpg'},
 {'cast_id': 24,
  'character': 'Peter Shepherd',
  'credit_id': '52fe44c0c3a36847f80a7ce7',
  'gender': 2,
  'id': 145151,
  'name': 'Bradley Pierce',
  'order': 3,
  'profile_path': '/j6iW0vVA23GQniAPSYI6mi4hiEW.jpg'},
 {'cast_id': 10,
  'character': 'Sarah Whittle',
  'credit_id': '52fe44bfc3a36847f80a7c9d',
  'gender': 1,
  'id': 

In [None]:
film[10]

In [11]:
crew[1]

[{'credit_id': '52fe44bfc3a36847f80a7c7d',
  'department': 'Directing',
  'gender': 2,
  'id': 4945,
  'job': 'Director',
  'name': 'Joe Johnston',
  'profile_path': '/fbGZo6CG9Z9zKFh8D5wHunyu7gJ.jpg'},
 {'credit_id': '52fe44bfc3a36847f80a7c83',
  'department': 'Writing',
  'gender': 2,
  'id': 42356,
  'job': 'Novel',
  'name': 'Chris van Allsburg',
  'profile_path': None},
 {'credit_id': '52fe44bfc3a36847f80a7c89',
  'department': 'Writing',
  'gender': 2,
  'id': 876,
  'job': 'Screenplay',
  'name': 'Jonathan Hensleigh',
  'profile_path': '/l1c4UFD3g0HVWj5f0CxXAvMAGiT.jpg'},
 {'credit_id': '52fe44bfc3a36847f80a7c8f',
  'department': 'Writing',
  'gender': 2,
  'id': 56520,
  'job': 'Screenplay',
  'name': 'Greg Taylor',
  'profile_path': None},
 {'credit_id': '52fe44bfc3a36847f80a7c95',
  'department': 'Writing',
  'gender': 2,
  'id': 56521,
  'job': 'Screenplay',
  'name': 'Jim Strain',
  'profile_path': None},
 {'credit_id': '52fe44bfc3a36847f80a7cb3',
  'department': 'Productio

In [12]:
ratings_set.describe()

Unnamed: 0,userId,movieId,rating,timestamp
count,20000260.0,20000260.0,20000260.0,20000260.0
mean,69045.87,9041.567,3.525529,1100918000.0
std,40038.63,19789.48,1.051989,162169400.0
min,1.0,1.0,0.5,789652000.0
25%,34395.0,902.0,3.0,966797700.0
50%,69141.0,2167.0,3.5,1103556000.0
75%,103637.0,4770.0,4.0,1225642000.0
max,138493.0,131262.0,5.0,1427784000.0


In [13]:
movies_set.size


81834

In [14]:
#Creation des nouveaux dataframe de imdb en supprimant ceux non présent dans tmdb
#Pour tous les films de imdb, pour chaque id regarder le lien avec tmdb (dans film) et si il y est pas, on supprime du df (movies)

movies_new=movies_set.copy()

for indx,row in movies_set.iterrows():
    movieid=row["movieId"]
    if movieid >26908 :
        movies_new.drop(movieid, inplace=True)
        break

    tmdbid=links_set["tmdbId"][movieid]
    found=False
    
    
    for f in film:
        if f["id"] == tmdbid :
            found=True
            break
        else :
            pass
    
    if found==False:
        movies_new.drop(movieid, inplace=True)

In [15]:
movies_new.size #marche pas

81528

In [16]:
#On recupere la liste de tous les genres possibles dans la base de données
genres = set(movies_set["genres"])
categories = set()
for i in genres:
    for j in i.split("|"):
        categories.add(j)
categories = list(categories)
categories.sort()
print(categories)

['(no genres listed)', 'Action', 'Adventure', 'Animation', 'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'IMAX', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western']


In [33]:
#On crée un labaledSet pour afficher la note moyenne des films par rapport à leur genre avec dummy coding
#1 : la categorie est celle du film
movies_LabeledSet = ls.LabeledSet(20)
for indx,row in movies_set.iterrows():
    table = [0]*20
    if row["movieId"] in ratings_set.keys():
        for i in row["genres"].split("|"):
            table[categories.index(i)] = 1
        movies_LabeledSet.addExample(table,ratings_set.at[row["movieId"]])
        
print(movies_LabeledSet.size())


0


In [34]:
#lier les imdb et tmdb avec links_set pour avoir la note du film en fonction du réalisateur de manieres discretes
for i in range(26744):
    print(movies_LabeledSet.getX(i),movies_LabeledSet.getY(i))


AttributeError: 'LabeledSet' object has no attribute 'x'

## 2 - Regression

In [None]:
def plot2DSet(set):
    """ LabeledSet -> NoneType
        Hypothèse: set est de dimension 2
        affiche une représentation graphique du LabeledSet
        remarque: l'ordre des labels dans set peut être quelconque
    """
    S_pos = set.x[np.where(set.y == 1),:][0]      # tous les exemples de label +1
    S_neg = set.x[np.where(set.y == -1),:][0]     # tous les exemples de label -1
    plt.scatter(S_pos[:,0],S_pos[:,1],marker='o') # 'o' pour la classe +1
    plt.scatter(S_neg[:,0],S_neg[:,1],marker='x') # 'x' pour la classe -1

def plot_frontiere(set,classifier,step=10):
    """ LabeledSet * Classifier * int -> NoneType
        Remarque: le 3e argument est optionnel et donne la "résolution" du tracé
        affiche la frontière de décision associée au classifieur
    """
    mmax=set.x.max(0)
    mmin=set.x.min(0)
    x1grid,x2grid=np.meshgrid(np.linspace(mmin[0],mmax[0],step),np.linspace(mmin[1],mmax[1],step))
    grid=np.hstack((x1grid.reshape(x1grid.size,1),x2grid.reshape(x2grid.size,1)))
    
    # calcul de la prediction pour chaque point de la grille
    res=np.array([classifier.predict(grid[i,:]) for i in range(len(grid)) ])
    res=res.reshape(x1grid.shape)
    # tracer des frontieres
    plt.contourf(x1grid,x2grid,res,colors=["red","cyan"],levels=[-1000,0,1000])
    

## 3 - Classification

In [35]:
realisateurs= dict()
realisateurs_inv=dict()
cpt=0
for c in crew :
    if len(c)>0:
        real = c[0]["name"]
        if(real not in realisateurs.values()):
            realisateurs[cpt]=real
            realisateurs_inv[real]=cpt
            cpt+=1

In [37]:
realisateurs

{0: 'John Lasseter',
 1: 'Joe Johnston',
 2: 'Howard Deutch',
 3: 'Forest Whitaker',
 4: 'Nancy Meyers',
 5: 'Michael Mann',
 6: 'Sydney Pollack',
 7: 'Peter Hewitt',
 8: 'Peter Hyams',
 9: 'Martin Campbell',
 10: 'Rob Reiner',
 11: 'Mel Brooks',
 12: 'Simon Wells',
 13: 'Oliver Stone',
 14: 'Renny Harlin',
 15: 'Martin Scorsese',
 16: 'Ang Lee',
 17: 'Combustible Edison',
 18: 'Steve Oedekerk',
 19: 'Joseph Ruben',
 20: 'Barry Sonnenfeld',
 21: 'Mark Tarlov',
 22: 'Richard Donner',
 23: 'Victor Salva',
 24: 'Mike Figgis',
 25: 'Oliver Parker',
 26: 'Lesli Linka Glatter',
 27: 'Roger Michell',
 28: 'Jean-Pierre Jeunet',
 29: 'Zhang Yimou',
 30: 'John N. Smith',
 31: 'Terry Gilliam',
 32: 'Jean-Jacques Annaud',
 33: 'Chris Noonan',
 34: 'Christopher Hampton',
 35: 'Tim Robbins',
 36: 'Stephen Low',
 37: 'Andy Tennant',
 38: 'Amy Heckerling',
 39: 'Darrell James Roodt',
 40: 'Richard Loncraine',
 41: 'Albert Hughes',
 42: 'Michael Hoffman',
 43: 'Paul W.S. Anderson',
 44: 'Gus Van Sant',

In [38]:
links_set[links_set['tmdbId'] == 8844]['movieId'].values[0]

2

In [39]:
real_LabeledSet = ls.LabeledSet(1)

cpt = 0 
for f in film :
    tmdbId = f['id']
    if (len(links_set[links_set['tmdbId'] == tmdbId]['movieId'].values) >0):
        movieid = links_set[links_set['tmdbId'] == tmdbId]['movieId'].values[0]
        l_genres = movies_set[movies_set['movieId'] == movieid]['genres'].values[0].split("|")
        genres_dummy = [-1 for i in range(20)]   # Y : genres pd.get_dummies()
        for g in l_genres :
            genres_dummy[categories.index(g)] = 1
        code_real = realisateurs_inv[crew[cpt][0]['name']]  # X : code du realisateurs du film
        
        label=genres_dummy[1] #film d'action
        real_LabeledSet.addExample([code_real,code_real], label)

In [40]:
knn5 = cl.ClassifierKNN(2,2)
knn5.train(real_LabeledSet)
acc5 = knn5.accuracy(real_LabeledSet)
print(acc5)

KeyboardInterrupt: 

In [None]:
knn10 = cl.ClassifierKNN(2,10)
knn10.accuracy(real_LabeledSet)
acc10 = knn10.accuracy(real_LabeledSet)
print(acc10)

In [None]:
knn15 = cl.ClassifierKNN(2,15)
knn15.accuracy(real_LabeledSet)
acc15 = knn15.accuracy(real_LabeledSet)
print(acc15)

In [None]:
#plt.plot([5, 10, 20], [acc5, acc10, acc15])

##AUTRE

In [7]:
#On recupere la liste de tous les genres possibles dans la base de données

genres = set(movies_set["genres"])
categories = set()
for i in genres:
    for j in i.split("|"):
        categories.add(j)
categories = list(categories)
categories.sort()
print(categories)

['(no genres listed)', 'Action', 'Adventure', 'Animation', 'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'IMAX', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western']


In [8]:
#On recupere la liste de toutes les notes moyennes par film

ratings = ratings_set.sort_values("movieId")
ratings = ratings.groupby("movieId")["rating"].mean()
print(ratings)

movieId
1         3.921240
2         3.211977
3         3.151040
4         2.861393
5         3.064592
6         3.834930
7         3.366484
8         3.142049
9         3.004924
10        3.430029
11        3.667713
12        2.619766
13        3.272416
14        3.432082
15        2.721993
16        3.787455
17        3.968573
18        3.373631
19        2.607412
20        2.880754
21        3.581689
22        3.319400
23        3.148235
24        3.199849
25        3.689510
26        3.628857
27        3.413520
28        4.057546
29        3.952230
30        3.633880
            ...   
131146    4.000000
131148    4.000000
131150    4.000000
131152    0.500000
131154    3.500000
131156    4.000000
131158    4.000000
131160    4.000000
131162    2.000000
131164    4.000000
131166    4.000000
131168    3.500000
131170    3.500000
131172    1.000000
131174    3.500000
131176    4.500000
131180    2.500000
131231    3.500000
131237    3.000000
131239    4.000000
131241    4.000000
1312

In [46]:
#On crée un labaledSet pour afficher la note moyenne des films par rapport à leur genre
movies_LabeledSet = ls.LabeledSet(20)
for indx,row in movies_set.iterrows():
    table = [0]*20
    if row["movieId"] in ratings.keys():
        for i in row["genres"].split("|"):
            table[categories.index(i)] = 1
        movies_LabeledSet.addExample(table,ratings.at[row["movieId"]])
print(movies_LabeledSet.size())

26744


In [10]:
for i in range(26744):
    print(movies_LabeledSet.getX(i),movies_LabeledSet.getY(i))

[0 0 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0] [3.92123956]
[0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0] [3.2119768]
[0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0] [3.15104044]
[0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0] [2.86139332]
[0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [3.06459173]
[0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0] [3.83493033]
[0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0] [3.36648407]
[0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [3.14204947]
[0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [3.00492424]
[0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0] [3.43002931]
[0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0] [3.66771281]
[0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0] [2.61976593]
[0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [3.27241615]
[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0] [3.43208236]
[0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0] [2.72199313]
[0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0] [3.78745544]
[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0] [3.96857309]
[0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [3.3736306]
[0 0 0 0 0 1