In [59]:
import numpy as np 
import csv
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
sns.set(color_codes = True)
sns.set(font_scale=1.5) # fixe la taille de la police à 1.5 * 12pt
from scipy import stats

# 1. La science des données c'est quoi ? 

**Définitions de la donnée du [dictionnaire Larousse](https://www.larousse.fr/dictionnaires/francais/donnée/26436) :** 

* Ce qui est connu ou admis comme tel, sur lequel on peut fonder un raisonnement, qui sert de point de départ pour une recherche.
* Renseignement qui sert de point d'appui.
* Représentation conventionnelle d'une information en vue de son traitement informatique.
* Dans un problème de mathématiques, hypothèse figurant dans l'énoncé.
* Résultats d'observations ou d'expériences faites délibérément ou à l'occasion d'autres tâches et soumis aux méthodes statistiques.

<span style="color: #27AE60">**Exemple de données :**</span>
* Documents textes numériques ou numérisés (textes, e-mails, fichiers informatiques, documents scannés et océrisés, etc.), 
* Fichiers de logs provenant de serveurs, ordinateurs, machines, etc, 
* Enregistrements par des capteurs (température, hydrométrie, etc) ou des objets connectés (rythme cardiaque, position GPS, etc),
* Bases de données 
* Signaux, images, vidéos, etc

**La science des données** 

La science des données est par nature transdisciplinaire. Elle fait appel à plusieurs types de connaissances : 
* La discipline associée à l'application étudiée (physique, chimie, histoire, littérature, linguistique, géographie, astronomie, biologie, etc) 
* Les mathématiques pour la modélisation et l'extraction d'information
* L'informatique pour la collecte, la sauvegarde, le stockage, le traitement et la représentation des données 

La science des données a pour but d'extraire de l'information d'une masse de données, de synthétiser et représenter cette information. Les différentes connaissances pour faire de la science des données peuvent être regroupées dans différentes branches. Une illustration est proposée par Swami Chandrasekaran sous la forme d'un plan de métro où chaque ligne représente une branche/discipline de la science des données.


![DataScienceMap](http://nirvacana.com/thoughts/wp-content/uploads/2018/01/RoadToDataScientist1.png)
Source de l'image : `http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/`. 

**Big data et science des données** 

Vous avez forcément entendu parler les termes 'big data', 'machine learning' (apprentissage automatique en français), 'deep learning', 'intelligence artificielle'. Toutes ces notions sont des sous disciplines de la science des données. Pour y voir un peu plus clair, vous pouvez regarder ces quelques vidéos mise en ligne sur Youtube (par des entreprises, des associations, des chercheurs, des villes, etc). 

* Le big data et le traitement de données : https://youtu.be/aq38ZLLi5Rg

* Les différents types de données et leurs utilisations : https://youtu.be/sAkbabX_dec

* La visualisation des données : une web-série qui met en image des données pour détruire les fake news https://youtu.be/mMvOmM9Zgos

* Strasbourg à l'ère de l'open data : La ville et l'eurométropole mettent à disposition de tous des données très variées https://data.strasbourg.eu/explore/?sort=modified. On y trouve les résultats des dernières élections dans l'eurométropole, le taux d'occupation des piscines en temps réel, les arbres remarquables dans les parcs, les cartes des sentiers du Parc Naturel Urbain ou des Vita Boucles, des images, des plans, etc. 

Vous l'aurez compris, il est difficile de donner une définition unique des données, cela dépend de leur nature, de l'utilisation que l'on veut en faire, de la quantité d'information à notre disposition, des moyens techniques pour les traiter, etc. Dans le cadre de ce cours, nous n'aborderons qu'une infime partie de cette vaste discipline qu'est la science des données. 

### 1.1. A quoi servent les données 

Les données servent à répondre à une question. Il faut donc poser clairement la question, visualiser et modéliser les données, et les interpréter pour répondre à cette question. 

Les données seules ne suffisent pas à apporter une réponse. Le travail du traiteur de données consiste à inclure des connaissances a priori sur les données. Les données sont rarement neutres puisqu'on les utilise pour répondre à une question (attention au biais !). 

### 1.2. Un exemple de jeu de données `movie_metadata.csv` 

Toutes les notions abordées dans ce cours seront illustrées sur ce jeu de données réelles. Il s'agit d'un extrait de la base de données IMDb mise en ligne sur le site [kaggle](https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset).

**Chargement des données avec Pandas** 

Utilisation du package Pandas ([Python Data Analysis Library](https://pandas.pydata.org)) qui fournit notamment l'objet DataFrame dans lequel nous allons stocker le jeu de données étudié. Cet objet DataFrame est muni d'un grand nombre de fonctions permettant :
* la récupération et la mise en forme des données,
* le nettoyage des données (prétraitements),
* la représentation graphique et numérique des données,
* l'analyse statistique des données.

Consulter la documentation pour l'utilisation des fonctions de la classe DataFrame : http://pandas.pydata.org/pandas-docs/stable/reference/frame.html

Le jeu de données est fourni au format CSV (Comma Separated Values). C'est un format qui peut notamment être manipulé avec un tableur (Microsoft Excel ou LibreOffice Calc). Chaque ligne correspond à un film, et les différentes informations le concernant sont séparées par des point-virgules. La première ligne du fichier correspond à l'en-tête des colonnes :

**En-tête**

```
movie_title;director_name;num_critic_for_reviews;duration;actor_1_name;actor_2_name;num_voted_users;facenumber_in_poster;num_user_for_reviews;language;country;content_rating;budget;title_year;imdb_score;genres;plot_keywords
```

**Film 1**

```
The Shawshank Redemption;Frank Darabont;199;142;Morgan Freeman;Jeffrey DeMunn;1689764;0;4144;English;USA;R;25000000;1994;9.3;Crime|Drama;escape from prison|first person narration|prison|prison cell search|wrongful imprisonment
```

**Film 2**

```
The Dark Knight;Christopher Nolan;645;152;Christian Bale;Heath Ledger;1676169;0;4667;English;USA;PG-13;185000000;2008;9.0;Action|Crime|Drama|Thriller;based on comic book|dc comics|psychopath|star died before release|urban setting
```

In [60]:
DATA = pd.read_csv('../DATA/movie_metadata3.csv', delimiter=';', index_col='movie_title')
print(type(DATA))
print('Nombre de films dans la base : ' + str(len(DATA)))

<class 'pandas.core.frame.DataFrame'>
Nombre de films dans la base : 4125


La fonction `read_csv` de l'objet DataFrame est utilisée ici avec deux arguments facultatifs : 
* le paramètre `delimiter` qui permet d'indiquer comment sont séparées les valeurs dans une ligne du fichier csv,
* le paramètre `index_col` qui permet de préciser quelle variable (= colonne) est utilisée comme identifiant pour chaque élément du fichier csv. 

In [61]:
DATA.head(n = 15) # affiche les 15 premières lignes du DataFrame DATA.

Unnamed: 0_level_0,director_name,num_critic_for_reviews,duration,actor_1_name,actor_2_name,num_voted_users,facenumber_in_poster,num_user_for_reviews,language,country,content_rating,budget,title_year,imdb_score,genres,plot_keywords
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
The Shawshank Redemption,Frank Darabont,199,142,Morgan Freeman,Jeffrey DeMunn,1689764,0,4144,English,USA,R,25000000,1994,9.3,Crime|Drama,escape from prison|first person narration|pris...
The Dark Knight,Christopher Nolan,645,152,Christian Bale,Heath Ledger,1676169,0,4667,English,USA,PG-13,185000000,2008,9.0,Action|Crime|Drama|Thriller,based on comic book|dc comics|psychopath|star ...
Inception,Christopher Nolan,642,148,Leonardo DiCaprio,Tom Hardy,1468200,0,2803,English,USA,PG-13,160000000,2010,8.8,Action|Adventure|Sci-Fi|Thriller,ambiguous ending|corporate espionage|dream|sub...
Fight Club,David Fincher,315,151,Brad Pitt,Meat Loaf,1347461,2,2968,English,USA,R,63000000,1999,8.8,Drama,anti establishment|dark humor|fighting|multipl...
Pulp Fiction,Quentin Tarantino,215,178,Bruce Willis,Eric Stoltz,1324680,1,2195,English,USA,R,8000000,1994,8.9,Crime|Drama,black comedy|cunnilingus|neo noir|nonlinear ti...
Forrest Gump,Robert Zemeckis,149,142,Tom Hanks,Siobhan Fallon Hogan,1251222,0,1398,English,USA,PG-13,55000000,1994,8.8,Comedy|Drama,amputee|love|vietnam|vietnam war|war hero
The Lord of the Rings: The Fellowship of the Ring,Peter Jackson,297,171,Christopher Lee,Orlando Bloom,1238746,2,5060,English,New Zealand,PG-13,93000000,2001,8.8,Action|Adventure|Drama|Fantasy,elf|hobbit|middle earth|quest|ring
The Matrix,Lana Wachowski,313,136,Keanu Reeves,Marcus Chong,1217752,3,3646,English,USA,R,63000000,1999,8.7,Action|Sci-Fi,artificial reality|computer|matrix|questioning...
The Lord of the Rings: The Return of the King,Peter Jackson,328,192,Orlando Bloom,Billy Boyd,1215718,2,3189,English,USA,PG-13,94000000,2003,8.9,Action|Adventure|Drama|Fantasy,battle|epic|king|orc|ring
The Godfather,Francis Ford Coppola,208,175,Al Pacino,Marlon Brando,1155770,1,2238,English,USA,R,6000000,1972,9.2,Crime|Drama,crime family|mafia|organized crime|patriarch|r...


# 2. Vocabulaire utile

Afin de parler le même langage, on donne ici quelques définitions/rappels de statistiques : 

**Population :** Totalité des individus ou des objets étudiés.

<span style="color: #27AE60">exemple :</span>
... A compléter ...

**Échantillon :** Sous-ensemble d’individus ou d’objets étudiés.

<span style="color: #27AE60">exemple :</span>
... A compléter ... 

**Individu :** élément d’une population.

<span style="color: #27AE60">exemple :</span>
... A compléter ... 

**Variable(s) :** on parle aussi de caractère(s). Une variable $X$ représente une
caractéristique dont on observe/recueille la valeur pour chaque
individu d’une population. Une population peut être caractérisée par
une (analyse unidimensionnelle) ou plusieurs variables (analyse
multidimensionnelle). La variable statistique (ou aléatoire) est notée
en majuscule $X$, les valeurs qu’elle prend sont notées en minuscules $(x_1, x_2, \cdots)$.

<span style="color: #27AE60">exemple :</span>
... A compléter ... 

**Valeurs :** ce sont les valeurs numériques ou modalités $(x_1, x_2, \cdots)$ prises par la
variable d’intérêt $X$ pour les $N$ individus de l'échantillon.

<span style="color: #27AE60">exemple :</span>
... A compléter ... 

**Effectif :** nombre d’individus de l'échantillon pour lesquels la variable $X$
prend une valeur donnée $x_i$.

<span style="color: #27AE60">exemple :</span>
... A compléter ... 

**Fréquence :** la fréquence $f_i$ associée à la valeur $x_i$ est le rapport de l’effectif de
cette valeur sur la taille $N$ de l'échantillon. La somme des
fréquences est égale à 1 (ou 100 si l’on travaille en $\%$).

<span style="color: #27AE60">exemple :</span>
... A compléter ... 


**Etendue :** Soit $(x_1, x_2, \cdots, x_N)$ un ensemble de valeurs. Notons $x_{max}$ la valeur
maximale de l’ensemble $(x_1, x_2, \cdots, x_N)$ et $x_{min}$ la valeur minimale. On
appelle étendue de l’ensemble de valeurs $(x_1, x_2, \cdots, x_N)$ la différence
$x_{max} - x_{min}$.

<span style="color: #27AE60">exemple :</span>
... A compléter ... 

  

# 3. Les différents types de données

### 3.1. Données quantitatives

Ce sont des quantités mesurables sur lesquelles on peut faire des calculs et des comparaisons : $ f(x), \div, \times, =, \neq, \leqslant, \geqslant$. 

Une variable quantitative peut être soit continue $x \in [a,b]$ soit discrète $x\in \{a,b,c, \dots\}$

<span style="color: #27AE60">Exemple de données quantitatives continue dans la base IMdB :</span>

... A compléter ... 

<span style="color: #27AE60">Exemple de données quantitatives discrète dans la base IMdB :</span>

... A compléter ... 

### 3.2. Données qualitatives

Ce sont des caractéristiques non mesurables, on parle de modalités.
Une variable qualitative peut être soit nominale, dans ce cas il n'y a pas de notion d'ordre, les seules opérations autorisées sont : $=, \neq$, soit ordinale, on peut ajouter aux opérations $=$ et $\neq$ le tri (ordre logique) 

<span style="color: #27AE60">Exemple de données qualitatives nominales dans la base IMdB :</span>

... A compléter ... 

<span style="color: #27AE60">Exemple de données qualitatives ordinales dans la base IMdB :</span>

... A compléter ... 

# Filtrage des données

Nous allons voir comment filtrer les données en fonction de divers types de critères. 

Prenons tout d'abord l'exemple du genre des films, afin de constituer des tables de données ne regroupant que des films d'un genre particulier.

Exemple pour les films d'action :

In [62]:
# On ne conserve que les films tels que la colonne 'genres'
# contient le mot "Action"
action_movies = DATA[DATA['genres'].str.contains("Action", na=False)]
action_movies.head()[['genres']]

Unnamed: 0_level_0,genres
movie_title,Unnamed: 1_level_1
The Dark Knight,Action|Crime|Drama|Thriller
Inception,Action|Adventure|Sci-Fi|Thriller
The Lord of the Rings: The Fellowship of the Ring,Action|Adventure|Drama|Fantasy
The Matrix,Action|Sci-Fi
The Lord of the Rings: The Return of the King,Action|Adventure|Drama|Fantasy


Ce type de filtrage peut également être appliqué à l'index (`movie_title`), par exemple tous les titres qui contiennent le mot 'Batman' :

In [63]:
batman_movies = DATA[DATA.index.str.contains('Batman')]
batman_movies.head()

Unnamed: 0_level_0,director_name,num_critic_for_reviews,duration,actor_1_name,actor_2_name,num_voted_users,facenumber_in_poster,num_user_for_reviews,language,country,content_rating,budget,title_year,imdb_score,genres,plot_keywords
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Batman Begins,Christopher Nolan,478,128,Christian Bale,Liam Neeson,980946,0,2685,English,USA,PG-13,150000000,2005,8.3,Action|Adventure,armored car|gangster|gotham|mixed martial arts...
Batman v Superman: Dawn of Justice,Zack Snyder,673,183,Henry Cavill,Lauren Cohan,371639,0,3018,English,USA,PG-13,250000000,2016,6.9,Action|Adventure|Sci-Fi,based on comic book|batman|sequel to a reboot|...
Batman,Tim Burton,186,126,Michael Gough,Jack Palance,269033,0,817,English,USA,PG-13,35000000,1989,7.6,Action|Adventure,city|dc comics|gotham|pantyhose|police
Batman Returns,Tim Burton,153,126,Michael Gough,Vincent Schiavelli,215255,0,610,English,USA,PG-13,80000000,1992,7.0,Action,box office hit|dc comics|gotham|mayor|penguin
Batman Forever,Joel Schumacher,144,121,Michael Gough,Rene Auberjonois,190786,4,539,English,USA,PG-13,100000000,1995,5.4,Action|Adventure|Fantasy,love|necktie|partner|rock music|tuxedo


On peut aussi vérifier qu'une chaîne commence par une sous-chaîne donnée :

In [64]:
snow_movies = DATA[DATA.index.str.startswith('Snow')]
snow_movies.head()

Unnamed: 0_level_0,director_name,num_critic_for_reviews,duration,actor_1_name,actor_2_name,num_voted_users,facenumber_in_poster,num_user_for_reviews,language,country,content_rating,budget,title_year,imdb_score,genres,plot_keywords
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Snow White and the Huntsman,Rupert Sanders,416,132,Chris Hemsworth,Kristen Stewart,228554,0,710,English,USA,PG-13,170000000,2012,6.1,Action|Adventure|Drama|Fantasy,evil queen|fairy tale|magic|queen|snow white
Snowpiercer,Joon-ho Bong,488,126,Chris Evans,Ewen Bremner,181472,5,514,English,South Korea,R,39200000,2013,7.0,Action|Drama|Sci-Fi|Thriller,closed ecological system|perpetual winter|popu...
Snow White and the Seven Dwarfs,William Cottrell,145,83,Adriana Caselotti,Billy Gilbert,133348,1,204,English,USA,Approved,2000000,1937,7.7,Animation|Family|Fantasy|Musical,dwarf|love|princess|queen|snow white
Snow Dogs,Brian Levant,67,99,James Coburn,Nichelle Nichols,20219,1,100,English,Canada,PG,35000000,2002,5.1,Adventure|Comedy|Family|Sport,dentist|dog|inheritance|race|sled dog
Snow Falling on Cedars,Scott Hicks,95,127,Rick Yune,Reeve Carney,12375,1,194,English,USA,PG-13,36000000,1999,6.8,Drama|Mystery|Romance|Thriller,fisherman|japanese|love|trial|washington state


On peut aussi vérifier qu'une chaîne se termine par une sous-chaîne donnée :

In [65]:
games_movies = DATA[DATA.index.str.endswith('Games')]
games_movies.head()

Unnamed: 0_level_0,director_name,num_critic_for_reviews,duration,actor_1_name,actor_2_name,num_voted_users,facenumber_in_poster,num_user_for_reviews,language,country,content_rating,budget,title_year,imdb_score,genres,plot_keywords
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
The Hunger Games,Gary Ross,673,142,Jennifer Lawrence,Josh Hutcherson,701607,0,1959,English,USA,PG-13,78000000,2012,7.3,Adventure|Drama|Sci-Fi|Thriller,fight to the death|game|massacre|self survival...
Patriot Games,Phillip Noyce,47,117,Harrison Ford,Polly Walker,81442,1,137,English,USA,R,45000000,1992,6.9,Action|Thriller,analyst|cia|ira|terrorist|terrorist attack
WarGames,John Badham,84,114,Matthew Broderick,Barry Corbin,71842,0,152,English,USA,PG,12000000,1983,7.1,Sci-Fi|Thriller,computer|game|high school|norad|teenager
Funny Games,Michael Haneke,250,111,Naomi Watts,Siobhan Fallon Hogan,69569,0,436,English,USA,R,15000000,2007,6.5,Crime|Drama|Horror|Thriller,breaking the fourth wall|looking at the camera...
Reindeer Games,John Frankenheimer,126,124,Charlize Theron,James Frain,31113,0,212,English,USA,R,34000000,2000,5.7,Action|Adventure|Crime|Drama|Family|Fantasy|Ro...,casino|christmas|christmas season|girlfriend|r...


Pour les colonnes numériques, on pourra utiliser les opérateurs relationnels :

- `<`
- `<=`
- `>`
- `>=`
- `==`
- `!=`

Par exemple, pour les films d'action qui durent plus de 3 heures (180 minutes) :

In [66]:
long_action_movies = action_movies[action_movies['duration'] > 180]
# Autre syntaxe possible : 
# long_action_movies = action_movies[action_movies.duration > 180]
long_action_movies.head()[['genres', 'duration']] # permet d'afficher uniquement les colonnes 'genres' et 'duration'

Unnamed: 0_level_0,genres,duration
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
The Lord of the Rings: The Return of the King,Action|Adventure|Drama|Fantasy,192
Iron Man 3,Action|Adventure|Sci-Fi,195
Watchmen,Action|Drama|Mystery|Sci-Fi,215
Batman v Superman: Dawn of Justice,Action|Adventure|Sci-Fi,183
King Kong,Action|Adventure|Drama|Romance,201


Ces critères peuvent aussi être combinés directement à l'aide d'opérateurs logiques (et : `&`, ou : `|`). Dans cas, il faut entourer chaque condition par des parenthèses :

In [67]:
long_action_movies2 = DATA[(DATA['genres'].str.contains("Action")) & (DATA['duration'] > 180)]
long_action_movies2.head()[['genres', 'duration']]

Unnamed: 0_level_0,genres,duration
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
The Lord of the Rings: The Return of the King,Action|Adventure|Drama|Fantasy,192
Iron Man 3,Action|Adventure|Sci-Fi,195
Watchmen,Action|Drama|Mystery|Sci-Fi,215
Batman v Superman: Dawn of Justice,Action|Adventure|Sci-Fi,183
King Kong,Action|Adventure|Drama|Romance,201


Le 'ou' pourra être utilisé par exemple dans le cas suivant : films dans lesquels Salma Hayek est soit l'actrice principale, soit l'actrice secondaire :

In [68]:
condition1 = DATA['actor_1_name'] == 'Salma Hayek'
condition2 = DATA['actor_2_name'] == 'Salma Hayek'
salma_hayek = DATA[condition1 | condition2]
salma_hayek.head(n=10)[['actor_1_name', 'actor_2_name']]

Unnamed: 0_level_0,actor_1_name,actor_2_name
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
From Dusk Till Dawn,Quentin Tarantino,Salma Hayek
Once Upon a Time in Mexico,Johnny Depp,Salma Hayek
Wild Wild West,Will Smith,Salma Hayek
Puss in Boots,Salma Hayek,Constance Marie
The Faculty,Jordana Brewster,Salma Hayek
Four Rooms,Salma Hayek,Alicia Witt
Here Comes the Boom,Salma Hayek,Reggie Lee
Frida,Salma Hayek,Roger Rees
Spy Kids 3-D: Game Over,Sylvester Stallone,Salma Hayek
After the Sunset,Salma Hayek,Don Cheadle


Si l'on cherche la présence de plusieurs valeurs dans la même colonne, on pourra utiliser `isin`. Par exemple, pour chercher les films dont l'acteur principal est soit "Sylvester Stallone", soit "Will Smith", soit "Bruce Willis" :

In [69]:
actors = ["Sylvester Stallone", "Will Smith", "Bruce Willis"]
actors_movies = DATA[DATA['actor_1_name'].isin(actors)]
actors_movies.head(n=20)[['actor_1_name', 'genres']]

Unnamed: 0_level_0,actor_1_name,genres
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
Pulp Fiction,Bruce Willis,Crime|Drama
The Sixth Sense,Bruce Willis,Drama|Mystery|Thriller
I Am Legend,Will Smith,Drama|Horror|Sci-Fi
Independence Day,Will Smith,Action|Adventure|Sci-Fi
Men in Black,Will Smith,Adventure|Comedy|Family|Mystery|Sci-Fi
I Robot,Will Smith,Action|Mystery|Sci-Fi|Thriller
Rocky,Sylvester Stallone,Drama|Sport
Hancock,Will Smith,Action|Drama
The Pursuit of Happyness,Will Smith,Biography|Drama
Live Free or Die Hard,Bruce Willis,Action|Adventure|Thriller


On peut construire des groupes par valeur d'une ou plusieurs colonnes, et leur appliquer des fonctions d'agrégation. Par exemple, dans quelles langues sont les films tournés aux États-Unis et combien sont-ils par langue ?

In [70]:
countries_languages = DATA[DATA['country'] == 'USA'].groupby(['language'])
countries_languages.size()

language
Aramaic          1
Bosnian          1
Dari             1
English       3209
Filipino         1
Japanese         1
Maya             1
None             1
Spanish          6
Vietnamese       1
dtype: int64

## Mise en pratique pendant la séance

Répondez aux questions suivantes :
1. Quels sont les films postérieurs à 2004 ?
2. Quels sont les films dont le budget est inférieur à 1 million de dollars ?
3. Quels sont les films qui sont sortis en 2013 ?
4. Quels sont les films qui ont été réalisés par Quentin Tarantino ?
5. Quels sont les films français ?
6. Quels sont les films qui parlent de dragons ? (voir la colonne `plot_keywords`)
7. Quels sont les films de la saga Star Wars ?
8. Quels sont les films qui ont un score supérieur à 9 ?
9. Quels sont les films de science-fiction réalisés par James Cameron ?
10. Quels sont les films français qui ont un score supérieur à 8 ?
11. Quels sont les films d'action avec Leonardo Di Caprio comme acteur principal ou secondaire ?
12. Quels sont les westerns qui parlent d'esclavage (*slavery*) ?
13. Quels sont les films d'action en anglais qui parlent d'ordinateurs (*computer*) ?
14. Quels sont les films allemands, mais en anglais, dont la note est supérieure à 6 ?
15. Quels sont les films dont l'acteur principal a pour prénom 'Jonathan' et l'actrice secondaire 'Elizabeth' ?

In [71]:
# 1
films_after_2004 = DATA[DATA['title_year'] > 2004]
films_after_2004.head()[['title_year']]

Unnamed: 0_level_0,title_year
movie_title,Unnamed: 1_level_1
The Dark Knight,2008
Inception,2010
The Dark Knight Rises,2012
The Avengers,2012
Batman Begins,2005


In [72]:
# 2
films_budget_under_million = DATA[DATA['budget'] < 1000000]
films_budget_under_million.head()[['budget']]

Unnamed: 0_level_0,budget
movie_title,Unnamed: 1_level_1
12 Angry Men,350000
Psycho,806947
Lock Stock and Two Smoking Barrels,960000
Casablanca,950000
Monty Python and the Holy Grail,229575


In [73]:
# 3
film_in_2013 = DATA[DATA['title_year'] == 2013]
film_in_2013.head()[['title_year']]

Unnamed: 0_level_0,title_year
movie_title,Unnamed: 1_level_1
The Wolf of Wall Street,2013
Gravity,2013
Iron Man 3,2013
Man of Steel,2013
The Hunger Games: Catching Fire,2013


In [74]:
# 4
films_tarantino = DATA[DATA['director_name'] == 'Quentin Tarantino']
films_tarantino.head()[['director_name']]

Unnamed: 0_level_0,director_name
movie_title,Unnamed: 1_level_1
Pulp Fiction,Quentin Tarantino
Django Unchained,Quentin Tarantino
Inglourious Basterds,Quentin Tarantino
Kill Bill: Vol. 1,Quentin Tarantino
Reservoir Dogs,Quentin Tarantino


In [75]:
# 5
films_francais = DATA[DATA['country'] == 'France']
films_francais.head()[['country']]

Unnamed: 0_level_0,country
movie_title,Unnamed: 1_level_1
Amélie,France
The Pianist,France
Taken,France
The Fifth Element,France
Lucy,France


In [76]:
# 6
dragon_films = DATA[DATA['plot_keywords'].str.contains('dragon', na=False)]
dragon_films.head()[['plot_keywords']]

Unnamed: 0_level_0,plot_keywords
movie_title,Unnamed: 1_level_1
The Hobbit: An Unexpected Journey,dragon|dwarf|hobbit|orc|wizard
How to Train Your Dragon,dragon|island|training|viking|village
How to Train Your Dragon 2,dragon|father son relationship|husband wife re...
Eragon,dragon|dragon rider|fictional war|sword and fa...
Reign of Fire,castle|dragon|fire breathing dragon|militia|su...


In [77]:
# 7
star_wars_films = DATA[DATA.index.str.contains('Star Wars')]
star_wars_films.head()

Unnamed: 0_level_0,director_name,num_critic_for_reviews,duration,actor_1_name,actor_2_name,num_voted_users,facenumber_in_poster,num_user_for_reviews,language,country,content_rating,budget,title_year,imdb_score,genres,plot_keywords
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Star Wars: Episode IV - A New Hope,George Lucas,282,125,Harrison Ford,Peter Cushing,911097,1,1470,English,USA,PG,11000000,1977,8.7,Action|Adventure|Fantasy|Sci-Fi,death star|empire|galactic war|princess|rebellion
Star Wars: Episode V - The Empire Strikes Back,Irvin Kershner,223,127,Harrison Ford,Kenny Baker,837759,0,900,English,USA,PG,18000000,1980,8.8,Action|Adventure|Fantasy|Sci-Fi,duel|famous twist|rebel|rescue|snowy landscape
Star Wars: Episode VI - Return of the Jedi,Richard Marquand,197,134,Harrison Ford,Ian McDiarmid,681857,0,647,English,USA,PG,32500000,1983,8.4,Action|Adventure|Fantasy|Sci-Fi,death star|emperor|empire|princess|rebel
Star Wars: Episode I - The Phantom Menace,George Lucas,320,136,Natalie Portman,Liam Neeson,534658,1,3597,English,USA,PG,115000000,1999,6.5,Action|Adventure|Fantasy|Sci-Fi,alien|character says i have a bad feeling abou...
Star Wars: Episode III - Revenge of the Sith,George Lucas,359,140,Natalie Portman,Christopher Lee,520104,4,3286,English,USA,PG-13,113000000,2005,7.6,Action|Adventure|Fantasy|Sci-Fi,elongated cry of no|friends become enemies|kic...


In [78]:
# 8
films_score_above_9 = DATA[DATA['imdb_score'] > 9]
films_score_above_9.head()[['imdb_score']]

Unnamed: 0_level_0,imdb_score
movie_title,Unnamed: 1_level_1
The Shawshank Redemption,9.3
The Godfather,9.2


In [79]:
# 9
films_Cameron_sf = DATA[(DATA['director_name'] == 'James Cameron') & (DATA['genres'].str.contains('Sci-Fi'))]
films_Cameron_sf.head()[['director_name', 'genres']]

Unnamed: 0_level_0,director_name,genres
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
Avatar,James Cameron,Action|Adventure|Fantasy|Sci-Fi
Terminator 2: Judgment Day,James Cameron,Action|Sci-Fi
The Terminator,James Cameron,Action|Sci-Fi
Aliens,James Cameron,Action|Adventure|Sci-Fi
The Abyss,James Cameron,Adventure|Drama|Sci-Fi|Thriller


In [80]:
# 10
films_fr_above_8 = DATA[(DATA['country'] == 'France') & (DATA['imdb_score'] > 8)]
films_fr_above_8.head()[['country', 'imdb_score']]

Unnamed: 0_level_0,country,imdb_score
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
Amélie,France,8.4
The Pianist,France,8.5


In [84]:
# 11
condition1 = DATA['actor_1_name'] == 'Leonardo DiCaprio'
condition2 = DATA['actor_2_name'] == 'Leonardo DiCaprio'
leonardo_dicaprio = condition1 | condition2

action = DATA['genres'].str.contains("Action", na=False)

action_di_caprio = DATA[action & leonardo_dicaprio]

action_di_caprio.head()[['actor_1_name', 'actor_2_name']]

Unnamed: 0_level_0,actor_1_name,actor_2_name
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
Inception,Leonardo DiCaprio,Tom Hardy
Body of Lies,Leonardo DiCaprio,Simon McBurney
The Man in the Iron Mask,Leonardo DiCaprio,Anne Parillaud
The Quick and the Dead,Leonardo DiCaprio,Pat Hingle


In [None]:
# 12
western_slavery = DATA[DATA['genres'].str.contains('Western') & DATA['plot_keywords'].str.contains('slavery', na=False)]
western_slavery.head()[['plot_keywords', 'genres']]

Unnamed: 0_level_0,plot_keywords,genres
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1
Django Unchained,dynamite|historically inaccurate|ku klux klan|...,Drama|Western


In [None]:
# 13
eng_action_film_computer = DATA[(DATA['language'] == 'English') & (DATA['genres'].str.contains('Action')) & (DATA['plot_keywords'].str.contains('computer', na=False))]
eng_action_film_computer.head()[['language', 'genres', 'plot_keywords']]

Unnamed: 0_level_0,language,genres,plot_keywords
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Matrix,English,Action|Sci-Fi,artificial reality|computer|matrix|questioning...
Skyfall,English,Action|Adventure|Thriller,brawl|childhood home|computer cracker|intellig...
Star Wars: Episode II - Attack of the Clones,English,Action|Adventure|Fantasy|Sci-Fi,martial arts|murdered before giving protagonis...
Mission: Impossible - Rogue Nation,English,Action|Adventure|Thriller,capture|computer hacker|mission|rogue agent|spy
Swordfish,English,Action|Crime|Thriller,computer|secret agent|terrorism|told in flashb...


In [None]:
# 14
eng_germany_above_6 = DATA[(DATA['language'] == 'English') & (DATA['country'] == 'Germany') & (DATA['imdb_score'] > 6)]
eng_germany_above_6.head()[['language', 'country', 'imdb_score']]

Unnamed: 0_level_0,language,country,imdb_score
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Blood Diamond,English,Germany,8.0
Crash,English,Germany,7.9
Cloud Atlas,English,Germany,7.5
Lucky Number Slevin,English,Germany,7.8
Red Dragon,English,Germany,7.2


In [None]:
# 15
films_actor1_jonathan_actor2_elizabeth = DATA[(DATA['actor_1_name'] == 'Jonathan Taylor Thomas') & (DATA['actor_2_name'] == 'Elizabeth Taylor')]
films_actor1_jonathan_actor2_elizabeth.head()[['actor_1_name', 'actor_2_name']]

Unnamed: 0_level_0,actor_1_name,actor_2_name
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1


# Ressources complémentaires

Cours de Stéphane Mallat au collège de France : [Leçon inaugurale](https://www.college-de-france.fr/site/stephane-mallat/inaugural-lecture-2018-01-11-18h00.htm), [Cartographie de la science des données](https://www.college-de-france.fr/site/stephane-mallat/course-2018-01-17-09h30.htm)

Livre [Data science : fondamentaux et études de cas - Machine learning avec Python et R](https://www.eyrolles.com/Chapitres/9782212142433/9782212142433.pdf) ([Version électronique accessible en ligne](https://unistra-scholarvox-com.scd-rproxy.u-strasbg.fr/book/88829994))

# Remarques

## Remarque 1

La méthode `str.contains()` permet de vérifier si une chaîne de caractères est présente dans une autre chaîne de caractères. Par exemple, pour vérifier si la chaîne de caractères 'Batman' est présente dans la colonne `movie_title` : 
```python
df['movie_title'].str.contains('Batman')
```
Elle nécessite parfois de préciser `na=False` pour éviter des erreurs, notamment lorsque qu'il manque des valeurs dans le tableau de données.

## Remarque 2

La méthode `df.head()` n'affiche par défaut que les 5 premières lignes du tableau de données. On peut modifier ce nombre en passant un argument à la méthode, par exemple `df.head(10)` pour afficher les 10 premières lignes.