# Les objets Series Pandas

Les 3 types d'objets Pandas :
- les Series
- les DataFrames
- les Panels (ensemble de DataFrames)

Les types de données dans un objet Series :
- float
- int
- bool
- datetime64
- timedelta
- category
- object

In [1]:
import pandas as pd

fandango = pd.read_csv('Data/fandango-score-comparison.csv')
#fandango.head(2)

## Indexage avec des entiers

- Sélectionner la colonne "FILM" et assigner la à la variable series_film puis afficher les 5 premières valeurs.
- Faire de même avec la colonne "RottenTomatoes" et assigner la à la variable series_rt puis afficher les 5 premières valeurs.

In [2]:
series_film = fandango['FILM']
series_film[0:5]

0    Avengers: Age of Ultron (2015)
1                 Cinderella (2015)
2                    Ant-Man (2015)
3            Do You Believe? (2015)
4     Hot Tub Time Machine 2 (2015)
Name: FILM, dtype: object

In [5]:
series_rt = fandango['RottenTomatoes']
series_rt.head()
series_rt.values

array([ 74,  85,  80,  18,  14,  63,  42,  86,  99,  89,  84,  82,  99,
        51,  90,   9,  46,  59,  50,  17,  79,  59,  68,  60,  85,  99,
        92,  88,  96,  92,  96,  89,  92,  10,  19,  11,  52,  71,  51,
        60,  94,  99,  97,  95,  75,  50,  30,  27,   9,  26,  67,  32,
        54,   8,  71,  39,  34,  64,  12,  12,  11,  46,  45,  26,  26,
        92,  93,  60,  94,  98, 100,  93,  72,  81,  61,  50,  90,  27,
        30,  31,  55,  72,  34,  20,  13,  20,  81,  54,  97,  93,  78,
        98,  87,  96,  82,  96,  99,  25,  29,  57,  26,  16,  62,  17,
        17,   7,  49,  13,  40,  67,  52,  71,  96,  73,  90,  83,  89,
        81,  80,  99,  84,  84,  95,  62,  45,  27,  52,  60,  92,  97,
        71,  54,  35,   5,  31,  14,  22,  77,  52,  18,  98,  87,  97,
        97, 100,  87])

## Personnaliser son indexage

- Créer un objet Series qu'on nommera series_perso qui aura un index de chaines de caractères et contiendra toutes les notes RottenTomatoes.
>- Attention de bien utiliser des listes de valeurs pour nos 2 paramètres de la méthode Series()
>- Ne pas oublier d'importer l'objet Series depuis pandas

In [4]:
from pandas import Series

In [13]:
series_perso = Series(series_rt.values, index=series_film.values)

In [15]:
cols = ['Minions (2015)','Leviatan (2014)']
series_perso[cols]

Minions (2015)     54.0
Leviatan (2014)     NaN
dtype: float64

In [16]:
series_perso[5:11].values

array([63, 42, 86, 99, 89, 84])

## Réindexer un objet Series

Réindexer l'objet series_perso en créant un nouvel objet Series series_by_index avec la méthode .reindex() pour obtenir une série triée par __ordre alphabétique des noms des films__

In [19]:
series_by_index = series_perso.reindex(sorted(series_perso.index))
series_by_index

'71 (2015)                                         97
5 Flights Up (2015)                                52
A Little Chaos (2015)                              40
A Most Violent Year (2014)                         90
About Elly (2015)                                  97
Aloha (2015)                                       19
American Sniper (2015)                             72
American Ultra (2015)                              46
Amy (2015)                                         97
Annie (2014)                                       27
Ant-Man (2015)                                     80
Avengers: Age of Ultron (2015)                     74
Big Eyes (2014)                                    72
Birdman (2014)                                     92
Black Sea (2015)                                   82
Black or White (2015)                              39
Blackhat (2015)                                    34
Cake (2015)                                        49
Chappie (2015)              

## Trier un objet Series

La méthode reindex() vue à l'instant est un peu "tirée par les cheveux" pour un tri par ordre un alphabétique car il existe des méthodes sort_index() et sort_values().

Trier la Series series_perso par index en utilisant la méthode sort_index() puis par valeurs avec sort_values()

In [20]:
sp2 = series_perso.sort_index()
sp3 = series_perso.sort_values()
print(sp2[0:10],'\n\n',sp3[0:10])

'71 (2015)                    97
5 Flights Up (2015)           52
A Little Chaos (2015)         40
A Most Violent Year (2014)    90
About Elly (2015)             97
Aloha (2015)                  19
American Sniper (2015)        72
American Ultra (2015)         46
Amy (2015)                    97
Annie (2014)                  27
dtype: int64 

 Paul Blart: Mall Cop 2 (2015)     5
Hitman: Agent 47 (2015)           7
Hot Pursuit (2015)                8
Fantastic Four (2015)             9
Taken 3 (2015)                    9
The Boy Next Door (2015)         10
The Loft (2015)                  11
Unfinished Business (2015)       11
Mortdecai (2015)                 12
Seventh Son (2015)               12
dtype: int64


## Transformation de colonnes

Pandas étant basé sur la libraire Numpy les fonctions Numpy sont disponibles pour effectuer des opérations sur les objets Series :
- Importer la libraire Numpy
- Tester un certain nombre de fonctions Numpy sur series_perso : notamment normaliser la Series series_perso (échelle de notes de 0 à 100) pour obtenir une échelle de notes de 0 à 5 en assignant le nouvel objet Series à la variable series_normalized

__&Agrave; noter__ : si les opérations numpy sur des array retournent un array (ou une valeur unique par exemple "np.max"), lorsqu'on les utilise sur un objet Series, on obtient bien un objet Series en sortie

In [21]:
import numpy as np

In [22]:
# addition
np.add(series_perso,series_perso)

Avengers: Age of Ultron (2015)                    148
Cinderella (2015)                                 170
Ant-Man (2015)                                    160
Do You Believe? (2015)                             36
Hot Tub Time Machine 2 (2015)                      28
The Water Diviner (2015)                          126
Irrational Man (2015)                              84
Top Five (2014)                                   172
Shaun the Sheep Movie (2015)                      198
Love & Mercy (2015)                               178
Far From The Madding Crowd (2015)                 168
Black Sea (2015)                                  164
Leviathan (2014)                                  198
Unbroken (2014)                                   102
The Imitation Game (2014)                         180
Taken 3 (2015)                                     18
Ted 2 (2015)                                       92
Southpaw (2015)                                   118
Night at the Museum: Secret 

In [23]:
#fonction sinus
np.sin(series_perso)

Avengers: Age of Ultron (2015)                   -0.985146
Cinderella (2015)                                -0.176076
Ant-Man (2015)                                   -0.993889
Do You Believe? (2015)                           -0.750987
Hot Tub Time Machine 2 (2015)                     0.990607
The Water Diviner (2015)                          0.167356
Irrational Man (2015)                            -0.916522
Top Five (2014)                                  -0.923458
Shaun the Sheep Movie (2015)                     -0.999207
Love & Mercy (2015)                               0.860069
Far From The Madding Crowd (2015)                 0.733190
Black Sea (2015)                                  0.313229
Leviathan (2014)                                 -0.999207
Unbroken (2014)                                   0.670229
The Imitation Game (2014)                         0.893997
Taken 3 (2015)                                    0.412118
Ted 2 (2015)                                      0.9017

In [24]:
# le max
np.max(series_perso)

100

In [25]:
# le min
np.min(series_perso)

5

In [None]:
# la normalisation
series_normalized = (series_perso/100)
series_normalized

## Comparer et filtrer

Créer une fonction prenant 2 paramètres entiers (la borne supérieure et la borne inférieure) et qui retourne uniquement les films dont la note est comprise entre ces 2 entiers

In [27]:
def note_entre(inf,sup):
    filtre = (series_perso > inf) & (series_perso < sup)
    return series_perso[filtre]

note_entre(50,80)

Avengers: Age of Ultron (2015)                                            74
The Water Diviner (2015)                                                  63
Unbroken (2014)                                                           51
Southpaw (2015)                                                           59
McFarland, USA (2015)                                                     79
Insidious: Chapter 3 (2015)                                               59
The Man From U.N.C.L.E. (2015)                                            68
Run All Night (2015)                                                      60
5 Flights Up (2015)                                                       52
Welcome to Me (2015)                                                      71
Saint Laurent (2015)                                                      51
Maps to the Stars (2015)                                                  60
Kingsman: The Secret Service (2015)                                       75

## Alignement des données

Il s'agit du principe majeur de pandas.  
Les objets Series s'alignent avec les indexes et les DataFrames avec les indexes et les colonnes.  
Les Series préservent implicitement le lien entre les intitulés d'indexes et les valeurs à travers les différentes opérations et transformations. Pour les Dataframes, pandas préserve aussi le lien.  
Ce principe permet d'uiliser pandas pour travailler avec des données et offre l'avantage comme évoqué précédemment d'utiliser numpy avec (opérations mathématiques classiques).

Calculer la moyenne des notes des critiques et des utilisateurs de la plateforme RottenTomatoes.  
Indications :
- Créer les Series rt_critics (et rt_users) ayant pour valeurs les notes RottenTomatoes des critiques (des users) et comme index le nom des films
- Utiliser des opérations mathématiques pour retourner dans un nouvel objet Series rt_mean la moyenne des notes des critiques et des utilisateurs pour chaque film

In [33]:
rt_critics = pd.Series(fandango['RottenTomatoes'].values, index=fandango['FILM'])
rt_users = pd.Series(fandango['RottenTomatoes_User'].values, index=fandango['FILM'])

In [34]:
rt_mean = (rt_critics + rt_users)/2

In [35]:
print(rt_mean)

FILM
Avengers: Age of Ultron (2015)                    80.0
Cinderella (2015)                                 82.5
Ant-Man (2015)                                    85.0
Do You Believe? (2015)                            51.0
Hot Tub Time Machine 2 (2015)                     21.0
The Water Diviner (2015)                          62.5
Irrational Man (2015)                             47.5
Top Five (2014)                                   75.0
Shaun the Sheep Movie (2015)                      90.5
Love & Mercy (2015)                               88.0
Far From The Madding Crowd (2015)                 80.5
Black Sea (2015)                                  71.0
Leviathan (2014)                                  89.0
Unbroken (2014)                                   60.5
The Imitation Game (2014)                         91.0
Taken 3 (2015)                                    27.5
Ted 2 (2015)                                      52.0
Southpaw (2015)                                   69.5
Night

In [40]:
np.mean(fandango)

RottenTomatoes                   60.849315
RottenTomatoes_User              63.876712
Metacritic                       58.808219
Metacritic_User                   6.519178
IMDB                              6.736986
Fandango_Stars                    4.089041
Fandango_Ratingvalue              3.845205
RT_norm                           3.042466
RT_user_norm                      3.193836
Metacritic_norm                   2.940411
Metacritic_user_nom               3.259589
IMDB_norm                         3.368493
RT_norm_round                     3.065068
RT_user_norm_round                3.226027
Metacritic_norm_round             2.972603
Metacritic_user_norm_round        3.270548
IMDB_norm_round                   3.380137
Metacritic_user_vote_count      185.705479
IMDB_user_vote_count          42846.205479
Fandango_votes                 3848.787671
Fandango_Difference               0.243836
dtype: float64