# Les objets Series Pandas

Les 3 types d'objets Pandas :
- les Series
- les DataFrames
- les Panels (ensemble de DataFrames)

Les types de données dans un objet Series :
- float
- int
- bool
- datetime64
- timedelta
- category
- object

In [1]:
import pandas as pd

fandango = pd.read_csv('Data/fandango-score-comparison.csv')
#fandango.head(2)

## Indexage avec des entiers

- Sélectionner la colonne "FILM" et assigner la à la variable series_film puis afficher les 5 premières valeurs.
- Faire de même avec la colonne "RottenTomatoes" et assigner la à la variable series_rt puis afficher les 5 premières valeurs.

In [2]:
series_film = fandango['FILM']
series_film[0:5]

0    Avengers: Age of Ultron (2015)
1                 Cinderella (2015)
2                    Ant-Man (2015)
3            Do You Believe? (2015)
4     Hot Tub Time Machine 2 (2015)
Name: FILM, dtype: object

In [3]:
series_rt = fandango['RottenTomatoes']
series_rt[0:5]

0    74
1    85
2    80
3    18
4    14
Name: RottenTomatoes, dtype: int64

## Personnaliser son indexage

- Créer un objet Series qu'on nommera series_perso qui aura un index de chaines de caractères et contiendra toutes les notes RottenTomatoes.
>- Attention de bien utiliser des listes de valeurs pour nos 2 paramètres de la méthode Series()
>- Ne pas oublier d'importer l'objet Series depuis pandas

In [4]:
from pandas import Series

In [5]:
series_perso = Series(series_rt.values, index=series_film.values)

In [8]:
cols = ['Minions (2015)','Leviatan (2014)']
series_perso.loc[cols]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  


Minions (2015)     54.0
Leviatan (2014)     NaN
dtype: float64

In [None]:
series_perso[5:11].values

## Réindexer un objet Series

Réindexer l'objet series_perso en créant un nouvel objet Series series_by_index avec la méthode .reindex() pour obtenir une série triée par __ordre alphabétique des noms des films__

In [None]:
series_by_index = series_perso.reindex(sorted(series_perso.index))
series_by_index

## Trier un objet Series

La méthode reindex() vue à l'instant est un peu "tirée par les cheveux" pour un tri par ordre un alphabétique car il existe des méthodes sort_index() et sort_values().

Trier la Series series_perso par index en utilisant la méthode sort_index() puis par valeurs avec sort_values()

In [None]:
sp2 = series_perso.sort_index()
sp3 = series_perso.sort_values()
print(sp2[0:10],'\n\n',sp3[0:10])

## Transformation de colonnes

Pandas étant basé sur la libraire Numpy les fonctions Numpy sont disponibles pour effectuer des opérations sur les objets Series :
- Importer la libraire Numpy
- Tester un certain nombre de fonctions Numpy sur series_perso : notamment normaliser la Series series_perso (échelle de notes de 0 à 100) pour obtenir une échelle de notes de 0 à 5 en assignant le nouvel objet Series à la variable series_normalized

__&Agrave; noter__ : si les opérations numpy sur des array retournent un array (ou une valeur unique par exemple "np.max"), lorsqu'on les utilise sur un objet Series, on obtient bien un objet Series en sortie

In [None]:
import numpy as np

In [None]:
# addition
np.add(series_perso,series_perso)

In [None]:
#fonction sinus
np.sin(series_perso)

In [None]:
# le max
np.max(series_perso)

In [None]:
# la normalisation
series_normalized = (series_perso/20)
series_normalized

## Comparer et filtrer

Créer une fonction prenant 2 paramètres entiers (la borne supérieure et la borne inférieure) et qui retourne uniquement les films dont la note est comprise entre ces 2 entiers

In [None]:
def note_entre(inf,sup):
    return series_perso[(series_perso > inf) & (series_perso < sup)]

note_entre(50,80)

## Alignement des données

Il s'agit du principe majeur de pandas.  
Les objets Series s'alignent avec les indexes et les DataFrames avec les indexes et les colonnes.  
Les Series préservent implicitement le lien entre les intitulés d'indexes et les valeurs à travers les différentes opérations et transformations. Pour les Dataframes, pandas préserve aussi le lien.  
Ce principe permet d'uiliser pandas pour travailler avec des données et offre l'avantage comme évoqué précédemment d'utiliser numpy avec (opérations mathématiques classiques).

Calculer la moyenne des notes des critiques et des utilisateurs de la plateforme RottenTomatoes.  
Indications :
- Créer les Series rt_critics (et rt_users) ayant pour valeurs les notes RottenTomatoes des critiques (des users) et comme index le nom des films
- Utiliser des opérations mathématiques pour retourner dans un nouvel objet Series rt_mean la moyenne des notes des critiques et des utilisateurs pour chaque film

In [None]:
rt_critics = Series(fandango['RottenTomatoes'].values, index=fandango['FILM'])
rt_users = Series(fandango['RottenTomatoes_User'].values, index=fandango['FILM'])

In [None]:
rt_mean = (rt_critics + rt_users)/2

In [None]:
print(rt_mean)