## Le `DataFrame`

Pandas est très utilisé pour sa capacité à gérer des tableaux de données, comme un super tableur. Non seulement il offre de nombreux outils pour manipuler les données mais il est aussi très performant à savoir rapide et pouvant gérer de grosses données.

Pour commencer voici un simple tableau :

In [1]:
import pandas as pd
import IPython.display as ds

In [19]:
df = pd.DataFrame({'prix': [1.1, 0.8, 0.6], 'stock': [0, 22, 51]},  # columns are stored in a dictionnary
                  ['stylo','crayon','gomme'])  # all columns have the same index
df

Unnamed: 0,prix,stock
stylo,1.1,0
crayon,0.8,22
gomme,0.6,51


Pour bien comprendre ce qu'est un tableau, un `DataFrame` dans le langage de Pandas, il faut le voir comme un ensemble **`Series`**, une série étant une **liste de valeurs avec un index**.

Dans le cas précédent il y a 2 `Series` à savoir le `prix` et les `stock`, chaque série étant indéxée par la liste des objets de mon inventaire. 

Voici comment on faire ressortir les **séries** :

In [20]:
print(df.prix, '\n')
print(df['prix'], '\n')     # use brackets when the name is a keyword or has spaces or accents
print(type(df.stock))

stylo     1.1
crayon    0.8
gomme     0.6
Name: prix, dtype: float64 

stylo     1.1
crayon    0.8
gomme     0.6
Name: prix, dtype: float64 

<class 'pandas.core.series.Series'>


On peut créer un DataFrame à partir de Series et il se débrouille comme il peut si les séries ont
des index différents (en particulier il met des Not A Number, NaN, dans les cases vides) :

In [21]:
df2 = pd.DataFrame({'prix': df.prix, 
                    'stock': df.stock, 
                    'promo': pd.Series([0.2,0,0.05], index=['stylo','papier','crayon']) # Series with different index
                   })
df2

Unnamed: 0,prix,stock,promo
crayon,0.8,22.0,0.05
gomme,0.6,51.0,
papier,,,0.0
stylo,1.1,0.0,0.2


On voit donc qu'une colonne n'est pas constituée que de valeurs mais a un `index` et des `values` :

In [22]:
print(df2.prix.index)
print(df2.prix.values)

Index(['crayon', 'gomme', 'papier', 'stylo'], dtype='object')
[0.8 0.6 nan 1.1]


comme le tableau lui-même :

In [23]:
print(df2.index)
print(df2.values)

Index(['crayon', 'gomme', 'papier', 'stylo'], dtype='object')
[[8.0e-01 2.2e+01 5.0e-02]
 [6.0e-01 5.1e+01     nan]
 [    nan     nan 0.0e+00]
 [1.1e+00 0.0e+00 2.0e-01]]


Un tableau a aussi des noms pour les colonnes :

In [24]:
df2.columns

Index(['prix', 'stock', 'promo'], dtype='object')

<img width='500px' src='images/dataframe.svg'/>

# Exercices

Créez un DataFrame qui contient les colonnes "age", "#" et l'index "Obama", "Trump", "Biden"
(Obama a été le 44e président des USA, Trump le 45e et Biden le 46e, ils ont 59 ans, 74ans et 78 ans)

In [14]:
# Créez votre dataframe ici:
test_df = 

In [18]:
# Executez cette cellule pour savoir si vous avez bon
pd.testing.assert_frame_equal(test_df, pd.DataFrame({'age': [59, 74, 78], '#': [44, 45, 46]}, 
                  ['Obama','Trump','Biden']))

## Sélectionner une partie du tableau

### Le piège de l'indexation (loc et iloc)

Pour Pandas les attributs des DataFrames sont les Series, donc les colonnes et non pas les lignes. Ainsi on ne peut pas demander aussi simplement les informations sur les gommes :

In [25]:
df.gomme

AttributeError: 'DataFrame' object has no attribute 'gomme'

Il faut utiliser la méthode `loc`. Cette méthode permet d'extraire 

* une valeur, 
* une ligne ou colonne éventuellement partiellement
* un sous-tableau.

La méthode `iloc` fait la même chose mais avec des indices numérotés (**i**nteger).

In [26]:
df2.loc['crayon']

prix      0.80
stock    22.00
promo     0.05
Name: crayon, dtype: float64

Pour spécifier une partie on utilise les [mêmes conventions que pour Numpy](../lesson4 Numpy/np02 Filtres.ipynb).

In [27]:
df2.loc[['gomme','crayon'],:'stock']

Unnamed: 0,prix,stock
gomme,0.6,51.0
crayon,0.8,22.0


In [31]:
print(df2.iloc[0,0])
df2.iloc[0:2, :]

0.8


Unnamed: 0,prix,stock,promo
crayon,0.8,22.0,0.05
gomme,0.6,51.0,


In [32]:
# Exercice: Affichez le 0.05


Bien sûr on peut extraire les séries puis demander certains indices de ces séries :

In [33]:
df2[['prix','stock']][0:2] # may seems more natural but is less efficient

Unnamed: 0,prix,stock
crayon,0.8,22.0
gomme,0.6,51.0


###  Optimisation (at & iat)

Si on désire récupérer **une seule valeur** du tableau, `at` et `iat` sont plus rapides que `loc` et `iloc`.

In [34]:
print(df.at['gomme', 'stock'])   # same than loc['gomme', 'stock'] buy faster
print(df.iat[1:2, 2])            # Error: 1:2 is a range but iat accept only an integer as argument

51


ValueError: iAt based indexing can only have integer indexers

### Les filtres logiques

On peut aussi utiliser les filtres logiques comme pour Numpy :

In [35]:
df2[df2.promo > 0] += 0.10  # we add 10% sales for products already in sales
df2

Unnamed: 0,prix,stock,promo
crayon,0.9,22.1,0.15
gomme,0.6,51.0,
papier,,,0.0
stylo,1.2,0.1,0.3


In [None]:
# Exercice: selectionnez la partie du DataFrame où le stock est supérieur à 20





In [37]:
# Votre résultat devrait ressembler à:

Unnamed: 0,prix,stock,promo
crayon,0.9,22.1,0.15
gomme,0.6,51.0,


## Agir globalement

On préfère **ne pas travailler sur les éléments mais sur les colonnes** globalement avec les méthodes adaptées pour éviter de faire des boucles sur les éléments qui ralentissent l'exécution et compliquent le programme.

Il faut penser en terme de vecteurs et non plus en terme de valeurs. Le plus souvent on peut arriver au
résultat souhaité sans faire de boucle (et donc nettement plus rapidement).

In [38]:
print("Stock value = %f\n" % (df.prix * df.stock).sum())

Stock value = 48.200000



In [48]:
%%timeit
(df.prix * df.stock).sum()

183 µs ± 2.19 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [58]:
%%timeit
somme = 0
for i in range(df.shape[0]):
    somme += df.iloc[i]['prix'] * df.iloc[i]['stock']

575 µs ± 3.23 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


On peut appliquer sur une colonne les opérations mathétiques que l'on a vues avec Numpy.

In [39]:
import numpy as np

np.sin(df2.promo)  # just to show that it can be done

crayon    0.149438
gomme          NaN
papier    0.000000
stylo     0.295520
Name: promo, dtype: float64

In [None]:
# Exercice: recréez la DataFrame des présidents des USA (ages:[59, 74, 78], '#': [44, 45, 46])
# (profitez en pour vous entrainer, plutôt que de copier/coller votre code de la cellule plus haut...
# Oui oui, je vous vois ;) )
US_prez = None



# Selectionnez la partie de la DataFrame qui contient les président âgés de plus de 70 ans





In [61]:
# Votre résultat devrait ressembler à ça

Unnamed: 0,age,#
Trump,74,45
Biden,78,46


## Plus

Pour plus d'information vous pouvez regarder

* les lecons suivantes !
* [la documentation de Pandas](http://pandas.pydata.org/pandas-docs/stable/indexing.html)
* [l'antisèche](Pandas_Cheat_Sheet.pdf) (que je vous conseille d'avoir sous la main au fur et à mesure des lecons)

{{ PreviousNext("../lesson5 Scipy/sp04 Statistiques.ipynb", "pd02 -- View vs copy.ipynb")}}