In [2]:
import numpy as np
import pandas as pd

# Création de Series et Dataframes pandas
Ce sont les deux principaux types stockant des données en pandas. Ils sont constitués de données (un tableau numpy, une liste, etc...) et d'un index (par exemple des dates, un index numérique, ou toute liste d'éléments python arbitraires).

Le principe fondamental de pandas est que ***toutes les opérations impliquant des Series ou des Dataframes respecteront l'alignement des index*** (sauf mention explicite de l'utilisateur). 

## Création de Series

In [3]:
# à partir d'un tableau numpy et d'un index
data = np.random.randn(5)
print("Les données, un tableau numpy: %s"%data)

index = ["a", "b", "c", "d", "e"]

s0 = pd.Series(data, index=index)
s0

Les données, un tableau numpy: [ 0.41669125 -0.41000768 -0.95576474  0.66501415  0.22580085]


a    0.416691
b   -0.410008
c   -0.955765
d    0.665014
e    0.225801
dtype: float64

In [4]:
# à partir d'un dictionnaire
s1 = pd.Series({"b": 1, "a": 0, "c": 2})
s1

b    1
a    0
c    2
dtype: int64

In [5]:
# à partir d'un scalaire et d'un index
s2 = pd.Series(5.0, index=["a", "b", "c", "d", "e"])
s2

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

### Accès aux éléments d'une Series

In [8]:
# accès par valeur de l'index
s0["a"]

0.4166912459827139

In [6]:
# Par position dans la série (attention si l'index est entier c'est
# l'index qui sera utilisé)
s0[0]

0.4166912459827139

In [7]:
# on peut faire du slicing sur les positions
s0[:3]

a    0.416691
b   -0.410008
c   -0.955765
dtype: float64

In [9]:
# pour un sous-ensemble d'index
s0[["a","b","d"]]

a    0.416691
b   -0.410008
d    0.665014
dtype: float64

### Opérations sur les Series
Les opérations sur les séries respectent toujours l'alignement des index

In [18]:
s0+s1 # noter l'utilisation de NaN quand l'opération ne peut être réalisée
      # faute de donnée dans les deux séries

a    0.416691
b    0.589992
c    1.044235
d         NaN
e         NaN
dtype: float64

Les fonctions définies ("ufunc") par numpy peuvent toutes être appliquées aux Series (et aux Dataframes voir plus loin), voir leur [documentation sur le site de numpy](https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs)

In [68]:
np.exp(s0)

a    1.516934
b    0.663645
c    0.384518
d    1.944518
e    1.253326
dtype: float64

In [17]:
s0 > 0

a     True
b    False
c    False
d     True
e     True
dtype: bool

En exercice, tester le résultat de ```s[1:]+s[:-1]```, jouer avec l'ensemble des opérations disponibles `+`,`*`,`**` (puissance), voir la doc pour plus d'informations.

## Création de Dataframes

In [25]:
# à partir d'un dictionnaire de séries
d = {
     "one": s0,
     "two": s1
 }
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,0.416691,0.0
b,-0.410008,1.0
c,-0.955765,2.0
d,0.665014,
e,0.225801,


Un DataFrame est un tableau composé d'un ensemble de Series possédant un index commun (l'index du DataFrame obtenu précédemment est la réunion des index des séries passées en argument de la méthode de création)

In [22]:
# on peut aussi créer un DF à partir de listes
# dans ce cas, par souci de cohérence, les listes doivent être de la même longueur
pd.DataFrame({"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]}, index=["a","b","c","d"])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


In [23]:
# sans argument index un index numérique est créé automatiquement
pd.DataFrame({"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]})

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [24]:
# depuis une liste de dictionnaires
pd.DataFrame([{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}])

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


D'autres methodes de création existent, se référer au [chapitre correspondant du guide utilisateur](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe)

### Ajout, modification, suppression de colonnes

In [27]:
# Pour rappel
df

Unnamed: 0,one,two
a,0.416691,0.0
b,-0.410008,1.0
c,-0.955765,2.0
d,0.665014,
e,0.225801,


Les opérations d'ajout, modification, suppression fonctionnent sémantiquement comme les opérations correspondantes pour les dictionnaires python

In [26]:
# Accès à une colonne : on récupère une série
df["one"]

a    0.416691
b   -0.410008
c   -0.955765
d    0.665014
e    0.225801
Name: one, dtype: float64

In [31]:
df["three"] = df["one"] * df["two"]
df["flag"] = df["one"] > 0
df["foo"] = "bar" # ajout d'une valeur scalaire: la valeur est répliquée pour tous les index
df["one_trunc"] = df["one"][:2] # ajout d'une série d'index différent: la colonne est complétée avec des "NaN" pour tous les index qui ne sont pas dans la série
df

Unnamed: 0,one,two,three,flag,foo,one_trunc
a,0.416691,0.0,0.0,True,bar,0.416691
b,-0.410008,1.0,-0.410008,False,bar,-0.410008
c,-0.955765,2.0,-1.911529,False,bar,
d,0.665014,,,True,bar,
e,0.225801,,,True,bar,


In [33]:
# les colonnes peuvent être également accédées dans un style "attribut"
df.one

a    0.416691
b   -0.410008
c   -0.955765
d    0.665014
e    0.225801
Name: one, dtype: float64

### Différents types d'indexation
Voir sur le site de Pandas [un petit résumé](https://pandas.pydata.org/docs/user_guide/dsintro.html#indexing-selection) et aussi un [chapitre plus approfondi sur l'indexation](https://pandas.pydata.org/docs/user_guide/indexing.html) (pour les accros seulement)

In [34]:
df

Unnamed: 0,one,two,three,flag,foo,one_trunc
a,0.416691,0.0,0.0,True,bar,0.416691
b,-0.410008,1.0,-0.410008,False,bar,-0.410008
c,-0.955765,2.0,-1.911529,False,bar,
d,0.665014,,,True,bar,
e,0.225801,,,True,bar,


In [37]:
# on a vu les notations suivantes, qui comportent une dose d'ambiguïté
# car selon le type de l'objet fourni on récupère des colonnes ou des lignes
df['one'], df[1:3]

(a    0.416691
 b   -0.410008
 c   -0.955765
 d    0.665014
 e    0.225801
 Name: one, dtype: float64,
         one  two     three   flag  foo  one_trunc
 b -0.410008  1.0 -0.410008  False  bar  -0.410008
 c -0.955765  2.0 -1.911529  False  bar        NaN)

Pandas fournit également des selecteurs `.loc` et `.iloc` qui permettent de selectionner ds lignes ou des colonnes de manière explicite. `.loc` permet la selection par étiquettes, et `.iloc` permet la selection par position. Avec un seul argument, ils permettent de faire de la selection sur les lignes

In [53]:
df.iloc[0] # la première ligne

one          0.416691
two                 0
three               0
flag             True
foo               bar
one_trunc    0.416691
Name: a, dtype: object

In [50]:
df.iloc[1:-1] # toutes les lignes sauf la première et la dernière


Unnamed: 0,one,two,three,flag,foo,one_trunc
b,-0.410008,1.0,-0.410008,False,bar,-0.410008
c,-0.955765,2.0,-1.911529,False,bar,
d,0.665014,,,True,bar,


In [57]:
df.loc['a'] = 1
df

Unnamed: 0,one,two,three,flag,foo,one_trunc
a,1.0,1.0,1.0,1,1,1.0
b,-0.410008,1.0,-0.410008,False,bar,-0.410008
c,-0.955765,2.0,-1.911529,False,bar,
d,0.665014,,,True,bar,
e,0.225801,,,True,bar,


In [52]:
df.loc['b':'d'] # on peut faire des slices sur les étiquettes

Unnamed: 0,one,two,three,flag,foo,one_trunc
b,-0.410008,1.0,-0.410008,False,bar,-0.410008
c,-0.955765,2.0,-1.911529,False,bar,
d,0.665014,,,True,bar,


In [55]:
df.iloc[:-1,1:3] # toutes les lignes sauf la dernière, colonnes de position 1 et 2

Unnamed: 0,two,three
a,0.0,0.0
b,1.0,-0.410008
c,2.0,-1.911529
d,,


In [58]:
df.loc[:, ['one','three']] # toutes les lignes, colonnes nommées 'one' et 'three'

Unnamed: 0,one,three
a,1.0,1.0
b,-0.410008,-0.410008
c,-0.955765,-1.911529
d,0.665014,
e,0.225801,


A partir de ces quelques exemples, on peut imaginer d'autres manières de faire de la sous-selection. A titre d'exercice, on pourra jouer avec loc, iloc et la selection type 'dictionnaire' ou 'attribut' pour comprendre de qui se passe

### Opérations arithmétiques sur les DataFrames
Lors des opérations arithmétiques sur les DataFrames, un alignement est réalisé sur les colonnes et l'index (les trous sont encore bouchés avec des NaNs)

In [69]:
df = pd.DataFrame(np.random.randn(10, 4), columns=["A", "B", "C", "D"])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=["A", "B", "C"])
df + df2

Unnamed: 0,A,B,C,D
0,-1.013198,-1.765871,-1.804353,
1,-0.405243,1.364002,-0.486454,
2,0.326544,1.280962,0.812998,
3,-1.309108,-0.498785,0.740398,
4,0.767859,-0.082967,-1.852336,
5,-0.841801,2.19449,-0.677188,
6,-2.044946,0.989666,-1.021501,
7,,,,
8,,,,
9,,,,


Les opérations avec des scalaires sont intuitives, à titre d'exercice regarder ce que donnent des opérations comme `df*5 + 2`, `df**2`, `1/df`, etc...

### Opérateurs booléens
Les opérateurs booléens `&`, `|`, `^`, `~` (en python respectivement les `et`, `ou`, `xor`, et `not` "bitwise") sont utilisé en Pandas pour éxécuter l'opérateur booléens correspondant élément par élément sur des Series ou des DataFrames (note : les opérateurs python `and`, `or`, `xor`,`not` ne fonctionneront pas)

In [62]:
(df > 0) & (df < 1)

Unnamed: 0,A,B,C,D
0,True,True,True,True
1,False,False,True,False
2,False,True,True,True
3,False,True,False,False
4,True,True,False,True
5,False,False,False,True
6,False,False,True,False
7,False,True,False,False
8,False,False,False,False
9,False,False,False,False


Les selecteurs `.loc`, `.iloc` et le simples crochets peuvent prendre un tableau de booléens en argument, c'est très utile pour effectuer de la sous-selection sur un tableau (sur une condition sur une colonne par exemple)

In [67]:
df[(df['A'] >0) & (df.B < 0.5)]

Unnamed: 0,A,B,C,D
0,0.314553,0.276528,0.435306,0.04579
3,1.287878,0.363303,2.316084,1.119845
4,0.464474,0.065444,-0.088346,0.308462
6,1.870065,-1.298766,0.96656,1.667073


Sujets non traités mais potentiellements utiles:
- la méthode assign [voir la doc](https://pandas.pydata.org/docs/user_guide/dsintro.html#assigning-new-columns-in-method-chains)
- [transposition](https://pandas.pydata.org/docs/user_guide/dsintro.html#transposing)
