In [None]:
import numpy as np
import pandas as pd

# Création de Series et Dataframes pandas
Ce sont les deux principaux types stockant des données en pandas. Ils sont constitués de données (un tableau numpy, une liste, etc...) et d'un index (par exemple des dates, un index numérique, ou toute liste d'éléments python arbitraires).

Le principe fondamental de pandas est que ***toutes les opérations impliquant des Series ou des Dataframes respecteront l'alignement des index*** (sauf mention explicite de l'utilisateur). 

## Création de Series

In [None]:
# à partir d'un tableau numpy et d'un index
data = np.random.randn(5)
print("Les données, un tableau numpy: %s"%data)

index = ["a", "b", "c", "d", "e"]

s0 = pd.Series(data, index=index)
s0

In [None]:
# à partir d'un dictionnaire
s1 = pd.Series({"b": 1, "a": 0, "c": 2})
s1

In [None]:
# à partir d'un scalaire et d'un index
s2 = pd.Series(5.0, index=["a", "b", "c", "d", "e"])
s2

### Accès aux éléments d'une Series

In [None]:
# accès par valeur de l'index
s0["a"]

In [None]:
# Par position dans la série (attention si l'index est entier c'est
# l'index qui sera utilisé)
s0[0]

In [None]:
# on peut faire du slicing sur les positions
s0[:3]

In [None]:
# pour un sous-ensemble d'index
s0[["a","b","d"]]

### Opérations sur les Series
Les opérations sur les séries respectent toujours l'alignement des index

In [None]:
s0+s1 # noter l'utilisation de NaN quand l'opération ne peut être réalisée
      # faute de donnée dans les deux séries

Les fonctions définies ("ufunc") par numpy peuvent toutes être appliquées aux Series (et aux Dataframes voir plus loin), voir leur [documentation sur le site de numpy](https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs)

In [None]:
np.exp(s0)

In [None]:
s0 > 0

En exercice, tester le résultat de ```s[1:]+s[:-1]```, jouer avec l'ensemble des opérations disponibles `+`,`*`,`**` (puissance), voir la doc pour plus d'informations.

## Création de Dataframes

In [None]:
# à partir d'un dictionnaire de séries
d = {
     "one": s0,
     "two": s1
 }
df = pd.DataFrame(d)
df

Un DataFrame est un tableau composé d'un ensemble de Series possédant un index commun (l'index du DataFrame obtenu précédemment est la réunion des index des séries passées en argument de la méthode de création)

In [None]:
# on peut aussi créer un DF à partir de listes
# dans ce cas, par souci de cohérence, les listes doivent être de la même longueur
pd.DataFrame({"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]}, index=["a","b","c","d"])

In [None]:
# sans argument index un index numérique est créé automatiquement
pd.DataFrame({"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]})

In [None]:
# depuis une liste de dictionnaires
pd.DataFrame([{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}])

D'autres methodes de création existent, se référer au [chapitre correspondant du guide utilisateur](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe)

### Ajout, modification, suppression de colonnes

In [None]:
# Pour rappel
df

Les opérations d'ajout, modification, suppression fonctionnent sémantiquement comme les opérations correspondantes pour les dictionnaires python

In [None]:
# Accès à une colonne : on récupère une série
df["one"]

In [None]:
df["three"] = df["one"] * df["two"]
df["flag"] = df["one"] > 0
df["foo"] = "bar" # ajout d'une valeur scalaire: la valeur est répliquée pour tous les index
df["one_trunc"] = df["one"][:2] # ajout d'une série d'index différent: la colonne est complétée avec des "NaN" pour tous les index qui ne sont pas dans la série
df

In [None]:
# les colonnes peuvent être également accédées dans un style "attribut"
df.one

### Différents types d'indexation
Voir sur le site de Pandas [un petit résumé](https://pandas.pydata.org/docs/user_guide/dsintro.html#indexing-selection) et aussi un [chapitre plus approfondi sur l'indexation](https://pandas.pydata.org/docs/user_guide/indexing.html) (pour les accros seulement)

In [None]:
df

In [None]:
# on a vu les notations suivantes, qui comportent une dose d'ambiguïté
# car selon le type de l'objet fourni on récupère des colonnes ou des lignes
df['one'], df[1:3]

Pandas fournit également des selecteurs `.loc` et `.iloc` qui permettent de selectionner ds lignes ou des colonnes de manière explicite. `.loc` permet la selection par étiquettes, et `.iloc` permet la selection par position. Avec un seul argument, ils permettent de faire de la selection sur les lignes

In [None]:
df.iloc[0] # la première ligne

In [None]:
df.iloc[1:-1] # toutes les lignes sauf la première et la dernière


In [None]:
df.loc['a'] = 1
df

In [None]:
df.loc['b':'d'] # on peut faire des slices sur les étiquettes

In [None]:
df.iloc[:-1,1:3] # toutes les lignes sauf la dernière, colonnes de position 1 et 2

In [None]:
df.loc[:, ['one','three']] # toutes les lignes, colonnes nommées 'one' et 'three'

A partir de ces quelques exemples, on peut imaginer d'autres manières de faire de la sous-selection. A titre d'exercice, on pourra jouer avec loc, iloc et la selection type 'dictionnaire' ou 'attribut' pour comprendre de qui se passe

### Opérations arithmétiques sur les DataFrames
Lors des opérations arithmétiques sur les DataFrames, un alignement est réalisé sur les colonnes et l'index (les trous sont encore bouchés avec des NaNs)

In [None]:
df = pd.DataFrame(np.random.randn(10, 4), columns=["A", "B", "C", "D"])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=["A", "B", "C"])
df + df2

Les opérations avec des scalaires sont intuitives, à titre d'exercice regarder ce que donnent des opérations comme `df*5 + 2`, `df**2`, `1/df`, etc...

### Opérateurs booléens
Les opérateurs booléens `&`, `|`, `^`, `~` (en python respectivement les `et`, `ou`, `xor`, et `not` "bitwise") sont utilisé en Pandas pour éxécuter l'opérateur booléens correspondant élément par élément sur des Series ou des DataFrames (note : les opérateurs python `and`, `or`, `xor`,`not` ne fonctionneront pas)

In [None]:
(df > 0) & (df < 1)

Les selecteurs `.loc`, `.iloc` et le simples crochets peuvent prendre un tableau de booléens en argument, c'est très utile pour effectuer de la sous-selection sur un tableau (sur une condition sur une colonne par exemple)

In [None]:
df[(df['A'] >0) & (df.B < 0.5)]

Sujets non traités mais potentiellements utiles:
- la méthode assign [voir la doc](https://pandas.pydata.org/docs/user_guide/dsintro.html#assigning-new-columns-in-method-chains)
- [transposition](https://pandas.pydata.org/docs/user_guide/dsintro.html#transposing)
