# [Cours] Premier pas avec `pandas`
### <span style="color:#7E7E7E"> Montrons que Pandas > Excel</span>

<img src="../images/meme-excel-pandas.jpeg"  width="80%" height="30%" style="margin:auto;">

# I. Introduction à <code>pandas</code>
***

> <code>pandas</code> a été crée par le statisticen Américain Wes McKinney. Son nom provient de **"Panel Data"**, qui désigne un type de données multi-dimensionnelles. Ce type de données correspond par exemple à l'observation de caractéristiques de plusieurs individus, aux mêmes instants. Les structures de données de Pandas sont conçues pour gérer et analyser ce genre de données (mais pas que!). 

## A. Vue d'ensemble de <code>pandas</code>
***

### 1. La librairie reine du stack Data en Python ...
> Avec 36.5k stars sur Github <code>pandas</code> est la librairie Python la plus populaire pour la manipulation de données. Elle permet entre autres de lire, modifier, analyser et exporter des données de différentes natures : tabulaires, quantitatives, catégorielles (nominales et ordinales), temporelles, géospatiales...




### 2. ... n'a pas la place qu'elle mérite
<span style="color:blue"> Il est à noter que <code>pandas</code> est dans l'immense majorité des cas l'outil le plus important à disposition d'un Data Scientist. </span> Une attention particulière est donnée aux librairies qui permettent de : 
- modéliser ou de faire du machine learning(<code>scipy</code>, <code>statsmodels</code> , <code>sklearn</code>,  <code>keras</code> ...) 
- visualiser(<code>matplotlib</code>, <code>seaborn</code>, <code>plotly</code> ...)

La modélisation, la prédiction et la visualisation sont souvent les composantes d'un projet data qui sont les plus "sexy".
    
**Pour autant, <code>pandas</code> est l'outil qui rendra possible la modélisation et la visualisation via la création et le formattage d'un dataset propre. Avoir un dataset de bonne qualité est un pré-requis indispensable pour que ces efforts soient réalisés dans de bonnes conditions.** 

**Lors d'entretiens, on rencontre beaucoup de candidats qui sont bien plus à l'aise avec <code>sklearn</code> qu'avec <code>pandas</code>... <span style="color:red">Note de l'auteur : c'est à mon sens un red flag. On souhaite recruter des candidats qui puisse bâtir des solutions robustes, lisibles et efficaces - et qui en prennent la pleine mesure - et apprennent donc à utiliser les outils permettant ensuite de faire du Machine Learning dans les bonnes conditions.</span>**
    



### 3. Cas d'usage

<code>pandas</code> a énormément de cas d'usages. Elle permet de lire, écrire, manipuler, nettoyer, transformer, et analyser des données. De nombreuses intégrations sont facilitées (usage de base de données SQL ou MongoDB, formats hdf5, fichiers Excels ou CSV...). La librairie peut donc autant été utilisée avec un notebook pour de l'analyse que dans du code en production. Elle permet généralement de développer beaucoup plus vite qu'en implémentant en Python pur. De même, en terme de complexité temporelle, la performance est souvent meilleure.

**C'est donc le premier outil vers lequel se tourner dans l'immense majorité des cas, dès que l'on veut manipuler des données tabulaires.**

**La documentation officielle cite les use-cases suivant :**

- Manipulation de données tabulaires de types différents (exactement comme une table SQL ou une spreadsheet Excel)
- Manipulation de séries temporelles et données géospatiales
- Analyse statistique (si l'analyse est simple ``pandas``peut suffire, sinon, on se servira de ``pandas``pour manipuler les données et d'une autre librairie pour l'analyse et la modélisation)
    
- ``pandas`` permet de facilement gérer les cas suivants : 
    - Création de DataFrames à partir d'objets déjà existants : 
        - A partir d'objets Python de base
        - A partir d'objets ``numpy``   
    - Changement du format des dataframes : 
        - Ajout / suppression de colonnes (variables)
        - Ajout / suppression de lignes (observations)   
    - Indexation des observations : 
        - Les indexes peuvent être de types différents (``string``, ``int``, ``float``, ``datetime`` ...)
        - On peut avoir plusieurs indexes   
    - Aggregation / "Groupby" : 
        - On peut facilement aggréger
        - On peut facilement transformer les données en se basant sur une aggrégation
    - Slicing - sélection sur un critère :
        - Filtrer les valeurs sur une variable
        - Filtrer les valeurs sur un index   
    - Jointures / concaténation
    - Reformatage / Pivot
    - Gestion des données manquantes (représentées avec le type ``numpy.nan``) 
    - Import de données à partir de fichiers de divers types :
        - CSV
        - Excel
        - Format pickle (natif Python)
        - Format natifs SAS / R
        - HDF5
        - Import direct depuis ``SQL`` ou `MongoDB`   
    - Manipulation de séries temporelles
    - Manipulation de données géospatiales



### 4. Une note sur l'implémentation de <code>pandas</code>

La librairie peut être vue comme une surcouche au-dessus de la librairie <code>numpy</code>, puisque la structure des </code>array</code> est énormément utilisée. 

Elle permet une manipulation des données plus proches de ce qu'on attendrait d'un logiciel de type tableur qu'avec <code>numpy</code>. Le code est plus lisible grâce à un indexing plus complet et gérant plus de types (<code>string</code>, <code>datetime</code>...), et des méthodes moins mathématiques que dans <code>numpy</code>et plus "pratiques". 

En revanche, **la vectorisation des opérations est facilitée ce qui mène (souvent) à une très bonne performance (il faut en revanche parfois vérifier si la méthode que l'on utilise est la bonne d'un point de vue de la complexité temporelle 😉 )**.

<span style="color:purple">Avec un niveau intermédiaire en Python, et pour atteindre un niveau plus avancé, il est très pédagogique de regarder le code source des librairies les plus utilisées ou "ayant bonne réputation", et d'essayer de le comprendre. [Le code source de la librairie](https://github.com/pandas-dev/pandas) ne déroge pas à la règle. L'implémentation de la classe <code>Dataframe</code> est disponible [ici](https://github.com/pandas-dev/pandas/blob/v0.22.0/pandas/core/frame.py#L236).</span>
    

## B. Installation et usage
***

### 1. Installation

Installation via invite de commande **bash**
```bash
pip install pandas
```

Installation via une cellule code d'un notebook **Python**
```bash
!pip install pandas
```

**Il faut parfois remplacer <code>pip</code> par <code>pip3</code> (par exemple si Python2 et Python3 cohabite sur la machine)**

### 2. Installation dans un environnment virtuel 
```bash
# Ou avec pyenv:
# ~/.pyenv/versions/3.11.4/bin/python -m venv env
python3 -m venv env
source env/bin/activate
```
 
**Pour Windows**
https://docs.python.org/fr/3/library/venv.html#how-venvs-work

### 3. Import dans un fichier `.py` ou `.ipynb`
Import en **python**
```python
import pandas as pd
```

In [1]:
import pandas as pd
pd.__version__

'2.2.2'


# II. Principales structures de données de <code>pandas</code>
***
>  <code>pandas</code> propose deux structures de données principales pour travailler avec des données : 
`Serie` et `DataFrame`. Une `Serie` est essentiellement une colonne (une variable), et une `DataFrame` est une collection de `Series` représentant un tableau.

**Dans l'exemple ci-dessous, `df` est une `DataFrame` et `df['name']` et `df['age']` sont des `Serie`**. 

In [2]:
import pandas as pd
df = pd.DataFrame([["Don", 38], ["Roger", 56], ["Peggy", 28]], columns=["name", "age"], dtype=None)
df

Unnamed: 0,name,age
0,Don,38
1,Roger,56
2,Peggy,28


In [3]:
df["name"]

0      Don
1    Roger
2    Peggy
Name: name, dtype: object

In [4]:
df["age"]

0    38
1    56
2    28
Name: age, dtype: int64

## A. `Serie`
***
Une `Serie` est une structure de données unidimensionnelle, similaire à une liste, avec une "étiquette" (ie un index) pour chaque élément. 

[Lien vers la documentation officielle](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)


### 1. Création d'une `Serie`
On peut créer une série à partir de différentes sources, comme une liste, un `numpy.array`, ou un dictionnaire :


In [5]:
import pandas as pd
import numpy as np

# création d'une Serie à partir d'une liste
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

# création d'une Serie à partir d'un array
s = pd.Series(np.array([1, 3, 5, np.nan, 6, 8]))
print(s)

# On peut spécifier un index
s = pd.Series(np.array([1, 3, 5, np.nan, 6, 8]), index=["A", "B", "C", "D", "E", "F"])
print(s)

# création d'une Serie à partir d'un dictionnaire - les clefs seront les index
d = {'a': 0., 'b': 1., 'c': 2.}
s = pd.Series(d)
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
A    1.0
B    3.0
C    5.0
D    NaN
E    6.0
F    8.0
dtype: float64
a    0.0
b    1.0
c    2.0
dtype: float64


### 2. Indexation et sélection de données dans une série
Une `Serie` contient une séquence de valeurs et pour chacune d'elle un index.
On peut accéder à une valeur via son index, où la position de son index

In [6]:
# création d'une série à partir d'un dictionnaire
d = {'a': 0., 'b': 1., 'c': 2.}
s = pd.Series(d)
print(s)

a    0.0
b    1.0
c    2.0
dtype: float64


#### a. Accès à la valeur via l'index

In [7]:
s.loc['a']

0.0

#### b. Accès à la valeur via la position de l'index

In [8]:
print(s.iloc[0])

for k in range(len(s)):
    print(k, s.iloc[k])

0.0
0 0.0
1 1.0
2 2.0


#### c. Accès à la sous-série via une condition sur les valeurs de `s`

In [9]:
s.loc[s<=1]

a    0.0
b    1.0
dtype: float64

**Masque**

In [10]:
s<=1

a     True
b     True
c    False
dtype: bool

#### d. 🚨🚨🚨 Une sous-série à un élément est renvoyée

In [11]:
s.loc[s==0]

a    0.0
dtype: float64

#### e. 🚨🚨🚨 Fonctionnent aussi mais ne pas utiliser (moins efficaces)

In [12]:
# On accès à l'élément d'index 'a'
s['a']

0.0

In [13]:
# On accès à l'élément d'index de position 0
s[0]

  s[0]


0.0

#### f. Filtre et sélection

In [14]:
# On écrit la condition entre crochets
s[s>=1]

b    1.0
c    2.0
dtype: float64

In [15]:
# Filtrer sur ce masque
# s>=1

In [16]:
print(s.mean()) # la moyenne
print(s.std()) # l'écart type
# une condition plus compliquée
s[s<=s.mean() + 0.5*s.std()]

1.0
1.0


a    0.0
b    1.0
dtype: float64

In [17]:
s[(s==0)|(s==2)] # | = or vectorisé

a    0.0
c    2.0
dtype: float64

In [18]:
s[(s > 0) & (s<2)]# & = et vectorisé

b    1.0
dtype: float64

## B. `DataFrame`
***
Un `DataFrame` est une structure de données multi-dimensionnelle, similaire à un tableau, avec une "étiquette" (ie un index) pour chaque ligne et chaque colonne. 

[Lien vers la documentation officielle](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)


### 1. Création d'un DataFrame

#### a. En utilisant des dictionnaires 

On peut créer un DataFrame en utilisant un dictionnaire en Python. Chaque clé du dictionnaire représente une colonne et chaque valeur représente les données pour cette colonne.

In [19]:
# Création d'un dictionnaire
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6], 'col3': [7, 8, 9]}

# Création d'un DataFrame en utilisant le dictionnaire
df = pd.DataFrame(data)

# Afficher le DataFrame
df

Unnamed: 0,col1,col2,col3
0,1,4,7
1,2,5,8
2,3,6,9


#### b. En utilisant une liste de listes
On peut également créer un DataFrame en utilisant une liste de listes. Chaque liste interne représente une ligne dans le DataFrame et chaque élément représente une valeur pour une colonne spécifique.

In [20]:
# Création d'une liste de listes
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

# Création d'un DataFrame en utilisant la liste de listes
df = pd.DataFrame(data, columns=['col1', 'col2', 'col3'])

# Afficher le DataFrame
df

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


#### c. En utilisant des `numpy.array`


In [21]:
array = np.random.randn(4, 2)
df = pd.DataFrame(array, columns=['colonne1', 'colonne2'])
df

Unnamed: 0,colonne1,colonne2
0,-0.1455,-0.36109
1,0.628435,0.838158
2,1.190966,0.879567
3,-1.056041,-0.618653


#### d. En lisant un fichier CSV

In [22]:
df = pd.read_csv("../data/simplemaps/worldcities.csv")
df.head(5) # Seulement lkes 5 premières lignes

Unnamed: 0,city,city_ascii,lat,lng,country,iso2,iso3,admin_name,capital,population,id
0,Tokyo,Tokyo,35.6839,139.7744,Japan,JP,JPN,Tōkyō,primary,39105000.0,1392685764
1,Jakarta,Jakarta,-6.2146,106.8451,Indonesia,ID,IDN,Jakarta,primary,35362000.0,1360771077
2,Delhi,Delhi,28.6667,77.2167,India,IN,IND,Delhi,admin,31870000.0,1356872604
3,Manila,Manila,14.6,120.9833,Philippines,PH,PHL,Manila,primary,23971000.0,1608618140
4,São Paulo,Sao Paulo,-23.5504,-46.6339,Brazil,BR,BRA,São Paulo,admin,22495000.0,1076532519


#### e. Pickle / Excel / SQL / MongoDB ...

In [23]:
# Pickle
# df.to_pickle("df_example.pk")

# CSV
# df.csv("df_example.csv")

# SQL
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html
# df.to_sql(name, con, *, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None, method=None)
# 

### 2. Création avancée d'un DataFrame

#### a. Un exemple avec un index (plus compliqué qu'il n'en a l'air)

**En s'y prenant bien, il est généralement très facile d'aligner les données comme on le souhaite, en se reposant sur le bon index**

In [24]:
# Avec une dictionnaire de colonnes contenant des objets de différents types
d = {
    'col1': [0, 1, 2, 3], 
    'col2': pd.Series(
        [4, 5], 
        index=[2, 3] # La serie a un index : [2, 3]
    )
}
df = pd.DataFrame(
    data=d, 
    index=[0, 1, 2, 3] # La dataframe a un index : [0, 1, 2, 3]
)
# Noter les valeurs manquantes
df

Unnamed: 0,col1,col2
0,0,
1,1,
2,2,4.0
3,3,5.0


#### b. Un exemple avec plusieurs classes de `pandas`

In [25]:
df = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


#### c. Usage des `dataclass` (classes représentant des données)

In [26]:
from dataclasses import make_dataclass
Player = make_dataclass("Player", [("name", str), ("rank", int), ("is_free", bool)])
df = pd.DataFrame(
    [
        Player("Kim", 90, False), 
        Player("Jimmy", 80, True),  
        Player("Gus", 98, False)
    ],
    index=[10, 11, 12]
)
df

Unnamed: 0,name,rank,is_free
10,Kim,90,False
11,Jimmy,80,True
12,Gus,98,False


### 2. Observation des attributs d'un `DataFrame`

In [27]:
df = pd.read_csv('../data/co2-data/owid-co2-data.csv')[['country', 'year', 'iso_code', 'population', 'gdp', 'co2']]
print(f"df est de type: {type(df)}", "\n")
df.sample(3) # 3 valeurs au hasard


df est de type: <class 'pandas.core.frame.DataFrame'> 



Unnamed: 0,country,year,iso_code,population,gdp,co2
8005,Cape Verde,1896,CPV,139520.0,,
7798,Canada,1861,CAN,3381997.0,,0.458
40773,Syria,1930,SYR,2559206.0,,


#### Infos générales

In [28]:
df.info() # Infos générales

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46523 entries, 0 to 46522
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   country     46523 non-null  object 
 1   year        46523 non-null  int64  
 2   iso_code    39862 non-null  object 
 3   population  38574 non-null  float64
 4   gdp         14551 non-null  float64
 5   co2         31349 non-null  float64
dtypes: float64(3), int64(1), object(2)
memory usage: 2.1+ MB


#### a. Attribut `index` de la DataFrame
**Il a été créé par `pandas` lors de la lecture du fichier CSV**

In [29]:
print(f"L'index de df est de type: {type(df.index)}", "\n")
df.index

L'index de df est de type: <class 'pandas.core.indexes.range.RangeIndex'> 



RangeIndex(start=0, stop=46523, step=1)

**On peut spéficier le nom du pays comme index**

In [30]:
type(
    df.set_index("country").index
)

pandas.core.indexes.base.Index

#### b. Attribut `columns` de la DataFrame
L'attribut columns est du même type que l'attribut index (lorsque c'est un `string`) 

In [31]:
print(f"L'attribut columns de df est de type: {type(df.columns)}", "\n")
df.columns

L'attribut columns de df est de type: <class 'pandas.core.indexes.base.Index'> 



Index(['country', 'year', 'iso_code', 'population', 'gdp', 'co2'], dtype='object')

#### c. Les colonnes sont des attributs de type `Serie`

In [32]:
print(f"L'attribut country de df est de type: {type(df.country)}", "\n")
df.country

L'attribut country de df est de type: <class 'pandas.core.series.Series'> 



0        Afghanistan
1        Afghanistan
2        Afghanistan
3        Afghanistan
4        Afghanistan
            ...     
46518       Zimbabwe
46519       Zimbabwe
46520       Zimbabwe
46521       Zimbabwe
46522       Zimbabwe
Name: country, Length: 46523, dtype: object

#### d. On peut accéder aux colonnes via leur nom

In [33]:
print(f"L'attribut country de df est de type: {type(df['country'])}", "\n")
df["country"]

L'attribut country de df est de type: <class 'pandas.core.series.Series'> 



0        Afghanistan
1        Afghanistan
2        Afghanistan
3        Afghanistan
4        Afghanistan
            ...     
46518       Zimbabwe
46519       Zimbabwe
46520       Zimbabwe
46521       Zimbabwe
46522       Zimbabwe
Name: country, Length: 46523, dtype: object

#### e. Attribut `dtypes` pour inspection des types des valeurs de chaque colonne

In [34]:
df.dtypes # object pour string, ou mélane string et valeurs manquantes np.nan (qui sont des float)

country        object
year            int64
iso_code       object
population    float64
gdp           float64
co2           float64
dtype: object

<span style='color:red'>
    Cette CheatSheet contient un strict minimum qui est un très bon début pour apprendre à manipuler la librairie. 
    En revanche, de nombreuses méthodes utilisées fréquemment et très utiles et puissantes n'y figurent pas
</span>

**<span style='color:red'>
Il y a énormément de fines subtilités à prendre en compte lors de l'usage des méthodes de `pandas`. Ainsi, rédiger des tests est une très bonne pratique, tout comme regarder avec ses yeux les résultats obtenus et s'assurer qu'ils sont bien ce à quoi on s'attendait (ce qui ne suffit pas).
</span>**

<img src="../images/pandas-cheatsheet.jpeg"   style="margin:auto;">

# III. Manipulation de données
Cette section est une adaptation de [10min to pandas](https://pandas.pydata.org/docs/user_guide/10min.html#selection).
***

## A. Manipulation basiques
***

### 1. Vues d'une DataFrame

#### a. Premières lignes avec `.head()`
**5 premières lignes**

In [35]:
df.head(5)

Unnamed: 0,country,year,iso_code,population,gdp,co2
0,Afghanistan,1850,AFG,3752993.0,,
1,Afghanistan,1851,AFG,3769828.0,,
2,Afghanistan,1852,AFG,3787706.0,,
3,Afghanistan,1853,AFG,3806634.0,,
4,Afghanistan,1854,AFG,3825655.0,,


#### b. Dernières lignes avec `.tail()`

**5 dernières lignes**

In [36]:
df.tail(5)

Unnamed: 0,country,year,iso_code,population,gdp,co2
46518,Zimbabwe,2017,ZWE,14751101.0,21947840000.0,9.596
46519,Zimbabwe,2018,ZWE,15052191.0,22715350000.0,11.795
46520,Zimbabwe,2019,ZWE,15354606.0,,11.115
46521,Zimbabwe,2020,ZWE,15669663.0,,10.608
46522,Zimbabwe,2021,ZWE,15993525.0,,11.296


#### c.  Lignes avec `.sample()`

**5 lignes au hasard**

In [37]:
df.sample(n=5)

Unnamed: 0,country,year,iso_code,population,gdp,co2
19969,India,1853,IND,238644470.0,,
24247,Low-income countries,1872,,75882298.0,,0.0
13050,Ethiopia,1947,ETH,17888877.0,,
28598,Nauru,1966,NRU,6037.0,,0.033
6309,Brazil,1901,BRA,18469004.0,17288480000.0,2.103


#### d. Statistiques de bases des variables numériques avec `.describe()`

In [38]:
print(type(df.describe()))
df.describe() # renvoie une DataFrame

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,year,population,gdp,co2
count,46523.0,38574.0,14551.0,31349.0
mean,1925.686478,60053740.0,267997700000.0,379.988086
std,61.042693,328082800.0,2104075000000.0,1799.875801
min,1750.0,21.0,49980000.0,0.0
25%,1882.0,380891.2,7530493000.0,0.125
50%,1930.0,2509282.0,26059000000.0,3.109
75%,1977.0,9996447.0,113471100000.0,43.66
max,2021.0,7909295000.0,113630200000000.0,37123.852


#### e. Transposition des données avec `.T`

In [39]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,46513,46514,46515,46516,46517,46518,46519,46520,46521,46522
country,Afghanistan,Afghanistan,Afghanistan,Afghanistan,Afghanistan,Afghanistan,Afghanistan,Afghanistan,Afghanistan,Afghanistan,...,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe,Zimbabwe
year,1850,1851,1852,1853,1854,1855,1856,1857,1858,1859,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
iso_code,AFG,AFG,AFG,AFG,AFG,AFG,AFG,AFG,AFG,AFG,...,ZWE,ZWE,ZWE,ZWE,ZWE,ZWE,ZWE,ZWE,ZWE,ZWE
population,3752993.0,3769828.0,3787706.0,3806634.0,3825655.0,3844769.0,3863976.0,3883276.0,3902671.0,3922160.0,...,13265331.0,13555420.0,13855758.0,14154937.0,14452705.0,14751101.0,15052191.0,15354606.0,15669663.0,15993525.0
gdp,,,,,,,,,,,...,20909967360.0,21123497984.0,21222502400.0,21027454976.0,20961794048.0,21947836416.0,22715353088.0,,,
co2,,,,,,,,,,,...,11.254,11.671,11.946,12.255,10.533,9.596,11.795,11.115,10.608,11.296


In [40]:
## Souvent utiles avec les données indexées dans le temps : 
import datetime

date_start = datetime.datetime(2022, 1, 1)
date_end = datetime.datetime(2022, 1, 1) + datetime.timedelta(days=99)

df_scores = pd.DataFrame(
    np.ceil(np.abs(np.random.randn(100, 3)*100)),
    columns=["score_player_1", "score_player_2", "score_player_3"],
    index=pd.date_range(date_start, date_end)
    
)
df_scores.T # Les dates deviennent les variables et les scores les individus

Unnamed: 0,2022-01-01,2022-01-02,2022-01-03,2022-01-04,2022-01-05,2022-01-06,2022-01-07,2022-01-08,2022-01-09,2022-01-10,...,2022-04-01,2022-04-02,2022-04-03,2022-04-04,2022-04-05,2022-04-06,2022-04-07,2022-04-08,2022-04-09,2022-04-10
score_player_1,126.0,80.0,11.0,29.0,168.0,52.0,136.0,15.0,97.0,82.0,...,16.0,136.0,110.0,8.0,151.0,116.0,15.0,179.0,144.0,17.0
score_player_2,171.0,91.0,19.0,6.0,116.0,134.0,169.0,82.0,18.0,67.0,...,195.0,98.0,1.0,47.0,35.0,10.0,16.0,94.0,35.0,79.0
score_player_3,44.0,28.0,27.0,5.0,240.0,55.0,143.0,2.0,31.0,180.0,...,18.0,135.0,85.0,123.0,45.0,4.0,189.0,98.0,62.0,74.0


#### f. Tri selon une colonne

In [41]:
df_scores.sort_values('score_player_2', ascending=False) # False -> d"croissant

Unnamed: 0,score_player_1,score_player_2,score_player_3
2022-02-21,220.0,328.0,151.0
2022-02-04,28.0,230.0,172.0
2022-03-26,149.0,226.0,37.0
2022-01-31,17.0,207.0,20.0
2022-01-28,198.0,206.0,94.0
...,...,...,...
2022-03-31,43.0,3.0,32.0
2022-01-20,32.0,3.0,53.0
2022-02-20,70.0,2.0,35.0
2022-02-17,1.0,1.0,22.0


#### f. Tri selon un index

In [42]:
df_scores.sort_index(ascending=False)

Unnamed: 0,score_player_1,score_player_2,score_player_3
2022-04-10,17.0,79.0,74.0
2022-04-09,144.0,35.0,62.0
2022-04-08,179.0,94.0,98.0
2022-04-07,15.0,16.0,189.0
2022-04-06,116.0,10.0,4.0
...,...,...,...
2022-01-05,168.0,116.0,240.0
2022-01-04,29.0,6.0,5.0
2022-01-03,11.0,19.0,27.0
2022-01-02,80.0,91.0,28.0


### 2. Sélection dans une `Dataframe`

#### a. Sélection via `___get_item__`

**Avec des entiers**

In [43]:
df[0:3]

Unnamed: 0,country,year,iso_code,population,gdp,co2
0,Afghanistan,1850,AFG,3752993.0,,
1,Afghanistan,1851,AFG,3769828.0,,
2,Afghanistan,1852,AFG,3787706.0,,


**Avec des dates**

In [44]:
datetime_1 = datetime.datetime(2022, 1, 1)
datetime_2 = datetime.datetime(2022, 1, 10)
df_scores[datetime_1:datetime_2]

Unnamed: 0,score_player_1,score_player_2,score_player_3
2022-01-01,126.0,171.0,44.0
2022-01-02,80.0,91.0,28.0
2022-01-03,11.0,19.0,27.0
2022-01-04,29.0,6.0,5.0
2022-01-05,168.0,116.0,240.0
2022-01-06,52.0,134.0,55.0
2022-01-07,136.0,169.0,143.0
2022-01-08,15.0,82.0,2.0
2022-01-09,97.0,18.0,31.0
2022-01-10,82.0,67.0,180.0


#### a. Sélection avec le label 

**Label entier**

In [45]:
df.loc[45]

country       Afghanistan
year                 1895
iso_code              AFG
population      4691426.0
gdp                   NaN
co2                   NaN
Name: 45, dtype: object

**Label de type `datetime`**

In [46]:
df_scores.loc[datetime.datetime(2022, 1, 1)]

score_player_1    126.0
score_player_2    171.0
score_player_3     44.0
Name: 2022-01-01 00:00:00, dtype: float64

**🚨 Les deux bornes sont incluses pour l'index**

In [47]:
df_scores.loc[datetime.datetime(2022, 1, 1):datetime.datetime(2022, 1, 3)]

Unnamed: 0,score_player_1,score_player_2,score_player_3
2022-01-01,126.0,171.0,44.0
2022-01-02,80.0,91.0,28.0
2022-01-03,11.0,19.0,27.0


**Selection simultanée des colonnes**

In [48]:
df_scores.loc[:, ["score_player_1", "score_player_2"]]

Unnamed: 0,score_player_1,score_player_2
2022-01-01,126.0,171.0
2022-01-02,80.0,91.0
2022-01-03,11.0,19.0
2022-01-04,29.0,6.0
2022-01-05,168.0,116.0
...,...,...
2022-04-06,116.0,10.0
2022-04-07,15.0,16.0
2022-04-08,179.0,94.0
2022-04-09,144.0,35.0


**Accès à la valeur**

In [49]:
df.loc[45,  "country"]

'Afghanistan'

#### b. Sélection avec la position

In [50]:
df.iloc[4] ## 4 ème ligne

country       Afghanistan
year                 1854
iso_code              AFG
population      3825655.0
gdp                   NaN
co2                   NaN
Name: 4, dtype: object

**🚨 Les deux bornes sont incluses pour l'index  des lignes (comme pour `.loc`)**

In [51]:
df_scores.iloc[4:6] 

Unnamed: 0,score_player_1,score_player_2,score_player_3
2022-01-05,168.0,116.0,240.0
2022-01-06,52.0,134.0,55.0


**🚨 Les deux bornes NE sont PAS incluses pour les indexes des colonnes**

In [52]:
df_scores.iloc[4:6, 0:1] 

Unnamed: 0,score_player_1
2022-01-05,168.0
2022-01-06,52.0


### 3. Indexes booléens dans une DataFrame

#### a. Condition simple

In [53]:
df[df.year==2001]

Unnamed: 0,country,year,iso_code,population,gdp,co2
151,Afghanistan,2001,AFG,1.968863e+07,1.102127e+10,1.069
423,Africa,2001,,8.394641e+08,,884.000
595,Africa (GCP),2001,,,,883.989
767,Aland Islands,2001,ALA,,,
939,Albania,2001,ALB,3.153615e+06,1.656384e+10,3.221
...,...,...,...,...,...,...
45714,Western Sahara,2001,ESH,2.838150e+05,,
45986,World,2001,,6.230747e+09,,25668.049
46158,Yemen,2001,YEM,1.914346e+07,8.072660e+10,16.017
46330,Zambia,2001,ZMB,1.019197e+07,1.623440e+10,1.886
