# Installation, Series et DataFrame

La bibliothèque `pandas` a été créée en 2008 par Wes McKinney alors qu'il était analyste quantitatif sur des stratégies global macro et dérivés de crédit chez AQR Capital Management.

A cette époque, il n'existait pas de bibliothèques Python pour manipuler des données et les analyser. Il l'a créé de toutes pièces. `Pandas` est ajourd'hui un package indispensable pour les métiers de la data.

Le nom `pandas` vient de panel data qui en terme statistique correpond à un jeu de données structuré et multidimensionnel.

La documentation officielle est ici :

https://pandas.pydata.org/docs/

Le livre est également disponible :

https://wesmckinney.com/book/

## Installer pandas

Depuis Jupyter Notebook :

%pip install pandas

ou depuis le terminal :

pip install pandas

## Importer pandas

In [3]:
# on importe pandas avec un alias
import pandas as pd

## Les séries

Les séries (Series) sont des tableaux (arrays) à une dimension.

La documentation officielle sur les Series est ici :

https://pandas.pydata.org/docs/reference/api/pandas.Series.html#

In [4]:
#documentation de Series
pd.Series?

[1;31mInit signature:[0m
[0mpd[0m[1;33m.[0m[0mSeries[0m[1;33m([0m[1;33m
[0m    [0mdata[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m:[0m [1;34m'Dtype | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mname[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mfastpath[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object
supports both integer- and label-based indexing and provides a host of
methods for performing operations involving the index. Statistical
methods from ndarray have been overridden to automatically exc

Il existe plusieurs façons de construire des Series.

In [5]:
# Méthode 1 : construire une série avec un dictionnaire
dict_gdp = {
    '2016' : 2473,	
    '2017' : 2595,	
    '2018': 2790,	
    '2019': 2728,
    '2020' : 2647, 
    '2021' : 2959,	
    '2022' :2779 
 }
ser = pd.Series(data=dict_gdp, name='FRANCE GDP')
print(ser)


2016    2473
2017    2595
2018    2790
2019    2728
2020    2647
2021    2959
2022    2779
Name: FRANCE GDP, dtype: int64


In [6]:
#Méthode 2 : construire une série avec une liste de données et une liste de label
data = [2473, 2595, 2790, 2728, 2647, 2959, 2779]
label = ['2016', '2017', '2018', '2019', '2020', '2021', '2022']

ser = pd.Series(data=data, index=label, name='FRANCE GDP')
print(ser)

2016    2473
2017    2595
2018    2790
2019    2728
2020    2647
2021    2959
2022    2779
Name: FRANCE GDP, dtype: int64


####

### Sélectionner des éléments d'une série

On sélectionne des éléments d'une série par le numéro de son index avec la méthode `iloc` et le nom de l'index avec la méthode `loc`.

In [7]:
#sélectionne le PIB de 2022
print("PIB 2022", ser.loc['2022'])

PIB 2022 2779


In [8]:
#sélectionne le PIB de 2018
print("PIB 2018", ser.iloc[2])

PIB 2018 2790


In [9]:
#sélectionne les PIB de 2016, 2018 et 2020
print("PIB 2016, 2018, 2020", ser.loc[['2016', '2018', '2020' ]])

PIB 2016, 2018, 2020 2016    2473
2018    2790
2020    2647
Name: FRANCE GDP, dtype: int64


In [46]:
#sélectionne les PIB de 2017, 2019 et 2021 avec iloc
print("PIB 2017, 2019, 2021", ser.iloc[[1,3,5 ]])

PIB 2017, 2019, 2021 2017    2595
2019    1000
2021    2959
Name: FRANCE GDP, dtype: int64


### Modifier des éléments d'une série
On modifie des éléments d'une série par le numéro de son index avec la méthode `iloc` et le nom de l'index avec la méthode `loc`.

In [13]:
#modifie le PIB de 2022
ser.loc['2022'] = 2000
print(ser)

2016    2473
2017    2595
2018    2790
2019    2728
2020    2647
2021    2959
2022    2000
Name: FRANCE GDP, dtype: int64


In [14]:
#modifie le PIB de 2019
ser.iloc[3] = 1000
print(ser)

2016    2473
2017    2595
2018    2790
2019    1000
2020    2647
2021    2959
2022    2000
Name: FRANCE GDP, dtype: int64


## DataFrame

Les DataFrame sont des tableaux à 2 dimensions (lignes et colonnes). Ils sont avec les Series, les principaux objets de la bibliothèque `pandas`.

La documentation officielle est ici :

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

In [11]:
#documentation de DataFrame
pd.DataFrame?

[1;31mInit signature:[0m
[0mpd[0m[1;33m.[0m[0mDataFrame[0m[1;33m([0m[1;33m
[0m    [0mdata[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex[0m[1;33m:[0m [1;34m'Axes | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcolumns[0m[1;33m:[0m [1;34m'Axes | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m:[0m [1;34m'Dtype | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Two-dimensional, size-mutable, potentially heterogeneous tabular data.

Data structure also contains labeled axes (rows and columns).
Arithmetic operations align on both row and column labels. Can be
thought of as a dict-like container for Series objects. The primary
pandas data structure.

Parameters
----------
data : ndarray (structured or hom

Il existe plusieurs façons de construire des DataFrame.

In [19]:
# Méthode 1 : construire un DataFrame avec un dictionnaire
dict_gdp = { 'FRANCE' : [2473,2595,2790,2728,2647,2959,2779],
            'USA' : [18695, 19477, 20533, 21381, 21060, 23315, 25439],
            'TUVALU': [42,45,48,54,52,60,59]
            }

df = pd.DataFrame(data = dict_gdp, index = [2016,2017,2028,2019,2020,2021,2022])
print(df)


      FRANCE    USA  TUVALU
2016    2473  18695      42
2017    2595  19477      45
2028    2790  20533      48
2019    2728  21381      54
2020    2647  21060      52
2021    2959  23315      60
2022    2779  25439      59


In [22]:
# Méthode 2 : construire un DataFrame avec des listes
data = [[2473,18695,42],
        [2595,19477,45],
        [2790,20533, 48],
        [2728,21381,54],
        [2647, 21060,52],
        [2959,23315,60],
        [2779,25439,59]
        ]

columns = ['FRANCE','USA','TUVALU']
index = [2016,2017,2018,2019,2020,2021,2022]
df = pd.DataFrame(data = data, columns=columns, index=index)
print(df)

      FRANCE    USA  TUVALU
2016    2473  18695      42
2017    2595  19477      45
2018    2790  20533      48
2019    2728  21381      54
2020    2647  21060      52
2021    2959  23315      60
2022    2779  25439      59


### Sélectionner des éléments d'un DataFrame

On sélectionne des éléments d'un DataFrame par le numéro de l'index et de la colonne avec la méthode `iloc` et le nom de l'index et de la colonne avec la méthode `loc`.

In [41]:
#sélectionne une ligne, tous les PIB de 2022
gdp_2022 = df.loc[2022]
print(gdp_2022)
#le résultat est une Series
print(type(gdp_2022))

FRANCE     2779
USA       25439
TUVALU       59
Name: 2022, dtype: int64
<class 'pandas.core.series.Series'>


In [42]:
#sélectionne une ligne, tous les PIB de 2017
gdp_2017 = df.iloc[1]
print(gdp_2017)
#le résultat est une Series
print(type(gdp_2017))

FRANCE     2595
USA       19477
TUVALU       45
Name: 2017, dtype: int64
<class 'pandas.core.series.Series'>


In [43]:
#sélectionne le PIB de la France en 2021
gdp_france_2021 = df.loc[2021,'FRANCE']
print(gdp_france_2021)
#le résultat est un numpy integer
print(type(gdp_france_2021))


2959
<class 'numpy.int64'>


In [44]:
#sélectionne le PIB des USA en 2019
gdp_usa_2019 = df.iloc[3,1]
print(gdp_usa_2019)
#le résultat est un numpy integer
print(type(gdp_usa_2019))

21381
<class 'numpy.int64'>


In [48]:
#sélectionner le PIB 2017 et 2018 de France Tuvalu
gdp_france_tuvalu_2017_2018 = df.loc[[2017,2018], ['FRANCE', 'TUVALU']]
print(gdp_france_tuvalu_2017_2018)
#le résultat est un DataFrame
print(type(gdp_france_tuvalu_2017_2018))


      FRANCE  TUVALU
2017    2595      45
2018    2790      48
<class 'pandas.core.frame.DataFrame'>


In [54]:
#sélectionner le PIB 2016 et 2022 de Tuvalu et USA
gdp_tuvalu_USA_2016_2022 = df.iloc[[0,6], [2, 1]]
print(gdp_tuvalu_USA_2016_2022)
#le résultat est un DataFrame
print(type(gdp_tuvalu_USA_2016_2022))

      TUVALU    USA
2016      42  18695
2022      59  25439
<class 'pandas.core.frame.DataFrame'>
