# Accéder aux dataframes

On va montrer ici comment acceder aux lignes et colonnes individuellment, ainsi que créer des dataframes.


On charge ici le fichier des prénoms du 1.1 que l'on a sauvé en local.

In [1]:
import pandas

In [2]:
prenom = pandas.read_csv("nat2020_csv.zip",
                         compression='zip',
                         sep=";")


## naviguer dans la dataframe

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

### colonnes et lignes particulières


#### colonne

On accède à une colonne par son nom, de deux façons equivalentes

In [3]:
#notation pointée 

prenom.annais

0         1900
1         1901
2         1902
3         1903
4         1904
          ... 
667359    2017
667360    2018
667361    2019
667362    2020
667363    XXXX
Name: annais, Length: 667364, dtype: object

In [4]:
# version liste
prenom["annais"]

0         1900
1         1901
2         1902
3         1903
4         1904
          ... 
667359    2017
667360    2018
667361    2019
667362    2020
667363    XXXX
Name: annais, Length: 667364, dtype: object

Les colonnes sont des [*séries*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) :

In [5]:
type(prenom["nombre"])

pandas.core.series.Series

C'est à dire une liste de données de même type : 

In [6]:
prenom["nombre"].dtype

dtype('int64')

Le [`dtype`](https://numpy.org/doc/stable/reference/arrays.dtypes.html) est une liste de type de numpy. Ici `dtype('int64')` signifie que c'est un entier.

#### noms des lignes et des colonnes

Les lignes et les colonnes sont des colonnes particulières

Les lignes sont des  [`RangeIndex`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.RangeIndex.html), que l'on peut itérer dans une boucle for (`for nom in prenom.index: ...`) ou transfrmer en liste (`list(prenom.index)`) si besoin.

In [7]:
# nom des lignes
prenom.index

RangeIndex(start=0, stop=667364, step=1)

Les colonnes sont des [`Index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html) qui sont des listes Pandas.

In [8]:
# nom des colonnes
prenom.columns

Index(['sexe', 'preusuel', 'annais', 'nombre'], dtype='object')

Dont on peut par exemple obtenir les valeurs :

In [9]:
prenom.columns.values

array(['sexe', 'preusuel', 'annais', 'nombre'], dtype=object)

#### lignes

On utilise [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) qui prend le nom de la ligne comme paramètre

In [10]:
prenom.loc[2]

sexe                     1
preusuel    _PRENOMS_RARES
annais                1902
nombre                1330
Name: 2, dtype: object

A ne pas confondre avec [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html) qui lui prend **l'indice** de la ligne.

Ici les noms des lignes sont aussi ses indices, donc c'est équivalent, mais ce n'est vraiment pas toujours le cas, surtout après un tri par exemple.

In [11]:
prenom.iloc[2]

sexe                     1
preusuel    _PRENOMS_RARES
annais                1902
nombre                1330
Name: 2, dtype: object

### éléments ligne et colonne particulier

Ligne/colonne ou colonne/ligne, en utilisant leurs noms :

In [12]:
# ligne colonne
prenom.loc[2]['nombre']

1330

In [13]:
# colonne ligne
prenom['nombre'][2]

1330

Si l'on veut utiliser des indices, il faut considérer la dataframe comme une matrice, ce que l'on peut faire en utilisant [`to_numpy`](https://pandas.pydata.org/pandas-docs/version/0.25.1/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy) :

In [14]:
# 3ème ligne :

prenom.to_numpy()[2]

array([1, '_PRENOMS_RARES', '1902', 1330], dtype=object)

In [15]:
# 3ème ligne, 4ème colonne

prenom.to_numpy()[2][3]

1330

ou encore :

In [16]:
# 3ème ligne, 4ème colonne

prenom.to_numpy()[2, 3]

1330

## sélections 

Un ensemble particulier de lignes/colonnes

### lignes

####  sélection booléenne

On passe en paramètre de la datafframe une lise de booléens de longueur égale au nombre de lignes. Seront rendues uniquement les lignes *vraies*

In [17]:
# les lignes dont le nom est divisible par 10, version vrai/faux

prenom.index % 10 == 0

array([ True, False, False, ..., False, False, False])

In [18]:
# on sélectionne les lignes vraies :

prenom[prenom.index % 10 == 0]

Unnamed: 0,sexe,preusuel,annais,nombre
0,1,_PRENOMS_RARES,1900,1250
10,1,_PRENOMS_RARES,1910,1666
20,1,_PRENOMS_RARES,1920,1535
30,1,_PRENOMS_RARES,1930,2639
40,1,_PRENOMS_RARES,1940,1588
...,...,...,...,...
667320,2,ZYA,2005,14
667330,2,ZYA,2015,12
667340,2,ZYNA,2012,6
667350,2,ZYNEB,2006,4


#### slices

On peut aussi prendre des ensembles de lignes par slices.

In [19]:
prenom[3:10]

Unnamed: 0,sexe,preusuel,annais,nombre
3,1,_PRENOMS_RARES,1903,1286
4,1,_PRENOMS_RARES,1904,1430
5,1,_PRENOMS_RARES,1905,1472
6,1,_PRENOMS_RARES,1906,1451
7,1,_PRENOMS_RARES,1907,1514
8,1,_PRENOMS_RARES,1908,1509
9,1,_PRENOMS_RARES,1909,1526


> **Attention** : ce sont des indices de lignes pas des noms :

In [20]:
prenom[prenom.index % 10 == 0][3:10]

Unnamed: 0,sexe,preusuel,annais,nombre
30,1,_PRENOMS_RARES,1930,2639
40,1,_PRENOMS_RARES,1940,1588
50,1,_PRENOMS_RARES,1950,1981
60,1,_PRENOMS_RARES,1960,2777
70,1,_PRENOMS_RARES,1970,3954
80,1,_PRENOMS_RARES,1980,6660
90,1,_PRENOMS_RARES,1990,8552


### colonnes

un ensemble particulier de colonnes, en passant une liste de nom de colonnes :

In [21]:
prenom[["annais", "preusuel"]]

Unnamed: 0,annais,preusuel
0,1900,_PRENOMS_RARES
1,1901,_PRENOMS_RARES
2,1902,_PRENOMS_RARES
3,1903,_PRENOMS_RARES
4,1904,_PRENOMS_RARES
...,...,...
667359,2017,ZYNEB
667360,2018,ZYNEB
667361,2019,ZYNEB
667362,2020,ZYNEB


### loc et iloc

On peut passer 2 arguments à loc et iloc

In [22]:
# ligne de nom 23 et colonne "preusuel"

prenom.loc[23, "preusuel"]

'_PRENOMS_RARES'

In [23]:
# 24ième ligne et deuxième colonne

prenom.iloc[23, 1]

'_PRENOMS_RARES'

#### arguments slices

Ces arguments peuvent aussi être des [*slices*](http://pascal.ortiz.free.fr/contents/python/slices/slices.html).

Sans sélection, on obtient toutes les lignes et colonnes :

In [24]:
prenom.loc[:, :]

Unnamed: 0,sexe,preusuel,annais,nombre
0,1,_PRENOMS_RARES,1900,1250
1,1,_PRENOMS_RARES,1901,1342
2,1,_PRENOMS_RARES,1902,1330
3,1,_PRENOMS_RARES,1903,1286
4,1,_PRENOMS_RARES,1904,1430
...,...,...,...,...
667359,2,ZYNEB,2017,6
667360,2,ZYNEB,2018,5
667361,2,ZYNEB,2019,7
667362,2,ZYNEB,2020,8


In [25]:
prenom.iloc[:, :]

Unnamed: 0,sexe,preusuel,annais,nombre
0,1,_PRENOMS_RARES,1900,1250
1,1,_PRENOMS_RARES,1901,1342
2,1,_PRENOMS_RARES,1902,1330
3,1,_PRENOMS_RARES,1903,1286
4,1,_PRENOMS_RARES,1904,1430
...,...,...,...,...
667359,2,ZYNEB,2017,6
667360,2,ZYNEB,2018,5
667361,2,ZYNEB,2019,7
667362,2,ZYNEB,2020,8


En spécifiant les slices on peut sélection un groupe de lignes/colonnes : 

In [26]:
# toutes les lignes, les colonnes entre "sexe" et "annais"
prenom.loc[:, "sexe":"annais"]

Unnamed: 0,sexe,preusuel,annais
0,1,_PRENOMS_RARES,1900
1,1,_PRENOMS_RARES,1901
2,1,_PRENOMS_RARES,1902
3,1,_PRENOMS_RARES,1903
4,1,_PRENOMS_RARES,1904
...,...,...,...
667359,2,ZYNEB,2017
667360,2,ZYNEB,2018
667361,2,ZYNEB,2019
667362,2,ZYNEB,2020


In [27]:
# les lignes entre celle de noms 3 et de nom 10 et les colonnes entre "sexe" et "annais"

prenom.loc[3:10, "sexe":"annais"]

Unnamed: 0,sexe,preusuel,annais
3,1,_PRENOMS_RARES,1903
4,1,_PRENOMS_RARES,1904
5,1,_PRENOMS_RARES,1905
6,1,_PRENOMS_RARES,1906
7,1,_PRENOMS_RARES,1907
8,1,_PRENOMS_RARES,1908
9,1,_PRENOMS_RARES,1909
10,1,_PRENOMS_RARES,1910


#### arguments listes

Enfn, ces arguments peuvent être des listes :

In [28]:
# lignes de noms 3, 1 et 25 dans cet ordre, toutes les colonnes

prenom.loc[[3, 1, 25], :]

Unnamed: 0,sexe,preusuel,annais,nombre
3,1,_PRENOMS_RARES,1903,1286
1,1,_PRENOMS_RARES,1901,1342
25,1,_PRENOMS_RARES,1925,2844


In [29]:
# toutes les lignes et la 4ème colonne puis la 3 dans cet ordre

prenom.iloc[:, [3, 2]]

Unnamed: 0,nombre,annais
0,1250,1900
1,1342,1901
2,1330,1902
3,1286,1903
4,1430,1904
...,...,...
667359,6,2017
667360,5,2018
667361,7,2019
667362,8,2020


On peut bien sur tout combinet pour extraire ce que l'on veut des données

## Opérations sur les dataframe

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html


Pour que cette introduction soit complète, il nous reste à voir comment créer des données ([Dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)), soit de rien du tout soit en combinant d'autres données.

Pour illustrer ceci on va recréer les mêmes données de plein de façon différentes. On va trouver le nombre de Dominique hommes et femmes pour chaque année.

On va procéder de trois façons différentes :

* création d'une dataframe vierge puis remplissage des données
* création de colonnes puis concaténation
* création de lignes puis concaténation
* en utilisant des méthodes issues des bases de données

### modification d'un tableau

On commence par créer un dataframe avec des listes puis on modifie celle-ci

> **Attention** pour ne pas avoir de soucis, il faut faire des listes différentes pour chaque colonne

In [30]:
# on prépare les colonnes vierges 

années = [str(x) for x in range(1900, 2020 + 1)]
nombre_1 = [0] * len(années)
nombre_2 = [0] * len(années)

In [31]:
# on crée la dataframe

dominiques = pandas.DataFrame({1:nombre_1, 2:nombre_2}, index=années)

Prenez l'habitude lorsque vous créez un dataframe de faire **TRES** attention au type de données. Comme on va manipuler des entiers, ce n'est pas très grave mais si vous manipulez des `float` et que votre colonne est de type entier, seule la partie entière sera conservée...

In [32]:
dominiques.dtypes

1    int64
2    int64
dtype: object

S'ils ne sont pas bons on peut les changer avec [`as_type`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html).

Le noms des lignes de la dataframe `dominiques` est l'année. On a deux colonnes nommées 1 (les hommes) et 2 les femmes.

In [33]:
dominiques

Unnamed: 0,1,2
1900,0,0
1901,0,0
1902,0,0
1903,0,0
1904,0,0
...,...,...
2016,0,0
2017,0,0
2018,0,0
2019,0,0


On modifie ensuite la table avec les données de la dataframe initiale

In [34]:
for nom_ligne in prenom.index:
    if prenom.loc[nom_ligne, "preusuel"] == "DOMINIQUE":
        sexe = prenom.loc[nom_ligne, "sexe"]
        annee = prenom.loc[nom_ligne, "annais"]
        nombre = prenom.loc[nom_ligne, "nombre"]
        
        dominiques[sexe][annee] = nombre

In [35]:
dominiques

Unnamed: 0,1,2
1900,252,22
1901,280,19
1902,299,25
1903,308,27
1904,281,19
...,...,...
2016,27,3
2017,24,4
2018,22,0
2019,25,3


### ajout de colonnes

On va créer un dataframe vide et ajouter les colonnes une à une. Le lien se fera avec le nom des lignes, ici l'année

In [36]:
dominiques = pandas.DataFrame(index=années)

dominiques

1900
1901
1902
1903
1904
...
2016
2017
2018
2019
2020


On crée la colonne des hommes

In [37]:
homme = (prenom[(prenom["preusuel"] == "DOMINIQUE") & (prenom["sexe"] == 1)]
                   .drop(["preusuel", "sexe"], axis=1))
homme

Unnamed: 0,annais,nombre
69056,1900,252
69057,1901,280
69058,1902,299
69059,1903,308
69060,1904,281
...,...,...
69172,2016,27
69173,2017,24
69174,2018,22
69175,2019,25


On va changer le nom des lignes pour qu'il correspondent aux années

In [38]:
homme = homme.set_index("annais")

In [39]:
homme

Unnamed: 0_level_0,nombre
annais,Unnamed: 1_level_1
1900,252
1901,280
1902,299
1903,308
1904,281
...,...
2016,27
2017,24
2018,22
2019,25


On utilise la commande [`concat`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) en lui demandant d'agir sur les colonnes (`axis=1`).

In [40]:
pandas.concat([dominiques, homme], axis=1)

Unnamed: 0,nombre
1900,252
1901,280
1902,299
1903,308
1904,281
...,...
2016,27
2017,24
2018,22
2019,25


Le résultat est correct, on modifie donc pour notre dataframe :

In [41]:
dominiques = pandas.concat([dominiques, homme], axis=1)

On fait pareil pour les femmes

In [42]:
femmes = (prenom[(prenom["preusuel"] == "DOMINIQUE") & (prenom["sexe"] == 2)]
            .drop(["preusuel", "sexe"], axis=1)
            .set_index("annais"))

In [43]:
femmes

Unnamed: 0_level_0,nombre
annais,Unnamed: 1_level_1
1900,22
1901,19
1902,25
1903,27
1904,19
...,...
2013,3
2016,3
2017,4
2019,3


In [44]:
pandas.concat([dominiques, femmes], axis=1)

Unnamed: 0,nombre,nombre.1
1900,252.0,22.0
1901,280.0,19.0
1902,299.0,25.0
1903,308.0,27.0
1904,281.0,19.0
...,...,...
2017,24.0,4.0
2018,22.0,
2019,25.0,3.0
2020,24.0,


On voit que concat agit intelligemment :

- l'année 2018 ne contenait pas de dominiques filles, on a donc rajouté une donnée `NaN`à cette colonne (`NaN` = not a number
- il n'y a vait pas d'année `XXXX` pour les homme, elle a été ajouté dans la concaténation.

Cete remarque justifie également le fait que l'on ait pas utilisé [`assign`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.assign.html) qui n'aurait pas fait attentions aux noms des lignes.  Cette commande ajoute juste une liste de même longeur comme attribut au dataframe.

In [45]:
dominiques = pandas.concat([dominiques, femmes], axis=1)

Il nous reste à remplacer les `NaN` par 0 :

In [46]:
dominiques = dominiques.fillna(0)

In [47]:
dominiques

Unnamed: 0,nombre,nombre.1
1900,252.0,22.0
1901,280.0,19.0
1902,299.0,25.0
1903,308.0,27.0
1904,281.0,19.0
...,...,...
2017,24.0,4.0
2018,22.0,0.0
2019,25.0,3.0
2020,24.0,0.0


Puis supprimer la ligne des `XXXX` en utilisant [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html) (si l'on avait voulu supprimer des colonnes, on aurait utiliser le paramètre `axis=1` pour drop).

In [48]:
dominiques = dominiques.drop('XXXX')

### ajout de lignes

On crée le dataframe puis on ajoute ligne à ligne nos donnée

In [49]:
dominiques = pandas.DataFrame()

On va maintenant itérer sur les lignes d'un dataframe contenant uniquement les dominiques pour une année particuilère (on utilise pour ça la commande [`iterrows()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html)). Ceci nous permet de créer une nouvelle ligne qui contient les dominique de chaque sexe pour une année donnée. 

In [55]:
for annee in [str(x) for x in range(1900, 2020 + 1)]:
    nombres = [0, 0]
    for nom, ligne in prenom[(prenom.annais == annee) & (prenom.preusuel == "DOMINIQUE")].iterrows():
        if ligne.sexe == 1:
            nombres[0] = ligne.nombre
        else:
            nombres[1] = ligne.nombre
        
        nouvelle_ligne = pandas.DataFrame([nombres], index=[annee])
    dominiques = pandas.concat([dominiques, nouvelle_ligne])


In [56]:
dominiques

Unnamed: 0,annais,♂,♀,0,1
0,1900,252.0,22.0,,
1,1901,280.0,19.0,,
2,1902,299.0,25.0,,
3,1903,308.0,27.0,,
4,1904,281.0,19.0,,
...,...,...,...,...,...
2016,,,,27.0,3.0
2017,,,,24.0,4.0
2018,,,,22.0,0.0
2019,,,,25.0,3.0


On voit que cette technique est bien longue.

### base de données

La dernière façon de créer des données que l'on va monter est la plus rapide. Elle consiste à mimer des opération de merge que l'on peut faire en base de données.

On commence par extraire les dominiques garçons et les dominiques filles :

In [52]:
dominique_1 = (prenom[(prenom["preusuel"] == "DOMINIQUE") & (prenom["sexe"] == 1)]
                   .drop(["preusuel", "sexe"], axis=1)
                   .sort_values(by=['annais']))

dominique_2 = (prenom[(prenom["preusuel"] == "DOMINIQUE") & (prenom["sexe"] == 2)]
                   .drop(["preusuel", "sexe"], axis=1)
                   .sort_values(by=['annais']))

Puis on va les combiner en une table unique grace à [`merge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) :

In [53]:
dominiques = (pandas
                 .merge(dominique_1, dominique_2, on=['annais'], how='outer')
                 .fillna(0)
                 .rename(columns={"nombre_x": "♂", "nombre_y": "♀"})
            )

In [54]:
dominiques

Unnamed: 0,annais,♂,♀
0,1900,252.0,22.0
1,1901,280.0,19.0
2,1902,299.0,25.0
3,1903,308.0,27.0
4,1904,281.0,19.0
...,...,...,...
117,2017,24.0,4.0
118,2018,22.0,0.0
119,2019,25.0,3.0
120,2020,24.0,0.0


Les structures de données de pandas sont orientés pour l'utilisation efficace de merge, ce qui fait que tout est très rapide. 

Lisez https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html pour plein de trucs efficaces pour combiner vos données.