# Bases de Pandas

Dans cette leçon, nous allons introduire quelques notions fondamentales supplémentaires de [Pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/overview.html), une puissante bibliothèque Python pour travailler avec des données tabulaires telles que des fichiers CSV.

Nous allons revoir les compétences apprises lors de la dernière leçon et introduire comment :

* Examiner largement les données
* Travailler avec des données manquantes
* Renommer, supprimer et ajouter de nouvelles colonnes
* Effectuer des calculs mathématiques
* Agréger des sous-ensembles de données

In [1]:
import pandas as pd

In [2]:
l = [{'date': '2022-02-12', 'prix': '220', 'devise':'euros'},
     {'date': '2022-02-13', 'prix': '10', 'devise':'euros'},
     {'date': '2022-02-16', 'prix': '30', 'devise':'euros'}]

df = pd.DataFrame(l)

In [3]:
type(df)

pandas.core.frame.DataFrame

In [4]:
df

Unnamed: 0,date,prix,devise
0,2022-02-12,220,euros
1,2022-02-13,10,euros
2,2022-02-16,30,euros


In [5]:
l = [{'date': '2022-02-12', 'prix': '220', 'devise':'euros'},
     {'date': '2022-02-13', 'prix': '10', 'devise':'euros'},
     {'date': '2022-02-16', 'devise':'euros'}]

df = pd.DataFrame(l)

In [6]:
df

Unnamed: 0,date,prix,devise
0,2022-02-12,220.0,euros
1,2022-02-13,10.0,euros
2,2022-02-16,,euros


In [7]:
df.prix

0    220
1     10
2    NaN
Name: prix, dtype: object

In [16]:
colonne_prix = df['prix']

In [18]:
colonne_prix[0]

'220'

In [19]:
df_2 = df[['date', 'prix']]

In [20]:
df_2

Unnamed: 0,date,prix
0,2022-02-12,220.0
1,2022-02-13,10.0
2,2022-02-16,


## Lire des CSV

In [23]:
df2 = pd.read_csv('../data/csv/data_corpus.csv')

In [24]:
df2

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
0,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874
1,1845_Sand-George_Teverino,1845,george sand,teverino,True,female,1876
2,1892_Allais-Alphonse_Vive-la-vie,1892,alphonse allais,vive la vie,False,male,1905
3,1997_Bergounioux-Pierre_La-ligne,1997,pierre bergounioux,la ligne,True,male,20--
4,1894_Rachilde_Le-Demon-de-l-Absurde,1894,rachilde,le demon de l absurde,False,female,1953
...,...,...,...,...,...,...,...
2955,1960_Simenon-Georges_Maigret-et-les-vieillards,1960,georges simenon,maigret et les vieillards,True,male,1989
2956,1910_Zevaco-Michel_Triboulet,1910,michel zevaco,triboulet,False,male,1918
2957,1880_Gouraud-Julie_Aller-et-retour,1880,julie gouraud,aller et retour,False,female,1891
2958,1956_Sagan-Françoise_Un-certain-sourire,1956,françoise sagan,un certain sourire,False,female,2004


In [50]:
df2 = pd.read_csv('/home/crazyjeannot/Documents/cours/Python4DH/data/csv/data_corpus.csv')

In [46]:
df2.index = df2.doc_name

In [47]:
df2

Unnamed: 0_level_0,doc_name,date,auteur,titre,canon,gender,mort_auteur
doc_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1861_Segur-comtesse-de_Pauvre-Blaise,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874
1845_Sand-George_Teverino,1845_Sand-George_Teverino,1845,george sand,teverino,True,female,1876
1892_Allais-Alphonse_Vive-la-vie,1892_Allais-Alphonse_Vive-la-vie,1892,alphonse allais,vive la vie,False,male,1905
1997_Bergounioux-Pierre_La-ligne,1997_Bergounioux-Pierre_La-ligne,1997,pierre bergounioux,la ligne,True,male,20--
1894_Rachilde_Le-Demon-de-l-Absurde,1894_Rachilde_Le-Demon-de-l-Absurde,1894,rachilde,le demon de l absurde,False,female,1953
...,...,...,...,...,...,...,...
1960_Simenon-Georges_Maigret-et-les-vieillards,1960_Simenon-Georges_Maigret-et-les-vieillards,1960,georges simenon,maigret et les vieillards,True,male,1989
1910_Zevaco-Michel_Triboulet,1910_Zevaco-Michel_Triboulet,1910,michel zevaco,triboulet,False,male,1918
1880_Gouraud-Julie_Aller-et-retour,1880_Gouraud-Julie_Aller-et-retour,1880,julie gouraud,aller et retour,False,female,1891
1956_Sagan-Françoise_Un-certain-sourire,1956_Sagan-Françoise_Un-certain-sourire,1956,françoise sagan,un certain sourire,False,female,2004


### Affiche

In [33]:
df2[:1]

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
0,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874


In [36]:
df2.head(2)

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
0,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874
1,1845_Sand-George_Teverino,1845,george sand,teverino,True,female,1876


In [37]:
df2[:4]

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
0,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874
1,1845_Sand-George_Teverino,1845,george sand,teverino,True,female,1876
2,1892_Allais-Alphonse_Vive-la-vie,1892,alphonse allais,vive la vie,False,male,1905
3,1997_Bergounioux-Pierre_La-ligne,1997,pierre bergounioux,la ligne,True,male,20--


### Attributs

In [38]:
df2.shape

(2960, 7)

In [40]:
list(df2.columns)

['doc_name', 'date', 'auteur', 'titre', 'canon', 'gender', 'mort_auteur']

In [49]:
df2.index

Index(['1861_Segur-comtesse-de_Pauvre-Blaise', '1845_Sand-George_Teverino',
       '1892_Allais-Alphonse_Vive-la-vie', '1997_Bergounioux-Pierre_La-ligne',
       '1894_Rachilde_Le-Demon-de-l-Absurde',
       '1963_Beauvoir-Simone-de_La-force-des-choses_1',
       '1913_Leroux-Gaston_La-Reine-du-Sabbat',
       '1850_Dumas-Alexandre_Dieu-dispose_II',
       '1846_Balzac-Honore-de_Le-Message',
       '2004_Gavalda-Anna_Ensemble-c-est-tout',
       ...
       '2004_Angot-Christine_Les-Desaxes', '1879_Greville-Henry_La-Niania',
       '1881_Tissot-Marcel_La-Veuve-d-Attila',
       '1953_Simonin-Albert_Touchez-pas-au-grisbi',
       '1955_Ikor-Roger_Les-eaux-melees',
       '1960_Simenon-Georges_Maigret-et-les-vieillards',
       '1910_Zevaco-Michel_Triboulet', '1880_Gouraud-Julie_Aller-et-retour',
       '1956_Sagan-Françoise_Un-certain-sourire',
       '1845_Sue-Eugene_La-coucaratcha_Tome-II'],
      dtype='object', name='doc_name', length=2960)

In [53]:
df2.head(4)

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
0,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874
1,1845_Sand-George_Teverino,1845,george sand,teverino,True,female,1876
2,1892_Allais-Alphonse_Vive-la-vie,1892,alphonse allais,vive la vie,False,male,1905
3,1997_Bergounioux-Pierre_La-ligne,1997,pierre bergounioux,la ligne,True,male,20--


In [51]:
df2.iloc[3,0]

'1997_Bergounioux-Pierre_La-ligne'

In [54]:
df3 = df2[df2['date'] == 1977]

In [55]:
df3

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
291,1977_San-Antonio_Remets-ton-slip-gondolier,1977,antonio san,remets ton slip gondolier,False,male,2000
926,1977_Pagnol-Marcel_Le-temps-des-amours,1977,marcel pagnol,le temps des amours,False,male,1974
1136,1977_Ernaux-Annie_Ce-qu-ils-disent-ou-rien,1977,annie ernaux,ce qu ils disent ou rien,True,female,20--
1410,1977_Yourcenar-Marguerite_Archives-du-Nord,1977,marguerite yourcenar,archives du nord,True,female,1987
1715,1977_Modiano-Patrick_Livret-de-famille,1977,patrick modiano,livret de famille,True,male,20--
1845,1977_Gary-Romain_Charge-d-ame,1977,romain gary,charge d ame,True,male,1980
2391,1977_A.D.G_Le-grand-mome,1977,a.d.g,le grand mome,False,male,2004
2745,1977_A-D-G._Juste-un-rigolo,1977,d g. a,juste un rigolo,False,male,2004


In [60]:
df2[(df2['date'] < 1907) & (df2['auteur'] == "delly")]

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
1487,1905_Delly_L'etincelle,1905,delly,l'etincelle,False,female,1947


## Methodes de Pandas

| Méthode Pandas | Explication                                       |
|---------------|---------------------------------------------------|
| `.sum()`      | Somme des valeurs                                 |
| `.mean()`     | Moyenne des valeurs                               |
| `.median()`   | Médiane des valeurs                               |
| `.min()`      | Minimum                                           |
| `.max()`      | Maximum                                           |
| `.mode()`     | Mode                                              |
| `.std()`      | Écart-type non biaisé                             |
| `.count()`    | Nombre total de valeurs non vides                  |
| `.value_counts()` | Fréquence des valeurs uniques                    |
| `.groupby()`  | Division des données en groupes basés sur des critères spécifiques. Permet d'appliquer des opérations sur ces groupes. |
| `.sort_values()` | Trie les valeurs dans un DataFrame ou une Series. |
| `.describe()` | Génère des statistiques descriptives pour les données, comme la moyenne, l'écart-type et les quartiles. |

In [61]:
df3 = df2.sort_values(['date'])#, ascending=False

In [62]:
df3

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
653,1811_Chateaubriand-François-Rene-de_Oeuvres-co...,1811,françois rene de chateaubriand,oeuvres completes,True,male,1848
2173,1812_Kock-Paul-de_L-enfant-de-ma-femme,1812,paul de kock,l enfant de ma femme,False,male,1871
1179,1815_Gay-Sophie_Anatole_Vol-2,1815,sophie gay,anatole,False,female,1852
623,1815_Gay-Sophie_Anatole_Vol-1,1815,sophie gay,anatole,False,female,1852
94,1816_Barthelemy-Hadot-Marie-Adelaide_La-Vierge...,1816,hadot marie adelaide barthelemy,la vierge de l indostan ou les portugais au ma...,False,female,1821
...,...,...,...,...,...,...,...
1270,2018_Quignard-Pascal_L-enfant-d-Ingolstadt,2018,pascal quignard,l enfant d ingolstadt,True,male,XXXX
2850,2019_Murail-Marie-Aude_Sauveur-Fils_5,2019,marie aude murail,sauveur fils,False,female,unknown
322,2019_Dabos-Christelle_La-Passe-miroir_4-La-Tem...,2019,christelle dabos,la passe miroir,False,female,XXXX
2159,2020_Springora-Vanessa_Le-consentement,2020,vanessa springora,le consentement,False,female,XXXX


In [None]:
df3 = df2.groupby('date')['doc_name'].count()

In [None]:
df2.date.mean()

In [None]:
df2.canon.describe()

In [None]:
df2.canon.value_counts()

In [None]:
df2['auteur'].value_counts()#[:10]

In [39]:
import numpy as np

In [41]:
tmp_np = np.linspace(0, 10, num=len(df2))

In [None]:
df2['numpy'] = tmp_np

## + graphiques à partir de Pandas (semaine prochaine)

In [None]:
data.groupby('date')['doc_name'].count().plot(title='Nombre de Romans par an')

In [33]:
df2[:1]

Unnamed: 0,doc_name,date,auteur,titre,canon,gender,mort_auteur
0,1861_Segur-comtesse-de_Pauvre-Blaise,1861,comtesse de segur,pauvre blaise,False,female,1874


### Exercices !

x/ Afficher le dataframe du roman 'pauvre blaise'

x/ Afficher le dataframe de l'auteur 'romain gary'

x/ Afficher le dataframe des auteurs morts avant 1865

x/ Afficher le dataframe des autrices femmes qui sont canoniques 

x/ Afficher le dataframe des autrices femmes qui sont canoniques avant 1878