# 4. Données manquantes, tris et doublons

## Données manquantes
```python
# Supprime les lignes avec des données manquantes dans la colonne indiquée
df.dropna(subset=['nom_colonne'])

# Sélectionne les lignes où il manque des données dans la colonne
df.loc[pd.isnull(df['nom_colonne'])]

# Remplit une colonne avec la valeur indiquée
df['nom_colonne'].fillna('')

```

## Tri
```python
# Trie un dataframe en fonction des valeurs de la colonne
df = df.sort_values(by='nom_colonne')

# Orde inverse
df = df.sort_values(by='nom_colonne', ascending=False)

# Sur plusieurs colonnes
df = df.sort_values(by=['nom_colonne_A', 'nom_colonne_B'], ascending=False)

# Trier selon l'index => réorganise le dataframe
df = df.sort_index()

# Trier l'index en sens inverse
df = df.sort_index(ascending=False)
```

## Gestion des doublons
```python
# Supprime les lignes où il y a une valeur doublon dans la colonne indiquée
# et garde la dernière occurrence
df.drop_duplicates(subset='nom_colonne', keep='last')

# Pareil en conservant la première
df.drop_duplicates(subset='nom_colonne', keep='first')

# Ne conserver que les doublons
df.loc[df.duplicated(subset='nom_colonne', keep=False)
```

In [51]:
# Importer les bibliothèques essentielles
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Afficher toutes les colonnes
pd.set_option('display.max_columns', None)

In [52]:
# Chargement des données
df = pd.read_csv('Data/items.csv', dtype=str)

In [53]:
df = df[['Barcode', 'MMS ID', 'Holdings ID', 'Permanent Location', 'Call Number',
       'Material Type', 'Item Policy', 'Description', 'Title']]

In [54]:
# Affichage des dix premières lignes
df.head(10)

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Description,Title
0,HPH000001003,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",,Micro stéréo mini-jack : Rode : VideoMicro
1,HPH000001004,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",,Micro stéréo mini-jack : Rode : VideoMicro
2,HPH000001005,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",,Micro stéréo mini-jack : Rode : VideoMicro
3,03138226,991000065799705520,22106499280005520,BE HEP Séries de livres,HEPBE 6 VEND,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,La disparition de Sam Edward van de Vendel ; t...
4,03138420,991001610643905520,22106459710005520,BE HEP Littérature jeunesse,HEPBE COLO,Book,01 Loan 28 days,,Les pêcheurs d'éternité Marie Colot ; illustra...
5,03140943,991001604441405520,22106459620005520,BE HEP Jeux,HEPBE MATH TURI,Game,"04 Loan 28 days, no copy",,Turing tumble construis un ordinateur à billes...
6,03140944,991001604441405520,22106459620005520,BE HEP Jeux,HEPBE MATH TURI,Game,"04 Loan 28 days, no copy",,Turing tumble construis un ordinateur à billes...
7,03137107,991001610343705520,22106419560005520,BE HEP Fonds documentaire,HEPBE 745.5HAYE,Book,01 Loan 28 days,,40 créations avec la nature Fiona Hayes
8,03138415,991001609741405520,22106353530005520,BE HEP Littérature jeunesse,HEPBE BD MAUR,Book,01 Loan 28 days,Vol. 1,Eden scénario : Fabrice Colin ; dessin et coul...
9,03138416,991001609741405520,22106353530005520,BE HEP Littérature jeunesse,HEPBE BD MAUR,Book,01 Loan 28 days,Vol. 2,Eden scénario : Fabrice Colin ; dessin et coul...


In [55]:
# Filtrer par l'emplacement des séries
dg = df.loc[df['Permanent Location']=='BE HEP Séries de livres'].copy()
dg.info()

# => Il y a des description partout sauf pour une ligne

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1057 entries, 3 to 34675
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Barcode             1057 non-null   object
 1   MMS ID              1057 non-null   object
 2   Holdings ID         1057 non-null   object
 3   Permanent Location  1057 non-null   object
 4   Call Number         1057 non-null   object
 5   Material Type       1057 non-null   object
 6   Item Policy         1057 non-null   object
 7   Description         1056 non-null   object
 8   Title               1057 non-null   object
dtypes: object(9)
memory usage: 82.6+ KB


## Manipuler les données manquantes

In [56]:
# Supprimer les lignes avec une donnée manquante en fonction d'une colonne
dh = dg.dropna(subset=['Description'])
print(len(dh))
dh.head()

1056


Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Description,Title
3,3138226,991000065799705520,22106499280005520,BE HEP Séries de livres,HEPBE 6 VEND,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,La disparition de Sam Edward van de Vendel ; t...
13,3138221,991000457309705520,22106164210005520,BE HEP Séries de livres,HEPBE 8 FARR,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,L'aventure de Castle Rock Natasha Farrant ; tr...
14,3138222,991000342239705520,22106074260005520,BE HEP Séries de livres,HEPBE 8 GRAN,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,Famille à louer Vicki Grant ; traduit de l'ang...
15,3138224,991000495599705520,22106192790005520,BE HEP Séries de livres,HEPBE 6 GUTM,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,Les inséparables Colas Gutman
16,3138225,991000080099705520,22106212180005520,BE HEP Séries de livres,HEPBE 10 MOUC,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,Alex fils d'esclave Christel Mouchard


In [57]:
# Pas de suppression si on utilise "MMS Id" comme référence
len(dg.dropna(subset=['MMS ID']))

1057

In [58]:
# Sélectionner les colonnes avec données manquantes
dg.loc[pd.isnull(dg['Description'])]

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Description,Title
24945,3121079,991001056069705520,2234191140005520,BE HEP Séries de livres,HEPBE 10 NAHM,Book,"54 Booking 56 days / No loan request, loan 28 ...",,La fontaine aux vestales Jean-François Nahmias


In [59]:
# Remplacer les données manquantes
dg['Description'] = dg['Description'].fillna('')
dg.loc[pd.isnull(dg['Description'])]

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Description,Title


In [60]:
dg.loc[dg['Barcode']=='03121079']

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Description,Title
24945,3121079,991001056069705520,2234191140005520,BE HEP Séries de livres,HEPBE 10 NAHM,Book,"54 Booking 56 days / No loan request, loan 28 ...",,La fontaine aux vestales Jean-François Nahmias


## Supprimer les doublons
Comment par exemple créer une liste de titre sur la base de la liste d'exemplaires tout conservant la première date de création.

In [61]:
# Chargement des données
df = pd.read_csv('Data/items.csv', dtype=str)
df = df[['Barcode', 'MMS ID', 'Holdings ID', 'Permanent Location', 'Call Number',
       'Material Type', 'Item Policy', 'Creation Date', 'Title']]
df.head()

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Creation Date,Title
0,HPH000001003,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",2022-02-09 10:43:49,Micro stéréo mini-jack : Rode : VideoMicro
1,HPH000001004,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",2022-02-09 10:55:57,Micro stéréo mini-jack : Rode : VideoMicro
2,HPH000001005,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",2022-02-09 10:57:39,Micro stéréo mini-jack : Rode : VideoMicro
3,03138226,991000065799705520,22106499280005520,BE HEP Séries de livres,HEPBE 6 VEND,Book,"54 Booking 56 days / No loan request, loan 28 ...",2022-02-11 10:52:02,La disparition de Sam Edward van de Vendel ; t...
4,03138420,991001610643905520,22106459710005520,BE HEP Littérature jeunesse,HEPBE COLO,Book,01 Loan 28 days,2022-02-08 11:53:57,Les pêcheurs d'éternité Marie Colot ; illustra...


In [62]:
print('Nombre de codes-barres uniques: ', df['Barcode'].nunique())
print('Nombre de notices bibliographiques uniques: ', df['MMS ID'].nunique())

Nombre de codes-barres uniques:  34686
Nombre de notices bibliographiques uniques:  27862


In [63]:
# Tri des lignes en fonction de la date de création, puis alphabétique en fonction du titre
# df.sort_values(by=['Creation Date', 'Title'], ascending=False)
# le paramètre ascending=false permet de classer du plus grand au plus petit

df = df.sort_values(by=['Creation Date', 'Title'])
df

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Creation Date,Title
17369,03135036,991001031199705520,2235395250005520,BE HEP Immersion langues étrangères,HEPBE ESP PRIE,Book,01 Loan 28 days,2020-11-18 01:00:00,! Colegas ! Raquel Garcia Prieto ; ill. de Giu...
26966,03112130,991000878259705520,2233903840005520,BE HEP Fonds documentaire,HEPBE 796FAIT,Book,01 Loan 28 days,2020-11-18 01:00:00,""" Faites vos jeux ! "" recueil de cahiers prati..."
16635,RERO-12601174,991000004189705520,2235492360005520,BE JU NE HEP Articles,-,Book,"70 Use on request, contact the library",2020-11-18 01:00:00,"""A vos marques!"" Laurent Vité (éd.)"
34005,03111524,991000826329705520,2232820390005520,BE HEP Fonds documentaire,HEPBE 300:016AILL,Book,01 Loan 28 days,2020-11-18 01:00:00,"""Ailleurs... c'est comment?"" d'autres mondes e..."
14664,03100904,991000324169705520,2235808990005520,BE HEP Fonds documentaire,HEPBE 141.32SORB,Book,01 Loan 28 days,2020-11-18 01:00:00,"""Allô ? Je vous passe Jean-Paul Sartre..."" Ger..."
...,...,...,...,...,...,...,...,...,...
6,03140944,991001604441405520,22106459620005520,BE HEP Jeux,HEPBE MATH TURI,Game,"04 Loan 28 days, no copy",2022-02-08 16:06:05,Turing tumble construis un ordinateur à billes...
0,HPH000001003,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",2022-02-09 10:43:49,Micro stéréo mini-jack : Rode : VideoMicro
1,HPH000001004,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",2022-02-09 10:55:57,Micro stéréo mini-jack : Rode : VideoMicro
2,HPH000001005,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",2022-02-09 10:57:39,Micro stéréo mini-jack : Rode : VideoMicro


In [64]:
df.loc[df['MMS ID']=='991000009779705520']

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Creation Date,Title
9621,03140010,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9622,03132459,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9623,03127791,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9624,03127793,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9625,03127833,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9626,03133264,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9627,03130858,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9628,03131932,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9629,03137771,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...
9630,03130623,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...


In [65]:
# Suppression des doublons
df_title = df.drop_duplicates(subset='MMS ID', keep='first')
df_title.loc[df_title['MMS ID']=='991000009779705520']

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Creation Date,Title
9621,3140010,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,01 Loan 28 days,2020-11-18 01:00:00,Recherche et formation Institut national de re...


In [66]:
# Suppression des doublons (on garde la date la plus récente)
df_title = df.drop_duplicates(subset='MMS ID', keep='last')
df_title.loc[df_title['MMS ID']=='991000009779705520']

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Creation Date,Title
811,HPH-S-16855,991000009779705520,2236563190005520,BE HEP Périodiques,HEPBE RECHERCHE ET FORMATION,Issue,,2021-04-26 14:31:02,Recherche et formation Institut national de re...


## Méthode pour trouver un exemple avec plusieurs dates de création
Ce point est abordé plus loin dans le cours

In [67]:
dh = df.loc[df.duplicated(subset='MMS ID', keep=False), ['MMS ID', 'Creation Date']].groupby(['MMS ID']).nunique()

In [68]:
dh.loc[dh['Creation Date']>1]

Unnamed: 0_level_0,Creation Date
MMS ID,Unnamed: 1_level_1
991000009779705520,3
991000019659705520,3
991000020149705520,6
991000026509705520,5
991000026859705520,7
...,...
991001597232105520,2
991001597436305520,2
991001597436405520,2
991001604441405520,2
