## Exercice 4b
## Gérer les données manquantes et filtrer par date
Les données manquantes sont un problème épineux en analyse de données. Pandas offre plusieurs outils pour les gérer. 

### Consigne
Le fichier `Data/title_brief.csv` contient les titres de l'IZ HPH (Sandbox Alma SLSP).

* Déterminer le nombre de notices créées par les HEP BEJUNE en 2021

In [2]:
# Importer les bibliothèques requises
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
# Chargement des données
df = pd.read_csv('Data/titles_brief.csv')

In [4]:
df.columns

Index(['MMS Id', 'Original Cataloging Agency', 'Creation Date (Calendar)',
       'Title'],
      dtype='object')

### Filtrer en fonction de l'année

In [5]:
df['Creation Date (Calendar)']

# => Actuellement sous forme de chaîne de caractère

0          2020-11-19
1          2020-11-19
2          2020-11-19
3          2020-11-19
4          2020-11-19
              ...    
2078152    2022-02-23
2078153    2022-02-22
2078154    2022-02-22
2078155    2022-02-22
2078156    2022-02-24
Name: Creation Date (Calendar), Length: 2078157, dtype: object

In [6]:
# Filtrer par année de création => ne retenir que les notices de 2021
df['Creation Date (Calendar)'] = pd.to_datetime(df['Creation Date (Calendar)'])
df['Creation Date (Calendar)']

0         2020-11-19
1         2020-11-19
2         2020-11-19
3         2020-11-19
4         2020-11-19
             ...    
2078152   2022-02-23
2078153   2022-02-22
2078154   2022-02-22
2078155   2022-02-22
2078156   2022-02-24
Name: Creation Date (Calendar), Length: 2078157, dtype: datetime64[ns]

In [7]:
d_2021 = df.loc[df['Creation Date (Calendar)'].dt.year==2021].copy()
d_2021

Unnamed: 0,MMS Id,Original Cataloging Agency,Creation Date (Calendar),Title
553266,991001397168805520,,2021-01-07,A Vygotskian Developmental Approach to Second ...
553267,991001397168905520,,2021-01-05,Teachers' personal epistemologies : evolving m...
553268,991001397169005520,,2021-01-03,Die Moderation strategischer Initiativen Strat...
553269,991001397169105520,,2021-01-03,Strategie-Workshop : in fünf Schritten zur er...
553270,991001397169205520,,2021-01-01,Bewegungslehre und Biomechanik des Sports
...,...,...,...,...
2077964,991001613119405520,,2021-10-23,ACS bio & med chem au.
2077965,991001613119505520,,2021-04-21,Sportivnaia meditsina: nauka i praktika
2077985,991001613121505520,,2021-03-13,Faṣlnāmah-i dawlatʹpizhūhī
2077986,991001613121605520,,2021-03-13,Andalas journal of international studies


### Filtrer par "agence de catalogage"

In [8]:
# Afficher en tant que liste permet de voir toutes les occurrences
list(d_2021['Original Cataloging Agency'].unique())

[nan,
 'RERO vdches',
 'CH-ZuSLS HPH FR',
 'RERO jubmdj',
 'RNV vdroll',
 'SzBzSBTc BZBC',
 'GWDNB',
 'SzZuIDS LU',
 'CH-ZuSLS HPH IUFFP',
 'SzZuIDS NEBIS SUPSI-DFA',
 '1145',
 'RERO frvhep',
 'ICCU',
 'CH-ZuSLS HPH PHSG',
 'RNV vdbcul',
 'SzZuIDS NEBIS FHNW-PH-S',
 'FGM',
 'MiAaPQ',
 'CaPaEBR',
 'CH-ZuSLS BCUFR',
 'CH ZuSLSP HPH PHSG',
 'Sz',
 'CH-ZuSLSP HPH PHSG',
 'HPH PHSG',
 'RNV vdnyon',
 'RNV vdaigl',
 'RERO vsbcvs',
 'CHVBK',
 'DE-101',
 'SzZuIDS BS/BE B400',
 'SzZuIDS BS/BE B511',
 'SzZuIDS BS/BE A342',
 'DLC',
 'RERO geies-',
 'ZWZ',
 'NLC',
 'SzZuIDS NEBIS ZBZ',
 'RNV vdjoux',
 'ABES',
 'CHZuSLSP HPH PHSG',
 'RERO vsbcvm',
 'RNV vdorbe',
 'FR-751131015',
 'RNV vdpuid',
 'NLE',
 'RNV vdcris',
 'RNV vdaven',
 'RNV vdchsu',
 'RERO geufpe',
 'RERO frbcuc',
 'RERO geucds',
 'RNV lahetsl',
 'RERO neirdp',
 'RERO vsheso',
 'RERO vshevs',
 'RNV vdidmo',
 'RNV vdbstl',
 'RERO laiuhm',
 'SzZuIDS NEBIS',
 'RERO nebpun',
 'RNV vdlufe',
 'RERO vsbcce',
 '1245',
 'DEBBG',
 'SzZuIDS NEBIS 

In [9]:
# On suppose qu'il y a "hep" ou "HEP" dans le champ 040
dg = d_2021.loc[d_2021['Original Cataloging Agency'].str.contains('hep')].copy()

# Erreur à cause des valeurs manquantes => utilisation de fillna

ValueError: Cannot mask with non-boolean array containing NA / NaN values

In [10]:
# On remplace les valeurs manquantes par ""
d_2021['Original Cataloging Agency'] = d_2021['Original Cataloging Agency'].fillna('')

# La sélection va être possible
dg = d_2021.loc[d_2021['Original Cataloging Agency'].str.contains('hep')].copy()

# Autre possibilité sans changer les données:
# dg = d_2021.loc[d_2021['Original Cataloging Agency'].str.contains('hep').fillna(False)].copy()

# Il faut remplir par False dans ce contexe, en effet '.str.contains' retourne True/False/NaN
# => si NaN cela engendre une erreur

# Autre possibilité, supprimer les lignes où il y a des valeurs manquantes dans la colonne 'Original Cataloging Agency'
# dg = d_2021.dropna(subset=['Original Cataloging Agency'])

In [11]:
list(dg['Original Cataloging Agency'].unique())

['RERO frvhep', 'RERO njhep-', 'RNV vdhep-', 'RERO frheps']

In [12]:
# Sélection des notices de la HEP-BEJUNE (on ignore la notice "jnhep-")
d_njhep = d_2021.loc[(d_2021['Original Cataloging Agency'].str.contains('njhep'))].copy()
d_njhep.head()

Unnamed: 0,MMS Id,Original Cataloging Agency,Creation Date (Calendar),Title
561148,991001405669205520,RERO njhep-,2021-02-16,Télescope : Orion : StarSeeker IV GoTo
561291,991001406065105520,RERO njhep-,2021-02-15,Télescope : Orion : StarSeeker IV GoTo TEST FB
561292,991001406065205520,RERO njhep-,2021-02-15,iPad : Apple : iPad test FB
676910,991001445157005520,RERO njhep-,2021-09-13,Prendre en compte la diversité à l'école
678070,991001447856905520,RERO njhep-,2021-10-06,Bioviva junior le jeu naturellement drôle


In [13]:
nb_hep_bejune = len(d_njhep)
nb_not_hep_bejune = len(d_2021) - nb_hep_bejune
print(f'Nombre de notices HEP-BEJUNE: {nb_hep_bejune} / {len(d_2021)}')
print(f'Nombre de notices hors HEP-BEJUNE: {nb_not_hep_bejune} / {len(d_2021)}')

Nombre de notices HEP-BEJUNE: 7 / 143387
Nombre de notices hors HEP-BEJUNE: 143380 / 143387


**Explication du résultat:**
Il y a 7 notices en 2021 qui ont reçu le tag "njhep" dans le champ 040. Il y a eu 143'387 nouvelles notices dans l'IZ HPH. Cela ne signifie pas du tout que la médiathèque HEP-BEJUNE possède des exemplaires associés. On ne peut donc pas déterminer sur ces données une proportion de catalogage natif pour cette bibliothèque par rapport à ses acquisitions.