# INTRODUCTION
Le but de ce notebook est de relever les anomalies présentes sur les notices d'exemplaire afin de pouvoir exporter des listes à destination des aquéreurs. Le script se compose des parties suivantes :
1. Import de la table `items`
2.Traduction des colonnes pour les rendre lisibles pour les collègues qui auront le tableau sous les yeux 
3. Import des tables de valeurs autorisées
4. Une suite de requêtes sur concernant les différentes colonnes de notre dataframe nommé `items`

# IMPORT DE LA TABLE `items`

In [1]:
import pandas as pd
from datetime import datetime

from kiblib.utils.db import DbConn

In [2]:
db_conn = DbConn().create_engine()

On définit la variable query comme une requête SQL dans laquelle aux champs de la table items on a ajouté le champs itemtype de la table biblioitems:

In [3]:
query = """SELECT i.itemnumber, i.biblionumber, i.biblioitemnumber, i.barcode, i.dateaccessioned, i.booksellerid, i.homebranch, i.price, i.replacementprice, i.replacementpricedate, i.datelastborrowed, i.datelastseen, i.stack, i.notforloan, i.damaged, i.damaged_on, i.itemlost, i.itemlost_on, i.withdrawn, i.withdrawn_on, i.itemcallnumber, i.coded_location_qualifier, i.issues, i.renewals, i.reserves, i.restricted, i.itemnotes, i.itemnotes_nonpublic, i.holdingbranch,i.timestamp, i.location, i.permanent_location, i.onloan, i.cn_source, i.cn_sort, i.ccode, i.materials, i.uri, i.itype, i.more_subfields_xml, i.enumchron, i.copynumber, i.stocknumber, i.new_status, i.exclude_from_local_holds_priority, bi.itemtype
FROM koha_prod.items i
JOIN koha_prod.biblioitems bi ON bi.biblionumber = i.biblionumber """

In [4]:
items = pd.read_sql(query,db_conn)

# MODIFICATION DU DATAFRAME & AMÉLIORATION DE LA LISIBILITÉ

In [5]:
items.columns # avant la traduction

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'barcode',
       'dateaccessioned', 'booksellerid', 'homebranch', 'price',
       'replacementprice', 'replacementpricedate', 'datelastborrowed',
       'datelastseen', 'stack', 'notforloan', 'damaged', 'damaged_on',
       'itemlost', 'itemlost_on', 'withdrawn', 'withdrawn_on',
       'itemcallnumber', 'coded_location_qualifier', 'issues', 'renewals',
       'reserves', 'restricted', 'itemnotes', 'itemnotes_nonpublic',
       'holdingbranch', 'timestamp', 'location', 'permanent_location',
       'onloan', 'cn_source', 'cn_sort', 'ccode', 'materials', 'uri', 'itype',
       'more_subfields_xml', 'enumchron', 'copynumber', 'stocknumber',
       'new_status', 'exclude_from_local_holds_priority', 'itemtype'],
      dtype='object')

In [6]:
items = items.rename(columns={"barcode":"code-barre",
                              "dateaccessioned":"date d'acquisition",
                              "homebranch":"site propriétaire",
                              "holdingbranch":"site dépositaire",
                              "price":"prix",
                              "replacementprice":"coût de remplacement",
                              "datelastborrowed":"date dernier emprunt",
                              "datelastseen":"vu la dernière fois",
                              "damaged_on":"abimé le",
                              "itemlost_on":"perdu le",
                              "withdrawn_on":"retiré de la circulation le",
                              "itemcallnumber":"cote",
                              "issues":"nombre de prêts",
                              "timestamp":"date dernier changement",
                              "permanent_location":"localisation permanente",
                              "onloan":"retour prévu le",
                              "itemnotes":"notes publiques",
                              "itemsnotes_nonpublic":"notes internes"})

In [7]:
items.columns #après la traduction

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype'],
      dtype='object')

In [83]:
items

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,code-barre,date d'acquisition,booksellerid,site propriétaire,prix,coût de remplacement,replacementpricedate,...,new_status,exclude_from_local_holds_priority,itemtype,statut,abimé,perdu,retiré de la circulation,collection,localisation,type de support
0,1,1,1,C0001353993,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
1,4,1,1,C0003476991,2005-03-22,,MED,1.00,1.00,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
2,5,1,1,C0001499529,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
3,8,1,1,C0001353935,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
4,11,2,2,C0000459615,2005-03-22,,MED,6.86,6.86,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277299,274821,239721,239721,F DESE 25/0479,2011-11-22,,MED,7.00,7.00,2014-06-30,...,,,DG,4 - Réservé à la consultation sur place,Non,Non,Non,PEN - Fonds Desette,Magasin disco 3e étage,Disque gomme-laque
277300,274822,239722,239722,F DESE 25/0480,2011-11-22,,MED,7.00,7.00,2014-06-30,...,,,DG,4 - Réservé à la consultation sur place,Non,Non,Non,PEN - Fonds Desette,Magasin disco 3e étage,Disque gomme-laque
277301,334098,283355,283355,C0005782383,2016-01-06,,MED,,,2016-01-06,...,,,AP,4 - Réservé à la consultation sur place,Non,Non,Non,PPE - Patrimoine écrit - fonds général,Mag Patrimoine RES 8,Périodique - article
277302,334101,283356,283356,C0005776672,2016-01-07,,MED,,,2016-01-07,...,,,AP,4 - Réservé à la consultation sur place,Non,Non,Non,PPE - Patrimoine écrit - fonds général,Mag Patrimoine RES 8,Périodique - article


# Utiliser la jointure de tables pour remplacer les valeurs autorisées

## Notforloan

In [8]:
query2 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'etat'"""

In [9]:
va_notforloan = pd.read_sql(query2, db_conn)

In [10]:
va_notforloan['authorised_value'] = va_notforloan['authorised_value'].astype(int)

In [11]:
items = items.merge(va_notforloan,left_on="notforloan",right_on="authorised_value")
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'authorised_value',
       'lib'],
      dtype='object')

In [12]:
items = items.rename(columns={"authorised_value": "valeurs autorisées", "lib": "statut"})

In [13]:
items = items.drop(columns=['valeurs autorisées'])

In [82]:
items

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,code-barre,date d'acquisition,booksellerid,site propriétaire,prix,coût de remplacement,replacementpricedate,...,new_status,exclude_from_local_holds_priority,itemtype,statut,abimé,perdu,retiré de la circulation,collection,localisation,type de support
0,1,1,1,C0001353993,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
1,4,1,1,C0003476991,2005-03-22,,MED,1.00,1.00,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
2,5,1,1,C0001499529,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
3,8,1,1,C0001353935,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
4,11,2,2,C0000459615,2005-03-22,,MED,6.86,6.86,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277299,274821,239721,239721,F DESE 25/0479,2011-11-22,,MED,7.00,7.00,2014-06-30,...,,,DG,4 - Réservé à la consultation sur place,Non,Non,Non,PEN - Fonds Desette,Magasin disco 3e étage,Disque gomme-laque
277300,274822,239722,239722,F DESE 25/0480,2011-11-22,,MED,7.00,7.00,2014-06-30,...,,,DG,4 - Réservé à la consultation sur place,Non,Non,Non,PEN - Fonds Desette,Magasin disco 3e étage,Disque gomme-laque
277301,334098,283355,283355,C0005782383,2016-01-06,,MED,,,2016-01-06,...,,,AP,4 - Réservé à la consultation sur place,Non,Non,Non,PPE - Patrimoine écrit - fonds général,Mag Patrimoine RES 8,Périodique - article
277302,334101,283356,283356,C0005776672,2016-01-07,,MED,,,2016-01-07,...,,,AP,4 - Réservé à la consultation sur place,Non,Non,Non,PPE - Patrimoine écrit - fonds général,Mag Patrimoine RES 8,Périodique - article


In [15]:
query3 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'damaged'"""

In [16]:
va_damaged = pd.read_sql(query3, db_conn)

In [17]:
va_damaged['authorised_value'] = va_damaged['authorised_value'].astype(int)

In [18]:
items = items.merge(va_damaged,left_on="damaged",right_on="authorised_value")

In [19]:
items = items.rename(columns={"lib": "abimé"})

In [20]:
items = items.drop(columns=["authorised_value"])

In [21]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'statut', 'abimé'],
      dtype='object')

## itemlost

In [22]:
query4 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'lost'"""

In [23]:
va_itemlost = pd.read_sql(query4, db_conn)

In [24]:
va_itemlost['authorised_value'] = va_itemlost['authorised_value'].astype(int)

In [25]:
items = items.merge(va_itemlost,left_on="itemlost",right_on="authorised_value")

In [26]:
items = items.rename(columns={"lib": "perdu"})

In [27]:
items = items.drop(columns=["authorised_value"])

In [28]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'statut', 'abimé',
       'perdu'],
      dtype='object')

## Withdrawn

In [29]:
query5 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'retirecoll'"""

In [30]:
va_withdrawn = pd.read_sql(query5, db_conn)

In [31]:
va_withdrawn['authorised_value'] = va_withdrawn['authorised_value'].astype(int)

In [32]:
items = items.merge(va_withdrawn,left_on="withdrawn",right_on="authorised_value")

In [33]:
items = items.rename(columns={"lib": "retiré de la circulation"})

In [34]:
items = items.drop(columns=["authorised_value"])

In [35]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'statut', 'abimé',
       'perdu', 'retiré de la circulation'],
      dtype='object')

## Ccode

In [36]:
query6 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'collection'"""

In [37]:
va_collection = pd.read_sql(query6, db_conn)

In [38]:
items = items.merge(va_collection,left_on="ccode",right_on="authorised_value")

In [39]:
items = items.rename(columns={"lib": "collection"})

In [40]:
items = items.drop(columns=["authorised_value"])

In [41]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'statut', 'abimé',
       'perdu', 'retiré de la circulation', 'collection'],
      dtype='object')

## location

In [42]:
query7 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'loc'"""

In [43]:
va_location = pd.read_sql(query7, db_conn)

In [44]:
items = items.merge(va_location,left_on="location",right_on="authorised_value")

In [45]:
items = items.rename(columns={"lib": "localisation"})

In [46]:
items = items.drop(columns=["authorised_value"])

In [47]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'statut', 'abimé',
       'perdu', 'retiré de la circulation', 'collection', 'localisation'],
      dtype='object')

# itemtype

In [48]:
query8 = """SELECT av.authorised_value,av.lib 
FROM koha_prod.authorised_values av
WHERE category = 'typedoc'"""

In [49]:
va_itemtype = pd.read_sql(query8, db_conn)

In [50]:
items = items.merge(va_itemtype,left_on="itemtype",right_on="authorised_value")

In [51]:
items = items.rename(columns={"lib": "type de support"})

In [52]:
items = items.drop(columns=["authorised_value"])

In [53]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'code-barre',
       'date d'acquisition', 'booksellerid', 'site propriétaire', 'prix',
       'coût de remplacement', 'replacementpricedate', 'date dernier emprunt',
       'vu la dernière fois', 'stack', 'notforloan', 'damaged', 'abimé le',
       'itemlost', 'perdu le', 'withdrawn', 'retiré de la circulation le',
       'cote', 'coded_location_qualifier', 'nombre de prêts', 'renewals',
       'reserves', 'restricted', 'notes publiques', 'itemnotes_nonpublic',
       'site dépositaire', 'date dernier changement', 'location',
       'localisation permanente', 'retour prévu le', 'cn_source', 'cn_sort',
       'ccode', 'materials', 'uri', 'itype', 'more_subfields_xml', 'enumchron',
       'copynumber', 'stocknumber', 'new_status',
       'exclude_from_local_holds_priority', 'itemtype', 'statut', 'abimé',
       'perdu', 'retiré de la circulation', 'collection', 'localisation',
       'type de support'],
      dtype='object')

* [x] notforloan / statut 
* [x] damaged / abimé
* [x] itemlost / perdu
* [x] withdrawn / retiré de la circulation
* [ ] ccode / code collection
* [ ] location / localisation

# DÉFINITION DE QUELQUES VARIABLES IMPORTANTES

## Les colonnes à exporter

In [54]:
colonnes_a_exporter = ["code-barre",
                       "date d'acquisition",
                       "site propriétaire",
                       "site dépositaire",
                       "prix",
                       "coût de remplacement",
                       "date dernier emprunt",
                       "vu la dernière fois",
                       "statut",
                       "abimé",
                       "abime le",
                       "perdu",
                       "perdu le",
                       "retiré de la circulation",
                       "type de document",
                       "collection",
                       "cote",
                       "nombre de prêts",
                       "date dernier changement",
                       "localisation"
                       "localisation permanente",
                       "retour prévu le"
                       "notes publiques"
                       "notes internes"
                      ]

## Les deadlines

In [55]:
deadline_1_an = pd.to_datetime("today") - pd.Timedelta(365, unit='D')
deadline_1_an

Timestamp('2021-11-17 09:13:56.605983')

# ANALYSE DES ANOMALIES
## Anomalies sur les données manquantes
### `Type de document`

In [81]:
items

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,code-barre,date d'acquisition,booksellerid,site propriétaire,prix,coût de remplacement,replacementpricedate,...,new_status,exclude_from_local_holds_priority,itemtype,statut,abimé,perdu,retiré de la circulation,collection,localisation,type de support
0,1,1,1,C0001353993,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
1,4,1,1,C0003476991,2005-03-22,,MED,1.00,1.00,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
2,5,1,1,C0001499529,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
3,8,1,1,C0001353935,2005-03-22,,MED,8.99,8.99,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
4,11,2,2,C0000459615,2005-03-22,,MED,6.86,6.86,,...,,,LI,3 - Empruntable,Non,Non,Non,JAB - Albums pour enfants,Magasin collectivités,Livre
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277299,274821,239721,239721,F DESE 25/0479,2011-11-22,,MED,7.00,7.00,2014-06-30,...,,,DG,4 - Réservé à la consultation sur place,Non,Non,Non,PEN - Fonds Desette,Magasin disco 3e étage,Disque gomme-laque
277300,274822,239722,239722,F DESE 25/0480,2011-11-22,,MED,7.00,7.00,2014-06-30,...,,,DG,4 - Réservé à la consultation sur place,Non,Non,Non,PEN - Fonds Desette,Magasin disco 3e étage,Disque gomme-laque
277301,334098,283355,283355,C0005782383,2016-01-06,,MED,,,2016-01-06,...,,,AP,4 - Réservé à la consultation sur place,Non,Non,Non,PPE - Patrimoine écrit - fonds général,Mag Patrimoine RES 8,Périodique - article
277302,334101,283356,283356,C0005776672,2016-01-07,,MED,,,2016-01-07,...,,,AP,4 - Réservé à la consultation sur place,Non,Non,Non,PPE - Patrimoine écrit - fonds général,Mag Patrimoine RES 8,Périodique - article
