# Introduction
Le but de ce notebook est de relever les anomalies présentes sur les notices d'exemplaire afin de pouvoir exporter des listes à destination des aquéreurs. Le script se compose des parties suivantes :
1. La visualisation de la table des notices d'exemplaire
2. Une suite de requêtes sur concernant les différentes colonnes de notre dataframe nommé `items`

# 1.Visualisation de la table des notices d'exemplaire

In [1]:
import pandas as pd
from datetime import datetime

from kiblib.utils.db import DbConn

In [2]:
db_conn = DbConn().create_engine()

On définit la variable `query` comme une requête SQL dans laquelle aux champs de la table `items` on a ajouté le champs `itemtype` de la table `biblioitems`:

In [3]:
query = """SELECT i.itemnumber, i.biblionumber, i.biblioitemnumber, i.barcode, i.dateaccessioned, i.booksellerid, i.homebranch, i.price, i.replacementprice, i.replacementpricedate, i.datelastborrowed, i.datelastseen, i.stack, i.notforloan, i.damaged, i.damaged_on, i.itemlost, i.itemlost_on, i.withdrawn, i.withdrawn_on, i.itemcallnumber, i.coded_location_qualifier, i.issues, i.renewals, i.reserves, i.restricted, i.itemnotes, i.itemnotes_nonpublic, i.holdingbranch,i.timestamp, i.location, i.permanent_location, i.onloan, i.cn_source, i.cn_sort, i.ccode, i.materials, i.uri, i.itype, i.more_subfields_xml, i.enumchron, i.copynumber, i.stocknumber, i.new_status, i.exclude_from_local_holds_priority, bi.itemtype
FROM koha_prod.items i
JOIN koha_prod.biblioitems bi ON bi.biblionumber = i.biblionumber """

> Par convention, la requête SQL est enfermée entre `"""..."""`

On définit ensuite la variable `items` qui se construit à partir de la fonction `pd.read_sql()` et de la variable `query` puis l'on affiche la variable `items`:

In [4]:
items = pd.read_sql(query, db_conn)
items

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
0,1,1,1,C0001353993,2005-03-22,,MED,8.99,8.99,,...,,,PRETLIV,,,,,,,LI
1,3,1,1,C0000653853,2005-03-22,,MED,8.99,8.99,,...,,,PRETLIV,,,,,,,LI
2,4,1,1,C0003476991,2005-03-22,,MED,1.00,1.00,,...,,,PRETLIV,,,,,,,LI
3,5,1,1,C0001499529,2005-03-22,,MED,8.99,8.99,,...,,,PRETLIV,,,,,,,LI
4,8,1,1,C0001353935,2005-03-22,,MED,8.99,8.99,,...,,,PRETLIV,,,,,,,LI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
287582,451858,351251,351251,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI
287583,451859,351252,351252,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI
287584,451860,351253,351253,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI
287585,451861,351254,351254,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI


In [5]:
items['homebranch'].value_counts()

MED    276326
MUS      7294
BUS      3967
Name: homebranch, dtype: int64

# 2. Recherche des anomalies 

Les listes d'anomalies vont être envoyées aux collègues. Dans un souci de lisibilité, on souhaite réduire aux nombre de colonnes essentielles pour les acquéreurs. On va donc dans un premier temps **afficher l'ensemble des colonnes** de notre dataframe :

In [6]:
items.columns

Index(['itemnumber', 'biblionumber', 'biblioitemnumber', 'barcode',
       'dateaccessioned', 'booksellerid', 'homebranch', 'price',
       'replacementprice', 'replacementpricedate', 'datelastborrowed',
       'datelastseen', 'stack', 'notforloan', 'damaged', 'damaged_on',
       'itemlost', 'itemlost_on', 'withdrawn', 'withdrawn_on',
       'itemcallnumber', 'coded_location_qualifier', 'issues', 'renewals',
       'reserves', 'restricted', 'itemnotes', 'itemnotes_nonpublic',
       'holdingbranch', 'timestamp', 'location', 'permanent_location',
       'onloan', 'cn_source', 'cn_sort', 'ccode', 'materials', 'uri', 'itype',
       'more_subfields_xml', 'enumchron', 'copynumber', 'stocknumber',
       'new_status', 'exclude_from_local_holds_priority', 'itemtype'],
      dtype='object')

On va ensuite définir la variable `colonnes_a_exporter` contenant la liste des colonnes que l'on souhaite sélectionner pour la génération des listes : 

In [56]:
colonnes_a_exporter = ['barcode',
       'dateaccessioned', 'homebranch', 'price',
       'replacementprice', 'datelastborrowed',
       'datelastseen', 'notforloan', 'damaged', 'damaged_on',
       'itemlost', 'itemlost_on', 'withdrawn', 'withdrawn_on',
       'itemcallnumber','holdingbranch', 'timestamp', 'location',
       'onloan', 'ccode','itemnotes','itemnotes_nonpublic','itemtype']

## Anomalie sur le type de document (niveau notice) `itemtype`
On souhaite ici générer une liste des document dont le `itemtype`n'est pas renseigné :

In [8]:
anomalie_type_document = items[items['itemtype'].isna()]

In [9]:
anomalie_type_document[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_typedoc1.xlsx',index=False)

In [10]:
query = """SELECT authorised_value,lib 
FROM koha_prod.authorised_values av 
WHERE category = 'collection'"""
ccode = pd.read_sql(query,db_conn)
ccode

Unnamed: 0,authorised_value,lib
0,AAPATAP,AAP - Arts plastiques
1,AAPATLC,AAP - Loisirs créatifs
2,AAPBDCM,AAP - Bande dessinée : Comics
3,AAPBDDC,AAP - Bande dessinée : documentaires
4,AAPBDER,AAP - Bande dessinée érotique
...,...,...
149,PPIPIZZ,PPI - Patrimoine iconographique
150,PRRFIZZ,PRR - Films autour de Roubaix et sa région
151,PRRMEZZ,PRR - FLRS de prêt
152,PRRRGZZ,PRR - Région


In [11]:
query = """SELECT authorised_value,lib
FROM koha_prod.authorised_values av 
WHERE category = 'typedoc'"""
itemtype = pd.read_sql(query,db_conn)
itemtype

Unnamed: 0,authorised_value,lib
0,AP,Périodique - article
1,CA,Carte routière
2,CR,CD-ROM
3,DC,Disque compact
4,DG,Disque gomme-laque
5,DV,Disque microsillon
6,IC,Document iconographique
7,JE,Jeu
8,K7,Cassette audio
9,LG,Livre en gros caractères


In [12]:
itemtype_ccode = items.groupby(['itemtype','ccode']).size().to_frame().reset_index()
itemtype_ccode

Unnamed: 0,itemtype,ccode,0
0,AP,PPEFGZZ,3
1,CA,AAPPLGO,109
2,CA,PRRRGZZ,16
3,CR,ACFLAFF,1
4,CR,ACFREZZ,1
...,...,...,...
406,VD,PRRFIZZ,245
407,VD,PRRMEZZ,5
408,VD,PRRRGZZ,7
409,VI,PPAFIZZ,880


In [13]:
itemtype_ccode = pd.merge(itemtype_ccode, ccode, how='left', left_on='ccode', right_on='authorised_value')
itemtype_ccode

Unnamed: 0,itemtype,ccode,0,authorised_value,lib
0,AP,PPEFGZZ,3,PPEFGZZ,PPE - Patrimoine écrit - fonds général
1,CA,AAPPLGO,109,AAPPLGO,AAP - PL - Géographie
2,CA,PRRRGZZ,16,PRRRGZZ,PRR - Région
3,CR,ACFLAFF,1,ACFLAFF,ACF - Français et FLE
4,CR,ACFREZZ,1,ACFREZZ,ACF - Religions
...,...,...,...,...,...
406,VD,PRRFIZZ,245,PRRFIZZ,PRR - Films autour de Roubaix et sa région
407,VD,PRRMEZZ,5,PRRMEZZ,PRR - FLRS de prêt
408,VD,PRRRGZZ,7,PRRRGZZ,PRR - Région
409,VI,PPAFIZZ,880,PPAFIZZ,PPA - Fonds local image


In [14]:
itemtype_ccode = itemtype_ccode.rename(columns={'lib':'collection'})
itemtype_ccode = itemtype_ccode.drop(columns=['authorised_value','ccode'])
itemtype_ccode

Unnamed: 0,itemtype,0,collection
0,AP,3,PPE - Patrimoine écrit - fonds général
1,CA,109,AAP - PL - Géographie
2,CA,16,PRR - Région
3,CR,1,ACF - Français et FLE
4,CR,1,ACF - Religions
...,...,...,...
406,VD,245,PRR - Films autour de Roubaix et sa région
407,VD,5,PRR - FLRS de prêt
408,VD,7,PRR - Région
409,VI,880,PPA - Fonds local image


In [15]:
itemtype_ccode = pd.merge(itemtype_ccode, itemtype, how='left', left_on='itemtype', right_on='authorised_value')

In [16]:
itemtype_ccode = itemtype_ccode.rename(columns={'lib':'support'})
itemtype_ccode = itemtype_ccode.drop(columns=['authorised_value','itemtype'])

In [17]:
itemtype_ccode

Unnamed: 0,0,collection,support
0,3,PPE - Patrimoine écrit - fonds général,Périodique - article
1,109,AAP - PL - Géographie,Carte routière
2,16,PRR - Région,Carte routière
3,1,ACF - Français et FLE,CD-ROM
4,1,ACF - Religions,CD-ROM
...,...,...,...
406,245,PRR - Films autour de Roubaix et sa région,DVD
407,5,PRR - FLRS de prêt,DVD
408,7,PRR - Région,DVD
409,880,PPA - Fonds local image,"VHS, UMATIC ou film"


In [18]:
itemtype_ccode.to_excel('liste_anomalies_exemplaires_itemtypeccode.xlsx')

## Anomalies sur les codes-barre

On définit ici la variable `barcode` comme liste des notices pour laquelle il n'y a pas de code-barres grâce à la fonction `.isna()`:

In [19]:
barcode_ko = items[items['barcode'].isna()]

Une notice d'exemplaire peut ne pas posséder de code-barres pour diverses raisons. Il nous faut checker leur statut de prêt. Afin d'avoir une vue d'ensemble on va compter le nombre notices d'exemplaires par statut de prêt (notforloan) :

In [20]:
barcode_ko['notforloan'].value_counts()

-1    318
-2     23
 0     14
-4      3
-3      2
Name: notforloan, dtype: int64

Pour comprendre à quoi correspondent les valeurs ci-dessus, il faut se référer à la liste des valeurs autorisées :

| Valeurs Autorisées| État 
|-------------------|------
|-4| En répération
|-3| En retrait
|-2| En traitement
|-1| En commande
|0 | Empruntable
|2 | Réservé à la consultation sur place
|3 | Consultable au musée
|4 | Sorti des collections
|5 | En reliure

Sont définis commes des anomalies de code-barre, les documents dont le statut est :
* empruntable
* en répération
* en retrait

On définit donc la variabe qui suit que l'on exporte ensuite : 

In [21]:
anomalies_barcode_ko = barcode_ko[barcode_ko['notforloan'].isin([0,-4,-3])]
anomalies_barcode_ko

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
55390,432377,84901,84901,,2021-09-18,,MED,,,2021-09-18,...,,,PRETLIV,,,,,,,PA
88236,142053,125932,125932,,2005-03-25,,MED,40.0,40.0,,...,,,PRETLIV,,,,,,,LI
108132,394939,154693,154693,,2019-06-12,,MED,,,2019-06-12,...,,,PRETPER,,,,,,,PE
109226,398519,154781,154781,,2019-09-13,,MED,,,2019-09-13,...,,,PRETPER,,,,,,,PE
122830,437204,170136,170136,,2021-12-21,,MED,,,2021-12-21,...,,,PRETPER,,,,,,,PE
150087,398200,207159,207159,,2019-09-06,,MED,,,2019-09-06,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,DV
153999,393851,212532,212532,,2019-05-23,,MED,,,2019-05-23,...,,,PRETLIV,,,,,,,LI
175988,382325,239036,239036,,2018-10-03,,MED,,,2018-10-03,...,,,PRETLIV,,,,,,,LI
184846,285808,249464,249464,,2012-09-15,,MED,12.0,12.0,,...,,,PRETLIV,,,,,,,LI
188224,444042,253811,253811,,2022-05-17,,MED,,,2022-05-17,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,CA


In [22]:
anomalies_barcode_ko[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_code_barres.xlsx',index=False)

> Il n'existe pas de fonction `.isnotin`
* Si l'on souhaite faire une sélection qui excluent certaines valeurs, la syntaxe est un peu particulière. On garde la fonction `.isin` et on ajoute un `~` devant le nom de la colonne qui nous intéresse. Ce qui donne dans notre exemple : `barcode[~barcode['notforloan'].isin([-1,-2])]` 

# Anomalies sur la localisation des documents
On souhaite générer une liste des notices d'exemplaire dont le site de rattachement (`homebranch`) n'est pas renseigné :

In [23]:
items[items['homebranch'].isna()]

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype


Idem pour la localisation à l'intérieur la médiathèque (`location`) :

In [24]:
location_ko = items[items['location'].isna()]
location_ko

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
15186,338456,22404,22404,C0005930319,2016-03-23,,MED,13.57,13.57,2016-03-23,...,,,PRETLIV,,,,,,,LI
15994,28306,23762,23762,C0000012659,2005-03-23,,MED,10.00,10.00,,...,,,PRETSON,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,K7
43190,76166,67056,67056,C0002142581,2005-03-24,,MED,4.29,4.29,,...,,,PRETLIV,,,,,,,LI
48754,85386,75351,75351,C0005555277,2012-09-26,,BUS,11.50,11.50,,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
55390,432377,84901,84901,,2021-09-18,,MED,,,2021-09-18,...,,,PRETLIV,,,,,,,PA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
286561,449865,350090,350090,C2500029336,2022-10-04,,MED,16.00,16.00,2022-10-04,...,,,PRETLIV,,,,,,,LI
286706,450275,350242,350242,C2300013201,2022-10-07,,MED,22.00,22.00,2022-10-07,...,,,PRETLIV,,,,,,,LI
287062,450234,350547,350547,C3500016800,2022-10-07,,BUS,,,2022-10-07,...,Contient 1 DVD,,PRETDVD,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,VD
287185,450645,350667,350667,C3500016875,2022-10-12,,BUS,,,2022-10-12,...,Contient 1 DVD,,PRETDVD,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,VD


Les documents peuvent ne pas avoir de localisation interne renseignée pour deux raisons : 
* document en commande
* document en traitement

En dehors de ces états de prêt (`notforloan`) les documents dont la localisation n'est pas renseignée est considéré comme une anomalie, définie ici par la variable `anomalies_location_ko` de la manière suivante : 

In [25]:
anomalies_location_ko = location_ko[~location_ko['notforloan'].isin([-2,-1])]
anomalies_location_ko

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
15186,338456,22404,22404,C0005930319,2016-03-23,,MED,13.57,13.57,2016-03-23,...,,,PRETLIV,,,,,,,LI
15994,28306,23762,23762,C0000012659,2005-03-23,,MED,10.00,10.00,,...,,,PRETSON,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,K7
43190,76166,67056,67056,C0002142581,2005-03-24,,MED,4.29,4.29,,...,,,PRETLIV,,,,,,,LI
48754,85386,75351,75351,C0005555277,2012-09-26,,BUS,11.50,11.50,,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
55390,432377,84901,84901,,2021-09-18,,MED,,,2021-09-18,...,,,PRETLIV,,,,,,,PA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
286561,449865,350090,350090,C2500029336,2022-10-04,,MED,16.00,16.00,2022-10-04,...,,,PRETLIV,,,,,,,LI
286706,450275,350242,350242,C2300013201,2022-10-07,,MED,22.00,22.00,2022-10-07,...,,,PRETLIV,,,,,,,LI
287062,450234,350547,350547,C3500016800,2022-10-07,,BUS,,,2022-10-07,...,Contient 1 DVD,,PRETDVD,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,VD
287185,450645,350667,350667,C3500016875,2022-10-12,,BUS,,,2022-10-12,...,Contient 1 DVD,,PRETDVD,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,VD


* [x] Trier les docs par statut comme pour les codes-barre

In [26]:
anomalies_location_ko[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_location_ko.xlsx',index=False)

### Les localisations incohérentes
On souhaite ensuite générer une liste des notices d'exemplaire dont le site de rattachement et le site de retrait des réservations est incohérent :
* Pour le bus
* Pour la médiathèque

In [27]:
anomalies_loc_incoherente_bus = items[(items["homebranch"] == "BUS") & (items["location"] != "BUS1A")]
anomalies_loc_incoherente_bus

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
48754,85386,75351,75351,C0005555277,2012-09-26,,BUS,11.50,11.50,,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
70366,439857,103787,103787,,2022-02-18,,BUS,4.80,4.80,2022-02-18,...,,,PRETLIV,,,,,,,LI
91074,146890,130001,130001,C0003712402,2005-03-25,,BUS,11.25,11.25,,...,,,PRETLIV,,,,,,,LI
114841,450736,160319,160319,C3500016859,2022-10-13,,BUS,,11.50,2022-10-13,...,,,PRETLIV,,,,,,,LI
125792,423765,174196,174196,C3500013073,2021-03-12,,BUS,36.00,,2021-03-12,...,Contient 1 DVD,,PRETDVD,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,VD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284935,450751,348396,348396,C3500016807,2022-10-13,,BUS,,9.95,2022-10-13,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
284946,450759,348401,348401,C3500016815,2022-10-13,,BUS,,10.95,2022-10-13,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
286097,450869,349555,349555,C3500016920,2022-10-14,,BUS,,7.95,2022-10-14,...,,,PRETLIV,,,,,,,LI
287062,450234,350547,350547,C3500016800,2022-10-07,,BUS,,,2022-10-07,...,Contient 1 DVD,,PRETDVD,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,VD


In [28]:
anomalies_loc_incoherente_med = items[(items['homebranch'] == 'MED') & (items['location'].str[0:3] != 'MED')&(~items['location'].isna())]
anomalies_loc_incoherente_med

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
103084,166571,146485,146485,C0003737907,2005-03-29,,MED,9.9,9.9,,...,,,PRETLIV,,,,,,,LI
136698,215453,189163,189163,C0005561902,2012-04-11,,MED,8.5,8.5,,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
156269,246318,215277,215277,tempquot001,2009-11-24,,MED,,,2014-06-30,...,,,PRETLIV,,,,,,,LI
158042,249116,217349,217349,C9000086268,2010-02-12,,MED,,,2014-06-30,...,,,PRETLIV,,,,,,,LI
158072,249161,217374,217374,C9000086250,2010-02-13,,MED,,,2014-06-30,...,,,PRETLIV,,,,,,,LI
158734,250093,218140,218140,C9000086195,2010-03-04,,MED,,,2014-06-30,...,,,PRETLIV,,,,,,,LI
159932,251823,219726,219726,C9000051247,2010-04-14,,MED,,,2014-06-30,...,,,PRETLIV,,,,,,,LI
160197,252181,219937,219937,C9000051108,2010-04-22,,MED,,,2014-06-30,...,,,PRETLIV,,,,,,,LI
175563,273508,238609,238609,c0004350198,2012-01-19,,MED,25.0,25.0,2014-06-30,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
212874,329191,280504,280504,C3100000318,2015-10-20,,MED,14.4,19.73,,...,contient 1 DC + 1 livret,,PRETSON,,,,,,,DC


In [29]:
anomalies_loc_incoherente_med[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_loc_incoherente_med.xlsx',index=False)

In [30]:
anomalies_loc_incoherente_bus[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_loc_incoherente_bus.xlsx',index=False)

# Anomalie sur les prix d'acquisition
On souhaite générer une liste des notices pour lesquelles le prix n'est pas renseigné (NaN)

In [31]:
prix_ko = items[items['price'].isna()]
prix_ko

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
55,155,68,68,C0003165265,2005-03-22,,MED,,,,...,,,PRETLIV,,,,,,,LI
71,191,104,104,C0002267705,2005-03-22,,MED,,,,...,,,PRETLIV,,,,,,,LI
72,192,104,104,C0003695812,2005-03-22,,MED,,,,...,,,PRETLIV,,,,,,,LI
123,332,243,243,C0000256457,2005-03-22,,MED,,,,...,,,PRETLIV,,,,,,,LI
140,376,283,283,C0000256520,2005-03-22,,MED,,,,...,,,PRETLIV,,,,,,,LI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
287582,451858,351251,351251,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI
287583,451859,351252,351252,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI
287584,451860,351253,351253,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI
287585,451861,351254,351254,,2022-11-04,,MED,,,2022-11-04,...,,,PRETLIV,,,,,,,LI


Les exemplaires dont le prix n'est pas renseigné ne sont pas tous à considérer commes des anomalies. Pour les documents patrimoniaux, c'est normal. On définit donc une variable `anomalies_prix_ko` qui exclue les documents du patrimoine d'abord :

In [32]:
anomalies_prix_ko = prix_ko[(prix_ko['ccode'].str[0] != 'P')]

In [33]:
anomalies_prix_ko = anomalies_prix_ko[anomalies_prix_ko['itemtype']!='PE'] # On exlue par cette syntaxe les périodiques.

On transforme ensuite le type des valeurs de la colonne date d'acquisition `dateaccessioned` qui sont des chaînes de caractères `string`, en dates : 

In [34]:
anomalies_prix_ko['dateaccessioned'] = pd.to_datetime(anomalies_prix_ko['dateaccessioned'])

Puis l'on filtre à nouveau via la fonction `groupby` et `dt.year` et `.size` pour obtenir une liste des exemplaires considérés comme des anomalies et dont le prix n'est pas renseigné, par an : 

In [35]:
anomalies_prix_ko.groupby(anomalies_prix_ko['dateaccessioned'].dt.year).size()

dateaccessioned
2005    4285
2006       3
2007       2
2008     189
2009     282
2010     604
2011     133
2012       1
2013       1
2014       1
2015       5
2016     192
2017     188
2018     114
2019     315
2020    1297
2021    3020
2022    3070
dtype: int64

* [ ] regarder par localisation (location)

In [38]:
anomalies_prix_ko[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_prix.xlsx',index=False)

# Anomalies sur les documents abîmés
On souhaite dans un premier temps dresser une liste des documents non-abîmées, abîmés et prétendus-rendus
> Les valeurs autorisées sont : 
>* 0 : non-abîmé 
>* 1 : abîmé 
>* 2 : prétendu rendu

In [39]:
items['damaged'].value_counts()

0    284545
1      2983
2        59
Name: damaged, dtype: int64

In [40]:
docs_abimes = items[items['damaged'] == 1]

On va ensuite convertir la colonne `'damaged_on'` qui est en `string` en valeur `date` :

In [41]:
items['damaged_on'] = pd.to_datetime(items['damaged_on'],format='%y%m%d')

On souhaite ensuite générer une liste des exemplaires dont le statut est en abimé depuis plus d'un an à compter d'ajourd'hui. Pour cela on définit d'abord la variable `deadline_1_an` qui contient une fonction qui permet de calculer notre date limite de une année : 

In [42]:
deadline_1_an = pd.to_datetime("today") - pd.Timedelta(365, unit='D')
deadline_1_an

Timestamp('2021-11-05 14:16:20.124370')

On définit la variable `anomalies_abimes`, une liste des `docs_abimes` et dont le statut `damaged_on` remonte à une date supérieure à notre deadline (une année) :

In [43]:
anomalies_abimes = docs_abimes[docs_abimes['damaged_on'] < deadline_1_an]
anomalies_abimes['damaged_on']

1492     2021-01-05 10:57:08
3941     2020-12-22 15:19:05
4526     2021-09-18 15:58:41
7759     2020-08-19 14:09:37
8705     2021-01-20 13:20:52
                 ...        
266776   2021-09-14 09:35:19
267333   2021-06-10 16:17:11
267688   2021-08-14 13:46:28
268925   2021-11-03 12:54:13
273253   2021-10-30 09:38:28
Name: damaged_on, Length: 431, dtype: datetime64[ns]

In [44]:
anomalies_abimes[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_abimes1.xlsx',index=False)

#  Anomalies sur les notes de notices

On souhaite ici générer une liste des notices d'exemplaire qui possèdent une note

In [64]:
anomalies_notes = items[(~items['itemnotes'].isna()) | (~items['itemnotes_nonpublic'].isna())]
anomalies_notes

Unnamed: 0,itemnumber,biblionumber,biblioitemnumber,barcode,dateaccessioned,booksellerid,homebranch,price,replacementprice,replacementpricedate,...,materials,uri,itype,more_subfields_xml,enumchron,copynumber,stocknumber,new_status,exclude_from_local_holds_priority,itemtype
190,505,401,401,C0000407773,2005-03-22,,MED,23.32,23.32,,...,,,PRETSON,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,DC
611,1264,1114,1114,C0001229623,2005-03-22,,MED,18.00,18.00,,...,Contient : 2 CD,,PRETSON,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,DC
1001,2020,1826,1826,C0002641438,2005-03-22,,MED,12.20,12.20,,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
1016,2041,1846,1846,C0001377492,2005-03-22,,MED,19.06,19.06,,...,,,PRETSON,,,,,,,DC
1910,3519,3204,3204,C0001462190,2005-03-22,,MED,8.99,8.99,,...,,,PRETLIV,,,,,,,LI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
286595,449862,350123,350123,C2100009063,2022-10-04,,MED,13.90,,2022-10-04,...,,,PRETLIV,,,,,,,LI
286817,449914,350354,350354,C1400014851,2022-10-05,,MED,8.70,,2022-10-05,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
286882,450078,350419,350419,C1400014633,2022-10-06,,MED,62.00,,2022-10-06,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI
287053,450685,350538,350538,C2500029611,2022-10-13,,MED,12.95,12.95,2022-10-13,...,,,PRETLIV,"<?xml version=""1.0"" encoding=""UTF-8""?>\n<colle...",,,,,,LI


In [59]:
anomalies_notes[colonnes_a_exporter].to_excel('liste_anomalies_exemplaires_notes.xlsx',index=False)

# Chose à faire
- [ ] Code collections
- [x] Item_type
- [x] location
- [x] homebranch + holdingbranch
- [x] price

In [47]:
nom = "lucas"
nom[0:3]

'luc'

In [48]:
location = 'MED1A'
location[0:3] == 'MED'

True