# Etape 1 - Preprocessing du dataset

In [1]:
# Import librairies
import os
import re
import sys


import csv
import pandas as pd
import numpy as np
import warnings

In [2]:
# Set paths
path = "."
os.chdir(path)
data_path = path + "\\data"
output_path = path + "\\outputs"
fig_path = path + "\\figures"

In [3]:
# Suppression des FutureWarnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=DeprecationWarning)

In [4]:
# Import des données
with open(os.path.join(data_path, 'export.dsv'), 'r', newline='', encoding="latin") as csv_file:
    csv_reader = csv.reader(csv_file, delimiter='\t',)
    data=list(csv_reader)

In [5]:
# Verification du format des données
df = pd.DataFrame(data[1:], columns=data[0]+["A", "B"])
print(f"le Fichier de données contient {df.shape[0]} lignes et  {df.shape[1]} colonnes")

le Fichier de données contient 89434 lignes et  7 colonnes


In [6]:
# Visualisation
df.head()

Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY,A,B
0,000002364,La culture pour vivre,Mort de la culture populaire en France. Mutati...,Culture populaire;Diffusion de la culture;Poli...,840.0,,
1,000014877,"La nuit, le jour : essai psychanalytique sur l...","Discontinuité, latence, rétablissement dune c...",Complexe de castration;Psychanalyse;Rêves,154.63,,
2,000021857,"Ruptures, cultures","Il faut imaginer Robinson sur son île, au mome...",Culture,840.0,,
3,00002564X,La révolution structurale,"Mutations ou crises, les brusques accès de fiè...",Structuralisme,100.0,,
4,000026352,La Destruction du temple,"Oswald tire sur Kennedy. Jusque-là, c'est bon,...",Science-fiction américaine -- Traductions fran...,830.0,,


In [7]:
# Recherche des lignes mal formattées
data_to_check = df[(~df["A"].isna()) | (~df["B"].isna())]
print("Nombre d'ouvrages avec soucis d'importation :", data_to_check.shape)
data_to_check

Nombre d'ouvrages avec soucis d'importation : (18, 7)


Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY,A,B
12634,130654965,L'individu contre l'État,"La 4e de couverture indique :""","a Herbert Spencer (1820-1903), philosophe, éco...",Libéralisme;Libéralisme,320.510 941,
14569,145536599,Thèbes aux 101 portes : mélanges à la mémoire ...,La nécropole thébaine attire archéologues et a...,architecture des chapelles funéraires et de le...,"arrêt sur images"", abordant par ailleurs la co...",Religion égyptienne;Religions;Égyptien ancien ...,932-933
20334,168619016,Le Paris des années 1920 : avec Kiki de Montpa...,"Paris, 1918-1928, ce sont les années folles. I...",avant- garde. Dadaïstes et surréalistes s'y di...,Artistes;Artistes et modèles;Vie intellectuell...,700,
20654,169298116,La salope éthique : guide pratique pour des r...,,"a En 1997, un objet littéraire non identifié e...",Amour libre;Liberté sexuelle;Relations amoureuses,306.7,
32591,193458209,Principes de marketing,"La quatrième de couv. indique : ""Écrit par les...",version française : des modules d'apprentissa...,Marketing,658.8,
32974,193928604,Japanese,Guide de conversation Japonais pour anglophones,tous niveaux Quelques jours à Tokyo ou sur un...,Japonais (langue) -- Vocabulaires et manuels d...,495.683 441,
32975,193928612,German,Guide de conversation allemand pour anglophones,tous niveaux. Berlin Munich ou peut-être Vien...,Allemand (langue) -- Vocabulaires et manuels d...,438.34,
33309,194347818,Macroéconomie,"La 4e de couverture indique : ""Véritable livre...","version française, lui aussi augmenté, vous a...",Macroéconomie -- Manuels d'enseignement supéri...,339,
50885,231039786,Petites conversations sur les violences : paro...,,"a En 2018, en France, les violences répétées s...",Femmes victimes de violence -- Psychologie;Vio...,362.829 2,
58788,23698134X,"Haute agora : [exposition, Paris, Pavillon de ...","Haute Agora, étude menée par larchitecte Jean...",Ce travail se présente comme une réponse aux t...,Christianisme et franc-maçonnerie,366.1,


In [8]:
# Export des données à vérifier
data_to_check.to_csv(os.path.join(output_path, "data_to_check.csv"), index=0, encoding="latin-1")

In [9]:
# On ne garde que les données correctement importées
df = df.drop(index = data_to_check.index)
df

Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY,A,B
0,000002364,La culture pour vivre,Mort de la culture populaire en France. Mutati...,Culture populaire;Diffusion de la culture;Poli...,840,,
1,000014877,"La nuit, le jour : essai psychanalytique sur l...","Discontinuité, latence, rétablissement dune c...",Complexe de castration;Psychanalyse;Rêves,154.63,,
2,000021857,"Ruptures, cultures","Il faut imaginer Robinson sur son île, au mome...",Culture,840,,
3,00002564X,La révolution structurale,"Mutations ou crises, les brusques accès de fiè...",Structuralisme,100,,
4,000026352,La Destruction du temple,"Oswald tire sur Kennedy. Jusque-là, c'est bon,...",Science-fiction américaine -- Traductions fran...,830,,
...,...,...,...,...,...,...,...
89429,268339252,Le sentiment d'humanité : manifeste pour une f...,"« Mon enfant, ma fille, qu'est-ce qu'e^tre hum...",Humanité;Réalisation de soi,128,,
89430,268363072,La saga des trois petits pois,"Trois pois, Réal, Jean-Jacques et Donald, ont ...",Aliments -- Ouvrages pour la jeunesse;Pois (lé...,843/.914 D814s,,
89431,268365113,Droit de la représentation du personnel,"Présentation de l'éditeur : ""Le droit de la re...",Représentation du personnel,344.018,,
89432,268365334,Droit pénal social : droit pénal du travail et...,"Depuis deux siècles, la conjugaison de l'essor...",Droit pénal;Sécurité sociale -- Droit -- Dispo...,345.44,,


In [10]:
# Verification que les colonnes A et B sont vides
print("Colonne A: ", all(df["A"].isna()))
print("Colonne B: ", all(df["B"].isna()))

Colonne A:  True
Colonne B:  True


In [11]:
# Suppression des colonnes vides
df.dropna(axis=1, inplace=True)
df.shape

(89416, 5)

In [12]:
# Echantillon de visualisation
df.head()

Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY
0,000002364,La culture pour vivre,Mort de la culture populaire en France. Mutati...,Culture populaire;Diffusion de la culture;Poli...,840.0
1,000014877,"La nuit, le jour : essai psychanalytique sur l...","Discontinuité, latence, rétablissement dune c...",Complexe de castration;Psychanalyse;Rêves,154.63
2,000021857,"Ruptures, cultures","Il faut imaginer Robinson sur son île, au mome...",Culture,840.0
3,00002564X,La révolution structurale,"Mutations ou crises, les brusques accès de fiè...",Structuralisme,100.0
4,000026352,La Destruction du temple,"Oswald tire sur Kennedy. Jusque-là, c'est bon,...",Science-fiction américaine -- Traductions fran...,830.0


In [13]:
# Ajout d'une colonne description (Titre + resumé)
df.loc[:,"DESCR"] = df.loc[:, 'TITRE'] + ' ' + df.loc[:, 'RESUME']

In [14]:
# Get Domain according to Dewey code
ddc = "154.85"
pattern_tenth = re.compile(r'\d{2}0|00[0-9]|944|796')
pattern_unit= re.compile(r'\d{2}[1-9]')

def get_domain_from_ddc(ddc):
    if re.findall(pattern_tenth, ddc):
        tef = str(re.findall(pattern_tenth, ddc)[0])
    elif re.findall(pattern_unit, ddc):
        tef = str(re.findall(pattern_unit, ddc)[0][:-1] + str(0))
    else:
        tef = None
    return tef

In [15]:
# Get Domain according to Dewey code
ddc = "154.85"
pattern_tenth = re.compile(r'\d{2}0|00[0-9]|944|796')
pattern_unit= re.compile(r'\d{2}[1-9]')
re.findall(pattern_unit, ddc)[0][:-1] + str(0)

'150'

In [16]:
df["DDC"] = df["DEWEY"].apply(lambda x: get_domain_from_ddc(x))

In [17]:
# Vérification du format des colonnes
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 89416 entries, 0 to 89433
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   PPN     89416 non-null  object
 1   TITRE   89416 non-null  object
 2   RESUME  89416 non-null  object
 3   RAMEAU  89416 non-null  object
 4   DEWEY   89416 non-null  object
 5   DESCR   89416 non-null  object
 6   DDC     89337 non-null  object
dtypes: object(7)
memory usage: 5.5+ MB


In [18]:
df.head(50)

Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY,DESCR,DDC
0,000002364,La culture pour vivre,Mort de la culture populaire en France. Mutati...,Culture populaire;Diffusion de la culture;Poli...,840,La culture pour vivre Mort de la culture popul...,840
1,000014877,"La nuit, le jour : essai psychanalytique sur l...","Discontinuité, latence, rétablissement dune c...",Complexe de castration;Psychanalyse;Rêves,154.63,"La nuit, le jour : essai psychanalytique sur l...",150
2,000021857,"Ruptures, cultures","Il faut imaginer Robinson sur son île, au mome...",Culture,840,"Ruptures, cultures Il faut imaginer Robinson s...",840
3,00002564X,La révolution structurale,"Mutations ou crises, les brusques accès de fiè...",Structuralisme,100,"La révolution structurale Mutations ou crises,...",100
4,000026352,La Destruction du temple,"Oswald tire sur Kennedy. Jusque-là, c'est bon,...",Science-fiction américaine -- Traductions fran...,830,La Destruction du temple Oswald tire sur Kenne...,830
5,000030619,"Mon père Jové, pèlerin de l'image","Naturalisé français en 1931, ce photographe qu...",Photographie,920,"Mon père Jové, pèlerin de l'image Naturalisé f...",920
6,000037893,La rurbanisation ou la ville éparpillée,Quest-ce que la rurbanisation ? Par ce néolog...,Agglomérations urbaines;Aménagement du territo...,700,La rurbanisation ou la ville éparpillée Quest...,700
7,000039470,Le château des destins croisés,L'auteur construit des récits à partir d'image...,Tarots (cartes à jouer) -- Contes,830,Le château des destins croisés L'auteur constr...,830
8,000039764,Speculum : de l'autre femme,La sexualité féminine est restée le  continen...,Allégorie de la caverne;Différences entre sexe...,100,Speculum : de l'autre femme La sexualité fémin...,100
9,000041416,L'attachement,"En un colloque épistolaire des éthologistes, u...",Attachement;Mères et nourrissons;Personnalité ...,100,L'attachement En un colloque épistolaire des é...,100


In [19]:
# Merge with TEF labels
ddc = pd.read_csv(os.path.join(data_path, "dewey_label.csv"), index_col=0, dtype=str)
ddc.head()

Unnamed: 0,TEF_LABEL,DDC
0,"Informatique, information, généralités",0
1,Informatique,4
2,Bibliothéconomie et sciences de l'information,20
3,Organisations générales et muséologie,60
4,"Médias d'information, journalisme, édition",70


In [25]:
# Merge 
working_df = df.merge(ddc, on="DDC", how='left')
print(working_df.shape)
working_df.head()

(89416, 8)


Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY,DESCR,DDC,TEF_LABEL
0,000002364,La culture pour vivre,Mort de la culture populaire en France. Mutati...,Culture populaire;Diffusion de la culture;Poli...,840.0,La culture pour vivre Mort de la culture popul...,840,Littérature de langues romanes. Littérature fr...
1,000014877,"La nuit, le jour : essai psychanalytique sur l...","Discontinuité, latence, rétablissement dune c...",Complexe de castration;Psychanalyse;Rêves,154.63,"La nuit, le jour : essai psychanalytique sur l...",150,Psychologie
2,000021857,"Ruptures, cultures","Il faut imaginer Robinson sur son île, au mome...",Culture,840.0,"Ruptures, cultures Il faut imaginer Robinson s...",840,Littérature de langues romanes. Littérature fr...
3,00002564X,La révolution structurale,"Mutations ou crises, les brusques accès de fiè...",Structuralisme,100.0,"La révolution structurale Mutations ou crises,...",100,"Philosophie, psychologie"
4,000026352,La Destruction du temple,"Oswald tire sur Kennedy. Jusque-là, c'est bon,...",Science-fiction américaine -- Traductions fran...,830.0,La Destruction du temple Oswald tire sur Kenne...,830,Littérature allemande


In [26]:
working_df.to_csv(os.path.join(data_path, 'working_data.csv'))