## Requirements

In [1]:
import pandas as pd
import pickle
import os
import numpy as np
import glob as gb
from sklearn.model_selection import train_test_split

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Décompression de l'archive ZIP

In [3]:
!unzip /content/drive/MyDrive/data.zip -d -y /content

Archive:  /content/drive/MyDrive/data.zip
caution: filename not matched:  /content


## Chargement de la base de données

In [4]:
# Chemin du répertoire contenant les fichiers pickle
directory_path = '/content/drive/MyDrive/20240125_dataset_pickle/'

# Recherche des fichiers pickle dans le répertoire spécifié
pickle_files = gb.glob(directory_path + '*.pickle')

# Sélection du premier fichier trouvé (s'il y en a)
if pickle_files:
    first_pickle_file = pickle_files[0]
    print("Premier fichier pickle trouvé :", first_pickle_file)
else:
    print("Aucun fichier pickle trouvé dans le répertoire spécifié.")

Premier fichier pickle trouvé : /content/drive/MyDrive/20240125_dataset_pickle/20240124_dataset_1895_assr.pickle


In [5]:
# Chemin du répertoire contenant les fichiers pickle
directory_path = '/content/drive/MyDrive/20240125_dataset_pickle'

# Liste pour stocker les données extraites de chaque fichier
data_list = []

# Parcours de tous les fichiers pickle dans le répertoire spécifié
for filename in os.listdir(directory_path):
    if filename.endswith('.pickle'):
        # Lecture du fichier pickle et extraction des colonnes nécessaires
        file_data = pd.read_pickle(os.path.join(directory_path, filename))
        relevant_columns = ["dcterms:identifier{Literal}","dcterms:title{Literal}","dcterms:abstract{Literal}@fr","persee:dateOfPrintPublication{Literal}(xsd:gYear)", "marcrel:aut{URIRef}[0]","marcrel:aut{URIRef}[1]",
          "marcrel:aut{URIRef}[2]","marcrel:aut{URIRef}[3]","marcrel:aut{URIRef}[4]","marcrel:aut{URIRef}[5]","marcrel:aut{URIRef}[6]",
          "marcrel:aut{URIRef}[7]","marcrel:aut{URIRef}[8]","marcrel:aut{URIRef}[9]","cito:isCitedBy{URIRef}[0]","cito:isCitedBy{URIRef}[1]","cito:isCitedBy{URIRef}[2]",
          "cito:isCitedBy{URIRef}[3]","cito:isCitedBy{URIRef}[4]","cito:isCitedBy{URIRef}[5]","cito:isCitedBy{URIRef}[6]","cito:isCitedBy{URIRef}[7]","cito:isCitedBy{URIRef}[8]","cito:isCitedBy{URIRef}[9]"]  # Colonnes à extraire
        file_data = file_data[relevant_columns]
        # Ajout des données extraites à la liste
        data_list.append(file_data)

# Fusion de toutes les données extraites dans un seul DataFrame
data = pd.concat(data_list, ignore_index=True)

# Affichage des premières lignes du DataFrame résultant
print(data.head())

                         dcterms:identifier{Literal}  \
0  https://www.persee.fr/doc/1895_0769-0959_1986_...   
1  https://www.persee.fr/doc/1895_0769-0959_1986_...   
2  https://www.persee.fr/doc/1895_0769-0959_1986_...   
3  https://www.persee.fr/doc/1895_0769-0959_1986_...   
4  https://www.persee.fr/doc/1895_0769-0959_1986_...   

              dcterms:title{Literal} dcterms:abstract{Literal}@fr  \
0              La cinémathèque rose                           NaN   
1                      Vis «Comica»                           NaN   
2                   La bande à Léon                           NaN   
3                  The Perret touch                           NaN   
4  Les débuts du cinéma à Angoulême                           NaN   

  persee:dateOfPrintPublication{Literal}(xsd:gYear)  \
0                                              1986   
1                                              1986   
2                                              1986   
3                           

In [10]:
# Mapping des nouveaux noms de colonnes
new_column_names = {
    "dcterms:identifier{Literal}": "identifiant",
    "dcterms:title{Literal}": "titre",
    "dcterms:abstract{Literal}@fr": "abstract_fr",
    "persee:dateOfPrintPublication{Literal}(xsd:gYear)" : "Date_publication",
    "marcrel:aut{URIRef}[0]": "auteur_0",
    "marcrel:aut{URIRef}[1]": "auteur_1",
    "marcrel:aut{URIRef}[2]": "auteur_2",
    "marcrel:aut{URIRef}[3]": "auteur_3",
    "marcrel:aut{URIRef}[4]": "auteur_4",
    "marcrel:aut{URIRef}[5]": "auteur_5",
    "marcrel:aut{URIRef}[6]": "auteur_6",
    "marcrel:aut{URIRef}[7]": "auteur_7",
    "marcrel:aut{URIRef}[8]": "auteur_8",
    "marcrel:aut{URIRef}[9]": "auteur_9",
    "cito:isCitedBy{URIRef}[0]": "cite_par_0",
    "cito:isCitedBy{URIRef}[1]": "cite_par_1",
    "cito:isCitedBy{URIRef}[2]": "cite_par_2",
    "cito:isCitedBy{URIRef}[3]": "cite_par_3",
    "cito:isCitedBy{URIRef}[4]": "cite_par_4",
    "cito:isCitedBy{URIRef}[5]": "cite_par_5",
    "cito:isCitedBy{URIRef}[6]": "cite_par_6",
    "cito:isCitedBy{URIRef}[7]": "cite_par_7",
    "cito:isCitedBy{URIRef}[8]": "cite_par_8",
    "cito:isCitedBy{URIRef}[9]": "cite_par_9"
}

# Renommer les colonnes
data.rename(columns=new_column_names, inplace=True)

# Afficher les nouvelles colonnes
print(data.head())

                                         identifiant  \
0  https://www.persee.fr/doc/1895_0769-0959_1986_...   
1  https://www.persee.fr/doc/1895_0769-0959_1986_...   
2  https://www.persee.fr/doc/1895_0769-0959_1986_...   
3  https://www.persee.fr/doc/1895_0769-0959_1986_...   
4  https://www.persee.fr/doc/1895_0769-0959_1986_...   

                               titre abstract_fr Date_publication  \
0              La cinémathèque rose          NaN             1986   
1                      Vis «Comica»          NaN             1986   
2                   La bande à Léon          NaN             1986   
3                  The Perret touch          NaN             1986   
4  Les débuts du cinéma à Angoulême          NaN             1986   

                                        auteur_0 auteur_1 auteur_2 auteur_3  \
0                                            NaN      NaN      NaN      NaN   
1                                            NaN      NaN      NaN      NaN   
2          

In [11]:
nombre_documents = len(data)
print("Nombre de documents :", nombre_documents)

Nombre de documents : 908780


## Fractionnement de la base de données

**Cause :** RAM et volume de la base de données incompatibles

In [12]:
# Prendre seulement 30% de la base de données
sampled_data = data.sample(frac=0.3, random_state=42)

# Afficher la taille de l'échantillon
print("Taille de l'échantillon :", len(sampled_data))

Taille de l'échantillon : 272634


In [13]:
# Spécifiez le chemin où vous souhaitez enregistrer le fichier CSV dans votre Google Drive
chemin_dossier_drive = '/content/drive/MyDrive/database'
nom_fichier_csv = 'data_sampled.csv'
chemin_fichier_csv = chemin_dossier_drive + '/' + nom_fichier_csv

# Enregistrez le DataFrame échantillonné dans un fichier CSV
sampled_data.to_csv(chemin_fichier_csv, index=True)

print("Le fichier CSV a été enregistré avec succès dans votre Google Drive.")

Le fichier CSV a été enregistré avec succès dans votre Google Drive.
