# NOTEBOOK POUR LE CHARGEMENT DU CORPUS ET SA CONVERSION AU FORMAT DATASET

In [11]:
#Importation des biliothèques nécessaires
import pandas as pd
from datasets import Dataset

In [12]:
#Lecture du fichier parquet avec pandas
data = pd.read_parquet("articles_cleaned.parquet")

#Afficher le dataframe dans le terminal
print(data)

text       Pour réduire le risque d'apparition de maladie...
summary    Exercer une profession stimulante pour le cerv...
Name: 4, dtype: object

In [None]:
#Accès aux attributs de la quatrième ligne
data.loc[4]

In [14]:
#Création du Dataset à partir du DataFrame Pandas
dataset = Dataset.from_pandas(data)

In [15]:
#Informations sur le dataset
dataset

Dataset({
    features: ['text', 'summary'],
    num_rows: 29
})

In [17]:
#Accès aux informations contenues dans le dataset
dataset[0]

{'text': 'Un très gros appareil photo est en route vers la cordillère des Andes. De la taille d\'une petite voiture et d\'un poids de 2,8 tonnes, le dispositif sera installé sur un télescope en construction et permettra de scruter le ciel comme jamais auparavant. Il doit être installé dans les prochains jours à l\'observatoire Vera C. Rubin, du nom de l\'astronome américaine qui a découvert la matière noire, qui est situé à 2 700 m d\'altitude.Le dispositif sera doté d\'un capteur numérique de 3 200 mégapixels, et pour voir une de ses images il faudra plus de 300 téléviseurs haute définition de taille moyenne combinés. Une fois installée sur son socle sous le ciel très pur des Andes chiliennes, cette caméra LSST (Legacy Survey of Space and Time, "L\'héritage de l\'espace et du temps" en français) aura dix ans pour réaliser le film le plus précis de l\'univers à sa portée, qu\'elle fixera nuit après nuit. "L\'objectif est d\'observer l\'univers de son enfance jusqu\'à aujourd\'hui", exp

## Annotation morphosyntaxique avec SpaCy

In [18]:
#Importation de la bibliothèque SpaCy
import spacy

In [22]:
#Chargement du modèle pour le français
nlp = spacy.load("fr_core_news_md")

#Chargement de notre corpus
df = pd.read_parquet("articles_cleaned.parquet")
#print(df)

0     Un très gros appareil photo est en route vers ...
1     D'impressionnantes aurores boréales ont illumi...
2     Selon le FBI, son équivalent britannique, Euro...
3     C’est une expérience unique en France. Devant ...
4     Pour réduire le risque d'apparition de maladie...
5     La nature se donne parfois en spectacle. Un ba...
6     Il faut suivre un inventeur pour percevoir la ...
7     Si vous avez raté le premier acte, rassurez-vo...
8     Le ciel de Vendée teinté de rose et de violet....
9     Un festival dans toute la France et bien au-de...
10    Cinquante nuances de rose dans le ciel nocturn...
11    Les habitants des zones polaires (et même ceux...
12    C'est peut-être bientôt fini, la mini-carte à ...
13    Quelle place pour les écrans dans la société, ...
14    En octobre 1947, le pilote d’essai Chuck Yeage...
15    Un rapport des spécialistes en cybersécurité d...
16    Les poules ont "des rougissements plus ou moin...
17    Sur le papier, c'est l'aliment parfait. Du

In [28]:
annotated_text_corpus = []

for i in df["text"]:
    doc = nlp(i)
    
    annotations = []
    
    for token in doc:
        annotations.append({
            "text": token.text,
            "lemma": token.lemma_, 
            "pos": token.pos_})
        
        annotated_text_corpus.append(annotations)
        print(annotations)

[{'text': 'Le', 'lemma': 'le', 'pos': 'DET'}]
[{'text': 'Le', 'lemma': 'le', 'pos': 'DET'}, {'text': 'concours', 'lemma': 'concours', 'pos': 'NOUN'}]
[{'text': 'Le', 'lemma': 'le', 'pos': 'DET'}, {'text': 'concours', 'lemma': 'concours', 'pos': 'NOUN'}, {'text': 'Lépine', 'lemma': 'Lépine', 'pos': 'PROPN'}]
[{'text': 'Le', 'lemma': 'le', 'pos': 'DET'}, {'text': 'concours', 'lemma': 'concours', 'pos': 'NOUN'}, {'text': 'Lépine', 'lemma': 'Lépine', 'pos': 'PROPN'}, {'text': 'qui', 'lemma': 'qui', 'pos': 'PRON'}]
[{'text': 'Le', 'lemma': 'le', 'pos': 'DET'}, {'text': 'concours', 'lemma': 'concours', 'pos': 'NOUN'}, {'text': 'Lépine', 'lemma': 'Lépine', 'pos': 'PROPN'}, {'text': 'qui', 'lemma': 'qui', 'pos': 'PRON'}, {'text': 'couronne', 'lemma': 'couronne', 'pos': 'VERB'}]
[{'text': 'Le', 'lemma': 'le', 'pos': 'DET'}, {'text': 'concours', 'lemma': 'concours', 'pos': 'NOUN'}, {'text': 'Lépine', 'lemma': 'Lépine', 'pos': 'PROPN'}, {'text': 'qui', 'lemma': 'qui', 'pos': 'PRON'}, {'text': 'co

In [None]:
annotated_summary_corpus = []

for i in df["summary"]:
    doc = nlp(i)

    annotations = []
    
    for token in doc:
        annotations.append({
        "text": token.text,
        "lemma": token.lemma_, 
        "pos": token.pos_})
           
    annotated_summary_corpus.append(annotations)

In [None]:
df["text_annotations"] = annotated_text_corpus
df["summary_annotations"] = annotated_summary_corpus

In [None]:
df.to_parquet("chemin_vers_votre_corpus_annoté.parquet", index=False)