In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import yaml

In [2]:
# Charger le fichier CSV
file_path = '../../figures/nyt_data.csv'
data = pd.read_csv(file_path)

In [3]:
print(data.head())

                                                LINK  \
0  https://www.nytimes.com/2024/03/22/business/ar...   
1  https://www.nytimes.com/2024/03/20/world/middl...   
2  https://www.nytimes.com/2024/03/21/science/arc...   
3  https://www.nytimes.com/2024/03/20/world/asia/...   
4  https://www.nytimes.com/2024/03/22/world/austr...   

                                               TITLE  \
0  The A.I. Boom Makes Millions for an Unlikely I...   
1       Israel-Hamas War in Gaza Leaves Power Vacuum   
2  Long Before Amsterdam’s Coffee Shops, There We...   
3            Thursday Briefing: Where is Gaza’s Aid?   
4  What We Gained (and Lost) When Our Daughter Un...   

                                         DESCRIPTION  \
0  The small Caribbean territory brought in $32 m...   
1  Analysts say the Israeli military’s return to ...   
2  A nearly 2,000-year-old stash pouch provides t...   
3  Also, sweeping U.S. climate regulations and th...   
4  My 13-year-old has left her phone behind fo

In [4]:
train_data, temp_data = train_test_split(data, test_size=0.2, random_state=42)
dev_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)

# Sauvegarder les split dans des fichiers CSV en enlevant l'index
train_data.to_csv('../../figures/nyt_train.csv', index=False)
dev_data.to_csv('../../figures/nyt_dev.csv', index=False)
test_data.to_csv('../../figures/nyt_test.csv', index=False)

In [5]:
# On charge nos trois split : train, test et dev
train_data = pd.read_csv("../../figures/nyt_train.csv")
dev_data = pd.read_csv("../../figures/nyt_dev.csv")
test_data = pd.read_csv("../../figures/nyt_test.csv")

In [6]:
# Calculer les statistiques
num_train = len(train_data)
num_dev = len(dev_data)
num_test = len(test_data)
num_total = num_train + num_dev + num_test


In [7]:
# On veut afficher toute les lignes du train : [0:]
examples = [
    {
        "link": train_data["LINK"].tolist(),
        "title": train_data["TITLE"].tolist(),
        "description": train_data["DESCRIPTION"].tolist(),
        "content": train_data["CONTENT"].tolist()
    }
]

In [8]:
# Construire le dictionnaire de métadonnées
dataset_info = {
    "name": "nyt_data.csv",
    "description": (
        "Ce dataset contient des articles du New York Times, collectés via le flux RSS."
        "L'objectif de ce corpus était de collecter un maximum de données textuelles aifn de fournir des données d'entraînement pour un modèle de langage pour générer des résumés de texte."
    ),
    "homepage": "https://rss.nytimes.com/services/xml/rss/nyt/World.xml",
    "tags": ["text-classification", "summarization", "text-generation"],
    "language": "English",
    
    "dataset_info": {

        # Le type de caractère de contient nos 4 colonnes
        "features": [
            {"name": "link", "type": "string"},
            {"name": "title", "type": "string"},
            {"name": "description", "type": "string"},
            {"name": "content", "type": "string"}
        ],

        # Le nombre de ligne que contient chaque split : train, dev et test
        "splits": [
            {"name": "train", "items": num_train},
            {"name": "dev", "items": num_dev},
            {"name": "test", "items": num_test}
        ],

        # Les informations sur les statisques de notre corpus
        "statistics": {
            
            # Le nombre de ligne : 55 articles
            "articles": num_total,

            # Le nombre de colonne
            "feature": 4,

            # La corrélation entre la longueur des textes et des résumés
            "correlation": -0.23521990332014103,
            "p-value": 0.08686425401448802,
            
            "sum" : "Chaque texte contient en moyenne 20,49 mots et 4,69 phrases, ce qui indique une longueur relative dans le contenu. De plus, la taille moyenne des fichiers est de 124,51 octets, qui est une taille assez compacte de chaque fichier." 
            
        },
        "examples": examples
    }
}

In [9]:
# Inspiration : https://stackoverflow.com/questions/1773805/how-can-i-parse-a-yaml-file-in-python

# On enregistre notre fichier 
with open("../../nyt_dataset.yaml", "w") as file:
    yaml.dump(dataset_info, file, default_flow_style=False, allow_unicode=True)


In [10]:
# Avec la librairie yaml on ouvre notre fichier et le parcourt pour voir si la structure est correct ! 

with open("../../nyt_dataset.yaml", "r") as file:
    docs = yaml.safe_load_all(file)

    for doc in docs:
        print(doc)

