# Downloading the OSCAR Dataset

In this notebook, we download the OSCAR dataset to perform the pretraining of the **CamemBERT** language model.

## Prerequisites
1. Ensure you are logged into **Hugging Face**:
   - Run the following command in your terminal to authenticate:
     ```bash
     huggingface-cli login
     ```
   - This will prompt you to enter your Hugging Face token. You can generate a token from [Hugging Face Settings](https://huggingface.co/settings/tokens).

2. Accept the dataset usage conditions on Hugging Face:
   - Visit the [OSCAR dataset page](https://huggingface.co/datasets/oscar-corpus/OSCAR-2201) and click on **"Request Access"** if needed.

## Steps in this Notebook
- Download the OSCAR dataset in the desired language.
- Preprocess the dataset for training.


> Once you have completed the prerequisites, you can run the code below to proceed.


In [42]:
from huggingface_hub import whoami

# Vérifiez votre identité sur Hugging Face
user_info = whoami()
print(f"Vous êtes connecté en tant que : {user_info['name']}")

Vous êtes connecté en tant que : Noureddine-khaous


## Download the oscar dataset :

In [41]:
from datasets import load_dataset

dataset = load_dataset("oscar-corpus/OSCAR-2201",
                        #use_auth_token=True, # the method doesn't accept the param
                        language="fr", 
                        streaming=False, # download locally
                        split="train",
                        cache_dir='CamemBERT/data',
                        trust_remote_code=True) # optional

Loading dataset shards:   0%|          | 0/658 [00:00<?, ?it/s]

In [24]:
print(f'La taille du dataset est : {len(dataset)}')
print(f'Le type de dataset est : {type(dataset)}')

La taille du dataset est : 52037098
Le type de dataset est : <class 'datasets.arrow_dataset.Dataset'>


In [39]:
import os

# Obtenir le chemin des fichiers cache
cache_files = dataset.cache_files

# Calculer la taille totale en bytes
total_size_bytes = sum(os.path.getsize(file["filename"]) for file in cache_files)

# Convertir en gigaoctets
total_size_gb = total_size_bytes / (1024 ** 3)
print(f"Taille totale du dataset en cache : {total_size_gb:.2f} GB")


Taille totale du dataset en cache : 308.25 GB


In [21]:
print(f"Nombre total d'exemples : {len(dataset)}")
print("Colonnes :", dataset.column_names)
print()
#print("Premier exemple :", dataset[0])
print(dataset.features)      # Types des colonnes

Nombre total d'exemples : 52037098
Colonnes : ['id', 'text', 'meta']

{'id': Value(dtype='int64', id=None), 'text': Value(dtype='string', id=None), 'meta': {'warc_headers': {'warc-record-id': Value(dtype='string', id=None), 'warc-date': Value(dtype='string', id=None), 'content-type': Value(dtype='string', id=None), 'content-length': Value(dtype='int32', id=None), 'warc-type': Value(dtype='string', id=None), 'warc-identified-content-language': Value(dtype='string', id=None), 'warc-refers-to': Value(dtype='string', id=None), 'warc-target-uri': Value(dtype='string', id=None), 'warc-block-digest': Value(dtype='string', id=None)}, 'identification': {'label': Value(dtype='string', id=None), 'prob': Value(dtype='float32', id=None)}, 'annotations': Sequence(feature=Value(dtype='string', id=None), length=-1, id=None), 'line_identifications': [{'label': Value(dtype='string', id=None), 'prob': Value(dtype='float32', id=None)}]}}


In [None]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

example = {"text": "Bonjour, comment allez-vous ? ."}

tokenized_example = tokenizer(
    example["text"],
    padding="max_length",
    truncation=True,
    max_length=20,  # Limite arbitraire pour l'exemple
    return_tensors="pt"  # Retourne les tenseurs PyTorch
)

print("Tokens:", tokenizer.convert_ids_to_tokens(tokenized_example["input_ids"][0]))
print("Input IDs:", tokenized_example["input_ids"])
print("Attention Mask:", tokenized_example["attention_mask"])


Tokens: ['[CLS]', 'bon', '##jou', '##r', ',', 'comment', 'all', '##ez', '-', 'vo', '##us', '?', 'au', '##jou', '##rd', "'", 'hui', 'il', 'fai', '[SEP]']
Input IDs: tensor([[  101, 14753, 23099,  2099,  1010,  7615,  2035,  9351,  1011, 29536,
          2271,  1029,  8740, 23099,  4103,  1005, 17504,  6335, 26208,   102]])
Attention Mask: tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


## Play with some data :

In [5]:
print("Quelques exemples de données dans le dataset OSCAR :\n")

for i, example in enumerate(dataset):
    print(f"Exemple {i + 1}: {example}\n")
    if i >= 1: 
        break

Quelques exemples de données dans le dataset OSCAR :

Exemple 1: {'id': 0, 'text': "L’éditeur à l’origine de cours\td'entraînement de armée n’est autres que tag action gamescours d'entraînement de armée a été mis à jour le 03 août 2017 [...] dernier sujet à aborder pour finir : ce qui est bien avec la plateforme de téléchargement de google c'est que l'on compte énormément d'applications qui sont gratuites cours\td'entraînement de armée ne déroge pas à cette règle elle offre ses fonctionnalités gratuitement , vous voulez une app qui sort du lot ? laissez vous tenter par celle ci / avant de la télécharger découvrez ses fonctionnalités : ce programme est disponible actuellement sur toucharger dans sa version 1 | 2 ; 3 : pour installer cette app vous avez besoin au minimum de la version d'android 2 [...] vérifiez donc que votre appareil est compatible en vous rendant dans les paramètres de votre smartphone ou tablette , sa dernière version actualisée n'est pas si vieille que ça elle remont