In [4]:
import requests
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm
import json

<h3>Extraction des données des datasets d'HuggingFace</h3>

In [5]:
# Fonction pour récupérer le dataset card d'un dataset
def get_dataset_card(model_name):
    model_card_url = f"https://huggingface.co/datasets/{model_name}/blob/main/README.md"
    response = requests.get(model_card_url)
    if response.status_code == 200:
        return response.text
    else:
        return None

In [6]:
# Fonction pour récupérer les données de tous les datasets sur Hugging Face
# Les données récupérées sont les métadonnées des datasets et leur dataset card respectif
# retourne une liste de dictionnaires (un dictionnaire représente un dataset)
def get_datasets_data():
    datasets_json = []
    
    try:
        response = session.get(
            "https://huggingface.co/api/datasets",
            params={"full": "True"},
            stream=False
        )
        response.raise_for_status()
        
        # On récupére les métadonnées de tous les datasets
        datasets = response.json()
        
        with ThreadPoolExecutor() as executor:
            futures = []
            for dataset in datasets:
                # On enlève les données inutiles pour réduire la taille du fichier json
                if "cardData" in dataset and "configs" in dataset["cardData"]:
                    dataset["cardData"].pop("configs")
                if "siblings" in dataset:
                    dataset.pop("siblings")
                if "tags" in dataset:
                    dataset.pop("tags")
                
                # On récupère les datasets cards en parallèle pour gagner du temps
                dataset_name = dataset['id']
                future = executor.submit(get_dataset_card, dataset_name)
                futures.append((dataset, future))
            
            # Pour chaque dataset, on lui associe son dataset card
            for dataset, future in tqdm(futures):
                dataset_card = future.result()
                if dataset_card:
                    dataset["dataset_card"] = dataset_card
                    datasets_json.append(dataset)
        
        return datasets_json
    
    except requests.RequestException as e:
        print(f"Error fetching datasets: {e}")
        return None
    except Exception as e:
        print(f"Error processing datasets: {e}")
        return None

In [8]:
# Création d'une session pour les requêtes HTTP
session = requests.Session()
session.headers.update({"Authorization": "Bearer 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"})

# Récupération des données des datasets
datasets = get_datasets_data()

# Création d'un fichier json avec les données des datasets
with open("datasets.json", "w", encoding="utf8") as f:
    json.dump(datasets, f, ensure_ascii=False, indent=2)

100%|██████████| 10000/10000 [09:56<00:00, 16.78it/s]


<h3>Extraction des données des dataset cards</h3>

In [13]:
def get_description_from_card(model_card):
    description_keywords =\
    ["Description", "description", "Summary", "summary", "Detail", "detail", "Dataset", "dataset"]
    
    description = ""
    lines = model_card.split("\n")
    
    for i in range(len(lines)):
        if lines[i].startswith("#"):
            for description_keyword in description_keywords:
                if description_keyword in lines[i]:
                    # On récupère la description du dataset
                    i+=1
                    while i < len(lines) and not lines[i].startswith("#"):
                        description = description + lines[i]
                        i+=1
                    return description
    return None 

In [16]:
# Parcourir le fichier json des datasets pour récupérer les dataset cards
with open("datasets.json", "r", encoding="utf8") as f:
    datasets = json.load(f)

descriptions = []
nb_datasets = len(datasets)
nb_descriptions_found = 0
# Récupération des descriptions des dataset cards
for dataset in tqdm(datasets):
    if "dataset_card" in dataset:
        dataset_card = dataset["dataset_card"]
        description = get_description_from_card(dataset_card)
        if description:
            descriptions.append({"description":description, "id":dataset["id"]})
            nb_descriptions_found += 1

print(nb_descriptions_found)
print(nb_datasets)
print(f"Pourcentage de dataset cards avec description: {(nb_descriptions_found/nb_datasets)*100:.2f}%")
print(descriptions[:20])
        

100%|██████████| 836/836 [00:00<00:00, 3075.17it/s]

1
836
Pourcentage de dataset cards avec description: 0.12%
[{'description': '<!-- HTML_TAG_END --></div></div></section></div></main>\t</div>\t\t<script>\t\t\timport("/front/build/kube-9a810cf/index.js");\t\t\twindow.moonSha = "kube-9a810cf/";\t\t\twindow.hubConfig = JSON.parse(`{"features":{"signupDisabled":false},"sshGitUrl":"git@hf.co","moonHttpUrl":"https://huggingface.co","captchaApiKey":"bd5f2066-93dc-4bdd-a64b-a24646ca3859","captchaDisabledOnSignup":true,"datasetsServerPublicUrl":"https://datasets-server.huggingface.co","stripePublicKey":"pk_live_x2tdjFXBCvXo2FFmMybezpeM00J6gPCAAc","environment":"production","userAgent":"HuggingFace (production)"}`);\t\t</script>\t\t<!-- Stripe -->\t\t<script>\t\t\tif (["hf.co", "huggingface.co"].includes(window.location.hostname)) {\t\t\t\tconst script = document.createElement("script");\t\t\t\tscript.src = "https://js.stripe.com/v3/";\t\t\t\tscript.async = true;\t\t\t\tdocument.head.appendChild(script);\t\t\t}\t\t</script>\t\t<!-- Google analy


