# Notebook de Scraping Complet des D√©p√¥ts GitHub

**Objectif :** Ce notebook a pour unique but de scraper des informations d√©taill√©es sur des d√©p√¥ts GitHub √† partir d'un fichier JSON. Il est con√ßu pour des extractions longues (plusieurs heures) et inclut :
- La r√©cup√©ration des m√©tadonn√©es de base.
- L'extraction du contenu complet du fichier **README.md** de chaque d√©p√¥t.
- Une sauvegarde progressive dans un fichier CSV pour plus de robustesse.

In [None]:
import requests
import pandas as pd
import json
import ijson
import os
import gc
import base64
from tqdm.notebook import tqdm
from time import sleep

# --- CONFIGURATION ---

# ‚ö†Ô∏è ATTENTION : Ne jamais stocker de token en clair dans un notebook partag√©.
# Pour une utilisation personnelle, remplacez la valeur ci-dessous.
TOKEN = os.getenv("GITHUB_TOKEN")
HEADERS = {'Authorization': f'token {TOKEN}', 'Accept': 'application/vnd.github.v3+json'}

# Fichiers
INPUT_FILE = "repos-min-1000stars.json"
OUTPUT_FILE = "github_data_with_readmes.csv" # Nom du fichier de sortie final

# Param√®tres du script
BATCH_SIZE = 500      # Sauvegarde tous les N d√©p√¥ts. Crucial pour les longs scripts.
API_SLEEP = 0.5       # Temps d'attente en secondes entre chaque appel API pour √©viter le rate limiting.

In [11]:
def json_stream(file_path):
    """Lit un gros fichier JSON de mani√®re it√©rative, sans limite."""
    with open(file_path, "r", encoding="utf-8") as f:
        # ijson.items est un g√©n√©rateur, parfait pour les gros fichiers
        for repo in ijson.items(f, "item"):
            yield repo

def get_api_json(url):
    """Fait une requ√™te GET √† l'API GitHub avec gestion du rate limiting."""
    try:
        r = requests.get(url, headers=HEADERS)
        if r.status_code == 200:
            return r.json()
        elif r.status_code == 403:
            print("‚è≥ Rate limit de l'API atteint, pause de 60 secondes...")
            sleep(60)
            return get_api_json(url) # On r√©essaie la m√™me requ√™te
        elif r.status_code == 404:
            # C'est une erreur normale si un README n'existe pas, on ne l'affiche pas pour ne pas polluer la sortie.
            return None
        else:
            print(f"‚ö†Ô∏è Code d'erreur {r.status_code} pour l'URL {url}")
            return None
    except Exception as e:
        print(f"üí• Erreur de connexion sur {url}: {e}")
        return None

def count_json_items(file_path):
    """Compte rapidement le nombre d'√©l√©ments √† la racine d'un fichier JSON."""
    print("Pr√©-calcul du nombre total de d√©p√¥ts (cela peut prendre un moment)...")
    with open(file_path, 'rb') as f:
        # On it√®re rapidement sur le fichier juste pour compter
        total = sum(1 for _ in ijson.items(f, 'item'))
    print(f"Total trouv√© : {total} d√©p√¥ts.")
    return total
    
def get_readme_content(repo_full_name):
    """R√©cup√®re et d√©code le contenu du README pour un d√©p√¥t donn√©."""
    readme_url = f"https://api.github.com/repos/{repo_full_name}/readme"
    readme_data = get_api_json(readme_url)
    
    if readme_data and 'content' in readme_data:
        # Le contenu est encod√© en Base64 par l'API GitHub
        content_base64 = readme_data['content']
        try:
            # On d√©code le Base64 en bytes, puis les bytes en string utf-8
            decoded_bytes = base64.b64decode(content_base64)
            return decoded_bytes.decode('utf-8')
        except Exception as e:
            print(f"Impossible de d√©coder le README pour {repo_full_name}: {e}")
            return "" # On retourne une cha√Æne vide en cas d'erreur de d√©codage
    return "" # Pas de README trouv√© ou pas de champ 'content'

print("‚úÖ Fonctions pr√™tes.")

‚úÖ Fonctions pr√™tes.


In [None]:
# Liste pour stocker les donn√©es d'un lot (batch)
total_repos = count_json_items(INPUT_FILE)
data_to_save = []

# Si le fichier de sortie existe d√©j√† d'une pr√©c√©dente ex√©cution, on le supprime pour repartir de z√©ro.
if os.path.exists(OUTPUT_FILE):
    os.remove(OUTPUT_FILE)
    print(f"Fichier de sortie existant '{OUTPUT_FILE}' supprim√©.")

# On utilise un g√©n√©rateur, donc on ne conna√Æt pas la longueur totale √† l'avance.
# tqdm affichera le nombre d'it√©rations.
repo_generator = json_stream(INPUT_FILE)

# On ajoute un compteur manuel pour la sauvegarde par lots
for i, repo in enumerate(tqdm(repo_generator, total=total_repos, desc="Scraping des d√©p√¥ts GitHub")):

    # 1. Collecte des donn√©es de base depuis le JSON
    repo_data = {
        "full_name": repo.get("full_name"),
        "language": repo.get("language"),
        "stars": repo.get("stargazers_count"),
        "forks": repo.get("forks_count"),
        "description": repo.get("description"),
        "created_at": repo.get("created_at"),
        "html_url": repo.get("html_url"),
    }
    
    # 2. R√©cup√©ration du contenu du README (1 appel API par d√©p√¥t)
    if repo.get("full_name"):
        repo_data["readme_content"] = get_readme_content(repo["full_name"])
        sleep(API_SLEEP) # Pause pour respecter l'API
    else:
        repo_data["readme_content"] = ""

    data_to_save.append(repo_data)
    
    # 3. Sauvegarde par lot pour la robustesse
    if (i + 1) % BATCH_SIZE == 0:
        df_batch = pd.DataFrame(data_to_save)
        
        # On √©crit le header seulement si le fichier n'existe pas encore
        write_header = not os.path.exists(OUTPUT_FILE)
        
        # On ajoute les donn√©es au CSV (mode='a' pour append)
        df_batch.to_csv(OUTPUT_FILE, mode='a', index=False, header=write_header, encoding='utf-8-sig')
        
        print(f"\nüíæ Lot de {len(data_to_save)} d√©p√¥ts sauvegard√© dans '{OUTPUT_FILE}'. Total trait√© : {i + 1}")
        
        # On vide la liste et on lib√®re la m√©moire
        data_to_save.clear()
        gc.collect()

# --- Sauvegarde Finale ---
# N'oubliez pas de sauvegarder le dernier lot qui n'atteint peut-√™tre pas la taille du BATCH_SIZE
if data_to_save:
    print(f"\nüíæ Sauvegarde du dernier lot de {len(data_to_save)} d√©p√¥ts...")
    df_final_batch = pd.DataFrame(data_to_save)
    write_header = not os.path.exists(OUTPUT_FILE)
    df_final_batch.to_csv(OUTPUT_FILE, mode='a', index=False, header=write_header, encoding='utf-8-sig')
    data_to_save.clear()
    gc.collect()

print(f"\n\nüéâ --- SCRAPING TERMIN√â --- üéâ")
print(f"Toutes les donn√©es ont √©t√© sauvegard√©es dans le fichier '{OUTPUT_FILE}'.")

Pr√©-calcul du nombre total de d√©p√¥ts (cela peut prendre un moment)...
Total trouv√© : 56861 d√©p√¥ts.


Scraping des d√©p√¥ts GitHub:   0%|          | 0/56861 [00:00<?, ?it/s]


üíæ Lot de 500 d√©p√¥ts sauvegard√© dans 'github_data_with_readmes.csv'. Total trait√© : 500


In [14]:
# Une fois le scraping termin√©, vous pouvez ex√©cuter cette cellule pour v√©rifier le r√©sultat

try:
    df_final = pd.read_csv(OUTPUT_FILE)
    print(f"Le fichier '{OUTPUT_FILE}' a √©t√© charg√© avec succ√®s.")
    print(f"Nombre total de d√©p√¥ts scrap√©s : {len(df_final)}")
    print("Aper√ßu des donn√©es :")
    
    # On affiche l'aper√ßu sans le contenu du README pour plus de lisibilit√©
    display(df_final.drop(columns=['readme_content']).head())
    
    # On v√©rifie qu'un README a bien √©t√© r√©cup√©r√©
    print("\nExemple de d√©but de README pour le premier d√©p√¥t :")
    # Affiche les 300 premiers caract√®res du premier README non vide
    first_readme = df_final[df_final['readme_content'].notna()]['readme_content'].iloc[0]
    print(first_readme[:300] + "...")

except FileNotFoundError:
    print(f"Le fichier de sortie '{OUTPUT_FILE}' n'a pas encore √©t√© cr√©√©. Lancez d'abord le pipeline de scraping.")
except Exception as e:
    print(f"Une erreur est survenue lors de la lecture du fichier CSV : {e}")

Le fichier 'github_data_with_readmes.csv' a √©t√© charg√© avec succ√®s.
Nombre total de d√©p√¥ts scrap√©s : 56861
Aper√ßu des donn√©es :


Unnamed: 0,full_name,language,stars,forks,description,created_at,html_url
0,mdbootstrap/bootstrap-toggle-buttons,JavaScript,1013,89,Bootstrap-toggle-buttons has moved to https://...,2012-07-17 22:46:54+00:00,https://github.com/mdbootstrap/bootstrap-toggl...
1,cloudfuji/kandan,JavaScript,1005,117,A Cloudfuji chat application,2012-03-06 16:16:28+00:00,https://github.com/cloudfuji/kandan
2,doug/depthjs,C++,1003,106,DepthJS allows any web page to interact with t...,2010-11-19 23:02:54+00:00,https://github.com/doug/depthjs
3,codrops/ModalWindowEffects,JavaScript,1015,232,A set of experimental modal window appearance ...,2013-07-02 08:10:00+00:00,https://github.com/codrops/ModalWindowEffects
4,adactio/Pattern-Primer,CSS,1002,152,Generating styled markup from a folder of mark...,2011-11-18 12:03:32+00:00,https://github.com/adactio/Pattern-Primer



Exemple de d√©but de README pour le premier d√©p√¥t :
Bootstrap-toggle-buttons

Bootstrap-toggle-buttons has moved to https://github.com/nostalgiaz/bootstrap-switch

Old doc -> https://github.com/nostalgiaz/bootstrap-toggle-buttons/blob/master/README_OLD.md
...
