In [8]:
import csv
import subprocess
import requests

# Fonction pour extraire les commits Git
def extract_git_commits(repo_path, output_csv):
    try:
        # Naviguer vers le chemin du dépôt et mettre à jour la branche principale
        subprocess.run(['git', '-C', repo_path, 'checkout', 'main'], check=True, capture_output=True, text=True)

        # Obtenir la liste des commits
        result = subprocess.run(
            ['git', '-C', repo_path, 'log', '--pretty=format:%H,%an,%ad,%s', '--date=short'],
            check=True, capture_output=True, text=True, encoding='utf-8'
        )

        # Vérifier si la commande Git a réussi
        if result.returncode != 0:
            print(f"Erreur lors de l'extraction des commits: {result.stderr}")
            return

        # Séparer la sortie en lignes
        commits = result.stdout.strip().splitlines()

        # Vérifier si des commits ont été trouvés
        if not commits:
            print("Aucun commit trouvé.")
            return

        # Écrire les commits dans un fichier CSV
        with open(output_csv, 'w', newline='', encoding='utf-8') as csvfile:
            commit_writer = csv.writer(csvfile)
            commit_writer.writerow(['Commit Hash', 'Author', 'Date', 'Message'])
            for commit in commits:
                commit_writer.writerow(commit.split(','))

        print(f"Extraction des commits terminée. Les commits sont enregistrés dans '{output_csv}'.")

    except subprocess.CalledProcessError as e:
        print(f"Erreur lors de l'extraction des commits: {e}")
    except Exception as e:
        print(f"Une erreur inattendue s'est produite: {e}")

# Fonction pour extraire les issues GitHub
def extract_github_issues(repo_owner, repo_name, output_csv, token):
    try:
        # URL de l'API GitHub pour les issues du dépôt spécifié
        url = f'https://api.github.com/repos/{repo_owner}/{repo_name}/issues'
        # En-têtes pour l'authentification avec le token GitHub
        headers = {'Authorization': f'token {token}'}

        issues = []  # Liste pour stocker toutes les issues
        page = 1  # Compteur de pages pour la pagination des résultats

        while True:
            # Requête GET pour obtenir les issues de la page actuelle
            response = requests.get(url, headers=headers, params={'state': 'all', 'page': page})
            response.raise_for_status()  # Lève une exception pour les codes d'erreur HTTP
            page_issues = response.json()  # Convertir la réponse JSON en liste d'issues
            if not page_issues:
                break  # Si aucune issue n'est retournée, arrêter la boucle
            issues.extend(page_issues)  # Ajouter les issues de la page actuelle à la liste totale
            page += 1  # Passer à la page suivante

        # Vérifier si des issues ont été trouvées
        if not issues:
            print("Aucune issue trouvée.")
            return

        # Écrire les issues dans un fichier CSV
        with open(output_csv, 'w', newline='', encoding='utf-8') as csvfile:
            issue_writer = csv.writer(csvfile)
            issue_writer.writerow(['ID', 'Title', 'User', 'State', 'Created At', 'Updated At'])
            for issue in issues:
                issue_writer.writerow([
                    issue.get('id', 'N/A'),
                    issue.get('title', 'N/A'),
                    issue.get('user', {}).get('login', 'N/A'),
                    issue.get('state', 'N/A'),
                    issue.get('created_at', 'N/A'),
                    issue.get('updated_at', 'N/A')
                ])

        print(f"Extraction des issues terminée. Les issues sont enregistrées dans '{output_csv}'.")

    except requests.RequestException as e:
        print(f"Erreur lors de l'extraction des issues GitHub: {e}")
    except Exception as e:
        print(f"Une erreur inattendue s'est produite: {e}")

# Exemple d'utilisation avec des chemins absolus
if __name__ == "__main__":
    repo_path = r'D:\Haythem\Telechargements\datasets'  # Chemin absolu vers votre dépôt Git
    output_commits_csv = r'D:\Haythem\Telechargements\datasets\commits.csv'  # Chemin absolu pour le fichier CSV des commits
    repo_owner = 'huggingface'  # Propriétaire du dépôt GitHub
    repo_name = 'datasets'  # Nom du dépôt GitHub
    github_token = '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'  # Votre token GitHub
    output_issues_csv = r'D:\Haythem\Telechargements\datasets\issues.csv'  # Chemin absolu pour le fichier CSV des issues GitHub

    # Extraire les commits
    print("Début de l'extraction des commits...")
    extract_git_commits(repo_path, output_commits_csv)

    # Vérifier si le fichier des commits a été créé
    try:
        with open(output_commits_csv, 'r', encoding='utf-8') as f:
            print(f"Fichier '{output_commits_csv}' créé avec succès.")
    except FileNotFoundError:
        print(f"Erreur : Le fichier '{output_commits_csv}' n'a pas été créé.")

    # Extraire les issues GitHub
    print("Début de l'extraction des issues...")
    extract_github_issues(repo_owner, repo_name, output_issues_csv, github_token)

    # Vérifier si le fichier des issues a été créé
    try:
        with open(output_issues_csv, 'r', encoding='utf-8') as f:
            print(f"Fichier '{output_issues_csv}' créé avec succès.")
    except FileNotFoundError:
        print(f"Erreur : Le fichier '{output_issues_csv}' n'a pas été créé.")


Starting commit extraction...
Commit extraction completed. Commits are saved in 'D:\Haythem\Telechargements\datasets\commits.csv'.
File 'D:\Haythem\Telechargements\datasets\commits.csv' successfully created.
Starting issue extraction...
Issue extraction completed. Issues are saved in 'D:\Haythem\Telechargements\datasets\issues.csv'.
File 'D:\Haythem\Telechargements\datasets\issues.csv' successfully created.


In [24]:
import pandas as pd

# Lire les fichiers CSV
issues_df = pd.read_csv('issues.csv', on_bad_lines='skip')
commits_df = pd.read_csv('commits.csv', on_bad_lines='skip')

# Créer une liste d'exigences à partir des informations des deux fichiers
requirements = []
for index, row in issues_df.iterrows():
    requirement = {
        'ID': row['ID'],
        'Titre': row['Title'],
        'Utilisateur': row['User'],
        'Statut': row['State'],
        'Créé le': row['Created At'],
        'Mis à jour le': row['Updated At']
    }

    # Trouver les commits liés à cette exigence
    related_commits = commits_df[commits_df['Message'].str.contains(str(row['ID']))]['Message']
    requirement['Commits'] = ', '.join(related_commits)

    requirements.append(requirement)

# Créer un DataFrame à partir de la liste d'exigences
requirements_df = pd.DataFrame(requirements)

# Enregistrer le DataFrame dans un nouveau fichier CSV
requirements_df.to_csv('exigences.csv', index=False)

print("Le fichier 'exigences.csv' a été créé avec succès.")

Le fichier 'exigences.csv' a été créé avec succès.


In [4]:
%pip install pandas


Collecting pandas
  Downloading pandas-2.2.2-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.0.0-cp312-cp312-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.9 kB ? eta -:--:--
     ---------------------------------------- 0.0/60.9 kB ? eta -:--:--
     -------------------- ------------------- 30.7/60.9 kB ? eta -:--:--
     -------------------------------------- 60.9/60.9 kB 804.1 kB/s eta 0:00:00
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.2-cp312-cp312-win_amd64.whl (11.5 MB)
   ---------------------------------------- 0.0/11.5 MB ? eta -:--:--
   ---------------------------------------- 0.0/11.5 MB ? eta -:--:--
   ---------------------------------------- 0.0/11.5 MB 487.6 kB/s eta 0:00:24
   ---------------


[notice] A new release of pip is available: 24.0 -> 24.1
[notice] To update, run: python.exe -m pip install --upgrade pip
