**Create Last Commit File**

In [None]:
import json
import os
import glob
import re

project_dirs = os.listdir("../data/projects/")

def get_batch_number(path):
    match = re.search(r'batch_(\d+)\.json$', path)
    return int(match.group(1)) if match else -1


for dir in project_dirs:
    print(f"Processing directory: {dir}")
    project_files = sorted(glob.glob(f"../data/projects/{dir}/*.json"))

    project_name = project_files[0].split("/")[-2]
    output_file = f"../data/projects_last_commit/{project_name}_last_commit.json"
    if os.path.exists(output_file):
        print(f"Output file {output_file} already exists. Skipping...")
        continue
        
    if len(project_files) == 1:
        project_file = project_files[0]
    else:
        project_file = max(project_files, key=get_batch_number)

    try:
        with open(project_file, 'r') as f:
            data = json.load(f)
            
        latest_commit = data["commit_data"][-1]
    
        # Check if latest commit is indeed the latest
        if not latest_commit["is_latest_commit"]:
            raise ValueError("Latest commit is not latest according to is_latest_commit flag")
        
        # Check if latest commit  contains data
        if latest_commit["is_latest_commit"]:
            if not latest_commit["network_data"]:
                raise ValueError("Latest commit's network data is empty")

        del data["commit_data"]

        data["latest_commit_data"] = latest_commit

        with open(output_file, 'w') as f:
            json.dump(data, f, indent=4)
            
    except Exception as e:
        print(f"Error processing {project_file}: {e}")
        continue

**Check number of projects**

In [None]:
import glob

projects = glob.glob("../data/projects/*json")
project_with_batches = os.listdir("../data/projects_with_batches")

project_lc_files = glob.glob("../data/projects_last_commit/*json")

print("Length of projects: ", len(projects))
print("Length of project_with_batches: ", len(project_with_batches))
print("Total projects; ", len(projects) + len(project_with_batches))
print("Missing projects: ", 1148 - (len(projects) + len(project_with_batches)))
print("Length of project_lc_files: ", len(project_lc_files))

Length of projects:  959
Length of project_with_batches:  33
Total projects;  992
Missing projects:  156
Length of project_lc_files:  929


In [1]:
import os
import glob
import shutil

# Pfad zu den Projektdateien
projects_dir = "../data/projects/"
project_files = glob.glob(os.path.join(projects_dir, "*.json"))

print(f"Gefundene Projektdateien: {len(project_files)}")

for project_file in project_files:
    # Extrahiere den Projektnamen aus dem Dateinamen (ohne .json)
    project_name = os.path.basename(project_file).replace(".json", "")
    
    # Erstelle den Ordnerpfad
    project_folder = os.path.join(projects_dir, project_name)
    
    print(f"Verarbeite: {project_name}")
    
    try:
        # Erstelle den Ordner, falls er nicht existiert
        os.makedirs(project_folder, exist_ok=True)
        
        # Zielpfad für die verschobene Datei
        destination = os.path.join(project_folder, os.path.basename(project_file))
        
        # Verschiebe die Datei
        shutil.move(project_file, destination)
        
        print(f"✓ {project_name}.json wurde nach {project_folder}/ verschoben")
        
    except Exception as e:
        print(f"✗ Fehler beim Verarbeiten von {project_name}: {e}")

print("Fertig!")

Gefundene Projektdateien: 965
Verarbeite: mobx
✓ mobx.json wurde nach ../data/projects/mobx/ verschoben
Verarbeite: winget-cli
✓ winget-cli.json wurde nach ../data/projects/winget-cli/ verschoben
Verarbeite: googletest
✓ googletest.json wurde nach ../data/projects/googletest/ verschoben
Verarbeite: you-get
✓ you-get.json wurde nach ../data/projects/you-get/ verschoben
Verarbeite: jsoncrack.com
✓ jsoncrack.com.json wurde nach ../data/projects/jsoncrack.com/ verschoben
Verarbeite: electron
✓ electron.json wurde nach ../data/projects/electron/ verschoben
Verarbeite: openssl
✓ openssl.json wurde nach ../data/projects/openssl/ verschoben
Verarbeite: homebrew-cask
✓ homebrew-cask.json wurde nach ../data/projects/homebrew-cask/ verschoben
Verarbeite: AnotherRedisDesktopManager
✓ AnotherRedisDesktopManager.json wurde nach ../data/projects/AnotherRedisDesktopManager/ verschoben
Verarbeite: trufflehog
✓ trufflehog.json wurde nach ../data/projects/trufflehog/ verschoben
Verarbeite: k3s
✓ k3s.json

In [4]:
import os
import shutil

# Quell- und Zielverzeichnisse
source_dir = "../data/projects_with_batches/"
target_dir = "../data/projects/"

# Stelle sicher, dass das Zielverzeichnis existiert
os.makedirs(target_dir, exist_ok=True)

# Liste aller Ordner im Quellverzeichnis
folders = [f for f in os.listdir(source_dir) if os.path.isdir(os.path.join(source_dir, f))]

print(f"Gefundene Ordner: {len(folders)}")

for folder_name in folders:
    source_path = os.path.join(source_dir, folder_name)
    target_path = os.path.join(target_dir, folder_name)
    
    print(f"Verschiebe: {folder_name}")
    
    try:
        # Prüfe, ob der Zielordner bereits existiert
        if os.path.exists(target_path):
            print(f"⚠️ Ordner {folder_name} existiert bereits in {target_dir}, überspringe.")
            continue
        
        # Verschiebe den gesamten Ordner
        shutil.move(source_path, target_path)
        
        print(f"✓ {folder_name} wurde erfolgreich nach {target_dir} verschoben")
        
    except Exception as e:
        print(f"✗ Fehler beim Verschieben von {folder_name}: {e}")

print("Fertig!")

Gefundene Ordner: 5
Verschiebe: servo_servo
⚠️ Ordner servo_servo existiert bereits in ../data/projects/, überspringe.
Verschiebe: invoke-ai_InvokeAI
⚠️ Ordner invoke-ai_InvokeAI existiert bereits in ../data/projects/, überspringe.
Verschiebe: netdata_netdata
⚠️ Ordner netdata_netdata existiert bereits in ../data/projects/, überspringe.
Verschiebe: continuedev_continue
⚠️ Ordner continuedev_continue existiert bereits in ../data/projects/, überspringe.
Verschiebe: strapi_strapi
⚠️ Ordner strapi_strapi existiert bereits in ../data/projects/, überspringe.
Fertig!
