# Extracci√≥n de M√©tricas de Calidad de Software desde SonarCloud

Este notebook est√° dise√±ado para cargar datos de estudiantes con proyectos de SonarCloud y extraer m√©tricas de calidad de software utilizando la API de SonarCloud.

## Objetivos:
1. **Cargar datos** de estudiantes desde el archivo CSV con columnas Sonar_Ap1 y Sonar_Ap2
2. **Extraer m√©tricas** de calidad desde SonarCloud API para cada proyecto
3. **Procesar y combinar** los datos para crear un dataset completo
4. **Exportar resultados** para an√°lisis posteriores

## M√©tricas a Extraer:
- `bugs`: Errores detectados
- `vulnerabilities`: Vulnerabilidades de seguridad
- `code_smells`: Problemas de mantenibilidad
- `technical_debt`: Deuda t√©cnica
- `duplicated_lines_density`: Densidad de l√≠neas duplicadas
- `ncloc`: N√∫mero de l√≠neas de c√≥digo
- `complexity`: Complejidad ciclom√°tica
- `reliability_rating`: Rating de confiabilidad
- `sqale_rating`: Rating de mantenibilidad (SQALE)
- `open_issues`: Problemas abiertos
- `coverage`: Cobertura de c√≥digo
- `security_rating`: Rating de seguridad
- `security_hotspots`: Puntos cr√≠ticos de seguridad
- `comment_lines_density`: Densidad de l√≠neas de comentarios
- `cognitive_complexity`: Complejidad cognitiva

In [1]:
# Instalaci√≥n de dependencias (ejecutar solo si es necesario)
import subprocess
import sys

def install_package(package):
    """Instalar paquete si no est√° disponible"""
    try:
        __import__(package)
        print(f"‚úÖ {package} ya est√° instalado")
    except ImportError:
        print(f"üîÑ Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} instalado exitosamente")

# Lista de paquetes requeridos
required_packages = ['pandas', 'requests']

print("üîß Verificando e instalando dependencias...")
for package in required_packages:
    install_package(package)

print("‚úÖ Todas las dependencias est√°n listas")

üîß Verificando e instalando dependencias...
‚úÖ pandas ya est√° instalado
‚úÖ requests ya est√° instalado
‚úÖ Todas las dependencias est√°n listas


In [2]:
# Importar librer√≠as necesarias
import pandas as pd
import requests
import json
import base64
import time
from typing import Dict, List, Optional
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")
print("üìù Pandas version:", pd.__version__)
print("üåê Requests disponible para API calls")

‚úÖ Librer√≠as importadas correctamente
üìù Pandas version: 2.3.1
üåê Requests disponible para API calls


## 1. Configuraci√≥n del Entorno

En esta secci√≥n importamos todas las librer√≠as necesarias para el procesamiento de datos y la comunicaci√≥n con la API de SonarCloud.

In [3]:
# Configuraci√≥n de SonarCloud API
SONAR_TOKEN = "sqa_f5eb0e4e9b4a89c8f4e8b97f096cbc3b5dae5b09"
SONAR_BASE_URL = "https://sonarcloud.io/api"

# Configurar headers para autenticaci√≥n
def get_auth_headers():
    """Crear headers de autenticaci√≥n para SonarCloud API"""
    # Codificar token en base64 para autenticaci√≥n b√°sica
    auth_string = f"{SONAR_TOKEN}:"
    auth_bytes = auth_string.encode('ascii')
    auth_b64 = base64.b64encode(auth_bytes).decode('ascii')
    
    return {
        'Authorization': f'Basic {auth_b64}',
        'Content-Type': 'application/json'
    }

# Definir m√©tricas a extraer
METRICS = [
    "bugs",                    # Errores detectados
    "vulnerabilities",         # Vulnerabilidades de seguridad  
    "code_smells",            # Problemas de mantenibilidad
    "technical_debt",         # Deuda t√©cnica
    "duplicated_lines_density", # Densidad de l√≠neas duplicadas
    "ncloc",                  # N√∫mero de l√≠neas de c√≥digo
    "complexity",             # Complejidad ciclom√°tica
    "reliability_rating",     # Rating de confiabilidad
    "sqale_rating",          # Rating de mantenibilidad (SQALE)
    "open_issues",           # Problemas abiertos
    "coverage",              # Cobertura de c√≥digo
    "security_rating",       # Rating de seguridad
    "security_hotspots",     # Puntos cr√≠ticos de seguridad
    "comment_lines_density", # Densidad de l√≠neas de comentarios
    "cognitive_complexity"   # Complejidad cognitiva
]

print("üîê Configuraci√≥n de autenticaci√≥n preparada")
print(f"üìä {len(METRICS)} m√©tricas configuradas para extracci√≥n")
print("‚úÖ Headers de API configurados")

üîê Configuraci√≥n de autenticaci√≥n preparada
üìä 15 m√©tricas configuradas para extracci√≥n
‚úÖ Headers de API configurados


## 2. Configuraci√≥n de la API de SonarCloud

Configuramos los par√°metros necesarios para conectarnos a SonarCloud:

- **Token de autenticaci√≥n**: Credenciales para acceder a la API
- **Headers de autenticaci√≥n**: Configuraci√≥n b√°sica con base64 encoding
- **M√©tricas objetivo**: Lista de 15 m√©tricas de calidad de software a extraer

### M√©tricas de Calidad Configuradas:
Las m√©tricas se dividen en varias categor√≠as:
- **Errores y vulnerabilidades**: `bugs`, `vulnerabilities`, `security_hotspots`
- **Mantenibilidad**: `code_smells`, `technical_debt`, `sqale_rating`
- **Complejidad**: `complexity`, `cognitive_complexity`
- **Cobertura y documentaci√≥n**: `coverage`, `comment_lines_density`
- **Duplicaci√≥n**: `duplicated_lines_density`
- **Tama√±o**: `ncloc` (lines of code)
- **Ratings**: `reliability_rating`, `security_rating`

In [4]:
# Cargar datos de estudiantes
CSV_PATH = "Estudiantes_2023-2024.csv"

try:
    # Cargar el CSV con informaci√≥n de estudiantes
    df_estudiantes = pd.read_csv(CSV_PATH)
    
    print("üìÅ Datos cargados exitosamente")
    print(f"üë• N√∫mero de estudiantes: {len(df_estudiantes)}")
    print(f"üìä Columnas disponibles: {list(df_estudiantes.columns)}")
    
    # Mostrar informaci√≥n b√°sica del dataset
    print("\nüîç Primeras 3 filas del dataset:")
    display(df_estudiantes.head(3))
    
    # Verificar columnas de SonarCloud
    sonar_columns = [col for col in df_estudiantes.columns if 'Sonar' in col]
    print(f"\nüéØ Columnas de SonarCloud encontradas: {sonar_columns}")
    
    # Contar proyectos no vac√≠os
    sonar_ap1_count = df_estudiantes['Sonar_Ap1'].notna().sum()
    sonar_ap2_count = df_estudiantes['Sonar_Ap2'].notna().sum()
    
    print(f"üìà Proyectos Sonar_Ap1 disponibles: {sonar_ap1_count}")
    print(f"üìà Proyectos Sonar_Ap2 disponibles: {sonar_ap2_count}")
    print(f"üìà Total de proyectos a procesar: {sonar_ap1_count + sonar_ap2_count}")

except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo CSV")
    print(f"üìç Buscando en: {CSV_PATH}")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")

üìÅ Datos cargados exitosamente
üë• N√∫mero de estudiantes: 60
üìä Columnas disponibles: ['Id', 'Semestre', 'Estudiante', 'Sexo', 'Email', 'Original_Repo_Ap1', 'Original_Repo_Ap2', 'Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2']

üîç Primeras 3 filas del dataset:


Unnamed: 0,Id,Semestre,Estudiante,Sexo,Email,Original_Repo_Ap1,Original_Repo_Ap2,Sonar_Ap1,Sonar_Ap2,Sonar_Repo_Ap1,Sonar_Repo_Ap2
0,1,2024-01,Aaron Eliezer Hern√°ndez Garc√≠a,1,atminifg655@gmail.com,https://github.com/aaron-developer25/SwiftPay.git,https://github.com/aaron-developer25/DealerPOS...,TesisEnel_SwiftPay-Aaron-Ap1,TesisEnel_DealerPOS-Aaron-ap2,https://github.com/TesisEnel/SwiftPay-Aaron-Ap1,https://github.com/TesisEnel/DealerPOS-Aaron-ap2
1,2,2023-03,Abraham El Hage Jreij,1,abrahamelhage2003@gmail.com,https://github.com/JPichardo2003/AguaMariaSolu...,https://github.com/A-EHJ/Final_Project_Ap2.git,TesisEnel_AguaMariaSolution-JulioPichardo-ap1,TesisEnel_Final_Project-Abraham-ap2,https://github.com/TesisEnel/AguaMariaSolution...,https://github.com/TesisEnel/Final_Project-Abr...
2,3,2024-02,Adiel Luis Garc√≠a Rosa,1,adiel.garcia0422@gmail.com,https://github.com/SamyJp23/PeakPerformance.git,https://github.com/Adiel040/GymProApp.git,TesisEnel_PeakPerformance-samuelAntonio-ap1,TesisEnel_GymProApp-AdielGarcia-Ap2,https://github.com/TesisEnel/PeakPerformance-s...,https://github.com/TesisEnel/GymProApp-AdielGa...



üéØ Columnas de SonarCloud encontradas: ['Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2']
üìà Proyectos Sonar_Ap1 disponibles: 60
üìà Proyectos Sonar_Ap2 disponibles: 60
üìà Total de proyectos a procesar: 120


## 3. Carga de Datos de Estudiantes

Cargamos el archivo CSV que contiene la informaci√≥n de los estudiantes, incluyendo las columnas `Sonar_Ap1` y `Sonar_Ap2` que contienen las claves de los proyectos en SonarCloud.

### Estructura esperada del CSV:
- **ID**: Identificador √∫nico del estudiante
- **Nombre**: Nombre del estudiante  
- **Sonar_Ap1**: Clave del proyecto de la Aplicaci√≥n 1 en SonarCloud
- **Sonar_Ap2**: Clave del proyecto de la Aplicaci√≥n 2 en SonarCloud
- **Otras columnas**: Informaci√≥n adicional del estudiante

In [None]:
# Extraer project keys de SonarCloud
def extract_project_keys(df):
    """
    Extraer todas las claves de proyecto de SonarCloud del DataFrame
    """
    project_keys = []
    
    for index, row in df.iterrows():
        student_id = row.get('ID', f'Student_{index}')
        nombre = row.get('Nombre', 'Unknown')
        
        # Procesar Sonar_Ap1
        if pd.notna(row['Sonar_Ap1']) and row['Sonar_Ap1'].strip():
            project_keys.append({
                'student_id': student_id,
                'nombre': nombre,
                'project_key': row['Sonar_Ap1'].strip(),
                'assignment': 'AP1',
                'row_index': index
            })
        
        # Procesar Sonar_Ap2
        if pd.notna(row['Sonar_Ap2']) and row['Sonar_Ap2'].strip():
            project_keys.append({
                'student_id': student_id,
                'nombre': nombre,
                'project_key': row['Sonar_Ap2'].strip(),
                'assignment': 'AP2',
                'row_index': index
            })
    
    return project_keys

# Extraer project keys
project_list = extract_project_keys(df_estudiantes)

print(f"üîë Total de project keys extra√≠dos: {len(project_list)}")

# Mostrar estad√≠sticas por assignment
ap1_count = len([p for p in project_list if p['assignment'] == 'AP1'])
ap2_count = len([p for p in project_list if p['assignment'] == 'AP2'])

print(f"üìä Proyectos AP1: {ap1_count}")
print(f"üìä Proyectos AP2: {ap2_count}")

# Mostrar algunos ejemplos
print("\nüîç Primeros 5 project keys:")
for i, project in enumerate(project_list[:5]):
    print(f"  {i+1}. {project['nombre']} - {project['assignment']}: {project['project_key']}")

# Crear DataFrame con los project keys
df_projects = pd.DataFrame(project_list)
print(f"\n‚úÖ DataFrame de proyectos creado con {len(df_projects)} filas")

## 4. Extracci√≥n de Claves de Proyecto

Procesamos el DataFrame de estudiantes para extraer todas las claves de proyecto de SonarCloud disponibles. Cada estudiante puede tener hasta 2 proyectos (AP1 y AP2).

### Proceso de extracci√≥n:
1. **Iteraci√≥n por estudiante**: Revisamos cada fila del DataFrame
2. **Validaci√≥n de datos**: Verificamos que las celdas no est√©n vac√≠as
3. **Estructuraci√≥n**: Creamos una lista con la informaci√≥n del proyecto y estudiante
4. **Categorizaci√≥n**: Separamos por assignment (AP1 vs AP2)

El resultado es una lista estructurada que facilita el procesamiento posterior con la API.

In [None]:
# Funciones para interactuar con SonarCloud API
def fetch_project_metrics(project_key: str, metrics_list: List[str]) -> Dict:
    """
    Obtener m√©tricas de un proyecto espec√≠fico desde SonarCloud
    """
    url = f"{SONAR_BASE_URL}/measures/component"
    
    # Par√°metros para la API
    params = {
        'component': project_key,
        'metricKeys': ','.join(metrics_list)
    }
    
    try:
        # Realizar petici√≥n a la API
        response = requests.get(url, params=params, headers=get_auth_headers(), timeout=30)
        
        if response.status_code == 200:
            data = response.json()
            
            # Extraer m√©tricas del response
            metrics_dict = {'project_key': project_key, 'status': 'success'}
            
            if 'component' in data and 'measures' in data['component']:
                for measure in data['component']['measures']:
                    metric_key = measure['metric']
                    metric_value = measure.get('value', None)
                    
                    # Convertir valores num√©ricos
                    if metric_value is not None:
                        try:
                            # Intentar convertir a float
                            if '.' in str(metric_value) or metric_key in ['coverage', 'duplicated_lines_density', 'comment_lines_density']:
                                metrics_dict[metric_key] = float(metric_value)
                            else:
                                metrics_dict[metric_key] = int(metric_value)
                        except ValueError:
                            # Mantener como string si no se puede convertir
                            metrics_dict[metric_key] = metric_value
                    else:
                        metrics_dict[metric_key] = None
            
            # Agregar m√©tricas faltantes como None
            for metric in metrics_list:
                if metric not in metrics_dict:
                    metrics_dict[metric] = None
                    
            return metrics_dict
            
        else:
            print(f"‚ö†Ô∏è  Error {response.status_code} para proyecto {project_key}")
            return {'project_key': project_key, 'status': 'error', 'error_code': response.status_code}
            
    except requests.exceptions.RequestException as e:
        print(f"‚ùå Error de conexi√≥n para proyecto {project_key}: {e}")
        return {'project_key': project_key, 'status': 'connection_error', 'error': str(e)}
    except Exception as e:
        print(f"‚ùå Error inesperado para proyecto {project_key}: {e}")
        return {'project_key': project_key, 'status': 'unexpected_error', 'error': str(e)}

def batch_fetch_metrics(project_list: List[Dict], batch_size: int = 5, delay: float = 1.0) -> List[Dict]:
    """
    Obtener m√©tricas para m√∫ltiples proyectos con control de rate limiting
    """
    results = []
    total_projects = len(project_list)
    
    print(f"üöÄ Iniciando extracci√≥n de m√©tricas para {total_projects} proyectos")
    print(f"‚öôÔ∏è  Batch size: {batch_size}, Delay: {delay}s")
    
    for i in range(0, total_projects, batch_size):
        batch = project_list[i:i + batch_size]
        batch_num = (i // batch_size) + 1
        total_batches = (total_projects + batch_size - 1) // batch_size
        
        print(f"\nüì¶ Procesando batch {batch_num}/{total_batches} ({len(batch)} proyectos)")
        
        for project in batch:
            project_key = project['project_key']
            print(f"  üîÑ Extrayendo m√©tricas de: {project_key}")
            
            # Obtener m√©tricas
            metrics = fetch_project_metrics(project_key, METRICS)
            
            # Combinar informaci√≥n del proyecto con las m√©tricas
            result = {**project, **metrics}
            results.append(result)
            
            # Status indicator
            if metrics['status'] == 'success':
                print(f"    ‚úÖ √âxito")
            else:
                print(f"    ‚ùå Error: {metrics.get('status', 'unknown')}")
        
        # Delay entre batches para evitar rate limiting
        if i + batch_size < total_projects:
            print(f"  ‚è≥ Esperando {delay}s antes del siguiente batch...")
            time.sleep(delay)
    
    print(f"\nüéâ Extracci√≥n completada: {len(results)} proyectos procesados")
    return results

print("üõ†Ô∏è  Funciones de API configuradas")
print("üì° Listo para extraer m√©tricas de SonarCloud")

## 5. Funciones de Interacci√≥n con la API

Definimos las funciones principales para interactuar con la API de SonarCloud de manera eficiente y robusta.

### Funciones implementadas:

#### `fetch_project_metrics(project_key, metrics_list)`
- **Prop√≥sito**: Obtener m√©tricas de un proyecto espec√≠fico
- **Endpoint**: `/api/measures/component`
- **Manejo de errores**: Captura errores de conexi√≥n, timeouts y respuestas inv√°lidas
- **Conversi√≥n de tipos**: Convierte autom√°ticamente valores num√©ricos

#### `batch_fetch_metrics(project_list, batch_size, delay)`
- **Prop√≥sito**: Procesar m√∫ltiples proyectos con control de rate limiting
- **Rate limiting**: Implementa delays entre batches para evitar sobrecargar la API
- **Monitoreo**: Proporciona feedback en tiempo real del progreso
- **Tolerancia a fallos**: Contin√∫a procesando aunque fallen proyectos individuales

In [None]:
# Ejecutar extracci√≥n de m√©tricas
print("üöÄ Iniciando proceso de extracci√≥n de m√©tricas...")
print(f"üìä Total de proyectos a procesar: {len(project_list)}")

# Configurar par√°metros de extracci√≥n
BATCH_SIZE = 3  # Reducir para evitar rate limiting
DELAY_BETWEEN_BATCHES = 2.0  # Segundos de espera entre batches

# Ejecutar extracci√≥n
metrics_results = batch_fetch_metrics(
    project_list=project_list,
    batch_size=BATCH_SIZE,
    delay=DELAY_BETWEEN_BATCHES
)

print("\nüìà Resultados de la extracci√≥n:")
print(f"‚úÖ Total de proyectos procesados: {len(metrics_results)}")

# Analizar resultados
successful_extractions = [r for r in metrics_results if r.get('status') == 'success']
failed_extractions = [r for r in metrics_results if r.get('status') != 'success']

print(f"‚úÖ Extracciones exitosas: {len(successful_extractions)}")
print(f"‚ùå Extracciones fallidas: {len(failed_extractions)}")

if failed_extractions:
    print("\n‚ö†Ô∏è  Proyectos con errores:")
    for failed in failed_extractions[:5]:  # Mostrar solo los primeros 5
        print(f"  - {failed['project_key']}: {failed.get('status', 'unknown error')}")

# Mostrar ejemplo de m√©tricas extra√≠das
if successful_extractions:
    print("\nüîç Ejemplo de m√©tricas extra√≠das (primer proyecto exitoso):")
    example = successful_extractions[0]
    print(f"Proyecto: {example['project_key']}")
    print(f"Estudiante: {example['nombre']}")
    print(f"Assignment: {example['assignment']}")
    
    # Mostrar algunas m√©tricas clave
    key_metrics = ['bugs', 'vulnerabilities', 'code_smells', 'ncloc', 'coverage']
    for metric in key_metrics:
        value = example.get(metric, 'N/A')
        print(f"  {metric}: {value}")
        
print("\n‚úÖ Extracci√≥n de m√©tricas completada")

## 6. Ejecuci√≥n de la Extracci√≥n de M√©tricas

Ejecutamos el proceso principal de extracci√≥n de m√©tricas. Esta es la parte m√°s cr√≠tica del notebook donde se realiza la comunicaci√≥n con SonarCloud.

### Par√°metros de configuraci√≥n:
- **BATCH_SIZE**: N√∫mero de proyectos a procesar por lote (3 proyectos)
- **DELAY_BETWEEN_BATCHES**: Tiempo de espera entre lotes (2 segundos)

### Monitoreo del proceso:
- ‚úÖ **Extracciones exitosas**: Proyectos procesados correctamente
- ‚ùå **Extracciones fallidas**: Proyectos con errores (ej: proyecto no encontrado, permisos)
- üìä **Progreso en tiempo real**: Indicadores de estado por cada proyecto

> **Nota**: El proceso puede tomar varios minutos dependiendo del n√∫mero de proyectos. Los delays son necesarios para respetar los l√≠mites de la API de SonarCloud.

In [None]:
# Procesar y estructurar los datos extra√≠dos
print("üîÑ Procesando datos extra√≠dos...")

# Crear DataFrame con las m√©tricas extra√≠das
df_metrics = pd.DataFrame(successful_extractions)

if len(df_metrics) > 0:
    print(f"üìä DataFrame de m√©tricas creado con {len(df_metrics)} filas")
    
    # Mostrar informaci√≥n del DataFrame
    print(f"üìã Columnas disponibles: {len(df_metrics.columns)}")
    
    # Separar columnas de informaci√≥n del proyecto vs m√©tricas
    info_columns = ['student_id', 'nombre', 'project_key', 'assignment', 'row_index', 'status']
    metric_columns = [col for col in df_metrics.columns if col not in info_columns]
    
    print(f"üìà M√©tricas extra√≠das: {len(metric_columns)}")
    print(f"‚ÑπÔ∏è  Columnas de informaci√≥n: {len(info_columns)}")
    
    # Mostrar estad√≠sticas b√°sicas de las m√©tricas num√©ricas
    numeric_metrics = df_metrics[metric_columns].select_dtypes(include=['number'])
    
    if len(numeric_metrics.columns) > 0:
        print(f"\nüìä Estad√≠sticas descriptivas de m√©tricas num√©ricas:")
        print(f"M√©tricas num√©ricas encontradas: {list(numeric_metrics.columns)}")
        
        # Mostrar estad√≠sticas b√°sicas
        stats = numeric_metrics.describe()
        display(stats.round(2))
        
        # Verificar valores nulos
        null_counts = df_metrics[metric_columns].isnull().sum()
        print(f"\n‚ùì Valores nulos por m√©trica:")
        for metric, null_count in null_counts.items():
            if null_count > 0:
                print(f"  {metric}: {null_count}/{len(df_metrics)} ({null_count/len(df_metrics)*100:.1f}%)")
    
    # Mostrar distribuci√≥n por assignment
    assignment_dist = df_metrics['assignment'].value_counts()
    print(f"\nüìä Distribuci√≥n por assignment:")
    for assignment, count in assignment_dist.items():
        print(f"  {assignment}: {count} proyectos")
    
    # Mostrar primeras filas del DataFrame
    print(f"\nüîç Primeras 3 filas del dataset de m√©tricas:")
    display(df_metrics[info_columns + metric_columns[:5]].head(3))
    
else:
    print("‚ùå No se pudieron procesar las m√©tricas extra√≠das")
    df_metrics = pd.DataFrame()

print("‚úÖ Procesamiento de datos completado")

## 7. Procesamiento y An√°lisis de Datos Extra√≠dos

Convertimos los resultados de la extracci√≥n en un DataFrame estructurado y realizamos un an√°lisis inicial de la calidad de los datos.

### An√°lisis incluido:
- **üìä Estad√≠sticas descriptivas**: Media, mediana, min, max para m√©tricas num√©ricas
- **‚ùì An√°lisis de valores nulos**: Identificaci√≥n de m√©tricas faltantes
- **üìà Distribuci√≥n por assignment**: Conteo de proyectos AP1 vs AP2
- **üîç Vista previa**: Primeras filas del dataset para validaci√≥n

### Separaci√≥n de columnas:
- **Informaci√≥n del proyecto**: student_id, nombre, project_key, assignment
- **M√©tricas de calidad**: bugs, vulnerabilities, code_smells, etc.

Este an√°lisis nos permite identificar patrones y posibles problemas en los datos antes de continuar.

In [None]:
# Combinar datos de estudiantes con m√©tricas extra√≠das
def merge_student_data_with_metrics(df_estudiantes, df_metrics):
    """
    Combinar datos originales de estudiantes con las m√©tricas extra√≠das
    """
    print("üîó Iniciando proceso de combinaci√≥n de datos...")
    
    # Crear copias para no modificar los originales
    df_students_copy = df_estudiantes.copy()
    df_metrics_copy = df_metrics.copy()
    
    # Agregar sufijos a las m√©tricas seg√∫n el assignment
    merged_data = []
    
    for _, student_row in df_students_copy.iterrows():
        student_data = student_row.to_dict()
        
        # Buscar m√©tricas para AP1
        ap1_metrics = df_metrics_copy[
            (df_metrics_copy['row_index'] == student_row.name) & 
            (df_metrics_copy['assignment'] == 'AP1')
        ]
        
        if len(ap1_metrics) > 0:
            ap1_row = ap1_metrics.iloc[0]
            for metric in METRICS:
                student_data[f'{metric}_AP1'] = ap1_row.get(metric, None)
        else:
            # Agregar valores nulos si no hay m√©tricas AP1
            for metric in METRICS:
                student_data[f'{metric}_AP1'] = None
        
        # Buscar m√©tricas para AP2
        ap2_metrics = df_metrics_copy[
            (df_metrics_copy['row_index'] == student_row.name) & 
            (df_metrics_copy['assignment'] == 'AP2')
        ]
        
        if len(ap2_metrics) > 0:
            ap2_row = ap2_metrics.iloc[0]
            for metric in METRICS:
                student_data[f'{metric}_AP2'] = ap2_row.get(metric, None)
        else:
            # Agregar valores nulos si no hay m√©tricas AP2
            for metric in METRICS:
                student_data[f'{metric}_AP2'] = None
        
        merged_data.append(student_data)
    
    return pd.DataFrame(merged_data)

# Ejecutar combinaci√≥n de datos
if len(df_metrics) > 0:
    df_combined = merge_student_data_with_metrics(df_estudiantes, df_metrics)
    
    print(f"‚úÖ Datos combinados exitosamente")
    print(f"üë• Estudiantes en dataset combinado: {len(df_combined)}")
    print(f"üìä Total de columnas: {len(df_combined.columns)}")
    
    # Contar columnas de m√©tricas a√±adidas
    metric_ap1_cols = [col for col in df_combined.columns if col.endswith('_AP1')]
    metric_ap2_cols = [col for col in df_combined.columns if col.endswith('_AP2')]
    
    print(f"üìà Columnas de m√©tricas AP1: {len(metric_ap1_cols)}")
    print(f"üìà Columnas de m√©tricas AP2: {len(metric_ap2_cols)}")
    
    # Verificar cobertura de datos
    ap1_projects_with_metrics = df_combined[metric_ap1_cols].notna().any(axis=1).sum()
    ap2_projects_with_metrics = df_combined[metric_ap2_cols].notna().any(axis=1).sum()
    
    print(f"\nüìä Cobertura de m√©tricas:")
    print(f"  Estudiantes con m√©tricas AP1: {ap1_projects_with_metrics}")
    print(f"  Estudiantes con m√©tricas AP2: {ap2_projects_with_metrics}")
    
    # Mostrar algunas columnas del dataset combinado
    sample_columns = ['Nombre', 'Sonar_Ap1', 'Sonar_Ap2', 'bugs_AP1', 'bugs_AP2', 'ncloc_AP1', 'ncloc_AP2']
    available_sample_cols = [col for col in sample_columns if col in df_combined.columns]
    
    if available_sample_cols:
        print(f"\nüîç Vista previa del dataset combinado:")
        display(df_combined[available_sample_cols].head(3))
    
else:
    print("‚ùå No se pueden combinar datos sin m√©tricas extra√≠das")
    df_combined = df_estudiantes.copy()

print("‚úÖ Combinaci√≥n de datos completada")

## 8. Combinaci√≥n de Datos de Estudiantes con M√©tricas

Integramos las m√©tricas extra√≠das con la informaci√≥n original de los estudiantes para crear un dataset completo y an√°lisis-ready.

### Proceso de combinaci√≥n:
1. **Mantenimiento de estructura original**: Preservamos todas las columnas del CSV original
2. **Adici√≥n de m√©tricas por assignment**: Cada m√©trica se agrega con sufijos `_AP1` y `_AP2`
3. **Manejo de datos faltantes**: Asignamos `None` cuando no hay m√©tricas disponibles
4. **Validaci√≥n de cobertura**: Calculamos estad√≠sticas de completitud de datos

### Estructura del dataset final:
- **Columnas originales**: ID, Nombre, Sonar_Ap1, Sonar_Ap2, etc.
- **M√©tricas AP1**: bugs_AP1, vulnerabilities_AP1, ncloc_AP1, etc.
- **M√©tricas AP2**: bugs_AP2, vulnerabilities_AP2, ncloc_AP2, etc.

### Ejemplo de nuevas columnas a√±adidas:
```
bugs_AP1, bugs_AP2
vulnerabilities_AP1, vulnerabilities_AP2  
code_smells_AP1, code_smells_AP2
ncloc_AP1, ncloc_AP2
coverage_AP1, coverage_AP2
... (total: 30 nuevas columnas)
```

In [None]:
# Exportar resultados y generar reportes
from datetime import datetime

# Crear timestamp para los archivos
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")

print("üíæ Preparando exportaci√≥n de resultados...")

# 1. Exportar dataset combinado completo
output_file_combined = f"estudiantes_con_metricas_sonarcloud_{timestamp}.csv"

try:
    df_combined.to_csv(output_file_combined, index=False, encoding='utf-8')
    print(f"‚úÖ Dataset combinado exportado: {output_file_combined}")
    print(f"üìä Filas exportadas: {len(df_combined)}")
    print(f"üìã Columnas exportadas: {len(df_combined.columns)}")
except Exception as e:
    print(f"‚ùå Error al exportar dataset combinado: {e}")

# 2. Exportar solo las m√©tricas extra√≠das
if len(df_metrics) > 0:
    output_file_metrics = f"metricas_sonarcloud_raw_{timestamp}.csv"
    try:
        df_metrics.to_csv(output_file_metrics, index=False, encoding='utf-8')
        print(f"‚úÖ M√©tricas raw exportadas: {output_file_metrics}")
        print(f"üìä Proyectos exportados: {len(df_metrics)}")
    except Exception as e:
        print(f"‚ùå Error al exportar m√©tricas raw: {e}")

# 3. Generar reporte de resumen
print(f"\nüìã REPORTE DE EXTRACCI√ìN DE M√âTRICAS")
print(f"=" * 50)
print(f"üïê Fecha y hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üë• Total de estudiantes: {len(df_estudiantes)}")
print(f"üéØ Proyectos identificados: {len(project_list)}")
print(f"‚úÖ M√©tricas extra√≠das exitosamente: {len(successful_extractions)}")
print(f"‚ùå Extracciones fallidas: {len(failed_extractions)}")
print(f"üìä M√©tricas por proyecto: {len(METRICS)}")

if len(df_combined) > 0:
    print(f"\nüìà ESTAD√çSTICAS DEL DATASET FINAL:")
    
    # Contar estudiantes con datos completos
    students_with_ap1 = (df_combined[[col for col in df_combined.columns if col.endswith('_AP1')]].notna().any(axis=1)).sum()
    students_with_ap2 = (df_combined[[col for col in df_combined.columns if col.endswith('_AP2')]].notna().any(axis=1)).sum()
    students_with_both = (
        (df_combined[[col for col in df_combined.columns if col.endswith('_AP1')]].notna().any(axis=1)) &
        (df_combined[[col for col in df_combined.columns if col.endswith('_AP2')]].notna().any(axis=1))
    ).sum()
    
    print(f"  üìä Estudiantes con m√©tricas AP1: {students_with_ap1}")
    print(f"  üìä Estudiantes con m√©tricas AP2: {students_with_ap2}")
    print(f"  üìä Estudiantes con ambas m√©tricas: {students_with_both}")
    
    # Mostrar cobertura por m√©trica
    print(f"\nüìä COBERTURA POR M√âTRICA (% de proyectos con datos):")
    for metric in METRICS[:5]:  # Mostrar las primeras 5 m√©tricas
        ap1_coverage = df_combined[f'{metric}_AP1'].notna().sum() / len(df_combined) * 100
        ap2_coverage = df_combined[f'{metric}_AP2'].notna().sum() / len(df_combined) * 100
        print(f"  {metric}: AP1={ap1_coverage:.1f}%, AP2={ap2_coverage:.1f}%")

# 4. Guardar configuraci√≥n utilizada
config_info = {
    'timestamp': timestamp,
    'total_students': len(df_estudiantes),
    'projects_found': len(project_list),
    'metrics_extracted': len(successful_extractions),
    'extraction_failures': len(failed_extractions),
    'metrics_configured': METRICS,
    'batch_size': BATCH_SIZE,
    'delay_between_batches': DELAY_BETWEEN_BATCHES
}

config_file = f"extraction_config_{timestamp}.json"
try:
    with open(config_file, 'w', encoding='utf-8') as f:
        json.dump(config_info, f, indent=2, ensure_ascii=False)
    print(f"\n‚úÖ Configuraci√≥n guardada: {config_file}")
except Exception as e:
    print(f"‚ùå Error al guardar configuraci√≥n: {e}")

print(f"\nüéâ EXTRACCI√ìN COMPLETADA EXITOSAMENTE!")
print(f"üìÅ Archivos generados disponibles en el directorio de trabajo")
print(f"üìä Listo para an√°lisis posterior de m√©tricas de calidad de software")

## 9. Exportaci√≥n de Resultados y Generaci√≥n de Reportes

Finalizamos el proceso exportando los datos procesados y generando reportes comprensivos del proceso de extracci√≥n.

### Archivos generados:

#### 1. Dataset Combinado
- **Archivo**: `estudiantes_con_metricas_sonarcloud_{timestamp}.csv`
- **Contenido**: Datos originales de estudiantes + 30 columnas de m√©tricas
- **Uso**: An√°lisis estad√≠stico, visualizaciones, machine learning

#### 2. M√©tricas Raw
- **Archivo**: `metricas_sonarcloud_raw_{timestamp}.csv`
- **Contenido**: M√©tricas extra√≠das en formato largo (una fila por proyecto)
- **Uso**: An√°lisis detallado por proyecto, debugging

#### 3. Configuraci√≥n de Extracci√≥n
- **Archivo**: `extraction_config_{timestamp}.json`
- **Contenido**: Par√°metros utilizados, m√©tricas configuradas, estad√≠sticas
- **Uso**: Reproducibilidad, documentaci√≥n del proceso

### Reporte de extracci√≥n:
- **üìä Estad√≠sticas generales**: Total de estudiantes, proyectos procesados
- **‚úÖ Tasa de √©xito**: Extracciones exitosas vs fallidas
- **üìà Cobertura de datos**: Porcentaje de estudiantes con m√©tricas completas
- **üìã M√©tricas por categor√≠a**: Distribuci√≥n de completitud por m√©trica

> **Importante**: Todos los archivos incluyen un timestamp para evitar sobrescribir resultados anteriores y mantener un historial de extracciones.

## ‚úÖ Proceso Completado

### Resumen del flujo ejecutado:
1. ‚úÖ **Configuraci√≥n**: Librer√≠as y API de SonarCloud configuradas
2. ‚úÖ **Carga de datos**: CSV de estudiantes procesado
3. ‚úÖ **Extracci√≥n de claves**: Project keys identificados y estructurados
4. ‚úÖ **Conexi√≥n API**: Funciones de extracci√≥n implementadas
5. ‚úÖ **Extracci√≥n masiva**: M√©tricas obtenidas con rate limiting
6. ‚úÖ **Procesamiento**: Datos estructurados y analizados
7. ‚úÖ **Combinaci√≥n**: Dataset final con m√©tricas integradas
8. ‚úÖ **Exportaci√≥n**: Archivos generados para an√°lisis posterior

### Pr√≥ximos pasos sugeridos:
- **üìä An√°lisis Exploratorio**: Usar el dataset combinado para an√°lisis estad√≠stico
- **üìà Visualizaciones**: Crear gr√°ficos de distribuci√≥n de m√©tricas por assignment
- **üîç An√°lisis Comparativo**: Comparar m√©tricas entre AP1 y AP2
- **üéØ An√°lisis de Calidad**: Identificar patrones en la calidad del c√≥digo
- **üìã Reportes**: Generar reportes de progreso para estudiantes

### Archivos disponibles para an√°lisis:
Los archivos CSV generados est√°n listos para ser importados en herramientas de an√°lisis como:
- **Python**: pandas, matplotlib, seaborn
- **R**: ggplot2, dplyr
- **Excel/Google Sheets**: Para an√°lisis b√°sico
- **Tableau/Power BI**: Para dashboards interactivos