![image.png](attachment:image.png)

# UNIVERSIDAD CAT√ìLICA NORDESTANA (UCNE)
San Francisco de Macor√≠s, Rep. Dom.
MAESTR√çA EN INVESTIGACI√ìN CIENT√çFICA

# Extracci√≥n de M√©tricas de Calidad de Software desde SonarCloud

Este notebook est√° dise√±ado para cargar datos de estudiantes con proyectos de SonarCloud y extraer m√©tricas de calidad de software utilizando la API de SonarCloud.

## Objetivos:
1. **Cargar datos** de estudiantes desde el archivo CSV con columnas Sonar_Ap1 y Sonar_Ap2
2. **Extraer m√©tricas** de calidad desde SonarCloud API para cada proyecto
3. **Procesar y combinar** los datos para crear un dataset completo
4. **Exportar resultados** para an√°lisis posteriores

## M√©tricas a Extraer:
- `bugs`: Errores detectados
- `vulnerabilities`: Vulnerabilidades de seguridad
- `code_smells`: Problemas de mantenibilidad
- `technical_debt`: Deuda t√©cnica
- `duplicated_lines_density`: Densidad de l√≠neas duplicadas
- `ncloc`: N√∫mero de l√≠neas de c√≥digo
- `complexity`: Complejidad ciclom√°tica
- `reliability_rating`: Rating de confiabilidad
- `sqale_rating`: Rating de mantenibilidad (SQALE)
- `open_issues`: Problemas abiertos
- `coverage`: Cobertura de c√≥digo
- `security_rating`: Rating de seguridad
- `security_hotspots`: Puntos cr√≠ticos de seguridad
- `comment_lines_density`: Densidad de l√≠neas de comentarios
- `cognitive_complexity`: Complejidad cognitiva

In [1]:
# Instalaci√≥n de dependencias (ejecutar solo si es necesario)
import subprocess
import sys

def install_package(package):
    """Instalar paquete si no est√° disponible"""
    try:
        __import__(package)
        print(f"‚úÖ {package} ya est√° instalado")
    except ImportError:
        print(f"üîÑ Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} instalado exitosamente")

# Lista de paquetes requeridos
required_packages = ['pandas', 'requests']

print("üîß Verificando e instalando dependencias...")
for package in required_packages:
    install_package(package)

print("‚úÖ Todas las dependencias est√°n listas")

üîß Verificando e instalando dependencias...
üîÑ Instalando pandas...
‚úÖ pandas instalado exitosamente
üîÑ Instalando requests...
‚úÖ requests instalado exitosamente
‚úÖ Todas las dependencias est√°n listas


In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import requests
import json
import base64
import time
from typing import Dict, List, Optional
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")
print("üìù Pandas version:", pd.__version__)
print("üåê Requests disponible para API calls")

‚úÖ Librer√≠as importadas correctamente
üìù Pandas version: 2.3.1
üåê Requests disponible para API calls


In [None]:
# Funciones utilitarias para optimizar el c√≥digo
from functools import wraps
import logging

# Configurar logging b√°sico
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

def timer_decorator(func):
    """Decorador para medir tiempo de ejecuci√≥n de funciones"""
    @wraps(func)
    def wrapper(*args, **kwargs):
        import time
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"‚è±Ô∏è  {func.__name__} ejecutado en {end_time - start_time:.2f} segundos")
        return result
    return wrapper

def validate_dataframe(df, required_columns=None):
    """Validar la estructura b√°sica de un DataFrame"""
    if df is None or len(df) == 0:
        raise ValueError("DataFrame est√° vac√≠o o es None")
    
    if required_columns:
        missing_cols = [col for col in required_columns if col not in df.columns]
        if missing_cols:
            raise ValueError(f"Columnas faltantes: {missing_cols}")
    
    return True

def safe_divide(numerator, denominator):
    """Divisi√≥n segura que evita divisi√≥n por cero"""
    return numerator / denominator if denominator != 0 else 0

def format_percentage(value, total):
    """Formatear porcentaje de manera consistente"""
    return f"{safe_divide(value, total) * 100:.1f}%"

def print_section_header(title, char="=", width=50):
    """Imprimir headers de secci√≥n consistentes"""
    print(f"\n{title}")
    print(char * width)

print("üõ†Ô∏è  Funciones utilitarias cargadas")
print("üìä Timer, validaciones y formateo disponibles")

üõ†Ô∏è  Funciones utilitarias cargadas
üìä Timer, validaciones y formateo disponibles


## 1. Configuraci√≥n del Entorno

En esta secci√≥n importamos todas las librer√≠as necesarias para el procesamiento de datos y la comunicaci√≥n con la API de SonarCloud.

In [None]:
# Configuraci√≥n de SonarCloud API
from functools import lru_cache

# Configuraci√≥n del token (expuesto temporalmente para pruebas)
SONAR_TOKEN = "8ec2e705f1a4ee79a8a86ff5a2170f27f922270e"
SONAR_BASE_URL = "https://sonarcloud.io/api"

# Cache para headers de autenticaci√≥n
@lru_cache(maxsize=1)
def get_auth_headers():
    """Crear headers de autenticaci√≥n para SonarCloud API (con cach√©)"""
    # Codificar token en base64 para autenticaci√≥n b√°sica
    auth_string = f"{SONAR_TOKEN}:"
    auth_bytes = auth_string.encode('ascii')
    auth_b64 = base64.b64encode(auth_bytes).decode('ascii')

    return {
        'Authorization': f'Basic {auth_b64}',
        'Content-Type': 'application/json'
    }

# Definir m√©tricas a extraer (agrupadas por categor√≠a para mejor organizaci√≥n)
METRICS_CONFIG = {
    'errors_vulnerabilities': ["bugs", "vulnerabilities", "security_hotspots"],
    'maintainability': ["code_smells", "technical_debt", "sqale_rating"],
    'complexity': ["complexity", "cognitive_complexity"],
    'coverage_docs': ["coverage", "comment_lines_density"],
    'duplication': ["duplicated_lines_density"],
    'size': ["ncloc"],
    'ratings': ["reliability_rating", "security_rating"],
    'issues': ["open_issues"]
}

# Lista plana de m√©tricas para compatibilidad
METRICS = [metric for category in METRICS_CONFIG.values() for metric in category]

print("üîê Configuraci√≥n de autenticaci√≥n preparada")
print(f"üìä {len(METRICS)} m√©tricas configuradas para extracci√≥n")
print("‚úÖ Headers de API configurados con cach√©")
print("‚ö†Ô∏è  Token expuesto temporalmente para pruebas")

üîê Configuraci√≥n de autenticaci√≥n preparada
üìä 15 m√©tricas configuradas para extracci√≥n
‚úÖ Headers de API configurados con cach√©
‚ö†Ô∏è  Token expuesto temporalmente para pruebas


## 2. Configuraci√≥n de la API de SonarCloud

Configuramos los par√°metros necesarios para conectarnos a SonarCloud:

- **Token de autenticaci√≥n**: Credenciales para acceder a la API
- **Headers de autenticaci√≥n**: Configuraci√≥n b√°sica con base64 encoding
- **M√©tricas objetivo**: Lista de 15 m√©tricas de calidad de software a extraer

### M√©tricas de Calidad Configuradas:
Las m√©tricas se dividen en varias categor√≠as:
- **Errores y vulnerabilidades**: `bugs`, `vulnerabilities`, `security_hotspots`
- **Mantenibilidad**: `code_smells`, `technical_debt`, `sqale_rating`
- **Complejidad**: `complexity`, `cognitive_complexity`
- **Cobertura y documentaci√≥n**: `coverage`, `comment_lines_density`
- **Duplicaci√≥n**: `duplicated_lines_density`
- **Tama√±o**: `ncloc` (lines of code)
- **Ratings**: `reliability_rating`, `security_rating`

In [None]:
# Cargar datos de estudiantes
CSV_PATH = "https://raw.githubusercontent.com/TesisEnel/Recopilacion_Datos_CalidadCodigo/refs/heads/main/data/Estudiantes_2023-2024.csv"

try:
    # Cargar el CSV con informaci√≥n de estudiantes
    df_estudiantes = pd.read_csv(CSV_PATH)

    print("üìÅ Datos cargados exitosamente")
    print(f"üë• N√∫mero de estudiantes: {len(df_estudiantes)}")
    print(f"üìä Columnas disponibles: {list(df_estudiantes.columns)}")

    # Mostrar informaci√≥n b√°sica del dataset
    print("\nüîç Primeras 3 filas del dataset:")
    display(df_estudiantes.head(3))

    # Verificar columnas de SonarCloud
    sonar_columns = [col for col in df_estudiantes.columns if 'Sonar' in col]
    print(f"\nüéØ Columnas de SonarCloud encontradas: {sonar_columns}")

    # Contar proyectos no vac√≠os
    sonar_ap1_count = df_estudiantes['Sonar_Ap1'].notna().sum()
    sonar_ap2_count = df_estudiantes['Sonar_Ap2'].notna().sum()

    print(f"üìà Proyectos Sonar_Ap1 disponibles: {sonar_ap1_count}")
    print(f"üìà Proyectos Sonar_Ap2 disponibles: {sonar_ap2_count}")
    print(f"üìà Total de proyectos a procesar: {sonar_ap1_count + sonar_ap2_count}")

except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo CSV")
    print(f"üìç Buscando en: {CSV_PATH}")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")

üìÅ Datos cargados exitosamente
üë• N√∫mero de estudiantes: 60
üìä Columnas disponibles: ['Id', 'Semestre', 'Estudiante', 'Sexo', 'Email', 'Original_Repo_Ap1', 'Original_Repo_Ap2', 'Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2']

üîç Primeras 3 filas del dataset:


Unnamed: 0,Id,Semestre,Estudiante,Sexo,Email,Original_Repo_Ap1,Original_Repo_Ap2,Sonar_Ap1,Sonar_Ap2,Sonar_Repo_Ap1,Sonar_Repo_Ap2
0,1,2024-01,Aaron Eliezer Hern√°ndez Garc√≠a,1,atminifg655@gmail.com,https://github.com/aaron-developer25/SwiftPay.git,https://github.com/aaron-developer25/DealerPOS...,TesisEnel_SwiftPay-Aaron-Ap1,TesisEnel_DealerPOS-Aaron-ap2,https://github.com/TesisEnel/SwiftPay-Aaron-Ap1,https://github.com/TesisEnel/DealerPOS-Aaron-ap2
1,2,2023-03,Abraham El Hage Jreij,1,abrahamelhage2003@gmail.com,https://github.com/JPichardo2003/AguaMariaSolu...,https://github.com/A-EHJ/Final_Project_Ap2.git,TesisEnel_AguaMariaSolution-JulioPichardo-ap1,TesisEnel_Final_Project-Abraham-ap2,https://github.com/TesisEnel/AguaMariaSolution...,https://github.com/TesisEnel/Final_Project-Abr...
2,3,2024-02,Adiel Luis Garc√≠a Rosa,1,adiel.garcia0422@gmail.com,https://github.com/SamyJp23/PeakPerformance.git,https://github.com/Adiel040/GymProApp.git,TesisEnel_PeakPerformance-samuelAntonio-ap1,TesisEnel_GymProApp-AdielGarcia-Ap2,https://github.com/TesisEnel/PeakPerformance-s...,https://github.com/TesisEnel/GymProApp-AdielGa...



üéØ Columnas de SonarCloud encontradas: ['Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2']
üìà Proyectos Sonar_Ap1 disponibles: 60
üìà Proyectos Sonar_Ap2 disponibles: 60
üìà Total de proyectos a procesar: 120


## 3. Carga de Datos de Estudiantes

Cargamos el archivo CSV que contiene la informaci√≥n de los estudiantes, incluyendo las columnas `Sonar_Ap1` y `Sonar_Ap2` que contienen las claves de los proyectos en SonarCloud.

### Estructura esperada del CSV:
- **ID**: Identificador √∫nico del estudiante
- **Nombre**: Nombre del estudiante  
- **Sonar_Ap1**: Clave del proyecto de la Aplicaci√≥n 1 en SonarCloud
- **Sonar_Ap2**: Clave del proyecto de la Aplicaci√≥n 2 en SonarCloud
- **Otras columnas**: Informaci√≥n adicional del estudiante

## 4. Extracci√≥n de Claves de Proyecto

Procesamos el DataFrame de estudiantes para extraer todas las claves de proyecto de SonarCloud disponibles. Cada estudiante puede tener hasta 2 proyectos (AP1 y AP2).

### Funci√≥n implementada:

#### `extract_project_keys(df)`
- **Prop√≥sito**: Extraer y estructurar las claves de proyecto desde el DataFrame de estudiantes
- **Proceso**:
  1. **Iteraci√≥n por estudiante**: Revisamos cada fila del DataFrame
  2. **Validaci√≥n de datos**: Verificamos que las celdas no est√©n vac√≠as
  3. **Estructuraci√≥n**: Creamos una lista con la informaci√≥n del proyecto y estudiante
  4. **Categorizaci√≥n**: Separamos por assignment (AP1 vs AP2)

### Datos extra√≠dos por proyecto:
- `student_id`: ID del estudiante
- `nombre`: Nombre del estudiante
- `project_key`: Clave del proyecto en SonarCloud
- `assignment`: Tipo de aplicaci√≥n (AP1 o AP2)
- `row_index`: √çndice de la fila para futuras referencias

### Estad√≠sticas generadas:
- Total de claves de proyecto extra√≠das
- Conteo por assignment (AP1 vs AP2)
- Ejemplos de los primeros 5 proyectos
- DataFrame estructurado para procesamiento posterior

El resultado es una lista estructurada que facilita el procesamiento posterior con la API.

In [None]:
# Extraer project keys de SonarCloud
def extract_project_keys(df):
    """
    Extraer todas las claves de proyecto de SonarCloud del DataFrame
    """
    project_keys = []

    for index, row in df.iterrows():
        student_id = row.get('ID', f'Student_{index}')
        nombre = row.get('Estudiante', 'Unknown')

        # Procesar Sonar_Ap1
        if pd.notna(row['Sonar_Ap1']) and row['Sonar_Ap1'].strip():
            project_keys.append({
                'student_id': student_id,
                'nombre': nombre,
                'project_key': row['Sonar_Ap1'].strip(),
                'assignment': 'AP1',
                'row_index': index
            })

        # Procesar Sonar_Ap2
        if pd.notna(row['Sonar_Ap2']) and row['Sonar_Ap2'].strip():
            project_keys.append({
                'student_id': student_id,
                'nombre': nombre,
                'project_key': row['Sonar_Ap2'].strip(),
                'assignment': 'AP2',
                'row_index': index
            })

    return project_keys

# Extraer project keys
project_list = extract_project_keys(df_estudiantes)

print(f"üîë Total de project keys extra√≠dos: {len(project_list)}")

# Mostrar estad√≠sticas por assignment
ap1_count = len([p for p in project_list if p['assignment'] == 'AP1'])
ap2_count = len([p for p in project_list if p['assignment'] == 'AP2'])

print(f"üìä Proyectos AP1: {ap1_count}")
print(f"üìä Proyectos AP2: {ap2_count}")

# Mostrar algunos ejemplos
print("\nüîç Primeros 5 project keys:")
for i, project in enumerate(project_list[:5]):
    print(f"  {i+1}. {project['nombre']} - {project['assignment']}: {project['project_key']}")

# Crear DataFrame con los project keys
df_projects = pd.DataFrame(project_list)
print(f"\n‚úÖ DataFrame de proyectos creado con {len(df_projects)} filas")

üîë Total de project keys extra√≠dos: 120
üìä Proyectos AP1: 60
üìä Proyectos AP2: 60

üîç Primeros 5 project keys:
  1. Aaron Eliezer Hern√°ndez Garc√≠a - AP1: TesisEnel_SwiftPay-Aaron-Ap1
  2. Aaron Eliezer Hern√°ndez Garc√≠a - AP2: TesisEnel_DealerPOS-Aaron-ap2
  3. Abraham El Hage Jreij - AP1: TesisEnel_AguaMariaSolution-JulioPichardo-ap1
  4. Abraham El Hage Jreij - AP2: TesisEnel_Final_Project-Abraham-ap2
  5. Adiel Luis Garc√≠a Rosa - AP1: TesisEnel_PeakPerformance-samuelAntonio-ap1

‚úÖ DataFrame de proyectos creado con 120 filas


## 4. Implementaci√≥n de Funciones de Interacci√≥n con la API

Implementamos las funciones principales para interactuar con la API de SonarCloud de manera eficiente y robusta, incluyendo optimizaciones y manejo completo de errores.

### Funciones implementadas:

#### `fetch_project_metrics(project_key, metrics_list)`
- **Prop√≥sito**: Obtener m√©tricas de un proyecto espec√≠fico desde SonarCloud
- **Endpoint**: `/api/measures/component`
- **Caracter√≠sticas**:
  - ‚è±Ô∏è **Timing con decorador**: Mide tiempo de ejecuci√≥n
  - üîÑ **Sistema de reintentos**: 3 intentos con delay configurable
  - üõ°Ô∏è **Manejo robusto de errores**: Captura errores HTTP, conexi√≥n y timeout
  - üìä **Conversi√≥n autom√°tica de tipos**: Float/int seg√∫n el tipo de m√©trica
  - üìù **Logging estructurado**: Registra warnings y errores

#### `batch_fetch_metrics(project_list, batch_size, delay)`
- **Prop√≥sito**: Procesar m√∫ltiples proyectos con control de rate limiting
- **Caracter√≠sticas**:
  - ‚ö° **Procesamiento por lotes**: Evita sobrecargar la API
  - üìä **Progreso en tiempo real**: Indicadores de avance por batch
  - üéØ **Estad√≠sticas detalladas**: Tasa de √©xito/fallo al final
  - ‚è≥ **Rate limiting inteligente**: Delays configurables entre batches
  - üõ°Ô∏è **Tolerancia a fallos**: Contin√∫a aunque fallen proyectos individuales
  - ‚úÖ **Validaci√≥n de entrada**: Verifica estructura de datos

#### Funciones auxiliares:
- `convert_metric_value()`: Conversi√≥n inteligente de tipos de datos
- `create_error_response()`: Respuestas de error estandarizadas

In [None]:
# Funciones para interactuar con SonarCloud API (OPTIMIZADAS)

@timer_decorator
def fetch_project_metrics(project_key: str, metrics_list: List[str], retries: int = 3, delay: float = 5.0) -> Dict:
    """
    Obtener m√©tricas de un proyecto espec√≠fico desde SonarCloud con reintentos
    Versi√≥n optimizada con mejor manejo de errores y logging
    """
    url = f"{SONAR_BASE_URL}/measures/component"
    params = {
        'component': project_key,
        'metricKeys': ','.join(metrics_list)
    }

    for attempt in range(retries):
        try:
            response = requests.get(url, params=params, headers=get_auth_headers(), timeout=30)

            if response.status_code == 200:
                data = response.json()
                metrics_dict = {'project_key': project_key, 'status': 'success'}

                # Extraer m√©tricas de manera m√°s eficiente
                if 'component' in data and 'measures' in data['component']:
                    measures_map = {measure['metric']: measure.get('value') for measure in data['component']['measures']}
                    
                    for metric in metrics_list:
                        value = measures_map.get(metric)
                        metrics_dict[metric] = convert_metric_value(metric, value)
                else:
                    # Inicializar todas las m√©tricas como None si no hay datos
                    metrics_dict.update({metric: None for metric in metrics_list})

                return metrics_dict

            elif response.status_code == 401:
                logger.warning(f"Authentication error for project {project_key}")
                if attempt == retries - 1:
                    return create_error_response(project_key, 'authentication_error', response.status_code)
            else:
                logger.warning(f"HTTP error {response.status_code} for project {project_key}")
                if attempt == retries - 1:
                    return create_error_response(project_key, f'http_error_{response.status_code}', response.status_code)

            time.sleep(delay)

        except requests.exceptions.RequestException as e:
            logger.error(f"Connection error for project {project_key}: {e}")
            if attempt == retries - 1:
                return create_error_response(project_key, 'connection_error', str(e))
            time.sleep(delay)
        except Exception as e:
            logger.error(f"Unexpected error for project {project_key}: {e}")
            if attempt == retries - 1:
                return create_error_response(project_key, 'unexpected_error', str(e))
            time.sleep(delay)

    return create_error_response(project_key, 'failed_after_retries', 'Exceeded maximum retries')


def convert_metric_value(metric_key: str, value):
    """Convertir valores de m√©tricas al tipo apropiado"""
    if value is None:
        return None
    
    try:
        # M√©tricas que deben ser float
        float_metrics = ['coverage', 'duplicated_lines_density', 'comment_lines_density']
        if '.' in str(value) or metric_key in float_metrics:
            return float(value)
        else:
            return int(value)
    except ValueError:
        return value  # Mantener como string si no se puede convertir


def create_error_response(project_key: str, status: str, error_info=None):
    """Crear respuesta de error estandarizada"""
    response = {'project_key': project_key, 'status': status}
    if error_info:
        response['error'] = error_info
    return response


@timer_decorator
def batch_fetch_metrics(project_list: List[Dict], batch_size: int = 5, delay: float = 1.0) -> List[Dict]:
    """
    Obtener m√©tricas para m√∫ltiples proyectos con control de rate limiting
    Versi√≥n optimizada con mejor progreso y estad√≠sticas
    """
    validate_dataframe(pd.DataFrame(project_list), ['project_key'])
    
    results = []
    total_projects = len(project_list)
    total_batches = (total_projects + batch_size - 1) // batch_size

    print_section_header(f"üöÄ Extracci√≥n de m√©tricas para {total_projects} proyectos")
    print(f"‚öôÔ∏è  Configuraci√≥n: {batch_size} proyectos por batch, {delay}s de delay")

    for i in range(0, total_projects, batch_size):
        batch = project_list[i:i + batch_size]
        batch_num = (i // batch_size) + 1

        print(f"\nüì¶ Batch {batch_num}/{total_batches} ({len(batch)} proyectos)")

        batch_results = []
        for project in batch:
            project_key = project['project_key']
            print(f"  üîÑ {project_key}")

            metrics = fetch_project_metrics(project_key, METRICS)
            result = {**project, **metrics}
            batch_results.append(result)

            # Indicador de estado
            status_icon = "‚úÖ" if metrics['status'] == 'success' else "‚ùå"
            print(f"    {status_icon} {metrics.get('status', 'unknown')}")

        results.extend(batch_results)

        # Progress update
        progress = len(results) / total_projects * 100
        print(f"  üìä Progreso: {progress:.1f}% ({len(results)}/{total_projects})")

        # Delay entre batches
        if i + batch_size < total_projects:
            print(f"  ‚è≥ Esperando {delay}s...")
            time.sleep(delay)

    # Estad√≠sticas finales
    successful = [r for r in results if r.get('status') == 'success']
    print_section_header("üìà Estad√≠sticas de Extracci√≥n")
    print(f"‚úÖ Exitosos: {len(successful)} ({format_percentage(len(successful), total_projects)})")
    print(f"‚ùå Fallidos: {total_projects - len(successful)} ({format_percentage(total_projects - len(successful), total_projects)})")

    return results

print("üõ†Ô∏è  Funciones de API optimizadas y configuradas")
print("üì° Listo para extraer m√©tricas con mejor rendimiento")

üõ†Ô∏è  Funciones de API optimizadas y configuradas
üì° Listo para extraer m√©tricas con mejor rendimiento


## 5. Ejecuci√≥n de la Extracci√≥n de M√©tricas

Ejecutamos el proceso de extracci√≥n de m√©tricas utilizando las funciones optimizadas. Este es el paso operativo donde se realiza la comunicaci√≥n real con la API de SonarCloud.

### Configuraci√≥n de par√°metros:
- **BATCH_SIZE**: 3 proyectos por lote (optimizado para evitar rate limiting)
- **DELAY_BETWEEN_BATCHES**: 2.0 segundos de espera entre lotes

### Proceso de ejecuci√≥n:
1. **Llamada a batch_fetch_metrics()**: Procesa todos los proyectos en lotes
2. **An√°lisis de resultados**: Separa extracciones exitosas de fallidas
3. **Reporte de estad√≠sticas**: Cuenta y porcentajes de √©xito/fallo
4. **Muestra de datos**: Ejemplo de m√©tricas extra√≠das del primer proyecto exitoso

### Monitoreo incluido:
- ‚úÖ **Extracciones exitosas**: Proyectos procesados correctamente
- ‚ùå **Extracciones fallidas**: Proyectos con errores (proyecto no encontrado, permisos, etc.)
- üìä **Progreso en tiempo real**: Indicadores de estado por cada proyecto y batch
- üîç **Vista previa de datos**: Muestra m√©tricas clave del primer proyecto exitoso

### Salidas generadas:
- `metrics_results`: Lista completa con todos los resultados
- `successful_extractions`: Solo proyectos con m√©tricas extra√≠das exitosamente  
- `failed_extractions`: Proyectos que fallaron con informaci√≥n del error

> **Nota**: El proceso puede tomar varios minutos dependiendo del n√∫mero de proyectos. Los delays son necesarios para respetar los l√≠mites de la API de SonarCloud.

In [None]:
# Ejecutar extracci√≥n de m√©tricas
print("üöÄ Iniciando proceso de extracci√≥n de m√©tricas...")
print(f"üìä Total de proyectos a procesar: {len(project_list)}")

# Configurar par√°metros de extracci√≥n
BATCH_SIZE = 3  # Reducir para evitar rate limiting
DELAY_BETWEEN_BATCHES = 2.0  # Segundos de espera entre batches

# Ejecutar extracci√≥n
metrics_results = batch_fetch_metrics(
    project_list=project_list,
    batch_size=BATCH_SIZE,
    delay=DELAY_BETWEEN_BATCHES
)

print("\nüìà Resultados de la extracci√≥n:")
print(f"‚úÖ Total de proyectos procesados: {len(metrics_results)}")

# Analizar resultados
successful_extractions = [r for r in metrics_results if r.get('status') == 'success']
failed_extractions = [r for r in metrics_results if r.get('status') != 'success']

print(f"‚úÖ Extracciones exitosas: {len(successful_extractions)}")
print(f"‚ùå Extracciones fallidas: {len(failed_extractions)}")

if failed_extractions:
    print("\n‚ö†Ô∏è  Proyectos con errores:")
    for failed in failed_extractions[:5]:  # Mostrar solo los primeros 5
        print(f"  - {failed['project_key']}: {failed.get('status', 'unknown error')}")

# Mostrar ejemplo de m√©tricas extra√≠das
if successful_extractions:
    print("\nüîç Ejemplo de m√©tricas extra√≠das (primer proyecto exitoso):")
    example = successful_extractions[0]
    print(f"Proyecto: {example['project_key']}")
    print(f"Estudiante: {example['nombre']}")
    print(f"Assignment: {example['assignment']}")

    # Mostrar algunas m√©tricas clave
    key_metrics = ['bugs', 'vulnerabilities', 'code_smells', 'ncloc', 'coverage']
    for metric in key_metrics:
        value = example.get(metric, 'N/A')
        print(f"  {metric}: {value}")

print("\n‚úÖ Extracci√≥n de m√©tricas completada")

üöÄ Iniciando proceso de extracci√≥n de m√©tricas...
üìä Total de proyectos a procesar: 120

üöÄ Extracci√≥n de m√©tricas para 120 proyectos
‚öôÔ∏è  Configuraci√≥n: 3 proyectos por batch, 2.0s de delay

üì¶ Batch 1/40 (3 proyectos)
  üîÑ TesisEnel_SwiftPay-Aaron-Ap1
‚è±Ô∏è  fetch_project_metrics ejecutado en 0.76 segundos
    ‚úÖ success
  üîÑ TesisEnel_DealerPOS-Aaron-ap2
‚è±Ô∏è  fetch_project_metrics ejecutado en 0.41 segundos
    ‚úÖ success
  üîÑ TesisEnel_AguaMariaSolution-JulioPichardo-ap1
‚è±Ô∏è  fetch_project_metrics ejecutado en 0.41 segundos
    ‚úÖ success
  üìä Progreso: 2.5% (3/120)
  ‚è≥ Esperando 2.0s...

üì¶ Batch 2/40 (3 proyectos)
  üîÑ TesisEnel_Final_Project-Abraham-ap2
‚è±Ô∏è  fetch_project_metrics ejecutado en 0.45 segundos
    ‚úÖ success
  üîÑ TesisEnel_PeakPerformance-samuelAntonio-ap1
‚è±Ô∏è  fetch_project_metrics ejecutado en 0.42 segundos
    ‚úÖ success
  üîÑ TesisEnel_GymProApp-AdielGarcia-Ap2
‚è±Ô∏è  fetch_project_metrics ejecutado en 1.02 seg

## 6. Procesamiento y An√°lisis de Datos Extra√≠dos

Convertimos los resultados de la extracci√≥n en un DataFrame estructurado y realizamos un an√°lisis inicial de la calidad de los datos.

### Procesamiento realizado:
1. **Creaci√≥n de DataFrame**: Convierte `successful_extractions` en DataFrame pandas
2. **Separaci√≥n de columnas**: Distingue informaci√≥n del proyecto vs m√©tricas
3. **An√°lisis estad√≠stico**: Genera estad√≠sticas descriptivas de m√©tricas num√©ricas
4. **Validaci√≥n de datos**: Identifica valores nulos y patrones

### An√°lisis incluido:
- **üìä Estad√≠sticas descriptivas**: Media, mediana, min, max para m√©tricas num√©ricas
- **‚ùì An√°lisis de valores nulos**: Identificaci√≥n de m√©tricas faltantes por proyecto
- **üìà Distribuci√≥n por assignment**: Conteo de proyectos AP1 vs AP2 exitosos
- **üîç Vista previa**: Primeras filas del dataset para validaci√≥n visual

### Separaci√≥n de columnas:
- **Informaci√≥n del proyecto**: student_id, nombre, project_key, assignment, row_index, status
- **M√©tricas de calidad**: bugs, vulnerabilities, code_smells, ncloc, coverage, etc.

### Variables generadas:
- `df_metrics`: DataFrame con m√©tricas extra√≠das exitosamente
- `info_columns`: Lista de columnas de informaci√≥n del proyecto
- `metric_columns`: Lista de columnas con m√©tricas de calidad
- `numeric_metrics`: Subset con solo m√©tricas num√©ricas
- `stats`: Estad√≠sticas descriptivas completas

Este an√°lisis nos permite identificar patrones y posibles problemas en los datos antes de continuar con la combinaci√≥n.

In [None]:
# Procesar y estructurar los datos extra√≠dos
print("üîÑ Procesando datos extra√≠dos...")

# Crear DataFrame con las m√©tricas extra√≠das
df_metrics = pd.DataFrame(successful_extractions)

if len(df_metrics) > 0:
    print(f"üìä DataFrame de m√©tricas creado con {len(df_metrics)} filas")

    # Mostrar informaci√≥n del DataFrame
    print(f"üìã Columnas disponibles: {len(df_metrics.columns)}")

    # Separar columnas de informaci√≥n del proyecto vs m√©tricas
    info_columns = ['student_id', 'nombre', 'project_key', 'assignment', 'row_index', 'status']
    metric_columns = [col for col in df_metrics.columns if col not in info_columns]

    print(f"üìà M√©tricas extra√≠das: {len(metric_columns)}")
    print(f"‚ÑπÔ∏è  Columnas de informaci√≥n: {len(info_columns)}")

    # Mostrar estad√≠sticas b√°sicas de las m√©tricas num√©ricas
    numeric_metrics = df_metrics[metric_columns].select_dtypes(include=['number'])

    if len(numeric_metrics.columns) > 0:
        print(f"\nüìä Estad√≠sticas descriptivas de m√©tricas num√©ricas:")
        print(f"M√©tricas num√©ricas encontradas: {list(numeric_metrics.columns)}")

        # Mostrar estad√≠sticas b√°sicas
        stats = numeric_metrics.describe()
        display(stats.round(2))

        # Verificar valores nulos
        null_counts = df_metrics[metric_columns].isnull().sum()
        print(f"\n‚ùì Valores nulos por m√©trica:")
        for metric, null_count in null_counts.items():
            if null_count > 0:
                print(f"  {metric}: {null_count}/{len(df_metrics)} ({null_count/len(df_metrics)*100:.1f}%)")

    # Mostrar distribuci√≥n por assignment
    assignment_dist = df_metrics['assignment'].value_counts()
    print(f"\nüìä Distribuci√≥n por assignment:")
    for assignment, count in assignment_dist.items():
        print(f"  {assignment}: {count} proyectos")

    # Mostrar primeras filas del DataFrame
    print(f"\nüîç Primeras 3 filas del dataset de m√©tricas:")
    display(df_metrics[info_columns + metric_columns[:5]].head(3))

else:
    print("‚ùå No se pudieron procesar las m√©tricas extra√≠das")
    df_metrics = pd.DataFrame()

print("‚úÖ Procesamiento de datos completado")

üîÑ Procesando datos extra√≠dos...
üìä DataFrame de m√©tricas creado con 120 filas
üìã Columnas disponibles: 21
üìà M√©tricas extra√≠das: 15
‚ÑπÔ∏è  Columnas de informaci√≥n: 6

üìä Estad√≠sticas descriptivas de m√©tricas num√©ricas:
M√©tricas num√©ricas encontradas: ['bugs', 'vulnerabilities', 'security_hotspots', 'code_smells', 'sqale_rating', 'complexity', 'cognitive_complexity', 'coverage', 'comment_lines_density', 'duplicated_lines_density', 'ncloc', 'reliability_rating', 'security_rating', 'open_issues']


Unnamed: 0,bugs,vulnerabilities,security_hotspots,code_smells,sqale_rating,complexity,cognitive_complexity,coverage,comment_lines_density,duplicated_lines_density,ncloc,reliability_rating,security_rating,open_issues
count,120.0,120.0,120.0,120.0,120.0,120.0,120.0,14.0,120.0,120.0,120.0,120.0,120.0,120.0
mean,2.33,0.32,1.57,67.04,1.0,446.7,322.16,0.0,2.86,4.26,5390.81,1.85,2.08,69.69
std,5.32,0.53,1.36,62.9,0.0,349.23,404.55,0.0,2.5,6.64,4768.18,1.17,1.76,64.65
min,0.0,0.0,0.0,8.0,1.0,49.0,15.0,0.0,0.1,0.0,1056.0,1.0,1.0,8.0
25%,0.0,0.0,1.0,30.25,1.0,201.0,51.75,0.0,1.2,0.4,2234.75,1.0,1.0,31.25
50%,0.0,0.0,1.0,43.0,1.0,323.0,154.0,0.0,2.35,1.95,3107.0,1.0,1.0,46.0
75%,1.0,1.0,2.0,73.75,1.0,619.0,415.0,0.0,3.82,5.9,6773.0,3.0,5.0,76.0
max,31.0,2.0,7.0,294.0,1.0,1735.0,1776.0,0.0,18.9,39.1,25937.0,5.0,5.0,299.0



‚ùì Valores nulos por m√©trica:
  technical_debt: 120/120 (100.0%)
  coverage: 106/120 (88.3%)

üìä Distribuci√≥n por assignment:
  AP1: 60 proyectos
  AP2: 60 proyectos

üîç Primeras 3 filas del dataset de m√©tricas:


Unnamed: 0,student_id,nombre,project_key,assignment,row_index,status,bugs,vulnerabilities,security_hotspots,code_smells,technical_debt
0,Student_0,Aaron Eliezer Hern√°ndez Garc√≠a,TesisEnel_SwiftPay-Aaron-Ap1,AP1,0,success,8,2,0,239,
1,Student_0,Aaron Eliezer Hern√°ndez Garc√≠a,TesisEnel_DealerPOS-Aaron-ap2,AP2,0,success,2,1,2,238,
2,Student_1,Abraham El Hage Jreij,TesisEnel_AguaMariaSolution-JulioPichardo-ap1,AP1,1,success,0,0,1,47,


‚úÖ Procesamiento de datos completado


## 7. Combinaci√≥n de Datos de Estudiantes con M√©tricas

Integramos las m√©tricas extra√≠das con la informaci√≥n original de los estudiantes para crear un dataset completo y listo para an√°lisis.

### Proceso de combinaci√≥n optimizado:
1. **Preservaci√≥n de estructura**: Mantenemos todas las columnas del CSV original de estudiantes
2. **Separaci√≥n por assignment**: Procesamos AP1 y AP2 independientemente para mayor eficiencia
3. **Sufijos de identificaci√≥n**: Agregamos `_AP1` y `_AP2` a cada m√©trica para distinguir assignments
4. **Joins optimizados**: Utilizamos pandas joins en lugar de iteraciones para mejor rendimiento
5. **Manejo de datos faltantes**: Asignamos `None` para proyectos sin m√©tricas disponibles

### Funci√≥n optimizada implementada:
- **`merge_student_data_with_metrics()`**: Funci√≥n principal de combinaci√≥n
- **Separaci√≥n eficiente**: Divide m√©tricas por assignment antes del procesamiento
- **Pivot operations**: Usa `set_index()` y `add_suffix()` para restructuraci√≥n eficiente
- **Left joins**: Preserva todos los estudiantes, incluso sin m√©tricas

### Estructura del dataset resultante:
- **Columnas originales**: ID, Nombre, Sonar_Ap1, Sonar_Ap2, etc.
- **30 nuevas columnas de m√©tricas**: 15 m√©tricas √ó 2 assignments (AP1/AP2)
- **Nomenclatura consistente**: `{metrica}_{assignment}` (ej: `bugs_AP1`, `ncloc_AP2`)

### Validaci√≥n incluida:
- **üìä Conteo de cobertura**: Estudiantes con m√©tricas AP1/AP2
- **üìã Verificaci√≥n de columnas**: Confirmaci√≥n de estructura correcta
- **üîç Vista previa**: Muestra sample del dataset combinado

### Variables generadas:
- `df_combined`: Dataset final con estudiantes + m√©tricas
- `metric_ap1_cols`/`metric_ap2_cols`: Listas de columnas de m√©tricas por assignment
- Estad√≠sticas de cobertura por assignment

Esta combinaci√≥n optimizada nos permite mantener la integridad de los datos originales mientras agregamos las m√©tricas de calidad de manera estructurada y eficiente.

In [None]:
# Combinar datos de estudiantes con m√©tricas extra√≠das (OPTIMIZADO)
def merge_student_data_with_metrics(df_estudiantes, df_metrics):
    """
    Combinar datos originales de estudiantes con las m√©tricas extra√≠das
    Versi√≥n optimizada usando pandas operations
    """
    print("üîó Iniciando proceso de combinaci√≥n de datos optimizado...")

    # Crear copia del DataFrame de estudiantes
    df_combined = df_estudiantes.copy()
    
    # Separar m√©tricas por assignment para procesamiento m√°s eficiente
    df_ap1 = df_metrics[df_metrics['assignment'] == 'AP1'].copy()
    df_ap2 = df_metrics[df_metrics['assignment'] == 'AP2'].copy()
    
    # Funci√≥n helper para agregar m√©tricas
    def add_metrics_suffix(df_source, suffix):
        """Agregar sufijo a las columnas de m√©tricas"""
        metrics_dict = {}
        for metric in METRICS:
            metrics_dict[f'{metric}_{suffix}'] = df_source.get(metric, None)
        return metrics_dict
    
    # Procesar m√©tricas AP1
    if len(df_ap1) > 0:
        df_ap1_pivot = df_ap1.set_index('row_index')[METRICS].add_suffix('_AP1')
        df_combined = df_combined.join(df_ap1_pivot, how='left')
    else:
        # Agregar columnas vac√≠as si no hay datos AP1
        for metric in METRICS:
            df_combined[f'{metric}_AP1'] = None
    
    # Procesar m√©tricas AP2
    if len(df_ap2) > 0:
        df_ap2_pivot = df_ap2.set_index('row_index')[METRICS].add_suffix('_AP2')
        df_combined = df_combined.join(df_ap2_pivot, how='left')
    else:
        # Agregar columnas vac√≠as si no hay datos AP2
        for metric in METRICS:
            df_combined[f'{metric}_AP2'] = None

    return df_combined

# Ejecutar combinaci√≥n de datos optimizada
if len(df_metrics) > 0:
    df_combined = merge_student_data_with_metrics(df_estudiantes, df_metrics)

    print(f"‚úÖ Datos combinados exitosamente")
    print(f"üë• Estudiantes en dataset combinado: {len(df_combined)}")
    print(f"üìä Total de columnas: {len(df_combined.columns)}")

    # Contar columnas de m√©tricas a√±adidas
    metric_ap1_cols = [col for col in df_combined.columns if col.endswith('_AP1')]
    metric_ap2_cols = [col for col in df_combined.columns if col.endswith('_AP2')]

    print(f"üìà Columnas de m√©tricas AP1: {len(metric_ap1_cols)}")
    print(f"üìà Columnas de m√©tricas AP2: {len(metric_ap2_cols)}")

    # Verificar cobertura de datos (optimizado)
    ap1_projects_with_metrics = df_combined[metric_ap1_cols].notna().any(axis=1).sum()
    ap2_projects_with_metrics = df_combined[metric_ap2_cols].notna().any(axis=1).sum()

    print(f"\nüìä Cobertura de m√©tricas:")
    print(f"  Estudiantes con m√©tricas AP1: {ap1_projects_with_metrics}")
    print(f"  Estudiantes con m√©tricas AP2: {ap2_projects_with_metrics}")

    # Mostrar algunas columnas del dataset combinado
    sample_columns = ['ID', 'Estudiante', 'Sonar_Ap1', 'Sonar_Ap2', 'bugs_AP1', 'bugs_AP2', 'ncloc_AP1', 'ncloc_AP2']
    available_sample_cols = [col for col in sample_columns if col in df_combined.columns]

    if available_sample_cols:
        print(f"\nüîç Vista previa del dataset combinado:")
        display(df_combined[available_sample_cols].head(3))

else:
    print("‚ùå No se pueden combinar datos sin m√©tricas extra√≠das")
    df_combined = df_estudiantes.copy()

print("‚úÖ Combinaci√≥n de datos completada con optimizaciones")

üîó Iniciando proceso de combinaci√≥n de datos optimizado...
‚úÖ Datos combinados exitosamente
üë• Estudiantes en dataset combinado: 60
üìä Total de columnas: 41
üìà Columnas de m√©tricas AP1: 15
üìà Columnas de m√©tricas AP2: 15

üìä Cobertura de m√©tricas:
  Estudiantes con m√©tricas AP1: 60
  Estudiantes con m√©tricas AP2: 60

üîç Vista previa del dataset combinado:


Unnamed: 0,Estudiante,Sonar_Ap1,Sonar_Ap2,bugs_AP1,bugs_AP2,ncloc_AP1,ncloc_AP2
0,Aaron Eliezer Hern√°ndez Garc√≠a,TesisEnel_SwiftPay-Aaron-Ap1,TesisEnel_DealerPOS-Aaron-ap2,8,2,6773,14674
1,Abraham El Hage Jreij,TesisEnel_AguaMariaSolution-JulioPichardo-ap1,TesisEnel_Final_Project-Abraham-ap2,0,0,5857,4075
2,Adiel Luis Garc√≠a Rosa,TesisEnel_PeakPerformance-samuelAntonio-ap1,TesisEnel_GymProApp-AdielGarcia-Ap2,1,0,2250,5736


‚úÖ Combinaci√≥n de datos completada con optimizaciones


## 8. Exportaci√≥n de Resultados y Generaci√≥n de Reportes

Finalizamos el proceso exportando los datos procesados y generando reportes comprensivos del proceso de extracci√≥n. Los archivos se generan con nombres fijos y se sobrescriben en cada ejecuci√≥n.

### Archivos exportados (nombres fijos):

#### 1. Dataset Combinado Principal
- **Archivo**: `Estudiantes_2023-2024_con_metricas_sonarcloud.csv`
- **Contenido**: Datos originales de estudiantes + 30 columnas de m√©tricas SonarCloud
- **Uso**: An√°lisis estad√≠stico, visualizaciones, machine learning
- **Estructura**: Una fila por estudiante con todas las m√©tricas AP1/AP2
- **Comportamiento**: Se sobrescribe en cada ejecuci√≥n

#### 2. M√©tricas Raw (Formato Largo)
- **Archivo**: `metricas_sonarcloud_raw.csv`
- **Contenido**: M√©tricas extra√≠das en formato normalizado (una fila por proyecto)
- **Uso**: An√°lisis detallado por proyecto, debugging, auditor√≠a
- **Estructura**: project_key, assignment, m√©tricas individuales
- **Comportamiento**: Se sobrescribe en cada ejecuci√≥n

#### 3. Configuraci√≥n de Extracci√≥n
- **Archivo**: `extraction_config.json`
- **Contenido**: Par√°metros utilizados, m√©tricas configuradas, estad√≠sticas del proceso
- **Uso**: Reproducibilidad, documentaci√≥n, troubleshooting
- **Comportamiento**: Se sobrescribe en cada ejecuci√≥n

### Reporte comprensivo generado:
- **üìä Estad√≠sticas generales**: Total de estudiantes, proyectos identificados, extracciones exitosas
- **‚úÖ Tasa de √©xito**: Ratio de extracciones exitosas vs fallidas
- **üìà Cobertura de datos**: 
  - Estudiantes con m√©tricas AP1, AP2, o ambas
  - Porcentaje de completitud por m√©trica espec√≠fica
- **üìã Configuraci√≥n documentada**: Par√°metros de batch, delays, m√©tricas extra√≠das

### Caracter√≠sticas de exportaci√≥n:
- **? Nombres consistentes**: Archivos con nombres fijos para facilitar automatizaci√≥n
- **üîÑ Sobrescritura autom√°tica**: Los archivos se reemplazan en cada ejecuci√≥n
- **üî§ UTF-8 encoding**: Preservaci√≥n correcta de caracteres especiales
- **üìÅ Organizaci√≥n**: Archivos generados en directorio de trabajo actual
- **üõ°Ô∏è Error handling**: Manejo robusto de errores de escritura
- **üïê Timestamp en reporte**: Fecha/hora de √∫ltima extracci√≥n registrada en el archivo

### Estad√≠sticas finales mostradas:
- Total de estudiantes procesados
- Proyectos SonarCloud identificados y procesados
- M√©tricas extra√≠das por assignment (AP1/AP2)
- Cobertura de datos por m√©trica clave

> **Importante**: Los archivos se sobrescriben en cada ejecuci√≥n para mantener siempre la versi√≥n m√°s actualizada. El timestamp se registra dentro del contenido para trazabilidad.

In [None]:
# Exportar resultados y generar reportes (con nombres de archivo fijos)
from datetime import datetime

print("üíæ Preparando exportaci√≥n de resultados con nombres fijos...")

# 1. Exportar dataset combinado completo (nombre fijo)
output_file_combined = "Estudiantes_2023-2024_con_metricas_sonarcloud.csv"

try:
    df_combined.to_csv(output_file_combined, index=False, encoding='utf-8')
    print(f"‚úÖ Dataset combinado exportado: {output_file_combined}")
    print(f"üìä Filas exportadas: {len(df_combined)}")
    print(f"üìã Columnas exportadas: {len(df_combined.columns)}")
    print(f"üîÑ Archivo sobrescrito exitosamente")
except Exception as e:
    print(f"‚ùå Error al exportar dataset combinado: {e}")

# 2. Exportar solo las m√©tricas extra√≠das (nombre fijo)
if len(df_metrics) > 0:
    output_file_metrics = "metricas_sonarcloud_raw.csv"
    try:
        df_metrics.to_csv(output_file_metrics, index=False, encoding='utf-8')
        print(f"‚úÖ M√©tricas raw exportadas: {output_file_metrics}")
        print(f"üìä Proyectos exportados: {len(df_metrics)}")
        print(f"üîÑ Archivo sobrescrito exitosamente")
    except Exception as e:
        print(f"‚ùå Error al exportar m√©tricas raw: {e}")

# 3. Generar reporte de resumen
print(f"\nüìã REPORTE DE EXTRACCI√ìN DE M√âTRICAS")
print(f"=" * 50)
print(f"üïê Fecha y hora de extracci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üë• Total de estudiantes: {len(df_estudiantes)}")
print(f"üéØ Proyectos identificados: {len(project_list)}")
print(f"‚úÖ M√©tricas extra√≠das exitosamente: {len(successful_extractions)}")
print(f"‚ùå Extracciones fallidas: {len(failed_extractions)}")
print(f"üìä M√©tricas por proyecto: {len(METRICS)}")

if len(df_combined) > 0:
    print(f"\nüìà ESTAD√çSTICAS DEL DATASET FINAL:")

    # Contar estudiantes con datos completos
    students_with_ap1 = (df_combined[[col for col in df_combined.columns if col.endswith('_AP1')]].notna().any(axis=1)).sum()
    students_with_ap2 = (df_combined[[col for col in df_combined.columns if col.endswith('_AP2')]].notna().any(axis=1)).sum()
    students_with_both = (
        (df_combined[[col for col in df_combined.columns if col.endswith('_AP1')]].notna().any(axis=1)) &
        (df_combined[[col for col in df_combined.columns if col.endswith('_AP2')]].notna().any(axis=1))
    ).sum()

    print(f"  üìä Estudiantes con m√©tricas AP1: {students_with_ap1}")
    print(f"  üìä Estudiantes con m√©tricas AP2: {students_with_ap2}")
    print(f"  üìä Estudiantes con ambas m√©tricas: {students_with_both}")

    # Mostrar cobertura por m√©trica
    print(f"\nüìä COBERTURA POR M√âTRICA (% de proyectos con datos):")
    for metric in METRICS[:5]:  # Mostrar las primeras 5 m√©tricas
        ap1_coverage = df_combined[f'{metric}_AP1'].notna().sum() / len(df_combined) * 100
        ap2_coverage = df_combined[f'{metric}_AP2'].notna().sum() / len(df_combined) * 100
        print(f"  {metric}: AP1={ap1_coverage:.1f}%, AP2={ap2_coverage:.1f}%")

# 4. Guardar configuraci√≥n utilizada (nombre fijo)
config_info = {
    'ultima_extraccion': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'total_students': len(df_estudiantes),
    'projects_found': len(project_list),
    'metrics_extracted': len(successful_extractions),
    'extraction_failures': len(failed_extractions),
    'metrics_configured': METRICS,
    'batch_size': BATCH_SIZE,
    'delay_between_batches': DELAY_BETWEEN_BATCHES,
    'archivos_generados': {
        'dataset_combinado': output_file_combined,
        'metricas_raw': output_file_metrics if len(df_metrics) > 0 else None,
        'configuracion': 'extraction_config.json'
    }
}

config_file = "extraction_config.json"
try:
    with open(config_file, 'w', encoding='utf-8') as f:
        json.dump(config_info, f, indent=2, ensure_ascii=False)
    print(f"\n‚úÖ Configuraci√≥n guardada: {config_file}")
    print(f"üîÑ Archivo de configuraci√≥n sobrescrito exitosamente")
except Exception as e:
    print(f"‚ùå Error al guardar configuraci√≥n: {e}")

print(f"\nüéâ EXTRACCI√ìN COMPLETADA EXITOSAMENTE!")
print(f"üìÅ Archivos disponibles en el directorio de trabajo:")
print(f"   üìÑ {output_file_combined}")
if len(df_metrics) > 0:
    print(f"   üìÑ {output_file_metrics}")
print(f"   üìÑ {config_file}")
print(f"üìä Listo para an√°lisis posterior de m√©tricas de calidad de software")
print(f"üîÑ Los archivos se sobrescriben en cada ejecuci√≥n para mantener la versi√≥n m√°s actual")

üíæ Preparando exportaci√≥n de resultados con nombres fijos...
‚úÖ Dataset combinado exportado: Estudiantes_2023-2024_con_metricas_sonarcloud.csv
üìä Filas exportadas: 60
üìã Columnas exportadas: 41
üîÑ Archivo sobrescrito exitosamente
‚úÖ M√©tricas raw exportadas: metricas_sonarcloud_raw.csv
üìä Proyectos exportados: 120
üîÑ Archivo sobrescrito exitosamente

üìã REPORTE DE EXTRACCI√ìN DE M√âTRICAS
üïê Fecha y hora de extracci√≥n: 2025-08-10 11:48:19
üë• Total de estudiantes: 60
üéØ Proyectos identificados: 120
‚úÖ M√©tricas extra√≠das exitosamente: 120
‚ùå Extracciones fallidas: 0
üìä M√©tricas por proyecto: 15

üìà ESTAD√çSTICAS DEL DATASET FINAL:
  üìä Estudiantes con m√©tricas AP1: 60
  üìä Estudiantes con m√©tricas AP2: 60
  üìä Estudiantes con ambas m√©tricas: 60

üìä COBERTURA POR M√âTRICA (% de proyectos con datos):
  bugs: AP1=100.0%, AP2=100.0%
  vulnerabilities: AP1=100.0%, AP2=100.0%
  security_hotspots: AP1=100.0%, AP2=100.0%
  code_smells: AP1=100.0%, AP2=

In [None]:
# Montar Google Drive (solo para Google Colab)
try:
    from google.colab import drive
    drive.mount('/content/drive')
    print("‚úÖ Google Drive montado exitosamente")
except ImportError:
    print("‚ÑπÔ∏è  No se detect√≥ Google Colab - ejecutando en entorno local")
except Exception as e:
    print(f"‚ö†Ô∏è  Error al montar Google Drive: {e}")