# Extracci√≥n de Issues Detallados desde SonarCloud

Este notebook est√° dise√±ado para extraer todos los issues (problemas) detallados de los proyectos de SonarCloud de los estudiantes, proporcionando un an√°lisis profundo de la calidad del c√≥digo a nivel de issue individual.

## Objetivos:
1. **Cargar datos** de proyectos de estudiantes desde el CSV con columnas Sonar_Ap1 y Sonar_Ap2
2. **Extraer issues detallados** desde SonarCloud API para cada proyecto utilizando `/api/issues/search`
3. **Procesar y categorizar** issues por severidad, tipo y regla aplicada
4. **Generar an√°lisis** de patrones de calidad de c√≥digo por estudiante y assignment
5. **Exportar resultados** para an√°lisis estad√≠sticos posteriores

## Informaci√≥n Extra√≠da por Issue:
- **Identificaci√≥n**: Issue key, project key, regla aplicada
- **Clasificaci√≥n**: Severidad (CRITICAL, MAJOR, MINOR, etc.), tipo (BUG, VULNERABILITY, CODE_SMELL)
- **Localizaci√≥n**: Archivo/componente afectado, l√≠nea de c√≥digo espec√≠fica
- **Descripci√≥n**: Mensaje detallado del problema detectado
- **Contexto**: Informaci√≥n del estudiante y assignment (AP1/AP2)

## Diferencia con el Notebook Anterior:
- **Enfoque**: Issues individuales vs. m√©tricas agregadas
- **Granularidad**: Nivel de l√≠nea de c√≥digo vs. nivel de proyecto
- **An√°lisis**: Patrones espec√≠ficos de problemas vs. estad√≠sticas generales
- **Volumen**: Mayor cantidad de datos detallados por proyecto

In [1]:
# Instalaci√≥n de dependencias (ejecutar solo si es necesario)
import subprocess
import sys

def install_package(package):
    """Instalar paquete si no est√° disponible"""
    try:
        __import__(package)
        print(f"‚úÖ {package} ya est√° instalado")
    except ImportError:
        print(f"üîÑ Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} instalado exitosamente")

# Lista de paquetes requeridos
required_packages = ['pandas', 'requests']

print("üîß Verificando e instalando dependencias...")
for package in required_packages:
    install_package(package)

print("‚úÖ Todas las dependencias est√°n listas")

üîß Verificando e instalando dependencias...
‚úÖ pandas ya est√° instalado
‚úÖ requests ya est√° instalado
‚úÖ Todas las dependencias est√°n listas


In [2]:
# Importar librer√≠as necesarias
import pandas as pd
import requests
import json
import base64
import time
from datetime import datetime
from typing import Dict, List, Optional
import warnings
import logging
from functools import wraps
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")
print("üìù Pandas version:", pd.__version__)
print("üåê Requests disponible para API calls")
print("üïê Datetime y logging configurados")

‚úÖ Librer√≠as importadas correctamente
üìù Pandas version: 2.3.1
üåê Requests disponible para API calls
üïê Datetime y logging configurados


In [3]:
# Funciones utilitarias para optimizar el c√≥digo
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

def timer_decorator(func):
    """Decorador para medir tiempo de ejecuci√≥n de funciones"""
    @wraps(func)
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"‚è±Ô∏è  {func.__name__} ejecutado en {end_time - start_time:.2f} segundos")
        return result
    return wrapper

def clean_message_for_csv(message):
    """Limpiar mensaje para formato CSV"""
    if not message:
        return ""
    # Escapar comillas dobles duplic√°ndolas y envolver en comillas
    cleaned = message.replace('"', '""')
    return f'"{cleaned}"'

def safe_divide(numerator, denominator):
    """Divisi√≥n segura que evita divisi√≥n por cero"""
    return numerator / denominator if denominator != 0 else 0

def format_percentage(value, total):
    """Formatear porcentaje de manera consistente"""
    return f"{safe_divide(value, total) * 100:.1f}%"

def print_section_header(title, char="=", width=50):
    """Imprimir headers de secci√≥n consistentes"""
    print(f"\n{title}")
    print(char * width)

print("üõ†Ô∏è  Funciones utilitarias cargadas")
print("üìä Timer, limpieza de datos y formateo disponibles")

üõ†Ô∏è  Funciones utilitarias cargadas
üìä Timer, limpieza de datos y formateo disponibles


## 1. Configuraci√≥n de la API de SonarCloud

Configuramos los par√°metros necesarios para conectarnos a SonarCloud y extraer issues detallados:

- **Token de autenticaci√≥n**: Credenciales para acceder a la API de SonarCloud
- **Headers de autenticaci√≥n**: Configuraci√≥n b√°sica con base64 encoding
- **Organizaci√≥n**: Clave de la organizaci√≥n en SonarCloud (`tesisenel`)
- **Endpoints**: URLs para b√∫squeda de proyectos e issues

### Diferencias con Extracci√≥n de M√©tricas:
- **Endpoint principal**: `/api/issues/search` (vs `/api/measures/component`)
- **Paginaci√≥n**: Manejo de grandes vol√∫menes de issues por proyecto
- **Filtros**: Capacidad de filtrar por tipo de issue, severidad, estado
- **Detalle**: Informaci√≥n espec√≠fica de ubicaci√≥n (archivo, l√≠nea)

In [4]:
# Configuraci√≥n de SonarCloud API para extracci√≥n de issues
from functools import lru_cache

# Configuraci√≥n de autenticaci√≥n (usando el mismo token del notebook anterior)
SONAR_TOKEN = "cc64d7ea652e603cacbc87bbb9c7b550efee7353"
SONAR_BASE_URL = "https://sonarcloud.io/api"
SONAR_ORGANIZATION = "tesisenel"

# Cache para headers de autenticaci√≥n
@lru_cache(maxsize=1)
def get_auth_headers():
    """Crear headers de autenticaci√≥n para SonarCloud API (con cach√©)"""
    auth_string = f"{SONAR_TOKEN}:"
    auth_bytes = auth_string.encode('ascii')
    auth_b64 = base64.b64encode(auth_bytes).decode('ascii')
    
    return {
        'Authorization': f'Basic {auth_b64}',
        'Content-Type': 'application/json'
    }

# Configuraci√≥n de par√°metros de extracci√≥n
ISSUES_CONFIG = {
    'page_size': 500,  # M√°ximo permitido por SonarCloud
    'max_retries': 3,
    'retry_delay': 5.0,
    'batch_delay': 2.0,
    'timeout': 30
}

# Tipos de issues que vamos a extraer
ISSUE_TYPES = ['BUG', 'VULNERABILITY', 'CODE_SMELL']
SEVERITIES = ['BLOCKER', 'CRITICAL', 'MAJOR', 'MINOR', 'INFO']

print("üîê Configuraci√≥n de autenticaci√≥n preparada")
print(f"üè¢ Organizaci√≥n: {SONAR_ORGANIZATION}")
print(f"üìä Page size: {ISSUES_CONFIG['page_size']} issues por p√°gina")
print(f"üîÑ Reintentos: {ISSUES_CONFIG['max_retries']} m√°ximo")
print("‚úÖ Headers de API configurados con cach√©")
print("‚ö†Ô∏è  Token expuesto temporalmente para pruebas")

üîê Configuraci√≥n de autenticaci√≥n preparada
üè¢ Organizaci√≥n: tesisenel
üìä Page size: 500 issues por p√°gina
üîÑ Reintentos: 3 m√°ximo
‚úÖ Headers de API configurados con cach√©
‚ö†Ô∏è  Token expuesto temporalmente para pruebas


## 2. Carga de Datos de Estudiantes

Cargamos el mismo archivo CSV utilizado en el notebook anterior, que contiene la informaci√≥n de los estudiantes incluyendo las columnas `Sonar_Ap1` y `Sonar_Ap2` con las claves de los proyectos en SonarCloud.

### Reutilizaci√≥n de Funciones:
Utilizaremos la misma funci√≥n `extract_project_keys()` para extraer las claves de proyecto, manteniendo consistencia con el an√°lisis de m√©tricas.

In [5]:
# Cargar datos de estudiantes (mismo CSV del notebook anterior)
CSV_PATH = "https://raw.githubusercontent.com/TesisEnel/Recopilacion_Datos_CalidadCodigo/refs/heads/main/Estudiantes_2023-2024.csv"

try:
    # Cargar el CSV con informaci√≥n de estudiantes
    df_estudiantes = pd.read_csv(CSV_PATH)
    
    print("üìÅ Datos de estudiantes cargados exitosamente")
    print(f"üë• N√∫mero de estudiantes: {len(df_estudiantes)}")
    print(f"üìä Columnas disponibles: {list(df_estudiantes.columns)}")
    
    # Verificar columnas de SonarCloud
    sonar_columns = [col for col in df_estudiantes.columns if 'Sonar' in col]
    print(f"\nüéØ Columnas de SonarCloud encontradas: {sonar_columns}")
    
    # Contar proyectos no vac√≠os
    sonar_ap1_count = df_estudiantes['Sonar_Ap1'].notna().sum()
    sonar_ap2_count = df_estudiantes['Sonar_Ap2'].notna().sum()
    
    print(f"üìà Proyectos Sonar_Ap1 disponibles: {sonar_ap1_count}")
    print(f"üìà Proyectos Sonar_Ap2 disponibles: {sonar_ap2_count}")
    print(f"üìà Total de proyectos para an√°lisis de issues: {sonar_ap1_count + sonar_ap2_count}")
    
    # Mostrar muestra de datos
    print(f"\nüîç Primeras 3 filas:")
    display(df_estudiantes[['ID', 'Estudiante', 'Sonar_Ap1', 'Sonar_Ap2']].head(3))
    
except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo CSV")
    print(f"üìç Buscando en: {CSV_PATH}")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")

üìÅ Datos de estudiantes cargados exitosamente
üë• N√∫mero de estudiantes: 60
üìä Columnas disponibles: ['Id', 'Semestre', 'Estudiante', 'Sexo', 'Email', 'Original_Repo_Ap1', 'Original_Repo_Ap2', 'Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2']

üéØ Columnas de SonarCloud encontradas: ['Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2']
üìà Proyectos Sonar_Ap1 disponibles: 60
üìà Proyectos Sonar_Ap2 disponibles: 60
üìà Total de proyectos para an√°lisis de issues: 120

üîç Primeras 3 filas:
‚ùå Error al cargar datos: "['ID'] not in index"


In [6]:
# Extraer project keys de SonarCloud (reutilizando funci√≥n del notebook anterior)
def extract_project_keys(df):
    """
    Extraer todas las claves de proyecto de SonarCloud del DataFrame
    """
    project_keys = []
    
    for index, row in df.iterrows():
        student_id = row.get('ID', f'Student_{index}')
        nombre = row.get('Estudiante', 'Unknown')
        
        # Procesar Sonar_Ap1
        if pd.notna(row['Sonar_Ap1']) and row['Sonar_Ap1'].strip():
            project_keys.append({
                'student_id': student_id,
                'nombre': nombre,
                'project_key': row['Sonar_Ap1'].strip(),
                'assignment': 'AP1',
                'row_index': index
            })
        
        # Procesar Sonar_Ap2
        if pd.notna(row['Sonar_Ap2']) and row['Sonar_Ap2'].strip():
            project_keys.append({
                'student_id': student_id,
                'nombre': nombre,
                'project_key': row['Sonar_Ap2'].strip(),
                'assignment': 'AP2',
                'row_index': index
            })
    
    return project_keys

# Extraer project keys
project_list = extract_project_keys(df_estudiantes)

print(f"üîë Total de project keys extra√≠dos: {len(project_list)}")

# Mostrar estad√≠sticas por assignment
ap1_count = len([p for p in project_list if p['assignment'] == 'AP1'])
ap2_count = len([p for p in project_list if p['assignment'] == 'AP2'])

print(f"üìä Proyectos AP1: {ap1_count}")
print(f"üìä Proyectos AP2: {ap2_count}")

# Mostrar algunos ejemplos
print("\nüîç Primeros 5 project keys para an√°lisis de issues:")
for i, project in enumerate(project_list[:5]):
    print(f"  {i+1}. {project['nombre']} - {project['assignment']}: {project['project_key']}")

print(f"\n‚úÖ Proyectos listos para extracci√≥n de issues")

üîë Total de project keys extra√≠dos: 120
üìä Proyectos AP1: 60
üìä Proyectos AP2: 60

üîç Primeros 5 project keys para an√°lisis de issues:
  1. Aaron Eliezer Hern√°ndez Garc√≠a - AP1: TesisEnel_SwiftPay-Aaron-Ap1
  2. Aaron Eliezer Hern√°ndez Garc√≠a - AP2: TesisEnel_DealerPOS-Aaron-ap2
  3. Abraham El Hage Jreij - AP1: TesisEnel_AguaMariaSolution-JulioPichardo-ap1
  4. Abraham El Hage Jreij - AP2: TesisEnel_Final_Project-Abraham-ap2
  5. Adiel Luis Garc√≠a Rosa - AP1: TesisEnel_PeakPerformance-samuelAntonio-ap1

‚úÖ Proyectos listos para extracci√≥n de issues


## 3. Implementaci√≥n de Funciones de Extracci√≥n de Issues

Implementamos las funciones principales para extraer issues detallados de SonarCloud utilizando el endpoint `/api/issues/search`.

### Funciones implementadas:

#### `fetch_project_issues(project_key)`
- **Prop√≥sito**: Obtener todos los issues de un proyecto espec√≠fico desde SonarCloud
- **Endpoint**: `/api/issues/search`
- **Caracter√≠sticas**:
  - ‚è±Ô∏è **Timing con decorador**: Mide tiempo de ejecuci√≥n
  - üîÑ **Paginaci√≥n autom√°tica**: Maneja m√∫ltiples p√°ginas de resultados
  - üõ°Ô∏è **Manejo robusto de errores**: Captura errores HTTP, conexi√≥n y timeout
  - üìä **Extracci√≥n completa**: Obtiene todos los campos relevantes del issue
  - üìù **Logging estructurado**: Registra progreso y errores

#### `batch_fetch_issues(project_list)`
- **Prop√≥sito**: Procesar m√∫ltiples proyectos con control de rate limiting
- **Caracter√≠sticas**:
  - ‚ö° **Procesamiento secuencial**: Evita sobrecargar la API
  - üìä **Progreso en tiempo real**: Indicadores de avance por proyecto
  - üéØ **Estad√≠sticas detalladas**: Conteo de issues por proyecto
  - ‚è≥ **Rate limiting**: Delays configurables entre proyectos
  - üõ°Ô∏è **Tolerancia a fallos**: Contin√∫a aunque fallen proyectos individuales

#### Funciones auxiliares:
- `parse_issue_data()`: Extrae y estructura datos del issue
- `create_issue_error_response()`: Respuestas de error estandarizadas

In [7]:
# Funciones para extraer issues de SonarCloud API

def parse_issue_data(issue, project_info):
    """Extraer y estructurar datos de un issue individual"""
    return {
        # Informaci√≥n del proyecto y estudiante
        'student_id': project_info['student_id'],
        'nombre': project_info['nombre'],
        'assignment': project_info['assignment'],
        'row_index': project_info['row_index'],
        'project_key': project_info['project_key'],
        
        # Informaci√≥n del issue
        'issue_key': issue.get('key', ''),
        'rule': issue.get('rule', ''),
        'severity': issue.get('severity', ''),
        'type': issue.get('type', ''),
        'message': issue.get('message', ''),
        'component': issue.get('component', ''),
        'line': issue.get('line', 0),
        'status': issue.get('status', ''),
        'creation_date': issue.get('creationDate', ''),
        'update_date': issue.get('updateDate', ''),
        'effort': issue.get('effort', ''),
        'debt': issue.get('debt', ''),
        'tags': ','.join(issue.get('tags', [])) if issue.get('tags') else ''
    }

def create_issue_error_response(project_key, status, error_info=None):
    """Crear respuesta de error estandarizada para issues"""
    response = {
        'project_key': project_key, 
        'status': status,
        'issues_count': 0,
        'issues': []
    }
    if error_info:
        response['error'] = error_info
    return response

@timer_decorator
def fetch_project_issues(project_info: Dict, retries: int = 3, delay: float = 5.0) -> Dict:
    """
    Obtener todos los issues de un proyecto espec√≠fico desde SonarCloud con paginaci√≥n
    """
    project_key = project_info['project_key']
    all_issues = []
    page = 1
    has_more_pages = True
    
    while has_more_pages:
        url = f"{SONAR_BASE_URL}/issues/search"
        params = {
            'componentKeys': project_key,
            'p': page,
            'ps': ISSUES_CONFIG['page_size']
        }
        
        for attempt in range(retries):
            try:
                response = requests.get(
                    url, 
                    params=params, 
                    headers=get_auth_headers(), 
                    timeout=ISSUES_CONFIG['timeout']
                )
                
                if response.status_code == 200:
                    data = response.json()
                    
                    # Extraer issues de esta p√°gina
                    if 'issues' in data and data['issues']:
                        page_issues = [
                            parse_issue_data(issue, project_info) 
                            for issue in data['issues']
                        ]
                        all_issues.extend(page_issues)
                    
                    # Verificar si hay m√°s p√°ginas
                    paging = data.get('paging', {})
                    total = paging.get('total', 0)
                    page_size = paging.get('pageSize', ISSUES_CONFIG['page_size'])
                    
                    has_more_pages = (page * page_size) < total
                    if has_more_pages:
                        page += 1
                        print(f"    üìÑ P√°gina {page-1} procesada, {len(page_issues)} issues encontrados")
                    else:
                        print(f"    üìÑ P√°gina {page} procesada (final), {len(page_issues)} issues encontrados")
                    
                    break  # Salir del loop de reintentos
                    
                elif response.status_code == 401:
                    logger.warning(f"Authentication error for project {project_key}")
                    if attempt == retries - 1:
                        return create_issue_error_response(project_key, 'authentication_error', response.status_code)
                else:
                    logger.warning(f"HTTP error {response.status_code} for project {project_key}")
                    if attempt == retries - 1:
                        return create_issue_error_response(project_key, f'http_error_{response.status_code}', response.status_code)
                
                time.sleep(delay)
                
            except requests.exceptions.RequestException as e:
                logger.error(f"Connection error for project {project_key}: {e}")
                if attempt == retries - 1:
                    return create_issue_error_response(project_key, 'connection_error', str(e))
                time.sleep(delay)
            except Exception as e:
                logger.error(f"Unexpected error for project {project_key}: {e}")
                if attempt == retries - 1:
                    return create_issue_error_response(project_key, 'unexpected_error', str(e))
                time.sleep(delay)
    
    return {
        'project_key': project_key,
        'status': 'success',
        'issues_count': len(all_issues),
        'issues': all_issues
    }

@timer_decorator  
def batch_fetch_issues(project_list: List[Dict]) -> List[Dict]:
    """
    Obtener issues para m√∫ltiples proyectos con control de rate limiting
    """
    results = []
    total_projects = len(project_list)
    total_issues = 0
    
    print_section_header(f"üöÄ Extracci√≥n de issues para {total_projects} proyectos")
    
    for i, project in enumerate(project_list, 1):
        project_key = project['project_key']
        print(f"\nüì¶ Proyecto {i}/{total_projects}: {project['nombre']} - {project['assignment']}")
        print(f"üîÑ Procesando: {project_key}")
        
        # Extraer issues del proyecto
        result = fetch_project_issues(project)
        
        # Agregar informaci√≥n del estudiante al resultado
        result.update({
            'student_id': project['student_id'],
            'nombre': project['nombre'],
            'assignment': project['assignment'],
            'row_index': project['row_index']
        })
        
        results.append(result)
        
        # Mostrar resultado
        if result['status'] == 'success':
            issues_count = result['issues_count']
            total_issues += issues_count
            print(f"    ‚úÖ {issues_count} issues extra√≠dos exitosamente")
        else:
            print(f"    ‚ùå Error: {result.get('status', 'unknown')}")
        
        # Progress update
        progress = i / total_projects * 100
        print(f"    üìä Progreso: {progress:.1f}% ({i}/{total_projects})")
        
        # Delay entre proyectos para respetar rate limits
        if i < total_projects:
            print(f"    ‚è≥ Esperando {ISSUES_CONFIG['batch_delay']}s...")
            time.sleep(ISSUES_CONFIG['batch_delay'])
    
    # Estad√≠sticas finales
    successful = [r for r in results if r.get('status') == 'success']
    print_section_header("üìà Estad√≠sticas de Extracci√≥n de Issues")
    print(f"‚úÖ Proyectos exitosos: {len(successful)} ({format_percentage(len(successful), total_projects)})")
    print(f"‚ùå Proyectos fallidos: {total_projects - len(successful)} ({format_percentage(total_projects - len(successful), total_projects)})")
    print(f"üìä Total de issues extra√≠dos: {total_issues}")
    
    return results

print("üõ†Ô∏è  Funciones de extracci√≥n de issues configuradas")
print("üì° Listo para extraer issues detallados con paginaci√≥n autom√°tica")

üõ†Ô∏è  Funciones de extracci√≥n de issues configuradas
üì° Listo para extraer issues detallados con paginaci√≥n autom√°tica


## 4. Ejecuci√≥n del Proceso de Extracci√≥n de Issues

Ejecutamos el proceso de extracci√≥n de issues para todos los proyectos de estudiantes. Este proceso puede tomar considerablemente m√°s tiempo que la extracci√≥n de m√©tricas debido al volumen de datos por proyecto.

### Configuraci√≥n del proceso:
- **Paginaci√≥n**: 500 issues por p√°gina (m√°ximo de SonarCloud)
- **Rate limiting**: 2.0 segundos entre proyectos
- **Reintentos**: 3 intentos por proyecto en caso de errores
- **Timeout**: 30 segundos por request

### Monitoreo incluido:
- ‚úÖ **Progreso por proyecto**: Estudiante, assignment y project key
- üìÑ **Progreso por p√°gina**: N√∫mero de issues por p√°gina procesada
- üìä **Contadores en tiempo real**: Issues extra√≠dos por proyecto
- ‚è±Ô∏è **Tiempo de ejecuci√≥n**: Por proyecto y total
- üîç **Detecci√≥n de errores**: Logging de errores espec√≠ficos

> **Nota**: La extracci√≥n puede tomar varios minutos dependiendo de la cantidad de issues por proyecto. Proyectos con muchos issues requerir√°n m√∫ltiples p√°ginas.

In [8]:
# Ejecutar extracci√≥n de issues
print("üöÄ Iniciando proceso de extracci√≥n de issues detallados...")
print(f"üìä Total de proyectos a procesar: {len(project_list)}")
print(f"‚öôÔ∏è  Configuraci√≥n: {ISSUES_CONFIG['page_size']} issues por p√°gina, {ISSUES_CONFIG['batch_delay']}s entre proyectos")

# Ejecutar extracci√≥n
issues_results = batch_fetch_issues(project_list)

print("\nüìà Resultados de la extracci√≥n de issues:")
print(f"‚úÖ Total de proyectos procesados: {len(issues_results)}")

# Analizar resultados
successful_extractions = [r for r in issues_results if r.get('status') == 'success']
failed_extractions = [r for r in issues_results if r.get('status') != 'success']

print(f"‚úÖ Extracciones exitosas: {len(successful_extractions)}")
print(f"‚ùå Extracciones fallidas: {len(failed_extractions)}")

# Calcular totales de issues
total_issues = sum(r.get('issues_count', 0) for r in successful_extractions)
print(f"üìä Total de issues extra√≠dos: {total_issues}")

if failed_extractions:
    print("\n‚ö†Ô∏è  Proyectos con errores:")
    for failed in failed_extractions[:5]:  # Mostrar solo los primeros 5
        print(f"  - {failed['project_key']}: {failed.get('status', 'unknown error')}")

# Mostrar estad√≠sticas por assignment
ap1_projects = [r for r in successful_extractions if r.get('assignment') == 'AP1']
ap2_projects = [r for r in successful_extractions if r.get('assignment') == 'AP2']

ap1_issues = sum(r.get('issues_count', 0) for r in ap1_projects)
ap2_issues = sum(r.get('issues_count', 0) for r in ap2_projects)

print(f"\nüìä Distribuci√≥n por assignment:")
print(f"  AP1: {len(ap1_projects)} proyectos, {ap1_issues} issues")
print(f"  AP2: {len(ap2_projects)} proyectos, {ap2_issues} issues")

# Mostrar ejemplo de issues extra√≠dos
if successful_extractions and total_issues > 0:
    # Buscar el primer proyecto con issues
    example_project = None
    for project in successful_extractions:
        if project.get('issues_count', 0) > 0:
            example_project = project
            break
    
    if example_project:
        print(f"\nüîç Ejemplo de issues extra√≠dos (proyecto: {example_project['project_key']}):")
        print(f"Estudiante: {example_project['nombre']}")
        print(f"Assignment: {example_project['assignment']}")
        print(f"Total de issues: {example_project['issues_count']}")
        
        # Mostrar primeros 3 issues
        sample_issues = example_project['issues'][:3]
        for i, issue in enumerate(sample_issues, 1):
            print(f"\n  Issue {i}:")
            print(f"    Tipo: {issue['type']}")
            print(f"    Severidad: {issue['severity']}")
            print(f"    Regla: {issue['rule']}")
            print(f"    L√≠nea: {issue['line']}")
            print(f"    Mensaje: {issue['message'][:100]}{'...' if len(issue['message']) > 100 else ''}")

print("\n‚úÖ Extracci√≥n de issues completada")

üöÄ Iniciando proceso de extracci√≥n de issues detallados...
üìä Total de proyectos a procesar: 120
‚öôÔ∏è  Configuraci√≥n: 500 issues por p√°gina, 2.0s entre proyectos

üöÄ Extracci√≥n de issues para 120 proyectos

üì¶ Proyecto 1/120: Aaron Eliezer Hern√°ndez Garc√≠a - AP1
üîÑ Procesando: TesisEnel_SwiftPay-Aaron-Ap1
    üìÑ P√°gina 1 procesada (final), 249 issues encontrados
‚è±Ô∏è  fetch_project_issues ejecutado en 0.77 segundos
    ‚úÖ 249 issues extra√≠dos exitosamente
    üìä Progreso: 0.8% (1/120)
    ‚è≥ Esperando 2.0s...

üì¶ Proyecto 2/120: Aaron Eliezer Hern√°ndez Garc√≠a - AP2
üîÑ Procesando: TesisEnel_DealerPOS-Aaron-ap2
    üìÑ P√°gina 1 procesada (final), 241 issues encontrados
‚è±Ô∏è  fetch_project_issues ejecutado en 0.63 segundos
    ‚úÖ 241 issues extra√≠dos exitosamente
    üìä Progreso: 1.7% (2/120)
    ‚è≥ Esperando 2.0s...

üì¶ Proyecto 3/120: Abraham El Hage Jreij - AP1
üîÑ Procesando: TesisEnel_AguaMariaSolution-JulioPichardo-ap1
    üìÑ P√°gina 1

## 5. Procesamiento y Estructuraci√≥n de Datos de Issues

Convertimos los resultados de la extracci√≥n en DataFrames estructurados para facilitar el an√°lisis. A diferencia de las m√©tricas, los issues requieren un procesamiento m√°s complejo debido a su naturaleza detallada.

### Procesamiento realizado:
1. **Aplanamiento de datos**: Convertir estructura anidada en DataFrame plano
2. **Limpieza de mensajes**: Preparar mensajes para formato CSV
3. **Categorizaci√≥n**: Agrupar por tipo, severidad y regla
4. **Validaci√≥n**: Verificar integridad y completitud de datos

### DataFrames generados:
- **`df_all_issues`**: Todos los issues individuales con informaci√≥n completa
- **`df_issues_summary`**: Resumen agregado por proyecto
- **`df_issues_by_type`**: An√°lisis por tipo de issue (BUG, VULNERABILITY, CODE_SMELL)
- **`df_issues_by_severity`**: An√°lisis por severidad (CRITICAL, MAJOR, MINOR, etc.)

### Variables de an√°lisis:
- Total de issues por estudiante y assignment
- Distribuci√≥n por categor√≠as de calidad
- An√°lisis de reglas m√°s frecuentes
- Patrones de ubicaci√≥n de problemas

In [9]:
# Procesar y estructurar los datos extra√≠dos de issues
print("üîÑ Procesando datos de issues extra√≠dos...")

# 1. Crear DataFrame con todos los issues individuales
all_issues_data = []

for project_result in successful_extractions:
    if project_result.get('issues'):
        all_issues_data.extend(project_result['issues'])

if all_issues_data:
    df_all_issues = pd.DataFrame(all_issues_data)
    print(f"üìä DataFrame de issues creado con {len(df_all_issues)} issues individuales")
    
    # Mostrar informaci√≥n b√°sica del DataFrame
    print(f"üìã Columnas disponibles: {len(df_all_issues.columns)}")
    print(f"üë• Estudiantes √∫nicos: {df_all_issues['student_id'].nunique()}")
    print(f"üéØ Proyectos √∫nicos: {df_all_issues['project_key'].nunique()}")
    
    # 2. Crear resumen por proyecto
    df_issues_summary = df_all_issues.groupby([
        'student_id', 'nombre', 'project_key', 'assignment'
    ]).agg({
        'issue_key': 'count',
        'type': lambda x: x.value_counts().to_dict(),
        'severity': lambda x: x.value_counts().to_dict()
    }).reset_index()
    
    df_issues_summary.columns = ['student_id', 'nombre', 'project_key', 'assignment', 
                                'total_issues', 'types_distribution', 'severity_distribution']
    
    print(f"üìà Resumen por proyecto creado con {len(df_issues_summary)} proyectos")
    
    # 3. An√°lisis por tipo de issue
    type_analysis = df_all_issues.groupby(['assignment', 'type']).size().reset_index(name='count')
    type_pivot = type_analysis.pivot(index='assignment', columns='type', values='count').fillna(0)
    
    print(f"\nüìä Distribuci√≥n por tipo de issue:")
    for assignment in ['AP1', 'AP2']:
        if assignment in type_pivot.index:
            print(f"  {assignment}:")
            for issue_type in type_pivot.columns:
                count = int(type_pivot.loc[assignment, issue_type])
                if count > 0:
                    print(f"    {issue_type}: {count}")
    
    # 4. An√°lisis por severidad
    severity_analysis = df_all_issues.groupby(['assignment', 'severity']).size().reset_index(name='count')
    severity_pivot = severity_analysis.pivot(index='assignment', columns='severity', values='count').fillna(0)
    
    print(f"\nüö® Distribuci√≥n por severidad:")
    for assignment in ['AP1', 'AP2']:
        if assignment in severity_pivot.index:
            print(f"  {assignment}:")
            for severity in severity_pivot.columns:
                count = int(severity_pivot.loc[assignment, severity])
                if count > 0:
                    print(f"    {severity}: {count}")
    
    # 5. Top 10 reglas m√°s frecuentes
    top_rules = df_all_issues['rule'].value_counts().head(10)
    print(f"\nüìã Top 10 reglas m√°s frecuentes:")
    for i, (rule, count) in enumerate(top_rules.items(), 1):
        print(f"  {i}. {rule}: {count} issues")
    
    # 6. An√°lisis de estudiantes con m√°s issues
    student_issues = df_all_issues.groupby(['student_id', 'nombre', 'assignment']).size().reset_index(name='issues_count')
    top_students = student_issues.nlargest(10, 'issues_count')
    
    print(f"\nüë• Top 10 estudiantes con m√°s issues:")
    for _, student in top_students.iterrows():
        print(f"  {student['nombre']} ({student['assignment']}): {student['issues_count']} issues")
    
    # 7. Mostrar muestra del DataFrame principal
    print(f"\nüîç Primeras 3 filas del dataset de issues:")
    display(df_all_issues[['nombre', 'assignment', 'project_key', 'type', 'severity', 'rule', 'line', 'message']].head(3))
    
    # 8. Crear DataFrames espec√≠ficos para an√°lisis
    df_issues_by_type = df_all_issues.groupby(['student_id', 'nombre', 'assignment', 'type']).size().reset_index(name='count')
    df_issues_by_severity = df_all_issues.groupby(['student_id', 'nombre', 'assignment', 'severity']).size().reset_index(name='count')
    
    print(f"\n‚úÖ DataFrames de an√°lisis creados:")
    print(f"  üìä Issues por tipo: {len(df_issues_by_type)} filas")
    print(f"  üö® Issues por severidad: {len(df_issues_by_severity)} filas")

else:
    print("‚ùå No se encontraron issues para procesar")
    df_all_issues = pd.DataFrame()
    df_issues_summary = pd.DataFrame()

print("‚úÖ Procesamiento de datos de issues completado")

üîÑ Procesando datos de issues extra√≠dos...
üìä DataFrame de issues creado con 7842 issues individuales
üìã Columnas disponibles: 18
üë• Estudiantes √∫nicos: 60
üéØ Proyectos √∫nicos: 78
üìà Resumen por proyecto creado con 120 proyectos

üìä Distribuci√≥n por tipo de issue:
  AP1:
    BUG: 252
    CODE_SMELL: 3411
    VULNERABILITY: 33
  AP2:
    BUG: 12
    CODE_SMELL: 4129
    VULNERABILITY: 5

üö® Distribuci√≥n por severidad:
  AP1:
    BLOCKER: 39
    CRITICAL: 197
    INFO: 73
    MAJOR: 1815
    MINOR: 1572
  AP2:
    BLOCKER: 2
    CRITICAL: 591
    INFO: 80
    MAJOR: 1194
    MINOR: 2279

üìã Top 10 reglas m√°s frecuentes:
  1. kotlin:S1128: 1782 issues
  2. csharpsquid:S1192: 831 issues
  3. kotlin:S3776: 336 issues
  4. kotlin:S117: 324 issues
  5. csharpsquid:S1104: 253 issues
  6. kotlin:S1172: 236 issues
  7. kotlin:S1192: 217 issues
  8. kotlin:S6619: 160 issues
  9. csharpsquid:S6966: 160 issues
  10. kotlin:S1481: 154 issues

üë• Top 10 estudiantes con m√°s 

Unnamed: 0,nombre,assignment,project_key,type,severity,rule,line,message
0,Aaron Eliezer Hern√°ndez Garc√≠a,AP1,TesisEnel_SwiftPay-Aaron-Ap1,CODE_SMELL,MAJOR,external_roslyn:CS8602,206,Dereference of a possibly null reference.
1,Aaron Eliezer Hern√°ndez Garc√≠a,AP1,TesisEnel_SwiftPay-Aaron-Ap1,CODE_SMELL,MAJOR,external_roslyn:CS8602,205,Dereference of a possibly null reference.
2,Aaron Eliezer Hern√°ndez Garc√≠a,AP1,TesisEnel_SwiftPay-Aaron-Ap1,CODE_SMELL,MAJOR,external_roslyn:CS8602,236,Dereference of a possibly null reference.



‚úÖ DataFrames de an√°lisis creados:
  üìä Issues por tipo: 191 filas
  üö® Issues por severidad: 447 filas
‚úÖ Procesamiento de datos de issues completado


## 6. An√°lisis Detallado por Categor√≠as

Esta secci√≥n proporciona an√°lisis profundos de los issues extra√≠dos organizados por diferentes categor√≠as:

1. **An√°lisis por Tipo de Issue**: Distribuci√≥n de BUG, CODE_SMELL, VULNERABILITY, SECURITY_HOTSPOT
2. **An√°lisis por Severidad**: Distribuci√≥n de CRITICAL, MAJOR, MINOR, INFO
3. **An√°lisis por Regla**: Identificaci√≥n de las reglas m√°s violadas
4. **An√°lisis Temporal**: Comparaci√≥n entre asignaciones (AP1 vs AP2)
5. **An√°lisis Estad√≠stico**: M√©tricas descriptivas y correlaciones

In [10]:
# An√°lisis detallado por categor√≠as
if not df_all_issues.empty:
    print("üìä Iniciando an√°lisis detallado por categor√≠as...")
    
    # 1. AN√ÅLISIS POR TIPO DE ISSUE
    print("\n" + "="*60)
    print("üìã AN√ÅLISIS POR TIPO DE ISSUE")
    print("="*60)
    
    # Distribuci√≥n general por tipo
    type_counts = df_all_issues['type'].value_counts()
    total_issues = len(df_all_issues)
    
    print(f"üìä Distribuci√≥n de tipos (Total: {total_issues} issues):")
    for issue_type, count in type_counts.items():
        percentage = (count / total_issues) * 100
        print(f"  {issue_type}: {count} ({percentage:.1f}%)")
    
    # An√°lisis por asignaci√≥n
    type_by_assignment = df_all_issues.groupby(['assignment', 'type']).size().unstack(fill_value=0)
    print(f"\nüìà Distribuci√≥n por asignaci√≥n:")
    for assignment in type_by_assignment.index:
        total_assignment = type_by_assignment.loc[assignment].sum()
        print(f"  {assignment} (Total: {total_assignment}):")
        for issue_type in type_by_assignment.columns:
            count = type_by_assignment.loc[assignment, issue_type]
            if count > 0:
                percentage = (count / total_assignment) * 100
                print(f"    {issue_type}: {count} ({percentage:.1f}%)")
    
    # 2. AN√ÅLISIS POR SEVERIDAD
    print("\n" + "="*60)
    print("üö® AN√ÅLISIS POR SEVERIDAD")
    print("="*60)
    
    # Distribuci√≥n general por severidad
    severity_counts = df_all_issues['severity'].value_counts()
    print(f"üö® Distribuci√≥n de severidades:")
    for severity, count in severity_counts.items():
        percentage = (count / total_issues) * 100
        print(f"  {severity}: {count} ({percentage:.1f}%)")
    
    # An√°lisis por asignaci√≥n
    severity_by_assignment = df_all_issues.groupby(['assignment', 'severity']).size().unstack(fill_value=0)
    print(f"\nüìà Distribuci√≥n por asignaci√≥n:")
    for assignment in severity_by_assignment.index:
        total_assignment = severity_by_assignment.loc[assignment].sum()
        print(f"  {assignment} (Total: {total_assignment}):")
        for severity in severity_by_assignment.columns:
            count = severity_by_assignment.loc[assignment, severity]
            if count > 0:
                percentage = (count / total_assignment) * 100
                print(f"    {severity}: {count} ({percentage:.1f}%)")
    
    # 3. AN√ÅLISIS POR REGLAS M√ÅS FRECUENTES
    print("\n" + "="*60)
    print("üìã AN√ÅLISIS POR REGLAS")
    print("="*60)
    
    # Top 15 reglas m√°s frecuentes
    top_rules = df_all_issues['rule'].value_counts().head(15)
    print(f"üìã Top 15 reglas m√°s violadas:")
    for i, (rule, count) in enumerate(top_rules.items(), 1):
        percentage = (count / total_issues) * 100
        print(f"  {i:2d}. {rule}: {count} ({percentage:.1f}%)")
    
    # An√°lisis de reglas por tipo de issue
    print(f"\nüîç Distribuci√≥n de reglas por tipo:")
    rules_by_type = df_all_issues.groupby(['type', 'rule']).size().reset_index(name='count')
    for issue_type in df_all_issues['type'].unique():
        top_rules_type = rules_by_type[rules_by_type['type'] == issue_type].nlargest(5, 'count')
        print(f"  {issue_type}:")
        for _, row in top_rules_type.iterrows():
            print(f"    {row['rule']}: {row['count']}")
    
    # 4. AN√ÅLISIS ESTAD√çSTICO DESCRIPTIVO
    print("\n" + "="*60)
    print("üìä AN√ÅLISIS ESTAD√çSTICO")
    print("="*60)
    
    # Issues por estudiante
    issues_per_student = df_all_issues.groupby(['student_id', 'nombre', 'assignment']).size().reset_index(name='issues_count')
    
    print(f"üë• Estad√≠sticas de issues por estudiante:")
    for assignment in ['AP1', 'AP2']:
        assignment_data = issues_per_student[issues_per_student['assignment'] == assignment]['issues_count']
        if not assignment_data.empty:
            print(f"  {assignment}:")
            print(f"    Promedio: {assignment_data.mean():.1f}")
            print(f"    Mediana: {assignment_data.median():.1f}")
            print(f"    Desv. Est√°ndar: {assignment_data.std():.1f}")
            print(f"    M√≠nimo: {assignment_data.min()}")
            print(f"    M√°ximo: {assignment_data.max()}")
    
    # Issues por proyecto
    issues_per_project = df_all_issues.groupby(['project_key', 'assignment']).size().reset_index(name='issues_count')
    
    print(f"\nüìÅ Estad√≠sticas de issues por proyecto:")
    for assignment in ['AP1', 'AP2']:
        assignment_data = issues_per_project[issues_per_project['assignment'] == assignment]['issues_count']
        if not assignment_data.empty:
            print(f"  {assignment}:")
            print(f"    Promedio: {assignment_data.mean():.1f}")
            print(f"    Mediana: {assignment_data.median():.1f}")
            print(f"    Proyectos totales: {len(assignment_data)}")
    
    # 5. COMPARACI√ìN ENTRE ASIGNACIONES
    print("\n" + "="*60)
    print("üîÑ COMPARACI√ìN AP1 vs AP2")
    print("="*60)
    
    ap1_issues = df_all_issues[df_all_issues['assignment'] == 'AP1']
    ap2_issues = df_all_issues[df_all_issues['assignment'] == 'AP2']
    
    print(f"üìä Resumen comparativo:")
    print(f"  AP1: {len(ap1_issues)} issues en {ap1_issues['project_key'].nunique()} proyectos")
    print(f"  AP2: {len(ap2_issues)} issues en {ap2_issues['project_key'].nunique()} proyectos")
    
    if len(ap1_issues) > 0 and len(ap2_issues) > 0:
        print(f"  Promedio issues/proyecto:")
        print(f"    AP1: {len(ap1_issues) / ap1_issues['project_key'].nunique():.1f}")
        print(f"    AP2: {len(ap2_issues) / ap2_issues['project_key'].nunique():.1f}")
    
    print("\n‚úÖ An√°lisis detallado completado")
    
else:
    print("‚ùå No hay datos de issues disponibles para el an√°lisis")

üìä Iniciando an√°lisis detallado por categor√≠as...

üìã AN√ÅLISIS POR TIPO DE ISSUE
üìä Distribuci√≥n de tipos (Total: 7842 issues):
  CODE_SMELL: 7540 (96.1%)
  BUG: 264 (3.4%)
  VULNERABILITY: 38 (0.5%)

üìà Distribuci√≥n por asignaci√≥n:
  AP1 (Total: 3696):
    BUG: 252 (6.8%)
    CODE_SMELL: 3411 (92.3%)
    VULNERABILITY: 33 (0.9%)
  AP2 (Total: 4146):
    BUG: 12 (0.3%)
    CODE_SMELL: 4129 (99.6%)
    VULNERABILITY: 5 (0.1%)

üö® AN√ÅLISIS POR SEVERIDAD
üö® Distribuci√≥n de severidades:
  MINOR: 3851 (49.1%)
  MAJOR: 3009 (38.4%)
  CRITICAL: 788 (10.0%)
  INFO: 153 (2.0%)
  BLOCKER: 41 (0.5%)

üìà Distribuci√≥n por asignaci√≥n:
  AP1 (Total: 3696):
    BLOCKER: 39 (1.1%)
    CRITICAL: 197 (5.3%)
    INFO: 73 (2.0%)
    MAJOR: 1815 (49.1%)
    MINOR: 1572 (42.5%)
  AP2 (Total: 4146):
    BLOCKER: 2 (0.0%)
    CRITICAL: 591 (14.3%)
    INFO: 80 (1.9%)
    MAJOR: 1194 (28.8%)
    MINOR: 2279 (55.0%)

üìã AN√ÅLISIS POR REGLAS
üìã Top 15 reglas m√°s violadas:
   1. kotlin

## 7. Exportar Datos de Issues

Esta secci√≥n se encarga de exportar los datos extra√≠dos y procesados a archivos CSV para su uso posterior:

1. **Issues Individuales**: Archivo con todos los issues detallados
2. **Resumen por Proyecto**: Consolidado con conteos y distribuciones
3. **An√°lisis por Tipo**: Distribuci√≥n de tipos de issues por estudiante/proyecto
4. **An√°lisis por Severidad**: Distribuci√≥n de severidades por estudiante/proyecto
5. **Metadatos de Extracci√≥n**: Informaci√≥n sobre el proceso de extracci√≥n

In [11]:
# Exportar datos de issues a archivos CSV
import os
from datetime import datetime

# Crear directorio data si no existe
os.makedirs('../data', exist_ok=True)

# Timestamp para archivos
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")

if not df_all_issues.empty:
    print("üìÅ Exportando datos de issues...")
    
    try:
        # 1. EXPORTAR ISSUES INDIVIDUALES COMPLETOS
        issues_filename = f'../data/issues_detallados_{timestamp}.csv'
        df_all_issues.to_csv(issues_filename, index=False, encoding='utf-8-sig')
        print(f"‚úÖ Issues individuales exportados: {issues_filename}")
        print(f"   üìä {len(df_all_issues)} issues de {df_all_issues['student_id'].nunique()} estudiantes")
        
        # 2. EXPORTAR RESUMEN POR PROYECTO
        if not df_issues_summary.empty:
            summary_filename = f'../data/issues_resumen_proyecto_{timestamp}.csv'
            df_issues_summary.to_csv(summary_filename, index=False, encoding='utf-8-sig')
            print(f"‚úÖ Resumen por proyecto exportado: {summary_filename}")
            print(f"   üìä {len(df_issues_summary)} proyectos")
        
        # 3. EXPORTAR AN√ÅLISIS POR TIPO
        if 'df_issues_by_type' in locals():
            type_filename = f'../data/issues_por_tipo_{timestamp}.csv'
            df_issues_by_type.to_csv(type_filename, index=False, encoding='utf-8-sig')
            print(f"‚úÖ An√°lisis por tipo exportado: {type_filename}")
            print(f"   üìä {len(df_issues_by_type)} registros")
        
        # 4. EXPORTAR AN√ÅLISIS POR SEVERIDAD
        if 'df_issues_by_severity' in locals():
            severity_filename = f'../data/issues_por_severidad_{timestamp}.csv'
            df_issues_by_severity.to_csv(severity_filename, index=False, encoding='utf-8-sig')
            print(f"‚úÖ An√°lisis por severidad exportado: {severity_filename}")
            print(f"   üìä {len(df_issues_by_severity)} registros")
        
        # 5. CREAR ARCHIVO DE ESTAD√çSTICAS RESUMIDAS
        stats_data = []
        
        # Estad√≠sticas generales
        stats_data.append({
            'categoria': 'General',
            'metrica': 'Total Issues',
            'valor': len(df_all_issues),
            'descripcion': 'N√∫mero total de issues extra√≠dos'
        })
        
        stats_data.append({
            'categoria': 'General',
            'metrica': 'Estudiantes √önicos',
            'valor': df_all_issues['student_id'].nunique(),
            'descripcion': 'N√∫mero de estudiantes con issues'
        })
        
        stats_data.append({
            'categoria': 'General',
            'metrica': 'Proyectos √önicos',
            'valor': df_all_issues['project_key'].nunique(),
            'descripcion': 'N√∫mero de proyectos con issues'
        })
        
        # Estad√≠sticas por asignaci√≥n
        for assignment in ['AP1', 'AP2']:
            assignment_issues = df_all_issues[df_all_issues['assignment'] == assignment]
            if not assignment_issues.empty:
                stats_data.append({
                    'categoria': assignment,
                    'metrica': 'Total Issues',
                    'valor': len(assignment_issues),
                    'descripcion': f'Issues en {assignment}'
                })
                
                stats_data.append({
                    'categoria': assignment,
                    'metrica': 'Proyectos',
                    'valor': assignment_issues['project_key'].nunique(),
                    'descripcion': f'Proyectos con issues en {assignment}'
                })
                
                stats_data.append({
                    'categoria': assignment,
                    'metrica': 'Promedio Issues/Proyecto',
                    'valor': round(len(assignment_issues) / assignment_issues['project_key'].nunique(), 2),
                    'descripcion': f'Promedio de issues por proyecto en {assignment}'
                })
        
        # Estad√≠sticas por tipo de issue
        type_counts = df_all_issues['type'].value_counts()
        for issue_type, count in type_counts.items():
            stats_data.append({
                'categoria': 'Tipos',
                'metrica': issue_type,
                'valor': count,
                'descripcion': f'Issues de tipo {issue_type}'
            })
        
        # Estad√≠sticas por severidad
        severity_counts = df_all_issues['severity'].value_counts()
        for severity, count in severity_counts.items():
            stats_data.append({
                'categoria': 'Severidad',
                'metrica': severity,
                'valor': count,
                'descripcion': f'Issues con severidad {severity}'
            })
        
        # Exportar estad√≠sticas
        df_stats = pd.DataFrame(stats_data)
        stats_filename = f'../data/issues_estadisticas_{timestamp}.csv'
        df_stats.to_csv(stats_filename, index=False, encoding='utf-8-sig')
        print(f"‚úÖ Estad√≠sticas exportadas: {stats_filename}")
        print(f"   üìä {len(df_stats)} m√©tricas estad√≠sticas")
        
        # 6. CREAR ARCHIVO DE METADATOS
        metadata = {
            'fecha_extraccion': datetime.now().isoformat(),
            'total_estudiantes_procesados': len(df_estudiantes) if 'df_estudiantes' in locals() else 0,
            'total_proyectos_intentados': len(successful_extractions) + len(failed_extractions) if 'successful_extractions' in locals() and 'failed_extractions' in locals() else 0,
            'total_proyectos_exitosos': len(successful_extractions) if 'successful_extractions' in locals() else 0,
            'total_proyectos_fallidos': len(failed_extractions) if 'failed_extractions' in locals() else 0,
            'total_issues_extraidos': len(df_all_issues),
            'estudiantes_con_issues': df_all_issues['student_id'].nunique(),
            'proyectos_con_issues': df_all_issues['project_key'].nunique(),
            'archivos_generados': [
                issues_filename,
                summary_filename if not df_issues_summary.empty else None,
                type_filename if 'df_issues_by_type' in locals() else None,
                severity_filename if 'df_issues_by_severity' in locals() else None,
                stats_filename
            ]
        }
        
        # Filtrar archivos None
        metadata['archivos_generados'] = [f for f in metadata['archivos_generados'] if f is not None]
        
        metadata_filename = f'../data/issues_metadata_{timestamp}.json'
        import json
        with open(metadata_filename, 'w', encoding='utf-8') as f:
            json.dump(metadata, f, indent=2, ensure_ascii=False)
        
        print(f"‚úÖ Metadatos exportados: {metadata_filename}")
        
        # RESUMEN FINAL
        print(f"\n" + "="*60)
        print("üìã RESUMEN DE EXPORTACI√ìN")
        print("="*60)
        print(f"üïí Fecha: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
        print(f"üìä Issues exportados: {len(df_all_issues)}")
        print(f"üë• Estudiantes: {df_all_issues['student_id'].nunique()}")
        print(f"üìÅ Proyectos: {df_all_issues['project_key'].nunique()}")
        print(f"üìÑ Archivos generados: {len(metadata['archivos_generados'])}")
        print(f"\nüìÅ Archivos guardados en: ../data/")
        for archivo in metadata['archivos_generados']:
            print(f"   ‚Ä¢ {os.path.basename(archivo)}")
        
        # Tambi√©n crear una versi√≥n simplificada sin timestamp para facilitar el acceso
        main_filename = '../data/issues_detallados_latest.csv'
        df_all_issues.to_csv(main_filename, index=False, encoding='utf-8-sig')
        print(f"\n‚úÖ Archivo principal actualizado: {main_filename}")
        
    except Exception as e:
        print(f"‚ùå Error durante la exportaci√≥n: {str(e)}")
        logging.error(f"Error en exportaci√≥n: {str(e)}")

else:
    print("‚ùå No hay datos de issues para exportar")

print("\nüéâ Proceso de extracci√≥n de issues completado!")

üìÅ Exportando datos de issues...
‚úÖ Issues individuales exportados: ../data/issues_detallados_20250803_203916.csv
   üìä 7842 issues de 60 estudiantes
‚úÖ Resumen por proyecto exportado: ../data/issues_resumen_proyecto_20250803_203916.csv
   üìä 120 proyectos
‚úÖ An√°lisis por tipo exportado: ../data/issues_por_tipo_20250803_203916.csv
   üìä 191 registros
‚úÖ An√°lisis por severidad exportado: ../data/issues_por_severidad_20250803_203916.csv
   üìä 447 registros
‚úÖ Estad√≠sticas exportadas: ../data/issues_estadisticas_20250803_203916.csv
   üìä 17 m√©tricas estad√≠sticas
‚úÖ Metadatos exportados: ../data/issues_metadata_20250803_203916.json

üìã RESUMEN DE EXPORTACI√ìN
üïí Fecha: 2025-08-03 20:39:16
üìä Issues exportados: 7842
üë• Estudiantes: 60
üìÅ Proyectos: 78
üìÑ Archivos generados: 5

üìÅ Archivos guardados en: ../data/
   ‚Ä¢ issues_detallados_20250803_203916.csv
   ‚Ä¢ issues_resumen_proyecto_20250803_203916.csv
   ‚Ä¢ issues_por_tipo_20250803_203916.csv
   ‚Ä¢

## üìã Resumen del Notebook

Este notebook ha completado exitosamente la extracci√≥n y an√°lisis de issues de SonarCloud para los proyectos de estudiantes. 

### ‚úÖ Procesos Realizados:

1. **Configuraci√≥n**: Setup de APIs y credenciales de SonarCloud
2. **Carga de Datos**: Lectura de informaci√≥n de estudiantes y proyectos
3. **Extracci√≥n**: Obtenci√≥n de issues detallados usando la API de SonarCloud
4. **Procesamiento**: Estructuraci√≥n y an√°lisis de los datos extra√≠dos
5. **An√°lisis**: Categorizaci√≥n por tipo, severidad, reglas y comparaciones
6. **Exportaci√≥n**: Generaci√≥n de m√∫ltiples archivos CSV para an√°lisis posterior

### üìä Datos Generados:

- **Issues Detallados**: Cada issue individual con toda su informaci√≥n
- **Resumen por Proyecto**: Consolidaci√≥n de issues por proyecto y estudiante  
- **An√°lisis por Categor√≠as**: Distribuciones por tipo y severidad
- **Estad√≠sticas**: M√©tricas descriptivas y comparativas
- **Metadatos**: Informaci√≥n del proceso de extracci√≥n

### üîÑ Pr√≥ximos Pasos:

1. Utilizar los archivos CSV generados para an√°lisis estad√≠sticos avanzados
2. Combinar con datos de m√©tricas de calidad para an√°lisis integral
3. Generar visualizaciones y reportes de calidad de software
4. Identificar patrones y tendencias en los tipos de issues m√°s comunes

---
*Notebook creado para el an√°lisis de calidad de software en proyectos estudiantiles - Tesis Aplicada 2*