## 1. üì¶ Instalaci√≥n de Dependencias

Instalamos todas las librer√≠as necesarias para el an√°lisis estad√≠stico avanzado.

In [None]:
# Instalaci√≥n de librer√≠as para an√°lisis estad√≠stico avanzado
import subprocess
import sys

def install_package(package):
    """Instala un paquete usando pip si no est√° disponible"""
    try:
        __import__(package.split('==')[0])
        print(f"‚úÖ {package} ya est√° instalado")
    except ImportError:
        print(f"üì¶ Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} instalado correctamente")

# Lista de paquetes necesarios
packages = [
    "pandas>=1.5.0",
    "numpy>=1.21.0", 
    "matplotlib>=3.5.0",
    "seaborn>=0.11.0",
    "plotly>=5.0.0",
    "scipy>=1.9.0",
    "scikit-learn>=1.1.0",
    "statsmodels>=0.13.0",
    "pingouin>=0.5.0",  # Para an√°lisis estad√≠sticos avanzados
    "kaleido",  # Para exportar gr√°ficos de plotly
    "jupyter-dash",  # Para dashboards interactivos
    "umap-learn",  # Para reducci√≥n de dimensionalidad
    "yellowbrick",  # Para visualizaciones de ML
    "missingno"  # Para an√°lisis de datos faltantes
]

print("üöÄ Iniciando instalaci√≥n de dependencias...")
for package in packages:
    install_package(package)

print("\nüéâ Todas las dependencias han sido instaladas correctamente!")
print("üìã Reinicia el kernel si es necesario para cargar las nuevas librer√≠as.")

## 2. üìö Importaci√≥n de Librer√≠as

Importamos todas las librer√≠as necesarias para el an√°lisis estad√≠stico, visualizaci√≥n y machine learning.

In [None]:
# Librer√≠as fundamentales
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots

# An√°lisis estad√≠stico
import scipy.stats as stats
from scipy.stats import shapiro, kstest, mannwhitneyu, wilcoxon, ttest_rel, ttest_ind
from scipy.stats import pearsonr, spearmanr, chi2_contingency
import statsmodels.api as sm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.multivariate.manova import MANOVA
import pingouin as pg

# Machine Learning
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.cluster import KMeans, DBSCAN
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, silhouette_score
from sklearn.feature_selection import SelectKBest, f_classif
import umap

# Visualizaci√≥n de ML
from yellowbrick.cluster import KElbowVisualizer, SilhouetteVisualizer
from yellowbrick.features import RadViz, ParallelCoordinates

# Utilidades
import os
from datetime import datetime
import json
import missingno as msno
from itertools import combinations
from functools import partial

# Configuraciones de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Configuraciones de plotly
import plotly.io as pio
pio.templates.default = "plotly_white"

# Colores personalizados para visualizaciones
COLORS = {
    'AP1': '#FF6B6B',    # Rojo suave
    'AP2': '#4ECDC4',    # Verde azulado
    'male': '#3498DB',   # Azul
    'female': '#E74C3C', # Rojo
    'primary': '#2C3E50',
    'secondary': '#95A5A6',
    'success': '#27AE60',
    'warning': '#F39C12',
    'danger': '#E74C3C'
}

print("üìö Librer√≠as importadas correctamente")
print(f"üêº Pandas: {pd.__version__}")
print(f"üî¢ NumPy: {np.__version__}")
print(f"üìä Matplotlib: {plt.matplotlib.__version__}")
print(f"üé® Seaborn: {sns.__version__}")
print("‚úÖ Configuraciones aplicadas")

# Configurar semilla para reproducibilidad
np.random.seed(42)
import random
random.seed(42)

## 3. üìä Carga y Preparaci√≥n de Datos

Cargamos los datasets de m√©tricas de SonarCloud y datos de issues para el an√°lisis.

In [None]:
# Funci√≥n para cargar datos con manejo de errores
def load_data_safely(file_path, description="archivo"):
    """Carga un archivo CSV con manejo seguro de errores"""
    try:
        if os.path.exists(file_path):
            df = pd.read_csv(file_path, encoding='utf-8-sig')
            print(f"‚úÖ {description} cargado: {file_path}")
            print(f"   üìä Dimensiones: {df.shape}")
            return df
        else:
            print(f"‚ùå Archivo no encontrado: {file_path}")
            return pd.DataFrame()
    except Exception as e:
        print(f"‚ùå Error cargando {description}: {str(e)}")
        return pd.DataFrame()

def download_data_from_github(url, description="archivo"):
    """Descarga datos directamente desde GitHub con manejo de errores"""
    try:
        print(f"üåê Descargando {description} desde GitHub...")
        df = pd.read_csv(url, encoding='utf-8-sig')
        print(f"‚úÖ {description} descargado exitosamente")
        print(f"   üìä Dimensiones: {df.shape}")
        return df
    except Exception as e:
        print(f"‚ùå Error descargando {description}: {str(e)}")
        return pd.DataFrame()

# Cargar dataset principal de m√©tricas desde GitHub
print("üîÑ Cargando datasets...")
github_url = "https://raw.githubusercontent.com/TesisEnel/Recopilacion_Datos_CalidadCodigo/refs/heads/main/Estudiantes_2023-2024_con_metricas_sonarcloud.csv"

# Intentar descargar desde GitHub primero
df_metricas = download_data_from_github(
    github_url,
    'Dataset de m√©tricas de SonarCloud'
)

# Si falla la descarga, intentar cargar desde archivo local como respaldo
if df_metricas.empty:
    print("‚ö†Ô∏è Descarga desde GitHub fall√≥. Intentando cargar archivo local...")
    df_metricas = load_data_safely(
        '../data/Estudiantes_2023-2024_con_metricas_sonarcloud.csv',
        'Dataset local de m√©tricas de SonarCloud'
    )

# Buscar y cargar el archivo de issues m√°s reciente
data_dir = '../data'
issues_files = []
if os.path.exists(data_dir):
    for file in os.listdir(data_dir):
        if file.startswith('issues_detallados') and file.endswith('.csv'):
            issues_files.append(file)

# Cargar archivo de issues m√°s reciente o el latest
if issues_files:
    # Buscar primero el archivo 'latest'
    latest_file = [f for f in issues_files if 'latest' in f]
    if latest_file:
        issues_file = latest_file[0]
    else:
        # Si no hay latest, tomar el m√°s reciente por fecha
        issues_files.sort(reverse=True)
        issues_file = issues_files[0]
    
    df_issues = load_data_safely(
        f'{data_dir}/{issues_file}',
        'Dataset de issues detallados'
    )
else:
    print("‚ö†Ô∏è No se encontraron archivos de issues. Se proceder√° solo con m√©tricas.")
    df_issues = pd.DataFrame()

# Verificar carga exitosa
if not df_metricas.empty:
    print(f"\nüìã Dataset de m√©tricas:")
    print(f"   üë• Estudiantes: {df_metricas['Id'].nunique()}")
    print(f"   üìä Columnas: {len(df_metricas.columns)}")
    print(f"   üìÖ Semestres: {df_metricas['Semestre'].unique().tolist()}")
    
    # Mostrar primeras columnas de m√©tricas
    print(f"\nüîç Primeras 5 filas de m√©tricas:")
    display(df_metricas[['Id', 'Estudiante', 'Sexo', 'Semestre', 'bugs_AP1', 'bugs_AP2', 
                        'code_smells_AP1', 'code_smells_AP2', 'ncloc_AP1', 'ncloc_AP2']].head())

if not df_issues.empty:
    print(f"\nüìã Dataset de issues:")
    print(f"   üêõ Total issues: {len(df_issues)}")
    print(f"   üë• Estudiantes: {df_issues['student_id'].nunique()}")
    print(f"   üìÅ Proyectos: {df_issues['project_key'].nunique()}")
    
    # Distribuci√≥n por asignaci√≥n
    if 'assignment' in df_issues.columns:
        print(f"   üìö Por asignaci√≥n:")
        for assignment in df_issues['assignment'].value_counts().items():
            print(f"      {assignment[0]}: {assignment[1]} issues")
    
    print(f"\nüîç Muestra de issues:")
    display(df_issues[['student_id', 'assignment', 'type', 'severity', 'rule']].head())

else:
    print("‚ö†Ô∏è No se cargaron datos de issues - se continuar√° con m√©tricas √∫nicamente")

print(f"\n‚úÖ Carga de datos completada")
print(f"üìä Total de datasets cargados: {1 if not df_metricas.empty else 0} + {1 if not df_issues.empty else 0}")
print(f"üåê Fuente de datos: {'GitHub (actualizada)' if not df_metricas.empty else 'Local/Error'}")

### 3.1 Preprocesamiento y Limpieza de Datos

Preparamos los datos para el an√°lisis estad√≠stico, incluyendo limpieza, transformaciones y creaci√≥n de variables derivadas.

In [None]:
if not df_metricas.empty:
    print("üîÑ Iniciando preprocesamiento de datos...")
    
    # Crear una copia para trabajar
    df = df_metricas.copy()
    
    # 1. LIMPIEZA B√ÅSICA
    print("\n1Ô∏è‚É£ Limpieza b√°sica de datos")
    
    # Renombrar columnas para mayor claridad
    df['estudiante_id'] = df['Id']
    df['nombre'] = df['Estudiante']
    df['genero'] = df['Sexo'].map({1: 'Masculino', 2: 'Femenino'})
    df['semestre'] = df['Semestre']
    
    print(f"   ‚úÖ Renombrado de columnas completado")
    print(f"   üë• Distribuci√≥n por g√©nero: {df['genero'].value_counts().to_dict()}")
    print(f"   üìÖ Distribuci√≥n por semestre: {df['semestre'].value_counts().to_dict()}")
    
    # 2. IDENTIFICAR M√âTRICAS DE CALIDAD
    print("\n2Ô∏è‚É£ Identificaci√≥n de m√©tricas de calidad")
    
    # M√©tricas principales de SonarCloud
    metricas_calidad = {
        'bugs': ['bugs_AP1', 'bugs_AP2'],
        'vulnerabilities': ['vulnerabilities_AP1', 'vulnerabilities_AP2'],
        'security_hotspots': ['security_hotspots_AP1', 'security_hotspots_AP2'],
        'code_smells': ['code_smells_AP1', 'code_smells_AP2'],
        'technical_debt': ['technical_debt_AP1', 'technical_debt_AP2'],
        'complexity': ['complexity_AP1', 'complexity_AP2'],
        'cognitive_complexity': ['cognitive_complexity_AP1', 'cognitive_complexity_AP2'],
        'ncloc': ['ncloc_AP1', 'ncloc_AP2'],
        'duplicated_lines_density': ['duplicated_lines_density_AP1', 'duplicated_lines_density_AP2'],
        'coverage': ['coverage_AP1', 'coverage_AP2'],
        'comment_lines_density': ['comment_lines_density_AP1', 'comment_lines_density_AP2'],
        'open_issues': ['open_issues_AP1', 'open_issues_AP2']
    }
    
    # Verificar qu√© m√©tricas est√°n disponibles
    metricas_disponibles = {}
    for metrica, columnas in metricas_calidad.items():
        cols_existentes = [col for col in columnas if col in df.columns]
        if cols_existentes:
            metricas_disponibles[metrica] = cols_existentes
            print(f"   ‚úÖ {metrica}: {len(cols_existentes)} columnas disponibles")
        else:
            print(f"   ‚ùå {metrica}: No disponible")
    
    # 3. MANEJO DE DATOS FALTANTES
    print(f"\n3Ô∏è‚É£ An√°lisis de datos faltantes")
    
    # Analizar patrones de datos faltantes
    missing_data = df.isnull().sum()
    missing_metrics = missing_data[missing_data > 0]
    
    if len(missing_metrics) > 0:
        print(f"   üìä Columnas con datos faltantes:")
        for col, count in missing_metrics.items():
            percentage = (count / len(df)) * 100
            print(f"      {col}: {count} ({percentage:.1f}%)")
    else:
        print(f"   ‚úÖ No se encontraron datos faltantes")
    
    # 4. CREAR VARIABLES DERIVADAS
    print(f"\n4Ô∏è‚É£ Creaci√≥n de variables derivadas")
    
    # Calcular m√©tricas de mejora (diferencia AP2 - AP1)
    for metrica, columnas in metricas_disponibles.items():
        if len(columnas) == 2:  # Si tenemos ambas asignaciones
            ap1_col, ap2_col = columnas
            
            # Mejora absoluta
            df[f'{metrica}_mejora_abs'] = df[ap2_col] - df[ap1_col]
            
            # Mejora relativa (solo para m√©tricas donde m√°s bajo es mejor)
            if metrica in ['bugs', 'vulnerabilities', 'security_hotspots', 'code_smells']:
                # Para estas m√©tricas, reducci√≥n es mejora
                df[f'{metrica}_mejora_rel'] = ((df[ap1_col] - df[ap2_col]) / (df[ap1_col] + 1)) * 100
            elif metrica in ['coverage', 'comment_lines_density']:
                # Para estas m√©tricas, aumento es mejora
                df[f'{metrica}_mejora_rel'] = ((df[ap2_col] - df[ap1_col]) / (df[ap1_col] + 1)) * 100
            
            print(f"   ‚úÖ Variables de mejora creadas para {metrica}")
    
    # 5. NORMALIZACI√ìN POR TAMA√ëO DE C√ìDIGO
    print(f"\n5Ô∏è‚É£ Normalizaci√≥n por tama√±o de c√≥digo")
    
    # Crear m√©tricas normalizadas por NCLOC (l√≠neas de c√≥digo)
    if 'ncloc' in metricas_disponibles:
        for metrica in ['bugs', 'vulnerabilities', 'code_smells']:
            if metrica in metricas_disponibles:
                for asignacion in ['AP1', 'AP2']:
                    metrica_col = f'{metrica}_{asignacion}'
                    ncloc_col = f'ncloc_{asignacion}'
                    
                    if metrica_col in df.columns and ncloc_col in df.columns:
                        # Densidad de defectos por 1000 l√≠neas de c√≥digo
                        df[f'{metrica}_density_{asignacion}'] = (df[metrica_col] / (df[ncloc_col] + 1)) * 1000
                        
                print(f"   ‚úÖ Densidad calculada para {metrica}")
    
    # 6. CREAR √çNDICES COMPUESTOS
    print(f"\n6Ô∏è‚É£ Creaci√≥n de √≠ndices compuestos de calidad")
    
    # √çndice de calidad general (menor es mejor)
    for asignacion in ['AP1', 'AP2']:
        quality_components = []
        
        # Componentes del √≠ndice (normalizados)
        if f'bugs_{asignacion}' in df.columns and f'ncloc_{asignacion}' in df.columns:
            df[f'bugs_norm_{asignacion}'] = df[f'bugs_{asignacion}'] / (df[f'ncloc_{asignacion}'] / 1000 + 1)
            quality_components.append(f'bugs_norm_{asignacion}')
        
        if f'vulnerabilities_{asignacion}' in df.columns and f'ncloc_{asignacion}' in df.columns:
            df[f'vuln_norm_{asignacion}'] = df[f'vulnerabilities_{asignacion}'] / (df[f'ncloc_{asignacion}'] / 1000 + 1)
            quality_components.append(f'vuln_norm_{asignacion}')
        
        if f'code_smells_{asignacion}' in df.columns and f'ncloc_{asignacion}' in df.columns:
            df[f'smells_norm_{asignacion}'] = df[f'code_smells_{asignacion}'] / (df[f'ncloc_{asignacion}'] / 1000 + 1)
            quality_components.append(f'smells_norm_{asignacion}')
        
        # Calcular √≠ndice compuesto
        if quality_components:
            df[f'quality_index_{asignacion}'] = df[quality_components].sum(axis=1)
            print(f"   ‚úÖ √çndice de calidad calculado para {asignacion}")
    
    # 7. IDENTIFICAR ESTUDIANTES CON AMBOS PROYECTOS
    print(f"\n7Ô∏è‚É£ Identificaci√≥n de estudiantes con datos pareados")
    
    # Filtrar estudiantes que tienen datos en ambas asignaciones
    estudiantes_completos = []
    for metrica in ['bugs', 'code_smells', 'ncloc']:
        if metrica in metricas_disponibles and len(metricas_disponibles[metrica]) == 2:
            ap1_col, ap2_col = metricas_disponibles[metrica]
            mask_completo = df[ap1_col].notna() & df[ap2_col].notna()
            estudiantes_con_metrica = df[mask_completo]['estudiante_id'].tolist()
            estudiantes_completos.extend(estudiantes_con_metrica)
    
    # Estudiantes que aparecen en todas las m√©tricas principales
    estudiantes_pareados = list(set(estudiantes_completos))
    df['datos_pareados'] = df['estudiante_id'].isin(estudiantes_pareados)
    
    print(f"   üë• Total estudiantes: {len(df)}")
    print(f"   üë• Estudiantes con datos pareados: {df['datos_pareados'].sum()}")
    print(f"   üë• Estudiantes solo con AP1 o AP2: {(~df['datos_pareados']).sum()}")
    
    # 8. RESUMEN FINAL
    print(f"\n‚úÖ Preprocesamiento completado")
    print(f"üìä Dataset final: {df.shape}")
    print(f"üìã M√©tricas de calidad disponibles: {len(metricas_disponibles)}")
    print(f"üìà Variables derivadas creadas: {len([col for col in df.columns if 'mejora' in col or 'density' in col or 'quality_index' in col])}")
    
    # Mostrar estad√≠sticas b√°sicas
    print(f"\nüìä Estad√≠sticas b√°sicas de m√©tricas principales:")
    main_metrics = ['bugs_AP1', 'bugs_AP2', 'code_smells_AP1', 'code_smells_AP2', 'ncloc_AP1', 'ncloc_AP2']
    available_metrics = [col for col in main_metrics if col in df.columns]
    if available_metrics:
        display(df[available_metrics].describe())
    
else:
    print("‚ùå No se puede proceder sin datos de m√©tricas")
    df = pd.DataFrame()

## 4. üîç An√°lisis Exploratorio de Datos (EDA)

En esta secci√≥n realizamos un an√°lisis exploratorio comprehensivo de las m√©tricas de calidad de c√≥digo, incluyendo distribuciones, patrones y relaciones entre variables.

In [None]:
# Funciones para an√°lisis exploratorio
def create_distribution_plots(data, metrics, title_prefix="Distribuci√≥n"):
    """Crea gr√°ficos de distribuci√≥n para m√∫ltiples m√©tricas"""
    n_metrics = len(metrics)
    n_cols = 3
    n_rows = (n_metrics + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes] if n_cols == 1 else axes
    
    for i, metric in enumerate(metrics):
        if metric in data.columns:
            ax = axes[i]
            # Histograma con curva de densidad
            data[metric].hist(bins=30, alpha=0.7, ax=ax, color=COLORS['primary'])
            data[metric].plot.density(ax=ax, color=COLORS['danger'], linewidth=2)
            ax.set_title(f'{title_prefix}: {metric}')
            ax.set_xlabel('Valor')
            ax.set_ylabel('Frecuencia / Densidad')
            ax.grid(True, alpha=0.3)
            
            # Estad√≠sticas en el gr√°fico
            mean_val = data[metric].mean()
            median_val = data[metric].median()
            ax.axvline(mean_val, color='red', linestyle='--', label=f'Media: {mean_val:.2f}')
            ax.axvline(median_val, color='green', linestyle='--', label=f'Mediana: {median_val:.2f}')
            ax.legend()
        else:
            axes[i].text(0.5, 0.5, f'M√©trica {metric}\\nno disponible', 
                        ha='center', va='center', transform=axes[i].transAxes)
            axes[i].set_title(f'{metric} - No disponible')
    
    # Ocultar ejes sobrantes
    for i in range(len(metrics), len(axes)):
        axes[i].set_visible(False)
    
    plt.tight_layout()
    plt.show()

def create_comparison_boxplots(data, metrics, assignment_cols=['AP1', 'AP2']):
    """Crea boxplots comparativos entre asignaciones"""
    n_metrics = len(metrics)
    n_cols = 2
    n_rows = (n_metrics + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 6 * n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes] if n_cols == 1 else axes
    
    for i, metric in enumerate(metrics):
        ax = axes[i]
        
        # Preparar datos para boxplot
        metric_data = []
        labels = []
        
        for assignment in assignment_cols:
            col_name = f'{metric}_{assignment}'
            if col_name in data.columns:
                values = data[col_name].dropna()
                metric_data.append(values)
                labels.append(f'{metric}\\n{assignment}')
        
        if metric_data:
            bp = ax.boxplot(metric_data, labels=labels, patch_artist=True)
            
            # Colorear boxplots
            colors = [COLORS['AP1'], COLORS['AP2']]
            for patch, color in zip(bp['boxes'], colors[:len(bp['boxes'])]):
                patch.set_facecolor(color)
                patch.set_alpha(0.7)
            
            ax.set_title(f'Comparaci√≥n {metric}: AP1 vs AP2')
            ax.grid(True, alpha=0.3)
            
            # Agregar estad√≠sticas
            for j, values in enumerate(metric_data):
                median_val = values.median()
                mean_val = values.mean()
                ax.text(j+1, median_val, f'Med: {median_val:.1f}', 
                       ha='center', va='bottom', fontsize=9)
        else:
            ax.text(0.5, 0.5, f'Datos no\\ndisponibles', 
                   ha='center', va='center', transform=ax.transAxes)
            ax.set_title(f'{metric} - Sin datos')
    
    # Ocultar ejes sobrantes
    for i in range(len(metrics), len(axes)):
        axes[i].set_visible(False)
    
    plt.tight_layout()
    plt.show()

# Ejecutar an√°lisis exploratorio si tenemos datos
if not df.empty:
    print("üîç Iniciando An√°lisis Exploratorio de Datos...")
    
    # 1. ESTAD√çSTICAS DESCRIPTIVAS GENERALES
    print("\\n1Ô∏è‚É£ Estad√≠sticas Descriptivas Generales")
    print("="*60)
    
    print(f"üë• Total de estudiantes: {len(df)}")
    print(f"üìä Distribuci√≥n por g√©nero:")
    print(df['genero'].value_counts())
    print(f"\\nüìÖ Distribuci√≥n por semestre:")
    print(df['semestre'].value_counts())
    
    # 2. AN√ÅLISIS DE M√âTRICAS PRINCIPALES
    print("\\n2Ô∏è‚É£ An√°lisis de M√©tricas Principales de Calidad")
    print("="*60)
    
    # M√©tricas clave para analizar
    main_quality_metrics = ['bugs', 'code_smells', 'vulnerabilities', 'ncloc', 'complexity']
    
    # Estad√≠sticas por asignaci√≥n
    for assignment in ['AP1', 'AP2']:
        print(f"\\nüìö Estad√≠sticas para {assignment}:")
        assignment_metrics = [f'{metric}_{assignment}' for metric in main_quality_metrics]
        available_assignment_metrics = [col for col in assignment_metrics if col in df.columns]
        
        if available_assignment_metrics:
            stats_df = df[available_assignment_metrics].describe()
            display(stats_df)
            
            # Identificar outliers
            print(f"\\nüéØ Outliers en {assignment} (valores > Q3 + 1.5*IQR):")
            for col in available_assignment_metrics:
                q1 = df[col].quantile(0.25)
                q3 = df[col].quantile(0.75)
                iqr = q3 - q1
                outlier_threshold = q3 + 1.5 * iqr
                outliers = df[df[col] > outlier_threshold][col]
                if len(outliers) > 0:
                    print(f"   {col}: {len(outliers)} outliers (max: {outliers.max():.1f})")
    
    # 3. DISTRIBUCIONES DE M√âTRICAS CLAVE
    print("\\n3Ô∏è‚É£ Visualizaci√≥n de Distribuciones")
    print("="*60)
    
    # Gr√°ficos de distribuci√≥n para AP1
    ap1_metrics = [f'{metric}_AP1' for metric in main_quality_metrics if f'{metric}_AP1' in df.columns]
    if ap1_metrics:
        print("üìä Distribuciones en AP1:")
        create_distribution_plots(df, ap1_metrics, "Distribuci√≥n AP1")
    
    # Gr√°ficos de distribuci√≥n para AP2  
    ap2_metrics = [f'{metric}_AP2' for metric in main_quality_metrics if f'{metric}_AP2' in df.columns]
    if ap2_metrics:
        print("üìä Distribuciones en AP2:")
        create_distribution_plots(df, ap2_metrics, "Distribuci√≥n AP2")
    
    # 4. COMPARACIONES ENTRE ASIGNACIONES
    print("\\n4Ô∏è‚É£ Comparaciones entre AP1 y AP2")
    print("="*60)
    
    # Boxplots comparativos
    available_base_metrics = [metric for metric in main_quality_metrics 
                             if f'{metric}_AP1' in df.columns and f'{metric}_AP2' in df.columns]
    
    if available_base_metrics:
        print("üìä Boxplots comparativos AP1 vs AP2:")
        create_comparison_boxplots(df, available_base_metrics)
    
    # 5. AN√ÅLISIS DE CORRELACIONES
    print("\\n5Ô∏è‚É£ An√°lisis de Correlaciones")
    print("="*60)
    
    # Matriz de correlaci√≥n para m√©tricas de AP1
    ap1_cols = [col for col in df.columns if col.endswith('_AP1') and df[col].dtype in ['int64', 'float64']]
    if len(ap1_cols) > 1:
        print("üìä Matriz de correlaci√≥n - AP1:")
        corr_matrix_ap1 = df[ap1_cols].corr()
        
        plt.figure(figsize=(12, 8))
        sns.heatmap(corr_matrix_ap1, annot=True, cmap='RdBu_r', center=0, 
                   square=True, fmt='.2f', cbar_kws={'label': 'Correlaci√≥n'})
        plt.title('Matriz de Correlaci√≥n - M√©tricas AP1')
        plt.xticks(rotation=45, ha='right')
        plt.yticks(rotation=0)
        plt.tight_layout()
        plt.show()
    
    # Matriz de correlaci√≥n para m√©tricas de AP2
    ap2_cols = [col for col in df.columns if col.endswith('_AP2') and df[col].dtype in ['int64', 'float64']]
    if len(ap2_cols) > 1:
        print("üìä Matriz de correlaci√≥n - AP2:")
        corr_matrix_ap2 = df[ap2_cols].corr()
        
        plt.figure(figsize=(12, 8))
        sns.heatmap(corr_matrix_ap2, annot=True, cmap='RdBu_r', center=0, 
                   square=True, fmt='.2f', cbar_kws={'label': 'Correlaci√≥n'})
        plt.title('Matriz de Correlaci√≥n - M√©tricas AP2')
        plt.xticks(rotation=45, ha='right')
        plt.yticks(rotation=0)
        plt.tight_layout()
        plt.show()
    
    print("\\n‚úÖ An√°lisis Exploratorio de Datos completado")

else:
    print("‚ùå No se puede realizar EDA sin datos")

# üìä An√°lisis Estad√≠stico Avanzado de Calidad de C√≥digo en Proyectos Estudiantiles

## üéØ Objetivo Principal

Desarrollar un an√°lisis estad√≠stico riguroso y comprehensivo que determine si existe una **mejora estad√≠sticamente significativa** en la calidad del c√≥digo entre **Programaci√≥n Aplicada I (AP1)** y **Programaci√≥n Aplicada II (AP2)**, identificando patrones, factores de influencia y recomendaciones pedag√≥gicas.

## üìã Datos Disponibles

- ‚úÖ **60 estudiantes** con proyectos reales de programaci√≥n
- ‚úÖ **M√©tricas de SonarCloud**: bugs, vulnerabilidades, code smells, deuda t√©cnica, complejidad, etc.
- ‚úÖ **Issues detallados**: tipos, severidades, reglas violadas, ubicaciones espec√≠ficas
- ‚úÖ **Datos demogr√°ficos**: g√©nero, semestre, repositorios originales
- ‚úÖ **Proyectos diversos**: sistemas de ventas, apps m√≥viles, e-commerce, etc.

## üî¨ Metodolog√≠a

1. **An√°lisis Exploratorio de Datos (EDA)**
2. **Pruebas de Hip√≥tesis M√∫ltiples**
3. **An√°lisis Multivariado y Machine Learning**
4. **Visualizaciones Avanzadas**
5. **Recomendaciones Pedag√≥gicas**

---
*An√°lisis desarrollado para investigaci√≥n en calidad de software educativa - Tesis Aplicada 2*