# An√°lisis Estad√≠stico - Evoluci√≥n de Calidad de C√≥digo en Estudiantes de Programaci√≥n Aplicada

**Investigador:** Enel Almonte  
**Instituci√≥n:** Universidad Cat√≥lica Nordestana (UCNE)  
**Tesis:** "An√°lisis de la Evoluci√≥n de la Calidad del C√≥digo en Estudiantes de Programaci√≥n Aplicada mediante M√©tricas de SonarCloud"

## Contexto de la Investigaci√≥n

### Objetivo General
Analizar la evoluci√≥n de la calidad del c√≥digo fuente desarrollado por estudiantes de Ingenier√≠a en Sistemas de la UCNE al comparar los proyectos finales de la asignatura Programaci√≥n Aplicada I y Programaci√≥n Aplicada II.

### Pregunta de Investigaci√≥n
¬øC√≥mo evoluciona la calidad del c√≥digo fuente producido por estudiantes de Ingenier√≠a en Sistemas de la UCNE al transitar de Programaci√≥n Aplicada I a Programaci√≥n Aplicada II?

### Hip√≥tesis
- **H‚ÇÄ**: No existe diferencia estad√≠sticamente significativa en las m√©tricas de calidad del c√≥digo entre AP1 y AP2
- **H‚ÇÅ**: Existe mejora estad√≠sticamente significativa en las m√©tricas de calidad del c√≥digo de AP1 a AP2

### Variables
- **Variable Independiente**: Intervenci√≥n pedag√≥gica (taller "C√≥digo Limpio" en AP2)
- **Variable Dependiente**: M√©tricas de calidad del c√≥digo de SonarCloud

---

## Metodolog√≠a Estad√≠stica
- **Dise√±o**: Pre-test/Post-test pareado
- **Nivel de significancia**: Œ± = 0.05
- **Correcci√≥n**: FDR para comparaciones m√∫ltiples
- **Tama√±o del efecto**: Cohen's d para interpretaci√≥n pr√°ctica

# 1. Data Loading and Setup
## Importaci√≥n de Librer√≠as Necesarias

In [6]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
from scipy.stats import shapiro, wilcoxon, ttest_rel, normaltest
from statsmodels.stats.multitest import multipletests
import warnings
warnings.filterwarnings('ignore')

# Configurar visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("‚úÖ Librer√≠as importadas correctamente")
print("üìä Configuraci√≥n de visualizaciones lista")

‚úÖ Librer√≠as importadas correctamente
üìä Configuraci√≥n de visualizaciones lista


In [7]:
# Cargar datos desde URL
url = 'https://raw.githubusercontent.com/TesisEnel/Recopilacion_Datos_CalidadCodigo/main/data/Estudiantes_2023-2024_con_metricas_sonarcloud.csv'

try:
    df = pd.read_csv(url)
    print("‚úÖ Datos cargados exitosamente")
    print(f"üìä Dimensiones del dataset: {df.shape}")
    print(f"üë• N√∫mero de estudiantes √∫nicos: {df['estudiante_id'].nunique()}")
    print(f"üìö Asignaturas en el dataset: {df['asignatura'].unique()}")
except Exception as e:
    print(f"‚ùå Error al cargar los datos: {e}")
    print("üîÑ Intentando cargar desde archivo local...")
    try:
        df = pd.read_csv('../data/Estudiantes_2023-2024_con_metricas_sonarcloud.csv')
        print("‚úÖ Datos cargados desde archivo local")
    except:
        print("‚ùå No se pudieron cargar los datos")

‚úÖ Datos cargados exitosamente
üìä Dimensiones del dataset: (60, 41)
‚ùå Error al cargar los datos: 'estudiante_id'
üîÑ Intentando cargar desde archivo local...
‚úÖ Datos cargados desde archivo local


# 2. Exploratory Data Analysis (EDA)
## An√°lisis Exploratorio de Datos

In [8]:
# Estructura b√°sica del dataset
print("=== ESTRUCTURA DEL DATASET ===")
print(f"Dimensiones: {df.shape}")
print(f"Columnas: {list(df.columns)}")
print("\n=== INFORMACI√ìN B√ÅSICA ===")
print(df.info())
print("\n=== PRIMERAS FILAS ===")
display(df.head())

=== ESTRUCTURA DEL DATASET ===
Dimensiones: (60, 41)
Columnas: ['Id', 'Semestre', 'Estudiante', 'Sexo', 'Email', 'Original_Repo_Ap1', 'Original_Repo_Ap2', 'Sonar_Ap1', 'Sonar_Ap2', 'Sonar_Repo_Ap1', 'Sonar_Repo_Ap2', 'bugs_AP1', 'vulnerabilities_AP1', 'security_hotspots_AP1', 'code_smells_AP1', 'technical_debt_AP1', 'sqale_rating_AP1', 'complexity_AP1', 'cognitive_complexity_AP1', 'coverage_AP1', 'comment_lines_density_AP1', 'duplicated_lines_density_AP1', 'ncloc_AP1', 'reliability_rating_AP1', 'security_rating_AP1', 'open_issues_AP1', 'bugs_AP2', 'vulnerabilities_AP2', 'security_hotspots_AP2', 'code_smells_AP2', 'technical_debt_AP2', 'sqale_rating_AP2', 'complexity_AP2', 'cognitive_complexity_AP2', 'coverage_AP2', 'comment_lines_density_AP2', 'duplicated_lines_density_AP2', 'ncloc_AP2', 'reliability_rating_AP2', 'security_rating_AP2', 'open_issues_AP2']

=== INFORMACI√ìN B√ÅSICA ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 41 columns):


Unnamed: 0,Id,Semestre,Estudiante,Sexo,Email,Original_Repo_Ap1,Original_Repo_Ap2,Sonar_Ap1,Sonar_Ap2,Sonar_Repo_Ap1,...,sqale_rating_AP2,complexity_AP2,cognitive_complexity_AP2,coverage_AP2,comment_lines_density_AP2,duplicated_lines_density_AP2,ncloc_AP2,reliability_rating_AP2,security_rating_AP2,open_issues_AP2
0,1,2024-01,Aaron Eliezer Hern√°ndez Garc√≠a,1,atminifg655@gmail.com,https://github.com/aaron-developer25/SwiftPay.git,https://github.com/aaron-developer25/DealerPOS...,TesisEnel_SwiftPay-Aaron-Ap1,TesisEnel_DealerPOS-Aaron-ap2,https://github.com/TesisEnel/SwiftPay-Aaron-Ap1,...,1.0,1029,1262,,1.0,3.9,14674,3.0,3.0,241
1,2,2023-03,Abraham El Hage Jreij,1,abrahamelhage2003@gmail.com,https://github.com/JPichardo2003/AguaMariaSolu...,https://github.com/A-EHJ/Final_Project_Ap2.git,TesisEnel_AguaMariaSolution-JulioPichardo-ap1,TesisEnel_Final_Project-Abraham-ap2,https://github.com/TesisEnel/AguaMariaSolution...,...,1.0,272,193,,1.2,9.2,4075,1.0,1.0,37
2,3,2024-02,Adiel Luis Garc√≠a Rosa,1,adiel.garcia0422@gmail.com,https://github.com/SamyJp23/PeakPerformance.git,https://github.com/Adiel040/GymProApp.git,TesisEnel_PeakPerformance-samuelAntonio-ap1,TesisEnel_GymProApp-AdielGarcia-Ap2,https://github.com/TesisEnel/PeakPerformance-s...,...,1.0,375,546,,1.5,0.8,5736,1.0,1.0,40
3,4,2024-03,Alaina Garcia Salazar,2,garciaalaina01@gmail.com,https://github.com/Reyx38/ReyAI_Transport.git,https://github.com/JeronyCruz/RecreArte.git,TesisEnel_ReyAI_Transport-Reyfil-Ap1,TesisEnel_RecreArte-JeronyCruz-Ap2,https://github.com/TesisEnel/ReyAI_Transport-R...,...,1.0,900,1038,,2.8,12.3,11268,1.0,1.0,116
4,5,2023-01,Albert Luis Delgado Maria,1,bolshoi19booze@gmail.com,https://github.com/Rhazerpk/ProyectoFinal-AP1,https://github.com/Rhazerpk/MoonlightBarApp,TesisEnel_ProyectoFinal-AlbertRegalado-ap1,TesisEnel_MoonlightBarApp-AlbetDelgado-ap2,https://github.com/TesisEnel/ProyectoFinal-Alb...,...,1.0,99,172,,1.5,10.7,2781,1.0,1.0,28


In [9]:
# Definir m√©tricas principales por dimensi√≥n de calidad
# Las m√©tricas est√°n separadas por AP1 y AP2 en el dataset
base_metrics = {
    'Mantenibilidad': ['technical_debt', 'code_smells', 'duplicated_lines_density', 'cognitive_complexity'],
    'Fiabilidad': ['bugs', 'reliability_rating'],
    'Seguridad': ['vulnerabilities', 'security_rating']
}

# M√©tricas complementarias base
base_complementary = ['complexity', 'comment_lines_density', 'ncloc', 'security_hotspots', 'sqale_rating', 'open_issues']

# Crear listas completas con sufijos AP1 y AP2
quality_dimensions_ap1 = {}
quality_dimensions_ap2 = {}

for dimension, metrics in base_metrics.items():
    quality_dimensions_ap1[dimension] = [f"{metric}_AP1" for metric in metrics]
    quality_dimensions_ap2[dimension] = [f"{metric}_AP2" for metric in metrics]

complementary_metrics_ap1 = [f"{metric}_AP1" for metric in base_complementary]
complementary_metrics_ap2 = [f"{metric}_AP2" for metric in base_complementary]

# Todas las m√©tricas de SonarCloud (AP1 y AP2)
all_metrics_ap1 = []
all_metrics_ap2 = []

for metrics_list in quality_dimensions_ap1.values():
    all_metrics_ap1.extend(metrics_list)
all_metrics_ap1.extend(complementary_metrics_ap1)

for metrics_list in quality_dimensions_ap2.values():
    all_metrics_ap2.extend(metrics_list)
all_metrics_ap2.extend(complementary_metrics_ap2)

# M√©tricas base (sin sufijo) para an√°lisis
base_all_metrics = []
for metrics_list in base_metrics.values():
    base_all_metrics.extend(metrics_list)
base_all_metrics.extend(base_complementary)

print("=== M√âTRICAS PRINCIPALES POR DIMENSI√ìN ===")
for dimension, metrics in base_metrics.items():
    print(f"\nüîç {dimension}:")
    for metric in metrics:
        ap1_metric = f"{metric}_AP1"
        ap2_metric = f"{metric}_AP2"
        ap1_exists = ap1_metric in df.columns
        ap2_exists = ap2_metric in df.columns
        print(f"  {'‚úÖ' if ap1_exists and ap2_exists else '‚ùå'} {metric}: AP1={ap1_exists}, AP2={ap2_exists}")

print(f"\nüìä Total de m√©tricas base definidas: {len(base_all_metrics)}")
print(f"üìä M√©tricas AP1 disponibles: {len([m for m in all_metrics_ap1 if m in df.columns])}")
print(f"üìä M√©tricas AP2 disponibles: {len([m for m in all_metrics_ap2 if m in df.columns])}")

# Verificar que tenemos las columnas necesarias para an√°lisis pareado
print(f"\n=== COLUMNAS CLAVE ===")
key_columns = ['Id', 'Estudiante', 'Semestre', 'Sexo']
for col in key_columns:
    print(f"{'‚úÖ' if col in df.columns else '‚ùå'} {col}")

# Identificar estudiante como clave primaria
if 'Id' in df.columns:
    print(f"\nüë• Utilizando 'Id' como identificador de estudiante")
    student_id_col = 'Id'
elif 'Estudiante' in df.columns:
    print(f"\nüë• Utilizando 'Estudiante' como identificador de estudiante")
    student_id_col = 'Estudiante'
else:
    print(f"\n‚ùå No se encontr√≥ columna de identificaci√≥n de estudiante")
    student_id_col = None

=== M√âTRICAS PRINCIPALES POR DIMENSI√ìN ===

üîç Mantenibilidad:
  ‚úÖ technical_debt: AP1=True, AP2=True
  ‚úÖ code_smells: AP1=True, AP2=True
  ‚úÖ duplicated_lines_density: AP1=True, AP2=True
  ‚úÖ cognitive_complexity: AP1=True, AP2=True

üîç Fiabilidad:
  ‚úÖ bugs: AP1=True, AP2=True
  ‚úÖ reliability_rating: AP1=True, AP2=True

üîç Seguridad:
  ‚úÖ vulnerabilities: AP1=True, AP2=True
  ‚úÖ security_rating: AP1=True, AP2=True

üìä Total de m√©tricas base definidas: 14
üìä M√©tricas AP1 disponibles: 14
üìä M√©tricas AP2 disponibles: 14

=== COLUMNAS CLAVE ===
‚úÖ Id
‚úÖ Estudiante
‚úÖ Semestre
‚úÖ Sexo

üë• Utilizando 'Id' como identificador de estudiante


In [None]:
# Estad√≠sticas descriptivas por asignatura
print("=== ESTAD√çSTICAS DESCRIPTIVAS POR ASIGNATURA ===")

# Filtrar m√©tricas disponibles para cada asignatura
available_metrics_ap1 = [m for m in all_metrics_ap1 if m in df.columns]
available_metrics_ap2 = [m for m in all_metrics_ap2 if m in df.columns]

print(f"\nüìö ASIGNATURA AP1:")
print(f"üë• N√∫mero de estudiantes: {len(df)}")
print(f"üìä M√©tricas disponibles: {len(available_metrics_ap1)}")

if available_metrics_ap1:
    # Estad√≠sticas de las m√©tricas AP1
    stats_ap1 = df[available_metrics_ap1].describe()
    print("\nüìà Estad√≠sticas descriptivas AP1:")
    display(stats_ap1.round(3))

print(f"\n? ASIGNATURA AP2:")
print(f"?üë• N√∫mero de estudiantes: {len(df)}")
print(f"üìä M√©tricas disponibles: {len(available_metrics_ap2)}")

if available_metrics_ap2:
    # Estad√≠sticas de las m√©tricas AP2
    stats_ap2 = df[available_metrics_ap2].describe()
    print("\nüìà Estad√≠sticas descriptivas AP2:")
    display(stats_ap2.round(3))

# Comparaci√≥n directa AP1 vs AP2 para m√©tricas base
print("\n=== COMPARACI√ìN DIRECTA AP1 vs AP2 ===")

comparison_data = []
for metric in base_all_metrics:
    ap1_col = f"{metric}_AP1"
    ap2_col = f"{metric}_AP2"
    
    if ap1_col in df.columns and ap2_col in df.columns:
        comparison_data.append({
            'M√©trica': metric,
            'AP1_Media': df[ap1_col].mean(),
            'AP1_Mediana': df[ap1_col].median(),
            'AP1_Std': df[ap1_col].std(),
            'AP2_Media': df[ap2_col].mean(),
            'AP2_Mediana': df[ap2_col].median(),
            'AP2_Std': df[ap2_col].std(),
            'Diferencia_Media': df[ap2_col].mean() - df[ap1_col].mean(),
            'Cambio_Porcentual': ((df[ap2_col].mean() - df[ap1_col].mean()) / df[ap1_col].mean() * 100) if df[ap1_col].mean() != 0 else 0
        })

if comparison_data:
    comparison_df = pd.DataFrame(comparison_data)
    comparison_df = comparison_df.round(3)
    display(comparison_df)
    
    print(f"\nüìä M√©tricas comparables encontradas: {len(comparison_data)}")
else:
    print("\n‚ùå No se encontraron m√©tricas comparables entre AP1 y AP2")

# 3. Data Preprocessing and Validation
## Preprocesamiento y Validaci√≥n de Datos

In [None]:
# Validar datos pareados
print("=== VALIDACI√ìN DE DATOS PAREADOS ===")

if student_id_col:
    # En este formato, cada fila ya contiene datos de AP1 y AP2 para el mismo estudiante
    total_students = len(df)
    print(f"üë• Total de estudiantes en el dataset: {total_students}")
    
    # Verificar que tenemos datos para ambas asignaturas
    students_with_ap1 = df[available_metrics_ap1].notna().any(axis=1).sum()
    students_with_ap2 = df[available_metrics_ap2].notna().any(axis=1).sum()
    
    print(f"üë• Estudiantes con datos en AP1: {students_with_ap1}")
    print(f"üë• Estudiantes con datos en AP2: {students_with_ap2}")
    
    # Estudiantes con datos en ambas asignaturas
    has_ap1_data = df[available_metrics_ap1].notna().any(axis=1)
    has_ap2_data = df[available_metrics_ap2].notna().any(axis=1)
    paired_mask = has_ap1_data & has_ap2_data
    
    paired_students_count = paired_mask.sum()
    print(f"üîó Estudiantes con datos pareados (AP1 y AP2): {paired_students_count}")
    
    # Filtrar datos para an√°lisis pareado
    df_paired = df[paired_mask].copy()
    print(f"\nüìä Dataset pareado final: {df_paired.shape}")
    print(f"‚úÖ Datos listos para an√°lisis pre-post intervenci√≥n")
    
    # Informaci√≥n adicional del dataset
    if 'Sexo' in df_paired.columns:
        print(f"\nüë• Distribuci√≥n por g√©nero:")
        gender_dist = df_paired['Sexo'].value_counts()
        display(gender_dist)
    
    if 'Semestre' in df_paired.columns:
        print(f"\n? Distribuci√≥n por semestre:")
        semester_dist = df_paired['Semestre'].value_counts()
        display(semester_dist)
        
else:
    print("‚ùå No se puede realizar validaci√≥n sin columna de identificaci√≥n de estudiante")
    df_paired = df.copy()  # Usar todo el dataset como fallback

In [None]:
# An√°lisis de valores faltantes y outliers
print("=== AN√ÅLISIS DE VALORES FALTANTES ===")

# Analizar valores faltantes para AP1 y AP2 por separado
all_available_metrics = available_metrics_ap1 + available_metrics_ap2

missing_data = df_paired[all_available_metrics].isnull().sum()
missing_percentage = (missing_data / len(df_paired)) * 100

missing_df = pd.DataFrame({
    'Missing Count': missing_data,
    'Missing Percentage': missing_percentage.round(2)
})

# Separar por asignatura para mejor visualizaci√≥n
missing_ap1 = missing_df[missing_df.index.str.contains('_AP1')]
missing_ap2 = missing_df[missing_df.index.str.contains('_AP2')]

print("Valores faltantes AP1:")
display(missing_ap1[missing_ap1['Missing Count'] > 0])

print("Valores faltantes AP2:")
display(missing_ap2[missing_ap2['Missing Count'] > 0])

if missing_df['Missing Count'].sum() == 0:
    print("‚úÖ No hay valores faltantes en las m√©tricas principales")

# Detecci√≥n de outliers usando IQR
print("\n=== DETECCI√ìN DE OUTLIERS (IQR) ===")

def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return len(outliers), lower_bound, upper_bound

outlier_summary = []
for metric in all_available_metrics:
    if df_paired[metric].dtype in ['int64', 'float64']:
        n_outliers, lower, upper = detect_outliers_iqr(df_paired, metric)
        outlier_summary.append({
            'Metric': metric,
            'Outliers': n_outliers,
            'Lower Bound': lower,
            'Upper Bound': upper,
            'Outlier %': (n_outliers / len(df_paired)) * 100
        })

outlier_df = pd.DataFrame(outlier_summary)
print(f"üìä Resumen de outliers (primeras 10 m√©tricas):")
display(outlier_df.head(10).round(3))

# Resumen general de outliers
high_outlier_metrics = outlier_df[outlier_df['Outlier %'] > 10]
if len(high_outlier_metrics) > 0:
    print(f"\n‚ö†Ô∏è M√©tricas con alto porcentaje de outliers (>10%):")
    display(high_outlier_metrics[['Metric', 'Outlier %']].round(1))
else:
    print(f"\n‚úÖ No hay m√©tricas con porcentajes extremos de outliers")

# 4. Normality Testing and Test Selection
## Pruebas de Normalidad y Selecci√≥n de Tests Estad√≠sticos

In [None]:
def analyze_metric_evolution(df, base_metric, alpha=0.05):
    """
    Analiza la evoluci√≥n de una m√©trica entre AP1 y AP2
    
    Parameters:
    df: DataFrame con datos pareados (cada fila contiene AP1 y AP2 del mismo estudiante)
    base_metric: nombre base de la m√©trica (sin sufijo _AP1 o _AP2)
    alpha: nivel de significancia (default 0.05)
    
    Returns:
    dict: resultados del an√°lisis estad√≠stico
    """
    
    # Construir nombres de columnas
    ap1_col = f"{base_metric}_AP1"
    ap2_col = f"{base_metric}_AP2"
    
    # Verificar que las columnas existan
    if ap1_col not in df.columns or ap2_col not in df.columns:
        return {'error': f'Columnas no encontradas: {ap1_col} o {ap2_col}'}
    
    # Extraer datos, eliminando valores nulos
    valid_mask = df[ap1_col].notna() & df[ap2_col].notna()
    ap1_data = df.loc[valid_mask, ap1_col]
    ap2_data = df.loc[valid_mask, ap2_col]
    
    # Verificar que tenemos datos suficientes
    if len(ap1_data) < 3:
        return {'error': f'Datos insuficientes: solo {len(ap1_data)} pares v√°lidos'}
    
    # Calcular diferencias (AP2 - AP1)
    differences = ap2_data.values - ap1_data.values
    
    # Prueba de normalidad de las diferencias (Shapiro-Wilk)
    try:
        _, p_norm = shapiro(differences)
    except:
        p_norm = 0.01  # Asumir no normal si hay error
    
    # Seleccionar test apropiado basado en normalidad
    if p_norm > alpha:
        # Datos normales: T-test pareado
        try:
            stat, p_val = ttest_rel(ap1_data, ap2_data)
            test_used = 'T-test pareado'
        except:
            stat, p_val = wilcoxon(ap1_data, ap2_data, zero_method='zsplit')
            test_used = 'Wilcoxon signed-rank (fallback)'
    else:
        # Datos no normales: Wilcoxon signed-rank
        try:
            stat, p_val = wilcoxon(ap1_data, ap2_data, zero_method='zsplit')
            test_used = 'Wilcoxon signed-rank'
        except:
            stat, p_val = np.nan, np.nan
            test_used = 'Error en test'
    
    # Calcular tama√±o del efecto (Cohen's d)
    pooled_std = np.sqrt(((ap1_data.std()**2 + ap2_data.std()**2) / 2))
    if pooled_std != 0:
        cohen_d = (ap2_data.mean() - ap1_data.mean()) / pooled_std
    else:
        cohen_d = 0
    
    # Interpretar tama√±o del efecto
    if abs(cohen_d) < 0.2:
        effect_size = 'Peque√±o'
    elif abs(cohen_d) < 0.5:
        effect_size = 'Mediano'
    elif abs(cohen_d) < 0.8:
        effect_size = 'Grande'
    else:
        effect_size = 'Muy grande'
    
    return {
        'metric': base_metric,
        'test': test_used,
        'statistic': stat,
        'p_value': p_val,
        'p_normality': p_norm,
        'is_significant': p_val < alpha if not np.isnan(p_val) else False,
        'cohen_d': cohen_d,
        'effect_size': effect_size,
        'ap1_mean': ap1_data.mean(),
        'ap1_std': ap1_data.std(),
        'ap2_mean': ap2_data.mean(),
        'ap2_std': ap2_data.std(),
        'improvement': ap2_data.mean() - ap1_data.mean(),
        'improvement_pct': ((ap2_data.mean() - ap1_data.mean()) / ap1_data.mean() * 100) if ap1_data.mean() != 0 else 0,
        'n_pairs': len(differences),
        'ap1_col': ap1_col,
        'ap2_col': ap2_col
    }

print("‚úÖ Funci√≥n analyze_metric_evolution actualizada para el nuevo formato")
print("üî¨ Lista para an√°lisis estad√≠stico de m√©tricas individuales")

# 5. Paired Statistical Testing for Individual Metrics
## An√°lisis Estad√≠stico Pareado para M√©tricas Individuales

In [None]:
# An√°lisis estad√≠stico para todas las m√©tricas disponibles
print("=== AN√ÅLISIS ESTAD√çSTICO INDIVIDUAL DE M√âTRICAS ===")

results_individual = []

# Filtrar m√©tricas base que tienen datos en ambas asignaturas
available_base_metrics = []
for metric in base_all_metrics:
    ap1_col = f"{metric}_AP1"
    ap2_col = f"{metric}_AP2"
    if ap1_col in df_paired.columns and ap2_col in df_paired.columns:
        available_base_metrics.append(metric)

print(f"üìä M√©tricas base disponibles para an√°lisis: {len(available_base_metrics)}")

for metric in available_base_metrics:
    print(f"\nüî¨ Analizando: {metric}")
    result = analyze_metric_evolution(df_paired, metric)
    
    if 'error' not in result:
        results_individual.append(result)
        
        # Mostrar resultados resumidos
        print(f"   üìä Test usado: {result['test']}")
        print(f"   üìà AP1 ‚Üí AP2: {result['ap1_mean']:.3f} ‚Üí {result['ap2_mean']:.3f}")
        print(f"   üîÑ Cambio: {result['improvement']:.3f} ({result['improvement_pct']:.1f}%)")
        print(f"   üéØ p-valor: {result['p_value']:.4f}")
        print(f"   ‚ö° Cohen's d: {result['cohen_d']:.3f} ({result['effect_size']})")
        print(f"   üë• Pares v√°lidos: {result['n_pairs']}")
        print(f"   ‚úÖ Significativo: {'S√≠' if result['is_significant'] else 'No'}")
    else:
        print(f"   ‚ùå Error: {result['error']}")

# Crear DataFrame con resultados
if results_individual:
    results_df = pd.DataFrame(results_individual)
    print(f"\nüìä An√°lisis completado para {len(results_df)} m√©tricas")
    print(f"‚úÖ M√©tricas con mejora significativa: {sum(results_df['is_significant'])}")
    
    # Mostrar m√©tricas con mejoras m√°s significativas
    if sum(results_df['is_significant']) > 0:
        significant_results = results_df[results_df['is_significant']].sort_values('p_value')
        print(f"\nüåü Top m√©tricas con mejoras significativas:")
        for _, row in significant_results.head(5).iterrows():
            direction = "‚¨áÔ∏è Mejora" if row['improvement'] < 0 else "‚¨ÜÔ∏è Incremento"
            print(f"   ‚Ä¢ {row['metric']}: p={row['p_value']:.4f}, d={row['cohen_d']:.3f} {direction}")
else:
    print("‚ùå No se pudieron analizar las m√©tricas")

In [None]:
# Tabla resumen de resultados individuales
if results_individual:
    print("=== TABLA RESUMEN - AN√ÅLISIS INDIVIDUAL ===")
    
    summary_table = results_df[['metric', 'test', 'ap1_mean', 'ap2_mean', 'improvement', 
                               'improvement_pct', 'p_value', 'cohen_d', 'effect_size', 'is_significant']].copy()
    
    # Redondear valores num√©ricos
    summary_table['ap1_mean'] = summary_table['ap1_mean'].round(3)
    summary_table['ap2_mean'] = summary_table['ap2_mean'].round(3)
    summary_table['improvement'] = summary_table['improvement'].round(3)
    summary_table['improvement_pct'] = summary_table['improvement_pct'].round(1)
    summary_table['p_value'] = summary_table['p_value'].round(4)
    summary_table['cohen_d'] = summary_table['cohen_d'].round(3)
    
    # Renombrar columnas para mejor presentaci√≥n
    summary_table.columns = ['M√©trica', 'Test Estad√≠stico', 'Media AP1', 'Media AP2', 
                           'Cambio Absoluto', 'Cambio %', 'p-valor', 'Cohen\'s d', 
                           'Tama√±o Efecto', 'Significativo']
    
    display(summary_table)
    
    # Estad√≠sticas generales
    print(f"\n=== RESUMEN GENERAL ===")
    print(f"üìä Total de m√©tricas analizadas: {len(results_df)}")
    print(f"‚úÖ M√©tricas con mejora significativa (p < 0.05): {sum(results_df['is_significant'])}")
    print(f"üìà M√©tricas con tama√±o de efecto grande (|d| > 0.8): {sum(abs(results_df['cohen_d']) > 0.8)}")
    print(f"üìâ M√©tricas con mejora (cambio negativo en m√©tricas 'malas'): {sum(results_df['improvement'] < 0)}")
    print(f"üî¨ Tests param√©tricos utilizados: {sum(results_df['test'].str.contains('T-test'))}")
    print(f"üî¨ Tests no param√©tricos utilizados: {sum(results_df['test'].str.contains('Wilcoxon'))}")

# 6. Quality Dimensions Analysis
## An√°lisis por Dimensiones de Calidad

In [None]:
# An√°lisis por dimensiones de calidad
print("=== AN√ÅLISIS POR DIMENSIONES DE CALIDAD ===")

dimension_results = {}

for dimension, base_metrics_list in base_metrics.items():
    print(f"\nüèóÔ∏è DIMENSI√ìN: {dimension.upper()}")
    print("=" * 50)
    
    dimension_data = []
    available_dimension_metrics = [m for m in base_metrics_list if m in available_base_metrics]
    
    for metric in available_dimension_metrics:
        # Buscar resultado del an√°lisis individual
        metric_result = next((r for r in results_individual if r['metric'] == metric), None)
        
        if metric_result:
            dimension_data.append(metric_result)
            
            print(f"\nüìä {metric}:")
            print(f"   üìà Cambio: {metric_result['ap1_mean']:.3f} ‚Üí {metric_result['ap2_mean']:.3f}")
            print(f"   üîÑ Mejora: {metric_result['improvement']:.3f} ({metric_result['improvement_pct']:.1f}%)")
            print(f"   üéØ p-valor: {metric_result['p_value']:.4f}")
            print(f"   ‚ö° Cohen's d: {metric_result['cohen_d']:.3f}")
            print(f"   üë• Pares: {metric_result['n_pairs']}")
            print(f"   ‚úÖ Significativo: {'S√≠' if metric_result['is_significant'] else 'No'}")
    
    # Resumen por dimensi√≥n
    if dimension_data:
        significant_count = sum(1 for d in dimension_data if d['is_significant'])
        avg_effect_size = np.mean([d['cohen_d'] for d in dimension_data])
        avg_improvement = np.mean([d['improvement_pct'] for d in dimension_data])
        
        dimension_results[dimension] = {
            'metrics_count': len(dimension_data),
            'significant_count': significant_count,
            'significant_pct': (significant_count / len(dimension_data)) * 100,
            'avg_effect_size': avg_effect_size,
            'avg_improvement_pct': avg_improvement,
            'metrics_data': dimension_data
        }
        
        print(f"\nüìã RESUMEN {dimension}:")
        print(f"   üìä M√©tricas analizadas: {len(dimension_data)}")
        print(f"   ‚úÖ Mejoras significativas: {significant_count}/{len(dimension_data)} ({significant_count/len(dimension_data)*100:.1f}%)")
        print(f"   ‚ö° Tama√±o de efecto promedio: {avg_effect_size:.3f}")
        print(f"   üìà Cambio promedio: {avg_improvement:.1f}%")
    else:
        print(f"   ‚ùå No hay m√©tricas disponibles para esta dimensi√≥n")

# Resumen general por dimensiones
print(f"\n=== RESUMEN GENERAL POR DIMENSIONES ===")
for dimension, summary in dimension_results.items():
    improvement_direction = "‚¨áÔ∏è" if summary['avg_improvement_pct'] < 0 else "‚¨ÜÔ∏è"
    print(f"üèóÔ∏è {dimension}: {summary['significant_count']}/{summary['metrics_count']} significativas ({summary['significant_pct']:.1f}%)")
    print(f"   ‚ö° Efecto promedio: {summary['avg_effect_size']:.3f}")
    print(f"   üìà Cambio promedio: {improvement_direction} {abs(summary['avg_improvement_pct']):.1f}%")

# 7. Multiple Comparisons Correction
## Correcci√≥n por Comparaciones M√∫ltiples

In [None]:
# Correcci√≥n por comparaciones m√∫ltiples usando FDR (Benjamini-Hochberg)
print("=== CORRECCI√ìN POR COMPARACIONES M√öLTIPLES (FDR) ===")

if results_individual:
    # Extraer p-valores
    p_values = [r['p_value'] for r in results_individual]
    metric_names = [r['metric'] for r in results_individual]
    
    # Aplicar correcci√≥n FDR (Benjamini-Hochberg)
    rejected, corrected_p, alpha_sidak, alpha_bonf = multipletests(
        p_values, alpha=0.05, method='fdr_bh'
    )
    
    # Crear DataFrame con resultados corregidos
    correction_results = pd.DataFrame({
        'M√©trica': metric_names,
        'p-valor_original': p_values,
        'p-valor_corregido_FDR': corrected_p,
        'Significativo_original': [p < 0.05 for p in p_values],
        'Significativo_FDR': rejected,
        'Cohen_d': [r['cohen_d'] for r in results_individual],
        'Cambio_absoluto': [r['improvement'] for r in results_individual],
        'Cambio_porcentual': [r['improvement_pct'] for r in results_individual]
    })
    
    # Redondear valores
    correction_results['p-valor_original'] = correction_results['p-valor_original'].round(4)
    correction_results['p-valor_corregido_FDR'] = correction_results['p-valor_corregido_FDR'].round(4)
    correction_results['Cohen_d'] = correction_results['Cohen_d'].round(3)
    correction_results['Cambio_absoluto'] = correction_results['Cambio_absoluto'].round(3)
    correction_results['Cambio_porcentual'] = correction_results['Cambio_porcentual'].round(1)
    
    # Ordenar por p-valor corregido
    correction_results = correction_results.sort_values('p-valor_corregido_FDR')
    
    display(correction_results)
    
    # Resumen de correcci√≥n
    original_significant = sum(correction_results['Significativo_original'])
    fdr_significant = sum(correction_results['Significativo_FDR'])
    
    print(f"\n=== IMPACTO DE LA CORRECCI√ìN FDR ===")
    print(f"‚úÖ Significativas sin correcci√≥n (Œ± = 0.05): {original_significant}/{len(p_values)} ({original_significant/len(p_values)*100:.1f}%)")
    print(f"‚úÖ Significativas con correcci√≥n FDR: {fdr_significant}/{len(p_values)} ({fdr_significant/len(p_values)*100:.1f}%)")
    print(f"üìâ Diferencia: {original_significant - fdr_significant} m√©tricas")
    
    if fdr_significant > 0:
        print(f"\nüéØ M√âTRICAS SIGNIFICATIVAS DESPU√âS DE CORRECCI√ìN FDR:")
        significant_fdr = correction_results[correction_results['Significativo_FDR']]
        for _, row in significant_fdr.iterrows():
            print(f"   ‚úÖ {row['M√©trica']}: p-FDR = {row['p-valor_corregido_FDR']:.4f}, d = {row['Cohen_d']:.3f}")
    else:
        print("‚ö†Ô∏è Ninguna m√©trica permanece significativa despu√©s de la correcci√≥n FDR")
else:
    print("‚ùå No hay resultados para corregir")

# 8. Effect Size Calculations
## An√°lisis de Tama√±o del Efecto

In [None]:
# An√°lisis detallado del tama√±o del efecto
print("=== AN√ÅLISIS DE TAMA√ëO DEL EFECTO (COHEN'S D) ===")

if results_individual:
    # Crear DataFrame para an√°lisis de tama√±o del efecto
    effect_size_df = pd.DataFrame({
        'M√©trica': [r['metric'] for r in results_individual],
        'Cohen_d': [r['cohen_d'] for r in results_individual],
        'Efecto_categor√≠a': [r['effect_size'] for r in results_individual],
        'p_valor': [r['p_value'] for r in results_individual],
        'Significativo': [r['is_significant'] for r in results_individual],
        'Cambio_absoluto': [r['improvement'] for r in results_individual],
        'Cambio_porcentual': [r['improvement_pct'] for r in results_individual]
    })
    
    # Agregar valor absoluto de Cohen's d para ordenamiento
    effect_size_df['Cohen_d_abs'] = abs(effect_size_df['Cohen_d'])
    
    # Ordenar por tama√±o del efecto (valor absoluto)
    effect_size_df = effect_size_df.sort_values('Cohen_d_abs', ascending=False)
    
    print("üìä RANKING DE M√âTRICAS POR TAMA√ëO DEL EFECTO:")
    display(effect_size_df[['M√©trica', 'Cohen_d', 'Efecto_categor√≠a', 'p_valor', 'Significativo']].round(3))
    
    # An√°lisis por categor√≠a de efecto
    print(f"\n=== DISTRIBUCI√ìN POR TAMA√ëO DEL EFECTO ===")
    effect_counts = effect_size_df['Efecto_categor√≠a'].value_counts()
    
    for category in ['Muy grande', 'Grande', 'Mediano', 'Peque√±o']:
        count = effect_counts.get(category, 0)
        percentage = (count / len(effect_size_df)) * 100
        print(f"‚ö° {category}: {count} m√©tricas ({percentage:.1f}%)")
    
    # M√©tricas con efecto grande o muy grande
    large_effects = effect_size_df[effect_size_df['Cohen_d_abs'] >= 0.8]
    if len(large_effects) > 0:
        print(f"\nüéØ M√âTRICAS CON EFECTO GRANDE O MUY GRANDE (|d| ‚â• 0.8):")
        for _, row in large_effects.iterrows():
            direction = "Mejora" if row['Cohen_d'] < 0 else "Empeoramiento"
            print(f"   ‚ö° {row['M√©trica']}: d = {row['Cohen_d']:.3f} ({direction})")
    
    # M√©tricas con efecto mediano o mayor Y significativas
    meaningful_changes = effect_size_df[
        (effect_size_df['Cohen_d_abs'] >= 0.5) & 
        (effect_size_df['Significativo'] == True)
    ]
    
    if len(meaningful_changes) > 0:
        print(f"\n‚ú® CAMBIOS SIGNIFICATIVOS Y SUSTANCIALES (|d| ‚â• 0.5 y p < 0.05):")
        for _, row in meaningful_changes.iterrows():
            direction = "Mejora" if row['Cohen_d'] < 0 else "Empeoramiento"
            print(f"   üåü {row['M√©trica']}: d = {row['Cohen_d']:.3f}, p = {row['p_valor']:.4f} ({direction})")
    else:
        print(f"\n‚ö†Ô∏è No se encontraron cambios significativos y sustanciales")
    
    # Resumen estad√≠stico del tama√±o del efecto
    print(f"\n=== ESTAD√çSTICAS DEL TAMA√ëO DEL EFECTO ===")
    print(f"üìä Cohen's d promedio: {effect_size_df['Cohen_d'].mean():.3f}")
    print(f"üìä Cohen's d mediana: {effect_size_df['Cohen_d'].median():.3f}")
    print(f"üìä Cohen's d rango: [{effect_size_df['Cohen_d'].min():.3f}, {effect_size_df['Cohen_d'].max():.3f}]")
    print(f"üìä |Cohen's d| promedio: {effect_size_df['Cohen_d_abs'].mean():.3f}")
else:
    print("‚ùå No hay resultados para analizar el tama√±o del efecto")

# 9. Statistical Visualizations
## Visualizaciones Estad√≠sticas

In [None]:
# Box plots comparativos AP1 vs AP2 para m√©tricas principales
main_base_metrics = ['technical_debt', 'code_smells', 'bugs', 'vulnerabilities', 
                     'duplicated_lines_density', 'cognitive_complexity', 'reliability_rating', 'security_rating']

# Filtrar m√©tricas disponibles
available_main_metrics = [m for m in main_base_metrics if m in available_base_metrics]

if available_main_metrics:
    # Configurar subplots
    n_metrics = len(available_main_metrics)
    cols = 4
    rows = (n_metrics + cols - 1) // cols
    
    fig, axes = plt.subplots(rows, cols, figsize=(20, 5*rows))
    if rows == 1:
        axes = axes.reshape(1, -1)
    
    for i, metric in enumerate(available_main_metrics):
        row = i // cols
        col = i % cols
        ax = axes[row, col]
        
        # Preparar datos para boxplot
        ap1_col = f"{metric}_AP1"
        ap2_col = f"{metric}_AP2"
        
        # Crear datos en formato largo para seaborn
        ap1_data = df_paired[ap1_col].dropna()
        ap2_data = df_paired[ap2_col].dropna()
        
        plot_data = pd.DataFrame({
            'Valores': pd.concat([ap1_data, ap2_data]),
            'Asignatura': ['AP1'] * len(ap1_data) + ['AP2'] * len(ap2_data)
        })
        
        # Crear box plot
        sns.boxplot(data=plot_data, x='Asignatura', y='Valores', ax=ax)
        ax.set_title(f'{metric}')
        ax.set_xlabel('Asignatura')
        ax.set_ylabel('Valor')
        
        # Agregar informaci√≥n estad√≠stica
        result = next((r for r in results_individual if r['metric'] == metric), None)
        if result:
            significance = "***" if result['p_value'] < 0.001 else "**" if result['p_value'] < 0.01 else "*" if result['p_value'] < 0.05 else "ns"
            ax.text(0.5, 0.95, f"p = {result['p_value']:.3f} {significance}\nd = {result['cohen_d']:.3f}", 
                   transform=ax.transAxes, ha='center', va='top', 
                   bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))
    
    # Ocultar subplots vac√≠os
    for i in range(len(available_main_metrics), rows * cols):
        row = i // cols
        col = i % cols
        axes[row, col].set_visible(False)
    
    plt.suptitle('Comparaci√≥n de M√©tricas de Calidad: AP1 vs AP2', fontsize=16, y=1.02)
    plt.tight_layout()
    plt.show()
else:
    print("‚ùå No hay m√©tricas principales disponibles para visualizar")

In [None]:
# Heatmap de correlaciones entre m√©tricas
if len(available_main_metrics) > 1:
    # Crear dataset combinado para correlaciones
    correlation_data = pd.DataFrame()
    
    # Agregar datos de AP1 y AP2 para cada m√©trica
    for metric in available_main_metrics:
        ap1_col = f"{metric}_AP1"
        ap2_col = f"{metric}_AP2"
        
        if ap1_col in df_paired.columns and ap2_col in df_paired.columns:
            # Combinar datos de ambas asignaturas
            combined_values = pd.concat([df_paired[ap1_col].dropna(), df_paired[ap2_col].dropna()])
            correlation_data[metric] = combined_values.reset_index(drop=True)
    
    # Asegurar que todas las columnas tengan la misma longitud
    min_length = min([len(correlation_data[col].dropna()) for col in correlation_data.columns])
    for col in correlation_data.columns:
        correlation_data[col] = correlation_data[col].head(min_length)
    
    if len(correlation_data.columns) > 1:
        plt.figure(figsize=(12, 10))
        
        # Calcular matriz de correlaci√≥n
        correlation_matrix = correlation_data.corr()
        
        # Crear heatmap
        mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
        sns.heatmap(correlation_matrix, 
                    annot=True, 
                    cmap='coolwarm', 
                    center=0,
                    mask=mask,
                    square=True,
                    fmt='.3f',
                    cbar_kws={"shrink": .8})
        
        plt.title('Matriz de Correlaciones - M√©tricas de Calidad de C√≥digo\n(Datos combinados AP1 y AP2)', fontsize=14, pad=20)
        plt.tight_layout()
        plt.show()
        
        # Mostrar correlaciones m√°s fuertes
        print("=== CORRELACIONES M√ÅS FUERTES ===")
        corr_pairs = []
        for i in range(len(correlation_matrix.columns)):
            for j in range(i+1, len(correlation_matrix.columns)):
                corr_value = correlation_matrix.iloc[i, j]
                if abs(corr_value) > 0.5:  # Correlaciones moderadas a fuertes
                    corr_pairs.append({
                        'M√©trica 1': correlation_matrix.columns[i],
                        'M√©trica 2': correlation_matrix.columns[j],
                        'Correlaci√≥n': corr_value
                    })
        
        if corr_pairs:
            corr_df = pd.DataFrame(corr_pairs)
            corr_df = corr_df.sort_values('Correlaci√≥n', key=abs, ascending=False)
            display(corr_df.round(3))
        else:
            print("No se encontraron correlaciones fuertes (|r| > 0.5)")
    else:
        print("‚ùå Insuficientes m√©tricas v√°lidas para an√°lisis de correlaci√≥n")
else:
    print("‚ùå Insuficientes m√©tricas para an√°lisis de correlaci√≥n")

In [None]:
# Gr√°ficos de evoluci√≥n individual por estudiante (muestra)
# Mostrar evoluci√≥n para las 3 m√©tricas m√°s significativas
if results_individual:
    # Obtener las 3 m√©tricas con menor p-valor
    top_significant = sorted(results_individual, key=lambda x: x['p_value'])[:3]
    
    if len(top_significant) > 0:
        n_plots = len(top_significant)
        fig, axes = plt.subplots(1, n_plots, figsize=(6*n_plots, 6))
        if n_plots == 1:
            axes = [axes]
        
        for i, result in enumerate(top_significant):
            metric = result['metric']
            ap1_col = result['ap1_col']
            ap2_col = result['ap2_col']
            ax = axes[i]
            
            # Obtener datos v√°lidos (sin valores nulos)
            valid_mask = df_paired[ap1_col].notna() & df_paired[ap2_col].notna()
            valid_data = df_paired[valid_mask]
            
            ap1_values = valid_data[ap1_col]
            ap2_values = valid_data[ap2_col]
            
            # Tomar una muestra de estudiantes para visualizaci√≥n clara
            sample_size = min(20, len(ap1_values))
            if len(ap1_values) > sample_size:
                sample_indices = np.random.choice(len(ap1_values), sample_size, replace=False)
                ap1_sample = ap1_values.iloc[sample_indices]
                ap2_sample = ap2_values.iloc[sample_indices]
            else:
                ap1_sample = ap1_values
                ap2_sample = ap2_values
            
            # Crear l√≠neas conectando AP1 y AP2 para cada estudiante
            for j in range(len(ap1_sample)):
                ax.plot([1, 2], [ap1_sample.iloc[j], ap2_sample.iloc[j]], 
                       'o-', alpha=0.6, linewidth=1, markersize=4, color='lightblue')
            
            # Medias
            ax.plot([1, 2], [ap1_values.mean(), ap2_values.mean()], 
                   'ro-', linewidth=3, markersize=8, label='Media', color='red')
            
            # Medianas
            ax.plot([1, 2], [ap1_values.median(), ap2_values.median()], 
                   'go-', linewidth=2, markersize=6, label='Mediana', color='green')
            
            ax.set_xlim(0.8, 2.2)
            ax.set_xticks([1, 2])
            ax.set_xticklabels(['AP1', 'AP2'])
            ax.set_ylabel(metric)
            ax.set_title(f'{metric}\n(p = {result["p_value"]:.4f}, d = {result["cohen_d"]:.3f})')
            ax.grid(True, alpha=0.3)
            ax.legend()
        
        plt.suptitle(f'Evoluci√≥n Individual por Estudiante (Muestra de {sample_size})', fontsize=16)
        plt.tight_layout()
        plt.show()
        
        # Mostrar estad√≠sticas de las m√©tricas m√°s significativas
        print(f"\nüìä ESTAD√çSTICAS DE LAS M√âTRICAS M√ÅS SIGNIFICATIVAS:")
        for result in top_significant:
            print(f"\nüéØ {result['metric']}:")
            print(f"   ‚Ä¢ p-valor: {result['p_value']:.4f}")
            print(f"   ‚Ä¢ Cohen's d: {result['cohen_d']:.3f} ({result['effect_size']})")
            print(f"   ‚Ä¢ Cambio: {result['improvement']:.3f} ({result['improvement_pct']:.1f}%)")
            print(f"   ‚Ä¢ Pares analizados: {result['n_pairs']}")
    else:
        print("‚ùå No hay resultados significativos para mostrar")
else:
    print("‚ùå No hay resultados para mostrar evoluci√≥n individual")

# 10. Results Summary and Interpretation
## Resumen de Resultados e Interpretaci√≥n

In [None]:
# Tabla resumen final con todas las m√©tricas y resultados
print("=== TABLA RESUMEN FINAL - AN√ÅLISIS ESTAD√çSTICO COMPLETO ===")

if results_individual:
    # Crear tabla resumen final
    final_summary = pd.DataFrame({
        'M√©trica': [r['metric'] for r in results_individual],
        'Dimensi√≥n': [next((dim for dim, metrics in quality_dimensions.items() if r['metric'] in metrics), 'Complementaria') 
                     for r in results_individual],
        'AP1_Media': [r['ap1_mean'] for r in results_individual],
        'AP1_Std': [r['ap1_std'] for r in results_individual],
        'AP2_Media': [r['ap2_mean'] for r in results_individual],
        'AP2_Std': [r['ap2_std'] for r in results_individual],
        'Cambio_Absoluto': [r['improvement'] for r in results_individual],
        'Cambio_Porcentual': [r['improvement_pct'] for r in results_individual],
        'Test_Estad√≠stico': [r['test'] for r in results_individual],
        'p_valor': [r['p_value'] for r in results_individual],
        'Cohen_d': [r['cohen_d'] for r in results_individual],
        'Tama√±o_Efecto': [r['effect_size'] for r in results_individual],
        'Significativo': [r['is_significant'] for r in results_individual]
    })
    
    # Agregar informaci√≥n de correcci√≥n FDR si est√° disponible
    if 'correction_results' in locals():
        fdr_significant = correction_results.set_index('M√©trica')['Significativo_FDR'].to_dict()
        final_summary['Significativo_FDR'] = final_summary['M√©trica'].map(fdr_significant)
    
    # Redondear valores num√©ricos
    numeric_cols = ['AP1_Media', 'AP1_Std', 'AP2_Media', 'AP2_Std', 'Cambio_Absoluto', 'Cambio_Porcentual', 'p_valor', 'Cohen_d']
    final_summary[numeric_cols] = final_summary[numeric_cols].round(3)
    
    # Ordenar por dimensi√≥n y luego por p-valor
    final_summary = final_summary.sort_values(['Dimensi√≥n', 'p_valor'])
    
    display(final_summary)
    
    # Exportar tabla para uso posterior
    final_summary.to_csv('resultados_analisis_estadistico.csv', index=False)
    print("\nüíæ Tabla guardada como 'resultados_analisis_estadistico.csv'")
else:
    print("‚ùå No hay resultados para mostrar en la tabla resumen final")

In [None]:
# Interpretaci√≥n y conclusiones finales
print("=== INTERPRETACI√ìN Y CONCLUSIONES ===")

if results_individual:
    # Calcular estad√≠sticas generales
    total_metrics = len(results_individual)
    significant_metrics = sum(r['is_significant'] for r in results_individual)
    large_effects = sum(abs(r['cohen_d']) >= 0.8 for r in results_individual)
    medium_effects = sum(0.5 <= abs(r['cohen_d']) < 0.8 for r in results_individual)
    
    print(f"üìä RESUMEN ESTAD√çSTICO GENERAL:")
    print(f"   ‚Ä¢ Total de m√©tricas analizadas: {total_metrics}")
    print(f"   ‚Ä¢ M√©tricas con diferencias significativas (p < 0.05): {significant_metrics} ({significant_metrics/total_metrics*100:.1f}%)")
    print(f"   ‚Ä¢ M√©tricas con efecto grande (|d| ‚â• 0.8): {large_effects} ({large_effects/total_metrics*100:.1f}%)")
    print(f"   ‚Ä¢ M√©tricas con efecto mediano (0.5 ‚â§ |d| < 0.8): {medium_effects} ({medium_effects/total_metrics*100:.1f}%)")
    
    # An√°lisis por dimensi√≥n
    print(f"\nüèóÔ∏è AN√ÅLISIS POR DIMENSI√ìN DE CALIDAD:")
    for dimension, summary in dimension_results.items():
        print(f"   ‚Ä¢ {dimension}: {summary['significant_count']}/{summary['metrics_count']} significativas ({summary['significant_pct']:.1f}%)")
        print(f"     - Tama√±o de efecto promedio: {summary['avg_effect_size']:.3f}")
    
    # Respuesta a la hip√≥tesis de investigaci√≥n
    print(f"\nüéØ RESPUESTA A LA HIP√ìTESIS DE INVESTIGACI√ìN:")
    if significant_metrics > 0:
        print(f"   ‚úÖ RECHAZAMOS H‚ÇÄ: Existe evidencia estad√≠stica de diferencias significativas")
        print(f"   ‚úÖ ACEPTAMOS H‚ÇÅ: Existe mejora estad√≠sticamente significativa en {significant_metrics} m√©tricas")
        print(f"   üìà La intervenci√≥n pedag√≥gica (taller 'C√≥digo Limpio') mostr√≥ efectos positivos")
    else:
        print(f"   ‚ùå NO RECHAZAMOS H‚ÇÄ: No hay evidencia estad√≠stica suficiente de diferencias")
        print(f"   ‚ùå NO ACEPTAMOS H‚ÇÅ: No se detect√≥ mejora estad√≠sticamente significativa")
    
    # Interpretaci√≥n pr√°ctica
    print(f"\nüí° INTERPRETACI√ìN PR√ÅCTICA:")
    
    # M√©tricas que mejoraron significativamente
    improved_metrics = [r for r in results_individual if r['is_significant'] and r['improvement'] < 0]
    if improved_metrics:
        print(f"   üåü M√©tricas que mejoraron significativamente (valores menores son mejores):")
        for result in improved_metrics:
            print(f"      - {result['metric']}: {result['improvement_pct']:.1f}% de mejora")
    
    # M√©tricas que empeoraron significativamente
    worsened_metrics = [r for r in results_individual if r['is_significant'] and r['improvement'] > 0]
    if worsened_metrics:
        print(f"   ‚ö†Ô∏è M√©tricas que empeoraron significativamente:")
        for result in worsened_metrics:
            print(f"      - {result['metric']}: {result['improvement_pct']:.1f}% de empeoramiento")
    
    # Limitaciones del estudio
    print(f"\n‚ö†Ô∏è LIMITACIONES DEL AN√ÅLISIS:")
    print(f"   ‚Ä¢ Dise√±o pre-post sin grupo control")
    print(f"   ‚Ä¢ Posibles variables confusoras no controladas")
    print(f"   ‚Ä¢ Efectos del aprendizaje natural a lo largo del tiempo")
    print(f"   ‚Ä¢ Diferencias en la complejidad de los proyectos entre asignaturas")
    
    # Recomendaciones para investigaci√≥n futura
    print(f"\nüîÆ RECOMENDACIONES PARA INVESTIGACI√ìN FUTURA:")
    print(f"   ‚Ä¢ Incluir grupo control sin intervenci√≥n")
    print(f"   ‚Ä¢ An√°lisis longitudinal con m√°s puntos de medici√≥n")
    print(f"   ‚Ä¢ An√°lisis cualitativo complementario")
    print(f"   ‚Ä¢ Considerar variables moderadoras (experiencia previa, motivaci√≥n)")
    
else:
    print("‚ùå No se pueden generar conclusiones sin resultados v√°lidos")

print(f"\nüéä AN√ÅLISIS ESTAD√çSTICO COMPLETADO")
print(f"üìã Todos los resultados est√°n disponibles en las secciones anteriores")
print(f"üíæ Tablas exportadas para uso posterior en la tesis")