# üìä Reporte de Pull Requests Merged en Bitbucket

Este reporte proporciona una vista completa de todos los pull requests que han sido exitosamente merged en los repositorios de Bitbucket, incluyendo informaci√≥n detallada sobre comentarios, tiempos de resoluci√≥n y m√©tricas de productividad para an√°lisis hist√≥rico y mejora de procesos de desarrollo.

## üîß Configuraci√≥n e Importaci√≥n de Librer√≠as

In [None]:
%pip install python-dotenv requests pandas matplotlib seaborn

import requests
import pandas as pd
import numpy as np
from dotenv import load_dotenv
import os
from IPython.display import display
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import threading
from concurrent.futures import ThreadPoolExecutor
import time

print("‚úÖ Librer√≠as importadas correctamente")

In [None]:
# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Configurar credenciales de Bitbucket
username = os.getenv("BITBUCKET_USERNAME")
app_password = os.getenv("BITBUCKET_APP_PASSWORD")
workspace = os.getenv("BITBUCKET_WORKSPACE")

# Verificar que las credenciales est√©n configuradas
if not all([username, app_password, workspace]):
    print("‚ùå Error: Aseg√∫rate de tener configuradas las variables de entorno:")
    print("- BITBUCKET_USERNAME")
    print("- BITBUCKET_APP_PASSWORD")
    print("- BITBUCKET_WORKSPACE")
else:
    print(f"‚úÖ Credenciales configuradas correctamente para el workspace: {workspace}")
    print(f"   Usuario: {username}")

## üì¶ Obtener Repositorios y Funciones de Utilidad

In [None]:
# Funci√≥n para obtener todos los elementos paginados de la API de Bitbucket
def get_all_items(url, params=None):
    """
    Obtiene todos los elementos de una URL paginada de la API de Bitbucket
    """
    items = []
    while url:
        response = requests.get(url, params=params, auth=(username, app_password))
        if response.status_code != 200:
            print(
                f"‚ùå Error al obtener datos: {response.status_code} - {response.text}"
            )
            break

        data = response.json()
        items.extend(data.get("values", []))

        # Obtener la siguiente p√°gina si existe
        url = data.get("next")
        params = None  # Los par√°metros ya est√°n incluidos en la URL 'next'

    return items


# Funci√≥n para obtener comentarios de un pull request
def get_pr_comments(workspace, repo_slug, pr_id):
    """
    Obtiene todos los comentarios de un pull request espec√≠fico
    """
    comments_url = f"https://api.bitbucket.org/2.0/repositories/{workspace}/{repo_slug}/pullrequests/{pr_id}/comments"
    return get_all_items(comments_url)


# Funci√≥n para convertir fechas a formato "para humanos" en espa√±ol
def fecha_para_humanos(fecha_str):
    """
    Convierte una fecha en formato datetime o string a texto legible en espa√±ol
    """
    try:
        # Si ya es string formateado, intentar parsearlo
        if isinstance(fecha_str, str):
            # Intentar varios formatos posibles
            try:
                fecha = pd.to_datetime(fecha_str, format="%Y-%m-%d %H:%M")
            except:
                fecha = pd.to_datetime(fecha_str)
        else:
            # Si es un objeto datetime de pandas
            fecha = pd.to_datetime(fecha_str)

        # Asegurar que la fecha tenga zona horaria UTC para comparaci√≥n
        if fecha.tz is None:
            fecha = fecha.tz_localize("UTC")

        # Obtener tiempo actual en UTC
        ahora = pd.Timestamp.now(tz="UTC")

        # Calcular diferencia
        diff = ahora - fecha

        # Obtener componentes
        dias = diff.days
        segundos_totales = diff.total_seconds()
        horas = int(segundos_totales // 3600)
        minutos = int((segundos_totales % 3600) // 60)

        if dias > 0:
            if dias == 1:
                return "hace 1 d√≠a"
            elif dias < 7:
                return f"hace {dias} d√≠as"
            elif dias < 30:
                semanas = dias // 7
                if semanas == 1:
                    return "hace 1 semana"
                else:
                    return f"hace {semanas} semanas"
            elif dias < 365:
                meses = dias // 30
                if meses == 1:
                    return "hace 1 mes"
                else:
                    return f"hace {meses} meses"
            else:
                a√±os = dias // 365
                if a√±os == 1:
                    return "hace 1 a√±o"
                else:
                    return f"hace {a√±os} a√±os"
        elif horas > 0:
            if horas == 1:
                return "hace 1 hora"
            else:
                return f"hace {horas} horas"
        elif minutos > 0:
            if minutos == 1:
                return "hace 1 minuto"
            else:
                return f"hace {minutos} minutos"
        else:
            return "hace menos de 1 minuto"
    except Exception as e:
        print(f"Error procesando fecha {fecha_str}: {e}")
        return str(fecha_str)  # Si hay error, devolver la fecha original como string


# Funci√≥n para analizar comentarios del pull request seg√∫n las nuevas reglas
def analyze_pr_comments(comments, pr_author_name):
    """
    Analiza los comentarios de un PR y los clasifica seg√∫n las nuevas reglas (mutuamente excluyentes):
    - Devoluciones: Comentarios normales de usuarios diferentes al autor del PR (NO inline)
    - Estandarizaciones_Codigo: Comentarios inline de usuarios diferentes al autor del PR
    """
    comm_pullrequest = 0
    estandarizaciones_codigo = 0

    for comment in comments:
        # Solo procesar comentarios no eliminados
        if comment.get("deleted", False):
            continue

        # Obtener el nombre del usuario que hizo el comentario
        comment_author = None
        if "user" in comment and comment["user"]:
            # Priorizar display_name, luego nickname
            comment_author = comment["user"].get("display_name") or comment["user"].get(
                "nickname"
            )

        # Solo contar si el comentario es de un usuario diferente al autor del PR
        if comment_author and comment_author != pr_author_name:
            # Verificar si es comentario inline (desarrollador) o normal (pull request)
            if "inline" in comment and comment["inline"]:
                # Es un comentario inline -> comentario de estandarizaci√≥n de c√≥digo
                estandarizaciones_codigo += 1
            else:
                # Es un comentario normal -> comentario del pull request
                comm_pullrequest += 1

    return comm_pullrequest, estandarizaciones_codigo


# Funci√≥n para acortar nombres largos
def acortar_nombre(nombre_completo):
    """
    Acorta nombres largos para mostrar solo primer nombre + primera letra del segundo nombre
    Ejemplo: "Daniel Felipe Leal Chaves" -> "DanielF."
    """
    if not nombre_completo or not isinstance(nombre_completo, str):
        return nombre_completo

    # Dividir el nombre en partes
    partes = nombre_completo.strip().split()

    if len(partes) == 1:
        # Solo tiene un nombre
        return partes[0]
    elif len(partes) >= 2:
        # Tiene al menos dos nombres
        primer_nombre = partes[0]
        segunda_parte = partes[1]

        # Devolver primer nombre + primera letra del segundo en may√∫scula + punto (sin espacios)
        return f"{primer_nombre}{segunda_parte[0].upper()}."

    return nombre_completo


# =====================================================
# FUNCIONES DE PRESENTACI√ìN (SEPARAR DATOS DE VISTA)
# =====================================================


def get_devoluciones_icon(count):
    """
    Convierte n√∫mero de devoluciones a indicador visual con emoji
    """
    return f"{count} {'üî¥' if count >= 5 else 'üü°' if count >= 3 else 'üü¢'}"


def get_codigo_comentarios_icon(count):
    """
    Convierte n√∫mero de comentarios de c√≥digo a indicador visual con emoji
    """
    return f"{count} {'üî¥' if count >= 10 else 'üü°' if count >= 4 else 'üü¢'}"


def get_codigo_comentarios_category(count):
    """
    Categoriza comentarios de c√≥digo para an√°lisis (sin emojis)
    """
    if count >= 10:
        return "Alto"
    elif count >= 4:
        return "Medio"
    else:
        return "Bajo"


def get_tiempo_resolucion_icon(dias):
    """
    Convierte d√≠as de resoluci√≥n a indicador visual con emoji (solo muestra √≠cono si es lento)
    """
    return f"üêå {dias}" if dias >= 7 else str(dias)


def get_tiempo_resolucion_category(dias):
    """
    Categoriza tiempo de resoluci√≥n para an√°lisis: solo "Normal" y "Lento"
    """
    if dias >= 7:
        return "Lento"
    else:
        return "Normal"


print("‚úÖ Funciones de utilidad y presentaci√≥n definidas")

In [None]:
# Funci√≥n para obtener participantes de un pull request
def get_pr_participants(workspace, repo_slug, pr_id):
    """
    Obtiene los participantes de un pull request espec√≠fico con sus estados de revisi√≥n
    """
    participants_url = f"https://api.bitbucket.org/2.0/repositories/{workspace}/{repo_slug}/pullrequests/{pr_id}/participants"
    participants = get_all_items(participants_url)
    return participants

# Funci√≥n para obtener informaci√≥n detallada de un pull request
def get_pr_details(workspace, repo_slug, pr_id):
    """
    Obtiene informaci√≥n detallada de un pull request espec√≠fico
    """
    pr_url = f"https://api.bitbucket.org/2.0/repositories/{workspace}/{repo_slug}/pullrequests/{pr_id}"
    response = requests.get(pr_url, auth=(username, app_password))
    if response.status_code == 200:
        return response.json()
    return None

# Funci√≥n para obtener informaci√≥n detallada de un pull request incluyendo participants
def get_pr_details_with_participants(workspace, repo_slug, pr_id):
    """
    Obtiene informaci√≥n detallada de un pull request espec√≠fico incluyendo participants
    """
    pr_url = f"https://api.bitbucket.org/2.0/repositories/{workspace}/{repo_slug}/pullrequests/{pr_id}"
    response = requests.get(pr_url, auth=(username, app_password))
    if response.status_code == 200:
        return response.json()
    return None

# Funci√≥n para analizar los estados de revisi√≥n de los reviewers
def analyze_reviewer_statuses(participants, reviewers_basic):
    """
    Analiza los estados de revisi√≥n de los participantes y reviewers
    Retorna conteos de aprobaciones y solicitudes de cambio
    """
    approvals = 0
    changes_requested = 0
    reviewers_info = []
    
    # Crear un diccionario para facilitar la b√∫squeda
    participants_dict = {}
    for participant in participants:
        if participant.get('user'):
            username = participant['user'].get('nickname') or participant['user'].get('display_name')
            if username:
                participants_dict[username] = participant
    
    # Analizar cada reviewer
    for reviewer in reviewers_basic:
        reviewer_info = {"name": reviewer, "status": "pending"}
        
        # Buscar el reviewer en los participantes
        if reviewer in participants_dict:
            participant = participants_dict[reviewer]
            if participant.get('approved'):
                approvals += 1
                reviewer_info["status"] = "approved"
            elif participant.get('state') == 'changes_requested':
                changes_requested += 1
                reviewer_info["status"] = "changes_requested"
        
        reviewers_info.append(reviewer_info)
    
    return approvals, changes_requested, reviewers_info

# Funci√≥n para analizar los estados de revisi√≥n desde los datos del PR
def analyze_pr_review_statuses(pr_data):
    """
    Analiza los estados de revisi√≥n desde los datos completos del PR
    Extrae informaci√≥n de reviewers y participants si est√° disponible
    """
    approvals = 0
    changes_requested = 0
    reviewers_info = []
    
    # Primero obtener reviewers b√°sicos
    reviewers_basic = []
    if "reviewers" in pr_data and pr_data["reviewers"]:
        for reviewer in pr_data["reviewers"]:
            if "nickname" in reviewer:
                reviewers_basic.append(reviewer["nickname"])
            elif "display_name" in reviewer:
                reviewers_basic.append(reviewer["display_name"])
    
    # Buscar informaci√≥n de participants si est√° disponible en el PR
    participants = pr_data.get("participants", [])
    
    # Crear diccionario de participantes para facilitar b√∫squeda
    participants_dict = {}
    for participant in participants:
        if participant.get('user'):
            user_name = participant['user'].get('nickname') or participant['user'].get('display_name')
            if user_name:
                participants_dict[user_name] = participant
    
    # Analizar cada reviewer
    for reviewer in reviewers_basic:
        reviewer_info = {"name": reviewer, "status": "pending"}
        
        # Buscar el reviewer en los participantes
        if reviewer in participants_dict:
            participant = participants_dict[reviewer]
            # Verificar estados de aprobaci√≥n
            if participant.get('approved'):
                approvals += 1
                reviewer_info["status"] = "approved"
            elif participant.get('state') == 'changes_requested':
                changes_requested += 1
                reviewer_info["status"] = "changes_requested"
        
        reviewers_info.append(reviewer_info)
    
    return approvals, changes_requested, reviewers_info, reviewers_basic

# Funci√≥n para analizar todos los participants
def analyze_participants_reviewers(pr_data):
    """
    Analiza todos los participants del PR y extrae su estado de aprobaci√≥n
    - Aprobado: cuando 'approved' es True
    - No aprobado/Pendiente: cuando 'state' es 'changes_requested'
    """
    participants_reviewers = []
    
    # Obtener participants del PR
    participants = pr_data.get("participants", [])
    
    # Procesar todos los participants (sin filtrar por role)
    for participant in participants:
        user_info = participant.get('user', {})
        user_name = user_info.get('display_name') or user_info.get('nickname', 'Usuario Desconocido')
        
        # Verificar el estado seg√∫n las nuevas reglas
        is_approved = participant.get('approved', False)
        state = participant.get('state', '')
        
        participant_info = {
            "name": user_name,
            "approved": is_approved,
            "state": state
        }
        
        participants_reviewers.append(participant_info)
    
    return participants_reviewers

print("‚úÖ Funciones actualizadas para usar todos los participants con nuevas reglas de estado")

In [None]:
# Obtener lista de repositorios
url_repos = f"https://api.bitbucket.org/2.0/repositories/{workspace}"

print("üîÑ Obteniendo lista de repositorios...")
repositorios_data = get_all_items(url_repos)

if repositorios_data:
    repos_list = []
    for repo in repositorios_data:
        repos_list.append(
            {
                "Nombre": repo.get("name"),
                "URL": repo.get("links", {}).get("html", {}).get("href"),
                "Descripci√≥n": repo.get("description", ""),
                "Privado": repo.get("is_private", False),
            }
        )

    repos_df = pd.DataFrame(repos_list)
    repos_df = repos_df.sort_values(by="Nombre")

    # Filtrar repositorios (excluir algunos como en el archivo original)
    repositorios_excluir = ["pgp", "Pruebas_erp", "Inventario", "b2c", "efi"]
    repositorios_activos = [
        repo["Nombre"]
        for repo in repos_list
        if repo["Nombre"] not in repositorios_excluir
    ]

    print(f"‚úÖ Total de repositorios encontrados: {len(repositorios_data)}")
    print(f"‚úÖ Repositorios activos para an√°lisis: {len(repositorios_activos)}")

    # Mostrar algunos repositorios
    display(repos_df.head(10))
else:
    print("‚ùå No se pudieron obtener los repositorios")

## üîç Obtener Pull Requests Merged

In [None]:
# Funci√≥n para obtener PRs de un repositorio individual
def obtener_prs_repositorio(repo_slug, workspace, repo_index, total_repos):
    """
    Obtiene los pull requests merged de un repositorio espec√≠fico.
    Esta funci√≥n est√° dise√±ada para ser ejecutada en paralelo.
    """
    try:
        print(f"   üîÑ Procesando repositorio {repo_index}/{total_repos}: {repo_slug}")
        
        # URL para obtener PRs merged
        pr_url = f"https://api.bitbucket.org/2.0/repositories/{workspace}/{repo_slug}/pullrequests"
        
        # Obtener solo PRs merged (sin declined)
        params = {"state": "MERGED"}
        prs = get_all_items(pr_url, params=params)
        
        # Limitar a los √∫ltimos 50 PRs por repositorio para optimizar
        if len(prs) > 50:
            prs = prs[:50]
        
        # Agregar informaci√≥n del repositorio a cada PR
        for pr in prs:
            pr["repository"] = repo_slug
        
        print(f"   ‚úÖ Repositorio {repo_slug}: {len(prs)} PRs encontrados")
        return prs
        
    except Exception as e:
        print(f"   ‚ùå Error procesando repositorio {repo_slug}: {str(e)}")
        return []

# Obtener todos los pull requests merged EN PARALELO
print("üîÑ Obteniendo pull requests merged de todos los repositorios...")
print("üöÄ Usando procesamiento paralelo para acelerar las consultas...")

import time
from concurrent.futures import ThreadPoolExecutor

start_time = time.time()
pull_requests_merged = []
total_repos = len(repositorios_activos)

# Usar ThreadPoolExecutor para consultas paralelas
with ThreadPoolExecutor(max_workers=8) as executor:
    # Enviar todas las tareas al pool de threads
    futures = []
    for i, repo_slug in enumerate(repositorios_activos, 1):
        future = executor.submit(obtener_prs_repositorio, repo_slug, workspace, i, total_repos)
        futures.append(future)
    
    # Recopilar resultados conforme van complet√°ndose
    for future in futures:
        repo_prs = future.result()
        if repo_prs:  # Solo agregar si hay PRs encontrados
            pull_requests_merged.extend(repo_prs)

# Calcular tiempo de consulta
end_time = time.time()
tiempo_consulta = end_time - start_time

print(f"\n‚úÖ Consulta paralela completada en {tiempo_consulta:.1f} segundos")
print(f"‚úÖ Total de pull requests merged encontrados: {len(pull_requests_merged)}")
print(f"üöÄ Mejora de rendimiento: {(total_repos * 2 / tiempo_consulta):.1f}x m√°s r√°pido estimado")

if len(pull_requests_merged) == 0:
    print("‚ÑπÔ∏è  No hay pull requests merged en el per√≠odo consultado")
else:
    print("üîÑ Procesando informaci√≥n adicional de los pull requests...")

    # Filtrar por fecha si es necesario (√∫ltimos 30 d√≠as por defecto)
    from datetime import datetime, timedelta

    fecha_limite = datetime.now() - timedelta(days=30)

    # Filtrar PRs por fecha de merge
    prs_filtrados = []
    for pr in pull_requests_merged:
        fecha_updated = pd.to_datetime(pr["updated_on"])
        if fecha_updated.tz_localize(None) >= fecha_limite:
            prs_filtrados.append(pr)

    pull_requests_merged = prs_filtrados
    print(f"üîÑ PRs filtrados por √∫ltimos 30 d√≠as: {len(pull_requests_merged)}")

In [None]:
# Funci√≥n para procesar un PR individual de manera thread-safe
def procesar_pr_individual(pr, progress_dict, total_prs):
    try:
        # Extraer informaci√≥n del autor del PR
        autor = "Desconocido"
        if "author" in pr and pr["author"]:
            if "display_name" in pr["author"]:
                autor = pr["author"]["display_name"]
            elif "nickname" in pr["author"]:
                autor = pr["author"]["nickname"]
        autor = acortar_nombre(autor)

        # Obtener comentarios del PR y analizarlos
        try:
            comentarios = get_pr_comments(workspace, pr["repository"], pr["id"])
            comm_pullrequest, estandarizaciones_codigo = analyze_pr_comments(
                comentarios, autor
            )
        except Exception as e:
            print(f"      ‚ö†Ô∏è  Error obteniendo comentarios para PR {pr['id']}: {str(e)}")
            comm_pullrequest = 0
            estandarizaciones_codigo = 0

        # Calcular tiempo de resoluci√≥n
        created_on = pd.to_datetime(pr["created_on"])
        updated_on = pd.to_datetime(pr["updated_on"])
        tiempo_resolucion = (updated_on - created_on).days

        # Informaci√≥n sobre quien merged el PR
        merged_por = "Desconocido"
        if "closed_by" in pr and pr["closed_by"]:
            if "display_name" in pr["closed_by"]:
                merged_por = pr["closed_by"]["display_name"]
            elif "nickname" in pr["closed_by"]:
                merged_por = pr["closed_by"]["nickname"]

        # Crear registro procesado
        pr_procesado = {
            "ID": pr["id"],
            "T√≠tulo": pr.get("title", "Sin t√≠tulo"),
            "Repositorio": pr["repository"],
            "Autor": autor,
            "Merged_Por": merged_por,
            "Devoluciones": comm_pullrequest,
            "Estandarizaciones_Codigo": estandarizaciones_codigo,
            "Fecha_Creacion": created_on,
            "Fecha_Merge": updated_on,
            "Tiempo_Resolucion": tiempo_resolucion,
            "Descripcion": (
                pr.get("description", "Sin descripci√≥n")[:100] + "..."
                if pr.get("description", "")
                else "Sin descripci√≥n"
            ),
            "URL": pr.get("links", {}).get("html", {}).get("href", ""),
            "Rama_Origen": pr.get("source", {})
            .get("branch", {})
            .get("name", "Desconocida"),
            "Rama_Destino": pr.get("destination", {})
            .get("branch", {})
            .get("name", "Desconocida"),
        }

        # Actualizar progreso de manera thread-safe
        with progress_dict['lock']:
            progress_dict['procesados'] += 1
            current = progress_dict['procesados']
            print(f"   ‚úÖ PR {current}/{total_prs} procesado: {pr.get('title', 'Sin t√≠tulo')[:50]}...")

        return pr_procesado

    except Exception as e:
        print(f"   ‚ùå Error procesando PR {pr.get('id', 'unknown')}: {str(e)}")
        return None

# Procesar informaci√≥n detallada de cada pull request merged con threading
if len(pull_requests_merged) > 0:
    print(f"üöÄ Iniciando procesamiento con threading de {len(pull_requests_merged)} PRs...")
    
    # Medir tiempo de procesamiento
    start_time = time.time()
    
    # Variables para tracking del progreso thread-safe
    progress_dict = {
        'procesados': 0,
        'lock': threading.Lock()
    }
    
    # Usar ThreadPoolExecutor para procesamiento paralelo
    with ThreadPoolExecutor(max_workers=10) as executor:
        # Enviar todas las tareas al pool de threads
        futures = []
        for pr in pull_requests_merged:
            future = executor.submit(procesar_pr_individual, pr, progress_dict, len(pull_requests_merged))
            futures.append(future)
        
        # Recopilar resultados
        prs_procesados = []
        for future in futures:
            resultado = future.result()
            if resultado is not None:
                prs_procesados.append(resultado)
    
    # Calcular tiempo transcurrido
    end_time = time.time()
    tiempo_total = end_time - start_time
    
    # Crear DataFrame con los datos procesados
    df_prs_merged = pd.DataFrame(prs_procesados)

    # Ordenar por fecha de merge (m√°s recientes primero)
    df_prs_merged = df_prs_merged.sort_values("Fecha_Merge", ascending=False)

    print(f"\n‚úÖ Procesamiento completado en {tiempo_total:.1f} segundos")
    print(f"üìä {len(df_prs_merged)} pull requests procesados exitosamente")
    if len(prs_procesados) < len(pull_requests_merged):
        print(f"‚ö†Ô∏è  {len(pull_requests_merged) - len(prs_procesados)} PRs fallaron en el procesamiento")
else:
    df_prs_merged = pd.DataFrame()

## üìä Reportes y An√°lisis

In [None]:
# Resumen ejecutivo
if not df_prs_merged.empty:
    print("=" * 60)
    print("üìà RESUMEN EJECUTIVO - PULL REQUESTS MERGED")
    print("=" * 60)

    total_prs = len(df_prs_merged)

    prs_con_comentarios = len(df_prs_merged[df_prs_merged["Devoluciones"] > 0])
    total_comentarios = df_prs_merged["Devoluciones"].sum()
    total_estandarizaciones_codigo = df_prs_merged["Estandarizaciones_Codigo"].sum()

    promedio_tiempo_resolucion = df_prs_merged["Tiempo_Resolucion"].mean()
    max_tiempo_resolucion = df_prs_merged["Tiempo_Resolucion"].max()
    min_tiempo_resolucion = df_prs_merged["Tiempo_Resolucion"].min()

    print(f"üî¢ Total de Pull Requests Merged: {total_prs}")
    print(f"üí¨ PRs con Comentarios: {prs_con_comentarios}")
    print(f"üìä Total de Comentarios: {total_comentarios}")
    print(
        f"üë®‚Äçüíª Estandarizaciones de C√≥digo (inline): {total_estandarizaciones_codigo}"
    )
    print(f"‚è±Ô∏è  Tiempo Promedio de Resoluci√≥n: {promedio_tiempo_resolucion:.1f} d√≠as")
    print(f"üöÄ Resoluci√≥n m√°s R√°pida: {min_tiempo_resolucion} d√≠as")
    print(f"üêå Resoluci√≥n m√°s Lenta: {max_tiempo_resolucion} d√≠as")

    # Repositorios con m√°s PRs merged
    repos_prs = df_prs_merged["Repositorio"].value_counts()
    print(f"\nüèÜ Repositorios con m√°s PRs merged:")
    for i, (repo, count) in enumerate(repos_prs.head(5).items(), 1):
        print(f"   {i}. {repo}: {count} PRs")

    # Autores con m√°s PRs merged
    autores_prs = df_prs_merged["Autor"].value_counts()
    print(f"\nüë• Autores con m√°s PRs merged:")
    for i, (autor, count) in enumerate(autores_prs.head(5).items(), 1):
        print(f"   {i}. {autor}: {count} PRs")

    # Personas que m√°s hacen merge
    merged_por = df_prs_merged["Merged_Por"].value_counts()
    print(f"\nüîÄ Quienes m√°s hacen merge de PRs:")
    for i, (persona, count) in enumerate(merged_por.head(5).items(), 1):
        print(f"   {i}. {persona}: {count} PRs")

    print("=" * 60)
else:
    print(
        "‚ÑπÔ∏è  No hay pull requests merged en el per√≠odo consultado para mostrar en el resumen"
    )

In [None]:
# Mostrar tabla detallada de Pull Requests merged
if not df_prs_merged.empty:
    print("\nüìã DETALLE DE PULL REQUESTS MERGED")
    print("=" * 80)

    # Mostrar rango temporal de los datos analizados
    fecha_primer_pr = df_prs_merged["Fecha_Creacion"].min()
    fecha_ultimo_pr = df_prs_merged["Fecha_Creacion"].max()

    print(f"üìÖ Fecha primer pull request: {fecha_primer_pr.strftime('%d/%m/%Y %H:%M')}")
    print(f"üìÖ Fecha √∫ltimo pull request: {fecha_ultimo_pr.strftime('%d/%m/%Y %H:%M')}")

    # Calcular per√≠odo total
    periodo_total = (fecha_ultimo_pr - fecha_primer_pr).days
    print(
        f"‚è±Ô∏è  Per√≠odo total analizado: {periodo_total} d√≠as ({periodo_total / 30:.1f} meses)"
    )
    print("=" * 80)

    # Crear una versi√≥n de la tabla optimizada para visualizaci√≥n (sin Merged_Por)
    df_display = df_prs_merged[
        [
            "ID",
            "Repositorio",
            "T√≠tulo",
            "Autor",
            "Devoluciones",
            "Estandarizaciones_Codigo",
            "Tiempo_Resolucion",
            "Rama_Origen",
            "Fecha_Creacion",
            "Fecha_Merge",
        ]
    ].copy()

    # Ordenar por fecha de merge (m√°s recientes primero)
    df_display = df_display.sort_values("Fecha_Merge", ascending=False)

    # Convertir fechas a formato "para humanos"
    df_display["Creado"] = df_display["Fecha_Creacion"].apply(fecha_para_humanos)
    df_display["Merged"] = df_display["Fecha_Merge"].apply(fecha_para_humanos)

    # Eliminar las columnas de fecha originales
    df_display = df_display.drop(columns=["Fecha_Creacion", "Fecha_Merge"])

    # ===================================================================
    # MEJORES PR√ÅCTICAS: Crear columnas categ√≥ricas para an√°lisis futuro
    # ===================================================================

    # Categorizar comentarios de c√≥digo (para an√°lisis/filtros)
    df_display["Estandarizaciones_Codigo_Categoria"] = df_display[
        "Estandarizaciones_Codigo"
    ].apply(get_codigo_comentarios_category)

    # Categorizar tiempo de resoluci√≥n (para an√°lisis/filtros) - Solo "Normal" y "Lento"
    df_display["Tiempo_Resolucion_Categoria"] = df_display["Tiempo_Resolucion"].apply(
        get_tiempo_resolucion_category
    )

    # Renombrar columnas para mayor claridad
    df_display = df_display.rename(columns={"Rama_Origen": "Branch"})

    # ===================================================================
    # APLICAR PRESENTACI√ìN VISUAL SOLO PARA MOSTRAR (NO PARA ALMACENAR)
    # ===================================================================

    # Crear copia temporal solo para visualizaci√≥n
    df_show = df_display.copy()

    # Aplicar iconos solo en la copia de visualizaci√≥n
    df_show["Devoluciones"] = df_show["Devoluciones"].apply(get_devoluciones_icon)

    # Aplicar iconos solo en la copia de visualizaci√≥n
    df_show["Estandarizaciones_Codigo"] = df_show["Estandarizaciones_Codigo"].apply(
        get_codigo_comentarios_icon
    )
    df_show["Tiempo_Resolucion"] = df_show["Tiempo_Resolucion"].apply(
        get_tiempo_resolucion_icon
    )

    # Renombrar columna de tiempo para mostrar
    df_show = df_show.rename(columns={"Tiempo_Resolucion": "D√≠as_Resoluci√≥n"})

    # Seleccionar columnas para mostrar (sin las categ√≥ricas internas)
    df_show = df_show[
        [
            "ID",
            "Repositorio",
            "T√≠tulo",
            "Autor",
            "Branch",
            "Devoluciones",
            "Estandarizaciones_Codigo",
            "D√≠as_Resoluci√≥n",
            "Creado",
            "Merged",
        ]
    ]

    # Configurar pandas para mostrar todas las columnas
    pd.set_option("display.max_columns", None)
    pd.set_option("display.width", None)
    pd.set_option("display.max_colwidth", 50)

    # Mostrar la tabla (solo la versi√≥n con iconos)
    display(df_show)

    print(f"\nüìå Mostrando {len(df_display)} pull requests merged")
    print("üí° Tip: Los PRs est√°n ordenados por fecha de merge (m√°s recientes primero)")
    print("üêå Resoluci√≥n lenta: ‚â•7 d√≠as (sin √≠cono = resoluci√≥n normal)")
    print("üü¢ 0-2 devoluciones | üü° 3-4 comentarios | üî¥ 5+ comentarios")
    print("üü¢ 0-3 comentarios de c√≥digo | üü° 4-9 comentarios | üî¥ 10+ comentarios")

    print(f"\nüîç Para an√°lisis futuro usar:")
    print(
        f"   ‚Ä¢ df_display['Estandarizaciones_Codigo_Categoria'] -> 'Bajo', 'Medio', 'Alto'"
    )
    print(f"   ‚Ä¢ df_display['Tiempo_Resolucion_Categoria'] -> 'Normal', 'Lento'")
    print(f"   ‚Ä¢ df_display['Estandarizaciones_Codigo'] -> valores num√©ricos puros")
    print(f"   ‚Ä¢ df_display['Tiempo_Resolucion'] -> d√≠as num√©ricos puros")
else:
    print("‚ÑπÔ∏è  No hay pull requests merged en el per√≠odo consultado")

In [None]:
# An√°lisis espec√≠fico de los datos actuales para generar recomendaciones de reportes
if not df_prs_merged.empty:
    print("üîç AN√ÅLISIS DE DATOS DISPONIBLES Y RECOMENDACIONES DE REPORTES")
    print("=" * 70)

    # An√°lisis b√°sico de los datos
    total_prs = len(df_prs_merged)
    autores_unicos = df_prs_merged["Autor"].nunique()
    repos_unicos = df_prs_merged["Repositorio"].nunique()

    print(f"üìä Resumen de datos disponibles:")
    print(f"   ‚Ä¢ Total PRs: {total_prs}")
    print(f"   ‚Ä¢ Autores √∫nicos: {autores_unicos}")
    print(f"   ‚Ä¢ Repositorios √∫nicos: {repos_unicos}")
    print(
        f"   ‚Ä¢ Rango de fechas: {df_prs_merged['Fecha_Creacion'].min().strftime('%Y-%m-%d')} a {df_prs_merged['Fecha_Merge'].max().strftime('%Y-%m-%d')}"
    )

    # An√°lisis de distribuci√≥n de m√©tricas clave
    print(f"\nüìà Distribuci√≥n de m√©tricas clave:")

    # Estandarizaciones de c√≥digo
    est_stats = df_prs_merged["Estandarizaciones_Codigo"].describe()
    print(f"   üîß Estandarizaciones de C√≥digo:")
    print(f"      - Promedio: {est_stats['mean']:.1f}")
    print(f"      - Mediana: {est_stats['50%']:.1f}")
    print(f"      - M√°ximo: {int(est_stats['max'])}")

    # Devoluciones
    dev_stats = df_prs_merged["Devoluciones"].describe()
    print(f"   üîÑ Devoluciones:")
    print(f"      - Promedio: {dev_stats['mean']:.1f}")
    print(f"      - Mediana: {dev_stats['50%']:.1f}")
    print(f"      - M√°ximo: {int(dev_stats['max'])}")

    # Tiempo de resoluci√≥n
    tiempo_stats = df_prs_merged["Tiempo_Resolucion"].describe()
    print(f"   ‚è±Ô∏è  Tiempo de Resoluci√≥n (d√≠as):")
    print(f"      - Promedio: {tiempo_stats['mean']:.1f}")
    print(f"      - Mediana: {tiempo_stats['50%']:.1f}")
    print(f"      - M√°ximo: {int(tiempo_stats['max'])}")

    print(f"\nüéØ REPORTES RECOMENDADOS POR PRIORIDAD:")
    print("=" * 50)

    # Generar recomendaciones basadas en los datos
    reportes_recomendados = []

    # 1. Si hay variabilidad en autores, recomendar an√°lisis de productividad
    if autores_unicos >= 3:
        reportes_recomendados.append(
            {
                "prioridad": "üî¥ ALTA",
                "nombre": "Dashboard de Productividad por Desarrollador",
                "justificacion": f"Con {autores_unicos} desarrolladores activos, este reporte identificar√° patrones de rendimiento y oportunidades de mejora.",
                "impacto": "Gesti√≥n de equipo y desarrollo profesional",
            }
        )

    # 2. Si hay alta variabilidad en estandarizaciones, recomendar an√°lisis de calidad
    if est_stats["std"] > 2:
        reportes_recomendados.append(
            {
                "prioridad": "üî¥ ALTA",
                "nombre": "An√°lisis de Calidad de C√≥digo",
                "justificacion": f"Alta variabilidad en estandarizaciones (std: {est_stats['std']:.1f}) sugiere inconsistencias en calidad.",
                "impacto": "Mejora de procesos de code review",
            }
        )

    # 3. Si hay m√∫ltiples repositorios, recomendar an√°lisis por repo
    if repos_unicos >= 3:
        reportes_recomendados.append(
            {
                "prioridad": "üü° MEDIA",
                "nombre": "Ranking de Repositorios por M√©tricas",
                "justificacion": f"Con {repos_unicos} repositorios, podemos identificar cu√°les necesitan m√°s atenci√≥n.",
                "impacto": "Priorizaci√≥n de esfuerzos de mejora t√©cnica",
            }
        )

    # 4. Si hay PRs lentos, recomendar an√°lisis de eficiencia
    prs_lentos = len(df_prs_merged[df_prs_merged["Tiempo_Resolucion"] > 7])
    if prs_lentos > 0:
        porcentaje_lentos = (prs_lentos / total_prs) * 100
        reportes_recomendados.append(
            {
                "prioridad": "üü° MEDIA" if porcentaje_lentos < 20 else "üî¥ ALTA",
                "nombre": "An√°lisis de Eficiencia del Proceso",
                "justificacion": f"{prs_lentos} PRs ({porcentaje_lentos:.1f}%) tardaron m√°s de 7 d√≠as en resolverse.",
                "impacto": "Optimizaci√≥n del flujo de trabajo",
            }
        )

    # 5. An√°lisis temporal siempre √∫til
    reportes_recomendados.append(
        {
            "prioridad": "üü¢ BAJA",
            "nombre": "Tendencias Temporales",
            "justificacion": "√ötil para identificar patrones estacionales y planificaci√≥n futura.",
            "impacto": "Planificaci√≥n estrat√©gica",
        }
    )

    # Mostrar recomendaciones
    for i, reporte in enumerate(reportes_recomendados, 1):
        print(f"\n{i}. {reporte['prioridad']} - {reporte['nombre']}")
        print(f"   üí° Justificaci√≥n: {reporte['justificacion']}")
        print(f"   üéØ Impacto: {reporte['impacto']}")

    print(f"\nüöÄ PR√ìXIMOS PASOS SUGERIDOS:")
    print("=" * 40)
    print("1. Comenzar con reportes de prioridad ALTA")
    print("2. Implementar dashboards autom√°ticos para seguimiento continuo")
    print("3. Definir umbrales de alerta para intervenci√≥n proactiva")
    print("4. Establecer revisiones peri√≥dicas de m√©tricas con el equipo")

    # Mostrar informaci√≥n sobre campos disponibles para cada reporte
    print(f"\nüìã CAMPOS DISPONIBLES PARA AN√ÅLISIS:")
    print("=" * 40)
    campos_numericos = ["Devoluciones", "Estandarizaciones_Codigo", "Tiempo_Resolucion"]
    campos_categoricos = [
        "Autor",
        "Repositorio",
        "Merged_Por",
        "Rama_Origen",
        "Rama_Destino",
    ]
    campos_temporales = ["Fecha_Creacion", "Fecha_Merge"]
    campos_derivados = [
        "Estandarizaciones_Codigo_Categoria",
        "Tiempo_Resolucion_Categoria",
    ]

    print(f"üî¢ Campos num√©ricos: {', '.join(campos_numericos)}")
    print(f"üè∑Ô∏è  Campos categ√≥ricos: {', '.join(campos_categoricos)}")
    print(f"üìÖ Campos temporales: {', '.join(campos_temporales)}")
    print(f"üìä Campos derivados: {', '.join(campos_derivados)}")

else:
    print("‚ö†Ô∏è  No hay datos disponibles para generar recomendaciones de reportes")

In [None]:
# Verificar las columnas disponibles en df_prs_merged
print("üìã COLUMNAS DISPONIBLES EN df_prs_merged:")
print(list(df_prs_merged.columns))
print(f"\nShape del DataFrame: {df_prs_merged.shape}")

# Verificar si existe la columna 'Autor' en lugar de 'author_name'
if 'Autor' in df_prs_merged.columns:
    print("‚úÖ La columna 'Autor' est√° disponible")
    print(f"Autores √∫nicos: {df_prs_merged['Autor'].nunique()}")
else:
    print("‚ùå La columna 'Autor' no est√° disponible")

# Verificar otras columnas necesarias
columnas_necesarias = ['Tiempo_Resolucion', 'Devoluciones', 'Estandarizaciones_Codigo', 'Fecha_Creacion']
for col in columnas_necesarias:
    if col in df_prs_merged.columns:
        print(f"‚úÖ {col} disponible")
    else:
        print(f"‚ùå {col} NO disponible")

In [None]:
# Verificar si existe declined_prs, si no, crear un DataFrame vac√≠o
if 'declined_prs' not in globals():
    declined_prs = pd.DataFrame()  # DataFrame vac√≠o para evitar errores
    print("‚ö†Ô∏è declined_prs no encontrado, creando DataFrame vac√≠o")
else:
    print(f"‚úÖ declined_prs encontrado con {len(declined_prs)} registros")

# üìà REPORTES Y VISUALIZACIONES IMPLEMENTADAS

En esta secci√≥n implementamos los reportes prioritarios identificados en el an√°lisis anterior, proporcionando visualizaciones y m√©tricas que aportan valor directo al equipo de desarrollo para la toma de decisiones y mejora continua de procesos.

## üéØ REPORTE 1: Dashboard de Productividad del Equipo

**Objetivo:** Proporcionar una vista consolidada de la productividad del equipo con m√©tricas clave de rendimiento.

**M√©tricas incluidas:**
- Volumen total de PRs procesados por desarrollador
- Tiempo promedio de resoluci√≥n por desarrollador
- Tasa de √©xito (PRs merged vs declined)
- Distribuci√≥n de carga de trabajo
- Ranking de productividad balanceada (velocidad + volumen)

In [None]:
# ====================================================================================
# REPORTE 1: DASHBOARD DE PRODUCTIVIDAD DEL EQUIPO
# ====================================================================================


# Configurar el estilo de las visualizaciones
plt.style.use("default")
sns.set_palette("husl")

# Preparar datos para el dashboard de productividad
print("üöÄ DASHBOARD DE PRODUCTIVIDAD DEL EQUIPO")
print("=" * 60)

# 1. M√©tricas generales de productividad
metrics_productividad = {
    "Total PRs Procesados": len(df_prs_merged),
    "Desarrolladores Activos": len(df_prs_merged["Autor"].unique()),
    "Tiempo Promedio Resoluci√≥n": f"{df_prs_merged['Tiempo_Resolucion'].mean():.1f} d√≠as",
    "Tasa de √âxito Global": f"{(len(df_prs_merged) / (len(df_prs_merged) + len(declined_prs)) * 100):.1f}%",
    "PRs/D√≠a (promedio)": f"{len(df_prs_merged) / ((df_prs_merged['Fecha_Creacion'].max() - df_prs_merged['Fecha_Creacion'].min()).days + 1):.1f}",
}

# Mostrar m√©tricas principales
print("\nüìä M√âTRICAS PRINCIPALES:")
for metric, value in metrics_productividad.items():
    print(f"   {metric}: {value}")

# 2. An√°lisis de productividad por desarrollador
print("\n\nüë• AN√ÅLISIS POR DESARROLLADOR:")

# Calcular m√©tricas detalladas por autor
productivity_stats = (
    df_prs_merged.groupby("Autor")
    .agg(
        {
            "ID": "count",  # Volumen de PRs
            "Tiempo_Resolucion": ["mean", "std"],  # Tiempo promedio y variabilidad
            "Devoluciones": "mean",  # Complejidad promedio
            "Estandarizaciones_Codigo": "mean",  # Calidad del c√≥digo
        }
    )
    .round(2)
)

# Aplanar nombres de columnas
productivity_stats.columns = [
    "PRs_Total",
    "Tiempo_Promedio",
    "Tiempo_Std",
    "Devoluciones_Promedio",
    "Estandarizaciones_Promedio",
]

# Calcular score de productividad (balanceado entre volumen y velocidad)
productivity_stats["Score_Volumen"] = (
    productivity_stats["PRs_Total"] / productivity_stats["PRs_Total"].max()
) * 100
productivity_stats["Score_Velocidad"] = (
    1
    - (
        productivity_stats["Tiempo_Promedio"]
        / productivity_stats["Tiempo_Promedio"].max()
    )
) * 100
productivity_stats["Score_Productividad"] = (
    productivity_stats["Score_Volumen"] + productivity_stats["Score_Velocidad"]
) / 2

# Ordenar por score de productividad
productivity_stats = productivity_stats.sort_values(
    "Score_Productividad", ascending=False
)

# Mostrar top 10 desarrolladores m√°s productivos
print(f"\nüèÜ TOP 10 DESARROLLADORES M√ÅS PRODUCTIVOS:")
display(
    productivity_stats.head(10)[["PRs_Total", "Tiempo_Promedio", "Score_Productividad"]]
)

# 3. Crear visualizaci√≥n del dashboard
fig = plt.figure(figsize=(20, 15))
gs = fig.add_gridspec(4, 4, hspace=0.7, wspace=0.3)

# Gr√°fico 1: Volumen de PRs por desarrollador (Top 15)
ax1 = fig.add_subplot(gs[0, :2])
top_15_volume = productivity_stats.head(15)
bars1 = ax1.bar(
    range(len(top_15_volume)), top_15_volume["PRs_Total"], color="steelblue", alpha=0.8
)
ax1.set_title(
    "üìä Volumen de PRs por Desarrollador (Top 15)", fontsize=14, fontweight="bold"
)
ax1.set_ylabel("N√∫mero de PRs")
ax1.set_xticks(range(len(top_15_volume)))
ax1.set_xticklabels(
    [name[:15] + "..." if len(name) > 15 else name for name in top_15_volume.index],
    rotation=45,
    ha="right",
)

# Agregar etiquetas en las barras
for i, bar in enumerate(bars1):
    height = bar.get_height()
    ax1.text(
        bar.get_x() + bar.get_width() / 2.0,
        height + 0.5,
        f"{int(height)}",
        ha="center",
        va="bottom",
        fontsize=10,
    )

# Gr√°fico 2: Tiempo promedio de resoluci√≥n (Top 15)
ax2 = fig.add_subplot(gs[0, 2:])
bars2 = ax2.bar(
    range(len(top_15_volume)),
    top_15_volume["Tiempo_Promedio"],
    color="lightcoral",
    alpha=0.8,
)
ax2.set_title(
    "‚è±Ô∏è Tiempo Promedio de Resoluci√≥n (Top 15)", fontsize=14, fontweight="bold"
)
ax2.set_ylabel("D√≠as")
ax2.set_xticks(range(len(top_15_volume)))
ax2.set_xticklabels(
    [name[:15] + "..." if len(name) > 15 else name for name in top_15_volume.index],
    rotation=45,
    ha="right",
)

# Agregar etiquetas en las barras
for i, bar in enumerate(bars2):
    height = bar.get_height()
    ax2.text(
        bar.get_x() + bar.get_width() / 2.0,
        height + 0.1,
        f"{height:.1f}",
        ha="center",
        va="bottom",
        fontsize=10,
    )

# Gr√°fico 3: Score de Productividad (Top 12)
ax3 = fig.add_subplot(gs[1, :2])
top_12_prod = productivity_stats.head(12)
colors_grad = plt.cm.RdYlGn([x / 100 for x in top_12_prod["Score_Productividad"]])
bars3 = ax3.bar(
    range(len(top_12_prod)),
    top_12_prod["Score_Productividad"],
    color=colors_grad,
    alpha=0.8,
)
ax3.set_title(
    "üèÜ Score de Productividad Balanceado (Top 12)", fontsize=14, fontweight="bold"
)
ax3.set_ylabel("Score (0-100)")
ax3.set_xticks(range(len(top_12_prod)))
ax3.set_xticklabels(
    [name[:12] + "..." if len(name) > 12 else name for name in top_12_prod.index],
    rotation=45,
    ha="right",
)

# Agregar etiquetas en las barras
for i, bar in enumerate(bars3):
    height = bar.get_height()
    ax3.text(
        bar.get_x() + bar.get_width() / 2.0,
        height + 1,
        f"{height:.1f}",
        ha="center",
        va="bottom",
        fontsize=10,
        fontweight="bold",
    )

# Gr√°fico 4: Distribuci√≥n de carga de trabajo
ax4 = fig.add_subplot(gs[1, 2:])
# Agrupar desarrolladores por rangos de volumen
bins = [0, 5, 15, 30, 50, 999]
labels = ["1-5 PRs", "6-15 PRs", "16-30 PRs", "31-50 PRs", "50+ PRs"]
productivity_stats["Rango_Volumen"] = pd.cut(
    productivity_stats["PRs_Total"], bins=bins, labels=labels, include_lowest=True
)
dist_carga = productivity_stats["Rango_Volumen"].value_counts()

wedges, texts, autotexts = ax4.pie(
    dist_carga.values,
    labels=dist_carga.index,
    autopct="%1.1f%%",
    colors=sns.color_palette("Set3", len(dist_carga)),
)
ax4.set_title("üìà Distribuci√≥n de Carga de Trabajo", fontsize=14, fontweight="bold")

# Mejorar legibilidad del pie chart
for autotext in autotexts:
    autotext.set_color("white")
    autotext.set_fontweight("bold")

# Gr√°fico 5: Correlaci√≥n Volumen vs Velocidad
ax5 = fig.add_subplot(gs[2, :2])
scatter = ax5.scatter(
    productivity_stats["PRs_Total"],
    productivity_stats["Tiempo_Promedio"],
    c=productivity_stats["Score_Productividad"],
    cmap="RdYlGn",
    s=100,
    alpha=0.7,
    edgecolors="black",
    linewidth=0.5,
)
ax5.set_xlabel("Volumen de PRs")
ax5.set_ylabel("Tiempo Promedio (d√≠as)")
ax5.set_title("üéØ Relaci√≥n Volumen vs Velocidad", fontsize=14, fontweight="bold")

# Agregar colorbar
cbar = plt.colorbar(scatter, ax=ax5)
cbar.set_label("Score de Productividad", rotation=270, labelpad=20)

# Agregar l√≠nea de tendencia
z = np.polyfit(
    productivity_stats["PRs_Total"], productivity_stats["Tiempo_Promedio"], 1
)
p = np.poly1d(z)
ax5.plot(
    productivity_stats["PRs_Total"],
    p(productivity_stats["PRs_Total"]),
    "r--",
    alpha=0.8,
    linewidth=2,
)

# Gr√°fico 6: Evoluci√≥n temporal de productividad (√∫ltimos 6 meses)
ax6 = fig.add_subplot(gs[2, 2:])
if len(df_prs_merged) > 0:
    # Agrupar por mes
    df_prs_merged["mes"] = df_prs_merged["Fecha_Creacion"].dt.to_period("M")
    productivity_monthly = (
        df_prs_merged.groupby("mes")
        .agg({"ID": "count", "Tiempo_Resolucion": "mean"})
        .reset_index()
    )

    # Mostrar √∫ltimos 6 meses
    productivity_monthly = productivity_monthly.tail(6)

    ax6_twin = ax6.twinx()

    # L√≠nea de volumen
    line1 = ax6.plot(
        productivity_monthly["mes"].astype(str),
        productivity_monthly["ID"],
        "b-o",
        linewidth=3,
        markersize=8,
        label="Volumen PRs",
    )
    ax6.set_ylabel("N√∫mero de PRs", color="blue")
    ax6.tick_params(axis="y", labelcolor="blue")

    # L√≠nea de tiempo promedio
    line2 = ax6_twin.plot(
        productivity_monthly["mes"].astype(str),
        productivity_monthly["Tiempo_Resolucion"],
        "r-s",
        linewidth=3,
        markersize=8,
        label="Tiempo Promedio",
    )
    ax6_twin.set_ylabel("Tiempo Promedio (d√≠as)", color="red")
    ax6_twin.tick_params(axis="y", labelcolor="red")

    ax6.set_title(
        "üìÖ Evoluci√≥n Temporal de Productividad", fontsize=14, fontweight="bold"
    )
    ax6.set_xlabel("Mes")
    plt.setp(ax6.xaxis.get_majorticklabels(), rotation=45)

    # Combinar leyendas
    lines1, labels1 = ax6.get_legend_handles_labels()
    lines2, labels2 = ax6_twin.get_legend_handles_labels()
    ax6.legend(lines1 + lines2, labels1 + labels2, loc="upper left")

# Tabla resumen de insights
ax7 = fig.add_subplot(gs[3, :])
ax7.axis("tight")
ax7.axis("off")

# Generar insights autom√°ticos
insights_data = [
    [
        "üèÜ Desarrollador M√°s Productivo",
        productivity_stats.index[0],
        f"{productivity_stats.iloc[0]['Score_Productividad']:.1f} puntos",
    ],
    [
        "‚ö° Desarrollador M√°s R√°pido",
        productivity_stats.nsmallest(1, "Tiempo_Promedio").index[0],
        f"{productivity_stats.nsmallest(1, 'Tiempo_Promedio').iloc[0]['Tiempo_Promedio']:.1f} d√≠as",
    ],
    [
        "üéØ Desarrollador M√°s Volumen",
        productivity_stats.nlargest(1, "PRs_Total").index[0],
        f"{productivity_stats.nlargest(1, 'PRs_Total').iloc[0]['PRs_Total']} PRs",
    ],
    [
        "üìä Promedio Equipo",
        "Tiempo de Resoluci√≥n",
        f"{productivity_stats['Tiempo_Promedio'].mean():.1f} d√≠as",
    ],
    [
        "üîç Recomendaci√≥n",
        "Desarrolladores a Analizar",
        f"{len(productivity_stats[productivity_stats['Score_Productividad'] < 30])} con score < 30",
    ],
]

table = ax7.table(
    cellText=insights_data,
    colLabels=["M√©trica", "Valor", "Detalle"],
    cellLoc="center",
    loc="center",
    colWidths=[0.3, 0.3, 0.4],
)

table.auto_set_font_size(False)
table.set_fontsize(11)
table.scale(1, 2)

# Estilizar tabla
for i in range(len(insights_data) + 1):
    for j in range(3):
        cell = table[(i, j)]
        if i == 0:  # Header
            cell.set_facecolor("#4CAF50")
            cell.set_text_props(weight="bold", color="white")
        else:
            cell.set_facecolor("#f8f9fa" if i % 2 == 0 else "white")

ax7.set_title(
    "üí° INSIGHTS Y RECOMENDACIONES CLAVE", fontsize=16, fontweight="bold", pad=20
)

plt.suptitle(
    "üéØ DASHBOARD DE PRODUCTIVIDAD DEL EQUIPO", fontsize=20, fontweight="bold", y=0.98
)
plt.tight_layout()
plt.show()

print("\n‚úÖ Dashboard de Productividad generado exitosamente!")
print(
    f"üìà Datos analizados: {len(df_prs_merged)} PRs de {len(productivity_stats)} desarrolladores"
)

## üîç REPORTE 2: An√°lisis de Eficiencia y Calidad

**Objetivo:** Evaluar la eficiencia en el proceso de revisi√≥n y la calidad del c√≥digo entregado.

**M√©tricas incluidas:**
- Tiempo de resoluci√≥n vs complejidad (comentarios/estandarizaciones)
- Identificaci√≥n de desarrolladores que necesitan m√°s soporte
- An√°lisis de patrones de trabajo y outliers
- Correlaciones entre m√©tricas de calidad y eficiencia
- Recomendaciones espec√≠ficas de mejora

In [None]:
# ====================================================================================
# REPORTE 2: AN√ÅLISIS DE EFICIENCIA Y CALIDAD
# ====================================================================================

print("üîç AN√ÅLISIS DE EFICIENCIA Y CALIDAD")
print("=" * 60)

# 1. An√°lisis de correlaciones entre m√©tricas
print("\nüìä AN√ÅLISIS DE CORRELACIONES ENTRE M√âTRICAS:")

# Preparar datos para correlaciones
correlation_data = df_prs_merged[
    ["Tiempo_Resolucion", "Devoluciones", "Estandarizaciones_Codigo"]
].copy()
correlation_data.columns = [
    "Tiempo_Resoluci√≥n",
    "Devoluciones",
    "Estandarizaciones_C√≥digo",
]

# Calcular matriz de correlaci√≥n
corr_matrix = correlation_data.corr()
print("\nMatriz de Correlaci√≥n:")
display(corr_matrix.round(3))

# 2. An√°lisis de eficiencia por desarrollador
print("\n\n‚ö° AN√ÅLISIS DE EFICIENCIA POR DESARROLLADOR:")

# Calcular m√©tricas de eficiencia
efficiency_stats = (
    df_prs_merged.groupby("Autor")
    .agg(
        {
            "Tiempo_Resolucion": ["mean", "std", "min", "max"],
            "Devoluciones": ["mean", "std"],
            "Estandarizaciones_Codigo": ["mean", "sum"],
            "ID": "count",
        }
    )
    .round(2)
)

# Aplanar nombres de columnas
efficiency_stats.columns = [
    "Tiempo_Medio",
    "Tiempo_Std",
    "Tiempo_Min",
    "Tiempo_Max",
    "Devoluciones_Medio",
    "Devoluciones_Std",
    "Estandarizaciones_Medio",
    "Estandarizaciones_Total",
    "Total_PRs",
]

# Calcular m√©tricas de eficiencia
efficiency_stats["Coef_Variacion_Tiempo"] = (
    efficiency_stats["Tiempo_Std"] / efficiency_stats["Tiempo_Medio"]
) * 100
efficiency_stats["Ratio_Estandarizaciones"] = (
    efficiency_stats["Estandarizaciones_Total"] / efficiency_stats["Total_PRs"]
)
efficiency_stats["Score_Consistencia"] = 100 - efficiency_stats[
    "Coef_Variacion_Tiempo"
].fillna(0)
efficiency_stats["Score_Calidad"] = (
    efficiency_stats["Ratio_Estandarizaciones"]
    / efficiency_stats["Ratio_Estandarizaciones"].max()
) * 100

# Filtrar desarrolladores con al menos 3 PRs para an√°lisis m√°s confiable
efficiency_relevant = efficiency_stats[efficiency_stats["Total_PRs"] >= 3].copy()

# Identificar categor√≠as de desarrolladores
print("\nüéØ CATEGORIZACI√ìN DE DESARROLLADORES:")

# Desarrolladores eficientes (r√°pidos y consistentes)
eficientes = efficiency_relevant[
    (
        efficiency_relevant["Tiempo_Medio"]
        <= efficiency_relevant["Tiempo_Medio"].quantile(0.25)
    )
    & (
        efficiency_relevant["Score_Consistencia"]
        >= efficiency_relevant["Score_Consistencia"].quantile(0.75)
    )
]

# Desarrolladores que necesitan soporte (lentos o inconsistentes)
necesitan_soporte = efficiency_relevant[
    (
        efficiency_relevant["Tiempo_Medio"]
        >= efficiency_relevant["Tiempo_Medio"].quantile(0.75)
    )
    | (
        efficiency_relevant["Score_Consistencia"]
        <= efficiency_relevant["Score_Consistencia"].quantile(0.25)
    )
]

print(f"‚úÖ Desarrolladores Eficientes: {len(eficientes)}")
print(f"‚ö†Ô∏è  Desarrolladores que Necesitan Soporte: {len(necesitan_soporte)}")
print(
    f"üìä Desarrolladores Promedio: {len(efficiency_relevant) - len(eficientes) - len(necesitan_soporte)}"
)

# 3. Crear visualizaci√≥n del an√°lisis de eficiencia
fig = plt.figure(figsize=(20, 16))
gs = fig.add_gridspec(4, 3, hspace=0.8, wspace=0.3)

# Gr√°fico 1: Matriz de correlaci√≥n
ax1 = fig.add_subplot(gs[0, 0])
im1 = ax1.imshow(corr_matrix, cmap="RdBu_r", aspect="auto", vmin=-1, vmax=1)
ax1.set_xticks(range(len(corr_matrix.columns)))
ax1.set_yticks(range(len(corr_matrix.columns)))
ax1.set_xticklabels(corr_matrix.columns, rotation=45, ha="right")
ax1.set_yticklabels(corr_matrix.columns)
ax1.set_title(
    "üîó Matriz de Correlaci√≥n\nEntre M√©tricas", fontsize=12, fontweight="bold"
)

# Agregar valores en la matriz
for i in range(len(corr_matrix.columns)):
    for j in range(len(corr_matrix.columns)):
        text = ax1.text(
            j,
            i,
            f"{corr_matrix.iloc[i, j]:.2f}",
            ha="center",
            va="center",
            color="white" if abs(corr_matrix.iloc[i, j]) > 0.5 else "black",
            fontweight="bold",
        )

# Colorbar para correlaci√≥n
plt.colorbar(im1, ax=ax1, shrink=0.8)

# Gr√°fico 2: Tiempo vs Complejidad (Devoluciones)
ax2 = fig.add_subplot(gs[0, 1])
scatter1 = ax2.scatter(
    df_prs_merged["Devoluciones"],
    df_prs_merged["Tiempo_Resolucion"],
    c=df_prs_merged["Estandarizaciones_Codigo"],
    cmap="viridis",
    alpha=0.6,
    s=50,
    edgecolors="black",
    linewidth=0.3,
)
ax2.set_xlabel("Devoluciones")
ax2.set_ylabel("Tiempo de Resoluci√≥n (d√≠as)")
ax2.set_title(
    "‚è±Ô∏è Tiempo vs Complejidad\n(Color = Estandarizaciones)",
    fontsize=12,
    fontweight="bold",
)
plt.colorbar(scatter1, ax=ax2, shrink=0.8, label="Estandarizaciones")

# Agregar l√≠nea de tendencia
if len(df_prs_merged) > 1:
    z = np.polyfit(df_prs_merged["Devoluciones"], df_prs_merged["Tiempo_Resolucion"], 1)
    p = np.poly1d(z)
    ax2.plot(
        df_prs_merged["Devoluciones"],
        p(df_prs_merged["Devoluciones"]),
        "r--",
        alpha=0.8,
        linewidth=2,
    )

# Gr√°fico 3: Distribuci√≥n de eficiencia por categor√≠as
ax3 = fig.add_subplot(gs[0, 2])
categorias_count = [
    len(eficientes),
    len(necesitan_soporte),
    len(efficiency_relevant) - len(eficientes) - len(necesitan_soporte),
]
categorias_labels = ["Eficientes", "Necesitan\nSoporte", "Promedio"]
colors_cat = ["#2ecc71", "#e74c3c", "#f39c12"]

bars_cat = ax3.bar(categorias_labels, categorias_count, color=colors_cat, alpha=0.8)
ax3.set_title(
    "üìä Distribuci√≥n por\nCategor√≠a de Eficiencia", fontsize=12, fontweight="bold"
)
ax3.set_ylabel("N√∫mero de Desarrolladores")

# Agregar etiquetas en las barras
for i, bar in enumerate(bars_cat):
    height = bar.get_height()
    ax3.text(
        bar.get_x() + bar.get_width() / 2.0,
        height + 0.1,
        f"{int(height)}",
        ha="center",
        va="bottom",
        fontsize=12,
        fontweight="bold",
    )

# Gr√°fico 4: Top 10 m√°s eficientes
ax4 = fig.add_subplot(gs[1, :])
if len(efficiency_relevant) > 0:
    # Calcular score combinado de eficiencia
    efficiency_relevant["Score_Eficiencia"] = (
        (1 / efficiency_relevant["Tiempo_Medio"])
        / (1 / efficiency_relevant["Tiempo_Medio"]).max()
    ) * 50 + (efficiency_relevant["Score_Consistencia"] / 100) * 50

    top_10_eff = efficiency_relevant.nlargest(10, "Score_Eficiencia")

    x_pos = range(len(top_10_eff))
    bars_eff = ax4.bar(
        x_pos,
        top_10_eff["Score_Eficiencia"],
        color=plt.cm.RdYlGn([x / 100 for x in top_10_eff["Score_Eficiencia"]]),
        alpha=0.8,
    )

    ax4.set_title(
        "üèÜ TOP 10 DESARROLLADORES M√ÅS EFICIENTES (Velocidad + Consistencia)",
        fontsize=14,
        fontweight="bold",
    )
    ax4.set_ylabel("Score de Eficiencia (0-100)")
    ax4.set_xticks(x_pos)
    ax4.set_xticklabels(
        [name[:20] + "..." if len(name) > 20 else name for name in top_10_eff.index],
        rotation=45,
        ha="right",
    )

    # Agregar etiquetas con detalles
    for i, bar in enumerate(bars_eff):
        height = bar.get_height()
        author = top_10_eff.index[i]
        tiempo = top_10_eff.loc[author, "Tiempo_Medio"]
        ax4.text(
            bar.get_x() + bar.get_width() / 2.0,
            height + 1,
            f"{height:.1f}\n({tiempo:.1f}d)",
            ha="center",
            va="bottom",
            fontsize=9,
            fontweight="bold",
        )

# Gr√°fico 5: An√°lisis de outliers
ax5 = fig.add_subplot(gs[2, 0])
# Boxplot de tiempos de resoluci√≥n
bp = ax5.boxplot(
    [df_prs_merged["Tiempo_Resolucion"]],
    patch_artist=True,
    boxprops=dict(facecolor="lightblue", alpha=0.7),
)
ax5.set_title(
    "üì¶ Detecci√≥n de Outliers\nen Tiempo de Resoluci√≥n", fontsize=12, fontweight="bold"
)
ax5.set_ylabel("Tiempo (d√≠as)")
ax5.set_xticklabels(["Todos los PRs"])

# Identificar outliers
Q1 = df_prs_merged["Tiempo_Resolucion"].quantile(0.25)
Q3 = df_prs_merged["Tiempo_Resolucion"].quantile(0.75)
IQR = Q3 - Q1
outliers = df_prs_merged[df_prs_merged["Tiempo_Resolucion"] > Q3 + 1.5 * IQR]

ax5.text(
    1.2,
    Q3 + 1.5 * IQR,
    f"Outliers: {len(outliers)}",
    fontsize=10,
    bbox=dict(boxstyle="round,pad=0.3", facecolor="yellow", alpha=0.7),
)

# Gr√°fico 6: Consistencia vs Velocidad
ax6 = fig.add_subplot(gs[2, 1])
if len(efficiency_relevant) > 0:
    scatter2 = ax6.scatter(
        efficiency_relevant["Tiempo_Medio"],
        efficiency_relevant["Score_Consistencia"],
        c=efficiency_relevant["Total_PRs"],
        cmap="plasma",
        s=100,
        alpha=0.7,
        edgecolors="black",
        linewidth=0.5,
    )
    ax6.set_xlabel("Tiempo Promedio (d√≠as)")
    ax6.set_ylabel("Score de Consistencia")
    ax6.set_title(
        "üéØ Consistencia vs Velocidad\n(Tama√±o = Total PRs)",
        fontsize=12,
        fontweight="bold",
    )

    # Agregar l√≠neas de referencia
    ax6.axhline(
        y=efficiency_relevant["Score_Consistencia"].mean(),
        color="red",
        linestyle="--",
        alpha=0.7,
    )
    ax6.axvline(
        x=efficiency_relevant["Tiempo_Medio"].mean(),
        color="red",
        linestyle="--",
        alpha=0.7,
    )

    plt.colorbar(scatter2, ax=ax6, shrink=0.8, label="Total PRs")

# Gr√°fico 7: Evoluci√≥n de calidad (estandarizaciones) en el tiempo
ax7 = fig.add_subplot(gs[2, 2])
if len(df_prs_merged) > 0:
    # Agrupar por mes y calcular promedio de estandarizaciones
    df_prs_merged["mes"] = df_prs_merged["Fecha_Creacion"].dt.to_period("M")
    quality_evolution = (
        df_prs_merged.groupby("mes")["Estandarizaciones_Codigo"].mean().tail(8)
    )

    ax7.plot(
        quality_evolution.index.astype(str),
        quality_evolution.values,
        "g-o",
        linewidth=3,
        markersize=8,
    )
    ax7.set_title(
        "üìà Evoluci√≥n de Calidad\n(Estandarizaciones/PR)",
        fontsize=12,
        fontweight="bold",
    )
    ax7.set_ylabel("Promedio Estandarizaciones")
    ax7.set_xlabel("Mes")
    plt.setp(ax7.xaxis.get_majorticklabels(), rotation=45)

    # Agregar l√≠nea de tendencia
    if len(quality_evolution) > 1:
        z = np.polyfit(range(len(quality_evolution)), quality_evolution.values, 1)
        p = np.poly1d(z)
        ax7.plot(
            quality_evolution.index.astype(str),
            p(range(len(quality_evolution))),
            "r--",
            alpha=0.8,
            linewidth=2,
        )

# Tabla de desarrolladores que necesitan soporte
ax8 = fig.add_subplot(gs[3, :])
ax8.axis("tight")
ax8.axis("off")

if len(necesitan_soporte) > 0:
    # Preparar datos para la tabla
    support_data = []
    for author in necesitan_soporte.head(5).index:  # Top 5 que m√°s necesitan soporte
        tiempo = necesitan_soporte.loc[author, "Tiempo_Medio"]
        consistencia = necesitan_soporte.loc[author, "Score_Consistencia"]
        total_prs = necesitan_soporte.loc[author, "Total_PRs"]

        # Determinar recomendaci√≥n
        if tiempo > efficiency_relevant["Tiempo_Medio"].quantile(0.75):
            recomendacion = "üêå Mejorar velocidad de desarrollo"
        elif consistencia < efficiency_relevant["Score_Consistencia"].quantile(0.25):
            recomendacion = "üìä Trabajar en consistencia"
        else:
            recomendacion = "üîÑ Revisi√≥n general de proceso"

        support_data.append(
            [
                author[:25] + "..." if len(author) > 25 else author,
                f"{tiempo:.1f} d√≠as",
                f"{consistencia:.1f}%",
                f"{total_prs} PRs",
                recomendacion,
            ]
        )

    table_support = ax8.table(
        cellText=support_data,
        colLabels=[
            "Desarrollador",
            "Tiempo Promedio",
            "Consistencia",
            "Total PRs",
            "Recomendaci√≥n",
        ],
        cellLoc="center",
        loc="center",
        colWidths=[0.25, 0.15, 0.15, 0.1, 0.35],
    )

    table_support.auto_set_font_size(False)
    table_support.set_fontsize(10)
    table_support.scale(1, 2)

    # Estilizar tabla
    for i in range(len(support_data) + 1):
        for j in range(5):
            cell = table_support[(i, j)]
            if i == 0:  # Header
                cell.set_facecolor("#e74c3c")
                cell.set_text_props(weight="bold", color="white")
            else:
                cell.set_facecolor("#fff3cd" if i % 2 == 0 else "#ffeaa7")

ax8.set_title(
    "‚ö†Ô∏è DESARROLLADORES QUE NECESITAN SOPORTE PRIORITARIO",
    fontsize=16,
    fontweight="bold",
    pad=20,
)

plt.suptitle(
    "üîç AN√ÅLISIS DE EFICIENCIA Y CALIDAD DEL EQUIPO",
    fontsize=20,
    fontweight="bold",
    y=0.98,
)
plt.tight_layout()
plt.show()

# 4. Resumen ejecutivo de insights
print("\n\nüí° INSIGHTS Y RECOMENDACIONES:")
print("=" * 50)

# Correlaci√≥n m√°s fuerte
max_corr = corr_matrix.abs().unstack().sort_values(ascending=False)
max_corr = max_corr[max_corr < 1.0].iloc[0]
corr_vars = corr_matrix.abs().unstack().sort_values(ascending=False).index[1]

print(f"üîó Correlaci√≥n m√°s fuerte: {corr_vars[0]} vs {corr_vars[1]} ({max_corr:.2f})")
print(f"‚ö° Desarrolladores m√°s eficientes: {len(eficientes)}")
print(f"‚ö†Ô∏è  Desarrolladores que necesitan soporte: {len(necesitan_soporte)}")
print(
    f"üìä Tiempo promedio del equipo: {efficiency_relevant['Tiempo_Medio'].mean():.1f} d√≠as"
)
print(
    f"üéØ Coeficiente de variaci√≥n promedio: {efficiency_relevant['Coef_Variacion_Tiempo'].mean():.1f}%"
)

if len(outliers) > 0:
    print(
        f"üö® PRs outliers detectados: {len(outliers)} ({len(outliers) / len(df_prs_merged) * 100:.1f}% del total)"
    )

print("\n‚úÖ An√°lisis de Eficiencia y Calidad completado!")

## üîç REPORTE 4: M√©tricas de Calidad del C√≥digo (Previas a QA/Revisi√≥n Senior)

Este reporte analiza espec√≠ficamente las **devoluciones por PR**, proporcionando insights sobre la calidad inicial del c√≥digo antes de pasar por controles de calidad y revisiones senior. Las devoluciones son un indicador clave de cu√°ntos PRs no cumplen los est√°ndares esperados en el primer intento.

In [None]:
# REPORTE 4: M√âTRICAS DE CALIDAD DEL C√ìDIGO (DEVOLUCIONES)
print("üîç M√âTRICAS DE CALIDAD DEL C√ìDIGO - AN√ÅLISIS DE DEVOLUCIONES")
print("=" * 65)

# 1. Estad√≠sticas b√°sicas de devoluciones
print("\nüìä ESTAD√çSTICAS B√ÅSICAS DE DEVOLUCIONES:")
print("-" * 45)

devoluciones_stats = df_prs_merged["Devoluciones"].describe()
print(f"Total de PRs analizados: {len(df_prs_merged):,}")
print(f"Total de devoluciones: {df_prs_merged['Devoluciones'].sum():,}")
print(f"Promedio de devoluciones por PR: {devoluciones_stats['mean']:.2f}")
print(f"Mediana: {devoluciones_stats['50%']:.2f}")
print(f"Desviaci√≥n est√°ndar: {devoluciones_stats['std']:.2f}")
print(f"M√≠nimo: {int(devoluciones_stats['min'])}")
print(f"M√°ximo: {int(devoluciones_stats['max'])}")

# 2. An√°lisis de calidad inicial
prs_sin_devoluciones = len(df_prs_merged[df_prs_merged["Devoluciones"] == 0])
prs_con_devoluciones = len(df_prs_merged[df_prs_merged["Devoluciones"] > 0])
porcentaje_sin_devoluciones = (prs_sin_devoluciones / len(df_prs_merged)) * 100
porcentaje_con_devoluciones = (prs_con_devoluciones / len(df_prs_merged)) * 100

print(f"\nüéØ AN√ÅLISIS DE CALIDAD INICIAL:")
print("-" * 35)
print(
    f"PRs aprobados al primer intento: {prs_sin_devoluciones:,} ({porcentaje_sin_devoluciones:.1f}%)"
)
print(
    f"PRs que requirieron correcciones: {prs_con_devoluciones:,} ({porcentaje_con_devoluciones:.1f}%)"
)

# Interpretaci√≥n de calidad
if porcentaje_sin_devoluciones >= 70:
    calidad_general = "EXCELENTE"
    color_calidad = "üü¢"
elif porcentaje_sin_devoluciones >= 50:
    calidad_general = "BUENA"
    color_calidad = "üü°"
else:
    calidad_general = "REQUIERE MEJORA"
    color_calidad = "üî¥"

print(f"Calidad inicial del c√≥digo: {color_calidad} {calidad_general}")

# 3. Distribuci√≥n de devoluciones
print(f"\nüìà DISTRIBUCI√ìN DE DEVOLUCIONES:")
print("-" * 35)

# Crear categor√≠as para las devoluciones
dev_bins = [-0.1, 0, 1, 3, 5, float("inf")]
dev_labels = [
    "Sin devoluciones",
    "Baja (1)",
    "Media (2-3)",
    "Alta (4-5)",
    "Muy Alta (>5)",
]
df_prs_merged["Devoluciones_Categoria"] = pd.cut(
    df_prs_merged["Devoluciones"], bins=dev_bins, labels=dev_labels, right=True
)

dev_distribution = df_prs_merged["Devoluciones_Categoria"].value_counts()
dev_percentages = (dev_distribution / len(df_prs_merged) * 100).round(1)

for categoria, count in dev_distribution.items():
    percentage = dev_percentages[categoria]
    print(f"{categoria}: {count:,} PRs ({percentage}%)")

print("\n‚úÖ Estad√≠sticas b√°sicas de devoluciones completadas!")

In [None]:
# 4. An√°lisis por desarrollador
print("\nüë®‚Äçüíª AN√ÅLISIS POR DESARROLLADOR:")
print("-" * 35)

# Estad√≠sticas por autor
dev_por_autor = df_prs_merged.groupby('Autor')['Devoluciones'].agg([
    'count', 'sum', 'mean', 'std'
]).round(2)
dev_por_autor.columns = ['PRs_Total', 'Dev_Total', 'Dev_Promedio', 'Dev_Std']
dev_por_autor['Tasa_Exito'] = ((dev_por_autor['PRs_Total'] - df_prs_merged.groupby('Autor')['Devoluciones'].apply(lambda x: (x > 0).sum())) / dev_por_autor['PRs_Total'] * 100).round(1)
dev_por_autor = dev_por_autor.sort_values('Dev_Promedio', ascending=True)

print("üèÜ TOP 10 DESARROLLADORES CON MEJOR CALIDAD INICIAL (Menos Devoluciones):")
mejores_devs = dev_por_autor[dev_por_autor['PRs_Total'] >= 3].head(10)
for autor, data in mejores_devs.iterrows():
    print(f"{autor}: {data['Dev_Promedio']:.1f} promedio, {data['Tasa_Exito']:.0f}% tasa de √©xito")

print("\n‚ö†Ô∏è  DESARROLLADORES QUE REQUIEREN ATENCI√ìN (M√°s Devoluciones):")
devs_atencion = dev_por_autor[dev_por_autor['PRs_Total'] >= 3].tail(5)
for autor, data in devs_atencion.iterrows():
    print(f"{autor}: {data['Dev_Promedio']:.1f} promedio, {data['Tasa_Exito']:.0f}% tasa de √©xito")

# 5. An√°lisis por repositorio
print("\nüì¶ AN√ÅLISIS POR REPOSITORIO:")
print("-" * 30)

dev_por_repo = df_prs_merged.groupby('Repositorio')['Devoluciones'].agg([
    'count', 'sum', 'mean', 'std'
]).round(2)
dev_por_repo.columns = ['PRs_Total', 'Dev_Total', 'Dev_Promedio', 'Dev_Std']
dev_por_repo['Tasa_Exito'] = ((dev_por_repo['PRs_Total'] - df_prs_merged.groupby('Repositorio')['Devoluciones'].apply(lambda x: (x > 0).sum())) / dev_por_repo['PRs_Total'] * 100).round(1)
dev_por_repo = dev_por_repo.sort_values('Dev_Promedio', ascending=True)

print("üèÜ REPOSITORIOS CON MEJOR CALIDAD DE C√ìDIGO:")
mejores_repos = dev_por_repo[dev_por_repo['PRs_Total'] >= 3].head(5)
for repo, data in mejores_repos.iterrows():
    print(f"{repo}: {data['Dev_Promedio']:.1f} promedio, {data['Tasa_Exito']:.0f}% tasa de √©xito ({int(data['PRs_Total'])} PRs)")

print("‚ö†Ô∏è  REPOSITORIOS QUE REQUIEREN ATENCI√ìN:")
repos_atencion = dev_por_repo[dev_por_repo['PRs_Total'] >= 3].tail(3)
for repo, data in repos_atencion.iterrows():
    print(f"{repo}: {data['Dev_Promedio']:.1f} promedio, {data['Tasa_Exito']:.0f}% tasa de √©xito ({int(data['PRs_Total'])} PRs)")

print("\n‚úÖ An√°lisis por desarrollador y repositorio completado!")

In [None]:
# 6. Crear visualizaciones espec√≠ficas para devoluciones
plt.style.use('default')
fig = plt.figure(figsize=(20, 12))
gs = plt.GridSpec(3, 3, figure=fig, hspace=0.3, wspace=0.3)

# 1. Histograma principal de devoluciones (seaborn)
ax1 = fig.add_subplot(gs[0, :2])
import seaborn as sns
sns.histplot(data=df_prs_merged, x='Devoluciones', bins=15, kde=True, alpha=0.7, 
             color='skyblue', ax=ax1)
ax1.set_title('üìä Distribuci√≥n de Devoluciones por PR\n(Histograma con Densidad)', 
             fontweight='bold', fontsize=14)
ax1.set_xlabel('N√∫mero de Devoluciones')
ax1.set_ylabel('Frecuencia')
ax1.axvline(df_prs_merged['Devoluciones'].mean(), color='red', 
           linestyle='--', linewidth=2, label=f'Promedio: {df_prs_merged["Devoluciones"].mean():.1f}')
ax1.axvline(df_prs_merged['Devoluciones'].median(), color='orange', 
           linestyle='--', linewidth=2, label=f'Mediana: {df_prs_merged["Devoluciones"].median():.1f}')
ax1.legend()

# Agregar anotaciones de insights
max_freq = ax1.patches[0].get_height()
for patch in ax1.patches:
    max_freq = max(max_freq, patch.get_height())

# Insight sobre cola larga
devoluciones_altas = len(df_prs_merged[df_prs_merged['Devoluciones'] > 3])
if devoluciones_altas > 0:
    ax1.text(0.7, 0.9, f'‚ö†Ô∏è Cola larga detectada:\n{devoluciones_altas} PRs con >3 devoluciones\n(Posibles problemas de calidad)', 
             transform=ax1.transAxes, bbox=dict(boxstyle="round,pad=0.5", facecolor="yellow", alpha=0.7),
             fontsize=10, verticalalignment='top')

# 2. Gr√°fico de barras por categor√≠as
ax2 = fig.add_subplot(gs[0, 2])
categories_order = ['Sin devoluciones', 'Baja (1)', 'Media (2-3)', 'Alta (4-5)', 'Muy Alta (>5)']
valid_categories = [cat for cat in categories_order if cat in dev_distribution.index]
bars = ax2.bar(range(len(valid_categories)), 
               [dev_distribution[cat] for cat in valid_categories],
               color=['green', 'lightgreen', 'yellow', 'orange', 'red'][:len(valid_categories)])

ax2.set_xticks(range(len(valid_categories)))
ax2.set_xticklabels([cat.replace(' ', '\n') for cat in valid_categories], fontsize=9)
ax2.set_title('üìà PRs por Categor√≠a\nde Devoluciones', fontweight='bold', fontsize=12)
ax2.set_ylabel('N√∫mero de PRs')

# Agregar valores en las barras
for bar, cat in zip(bars, valid_categories):
    height = bar.get_height()
    percentage = dev_percentages[cat]
    ax2.text(bar.get_x() + bar.get_width()/2, height + 0.5, 
            f'{int(height)}\n({percentage:.1f}%)', 
            ha='center', va='bottom', fontsize=9, fontweight='bold')

# 3. Top desarrolladores con mejor calidad
ax3 = fig.add_subplot(gs[1, 0])
top_devs = mejores_devs.head(8)
bars = ax3.barh(range(len(top_devs)), top_devs['Tasa_Exito'], 
                color='lightgreen', edgecolor='darkgreen')
ax3.set_yticks(range(len(top_devs)))
ax3.set_yticklabels([dev[:15] + '...' if len(dev) > 15 else dev for dev in top_devs.index])
ax3.set_title('üèÜ Top Desarrolladores\n(Tasa de √âxito %)', fontweight='bold', fontsize=12)
ax3.set_xlabel('Tasa de √âxito (%)')

# Agregar valores en las barras
for i, (bar, value) in enumerate(zip(bars, top_devs['Tasa_Exito'])):
    ax3.text(value + 1, i, f'{value:.0f}%', va='center', fontsize=9)

# 4. Desarrolladores que requieren atenci√≥n
ax4 = fig.add_subplot(gs[1, 1])
devs_problemas = devs_atencion
bars = ax4.barh(range(len(devs_problemas)), devs_problemas['Dev_Promedio'], 
                color='lightcoral', edgecolor='darkred')
ax4.set_yticks(range(len(devs_problemas)))
ax4.set_yticklabels([dev[:15] + '...' if len(dev) > 15 else dev for dev in devs_problemas.index])
ax4.set_title('‚ö†Ô∏è Desarrolladores que\nRequieren Atenci√≥n', fontweight='bold', fontsize=12)
ax4.set_xlabel('Promedio de Devoluciones')

# Agregar valores en las barras
for i, (bar, value) in enumerate(zip(bars, devs_problemas['Dev_Promedio'])):
    ax4.text(value + 0.05, i, f'{value:.1f}', va='center', fontsize=9)

# 5. An√°lisis de repositorios
ax5 = fig.add_subplot(gs[1, 2])
repos_chart = mejores_repos
bars = ax5.bar(range(len(repos_chart)), repos_chart['Tasa_Exito'], 
               color='lightblue', edgecolor='darkblue')
ax5.set_xticks(range(len(repos_chart)))
ax5.set_xticklabels([repo[:8] + '...' if len(repo) > 8 else repo 
                    for repo in repos_chart.index], rotation=45, ha='right')
ax5.set_title('üì¶ Repositorios con\nMejor Calidad', fontweight='bold', fontsize=12)
ax5.set_ylabel('Tasa de √âxito (%)')

# Agregar valores en las barras
for bar, value in zip(bars, repos_chart['Tasa_Exito']):
    ax5.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1, 
            f'{value:.0f}%', ha='center', va='bottom', fontsize=9)

# 6. Correlaci√≥n devoluciones vs otras m√©tricas
ax6 = fig.add_subplot(gs[2, 0])
if 'Tiempo_Resolucion' in df_prs_merged.columns:
    scatter = ax6.scatter(df_prs_merged['Devoluciones'], 
                         df_prs_merged['Tiempo_Resolucion'],
                         alpha=0.6, color='purple')
    ax6.set_title('üîó Devoluciones vs\nTiempo de Resoluci√≥n', fontweight='bold', fontsize=12)
    ax6.set_xlabel('N√∫mero de Devoluciones')
    ax6.set_ylabel('Tiempo de Resoluci√≥n (d√≠as)')
    
    # L√≠nea de tendencia
    z = np.polyfit(df_prs_merged['Devoluciones'], df_prs_merged['Tiempo_Resolucion'], 1)
    p = np.poly1d(z)
    ax6.plot(df_prs_merged['Devoluciones'], p(df_prs_merged['Devoluciones']), "r--", alpha=0.8)
    
    corr = df_prs_merged['Devoluciones'].corr(df_prs_merged['Tiempo_Resolucion'])
    ax6.text(0.05, 0.95, f'Correlaci√≥n: {corr:.3f}', transform=ax6.transAxes, 
             bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))

# 7. Correlaci√≥n devoluciones vs estandarizaciones
ax7 = fig.add_subplot(gs[2, 1])
scatter = ax7.scatter(df_prs_merged['Devoluciones'], 
                     df_prs_merged['Estandarizaciones_Codigo'],
                     alpha=0.6, color='orange')
ax7.set_title('üîó Devoluciones vs\nEstandarizaciones', fontweight='bold', fontsize=12)
ax7.set_xlabel('N√∫mero de Devoluciones')
ax7.set_ylabel('Estandarizaciones de C√≥digo')

# L√≠nea de tendencia
z = np.polyfit(df_prs_merged['Devoluciones'], df_prs_merged['Estandarizaciones_Codigo'], 1)
p = np.poly1d(z)
ax7.plot(df_prs_merged['Devoluciones'], p(df_prs_merged['Devoluciones']), "r--", alpha=0.8)

corr = df_prs_merged['Devoluciones'].corr(df_prs_merged['Estandarizaciones_Codigo'])
ax7.text(0.05, 0.95, f'Correlaci√≥n: {corr:.3f}', transform=ax7.transAxes, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))

# 8. Box plot comparativo por repositorio
ax8 = fig.add_subplot(gs[2, 2])
repos_principales = df_prs_merged['Repositorio'].value_counts().head(4).index
box_data = [df_prs_merged[df_prs_merged['Repositorio'] == repo]['Devoluciones'].values 
           for repo in repos_principales]

bp = ax8.boxplot(box_data, labels=[repo[:8] + '...' if len(repo) > 8 else repo 
                                  for repo in repos_principales], patch_artist=True)
colors = ['lightblue', 'lightgreen', 'lightyellow', 'lightcoral']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)

ax8.set_title('üì¶ Distribuci√≥n de Devoluciones\npor Repositorio', fontweight='bold', fontsize=12)
ax8.set_ylabel('N√∫mero de Devoluciones')
ax8.tick_params(axis='x', rotation=45)

plt.suptitle('üîç AN√ÅLISIS COMPLETO DE M√âTRICAS DE CALIDAD - DEVOLUCIONES', 
             fontsize=18, fontweight='bold', y=0.98)
plt.tight_layout()
plt.show()

print("\n‚úÖ Visualizaciones de m√©tricas de calidad (devoluciones) completadas!")

In [None]:
# 7. Insights espec√≠ficos y recomendaciones
print("\n\nüí° INSIGHTS Y RECOMENDACIONES DE CALIDAD:")
print("=" * 50)

# M√©tricas clave
total_dev = df_prs_merged["Devoluciones"].sum()
promedio_dev = df_prs_merged["Devoluciones"].mean()
tasa_exito_general = porcentaje_sin_devoluciones

print(f"üìä M√âTRICAS CLAVE DE CALIDAD:")
print(f"   ‚Ä¢ Total de devoluciones: {total_dev:,}")
print(f"   ‚Ä¢ Promedio por PR: {promedio_dev:.2f}")
print(f"   ‚Ä¢ Tasa de √©xito general: {tasa_exito_general:.1f}%")
print(f"   ‚Ä¢ Estado de calidad: {color_calidad} {calidad_general}")

# An√°lisis de cola larga
prs_cola_larga = len(df_prs_merged[df_prs_merged["Devoluciones"] > 3])
porcentaje_cola_larga = (prs_cola_larga / len(df_prs_merged)) * 100

print(f"\nüîç AN√ÅLISIS DE COLA LARGA:")
if prs_cola_larga > 0:
    print(
        f"   ‚Ä¢ PRs con >3 devoluciones: {prs_cola_larga} ({porcentaje_cola_larga:.1f}%)"
    )
    if porcentaje_cola_larga > 15:
        print(f"   ‚ö†Ô∏è  ALERTA: Cola larga significativa detectada")
        print(
            f"   üìù Sugiere: Problemas sistem√°ticos de calidad o criterios poco claros"
        )
    else:
        print(f"   ‚úÖ Cola larga dentro de par√°metros normales")
else:
    print(f"   ‚úÖ No se detecta cola larga problem√°tica")

# Correlaciones importantes
corr_tiempo = (
    df_prs_merged["Devoluciones"].corr(df_prs_merged["Tiempo_Resolucion"])
    if "Tiempo_Resolucion" in df_prs_merged.columns
    else 0
)
corr_est = df_prs_merged["Devoluciones"].corr(df_prs_merged["Estandarizaciones_Codigo"])

print(f"\nüîó CORRELACIONES IMPORTANTES:")
if abs(corr_tiempo) > 0.3:
    print(f"   ‚Ä¢ Devoluciones vs Tiempo: {corr_tiempo:.3f} (correlaci√≥n significativa)")
    print(f"     ‚Üí M√°s devoluciones = Mayor tiempo de resoluci√≥n")
else:
    print(f"   ‚Ä¢ Devoluciones vs Tiempo: {corr_tiempo:.3f} (correlaci√≥n d√©bil)")

if abs(corr_est) > 0.3:
    print(
        f"   ‚Ä¢ Devoluciones vs Estandarizaciones: {corr_est:.3f} (correlaci√≥n significativa)"
    )
    if corr_est > 0:
        print(
            f"     ‚Üí M√°s devoluciones = M√°s estandarizaciones aplicadas posteriormente"
        )
else:
    print(f"   ‚Ä¢ Devoluciones vs Estandarizaciones: {corr_est:.3f} (correlaci√≥n d√©bil)")

# Generar alertas espec√≠ficas
alertas_calidad = []

if tasa_exito_general < 50:
    alertas_calidad.append(
        {
            "nivel": "CR√çTICA",
            "mensaje": f"Tasa de √©xito muy baja ({tasa_exito_general:.1f}%)",
            "accion": "Revisar proceso completo de desarrollo y criterios de calidad",
        }
    )
elif tasa_exito_general < 70:
    alertas_calidad.append(
        {
            "nivel": "ALTA",
            "mensaje": f"Tasa de √©xito baja ({tasa_exito_general:.1f}%)",
            "accion": "Implementar mejores pr√°cticas de c√≥digo y revisiones previas",
        }
    )

if porcentaje_cola_larga > 15:
    alertas_calidad.append(
        {
            "nivel": "ALTA",
            "mensaje": f"Cola larga detectada ({porcentaje_cola_larga:.1f}% con >3 devoluciones)",
            "accion": "Clarificar criterios de calidad y mejorar capacitaci√≥n",
        }
    )

if promedio_dev > 2:
    alertas_calidad.append(
        {
            "nivel": "MEDIA",
            "mensaje": f"Promedio alto de devoluciones ({promedio_dev:.1f})",
            "accion": "Implementar checklist de calidad antes de PR",
        }
    )

# Mostrar alertas
if len(alertas_calidad) > 0:
    print(f"\nüö® ALERTAS DE CALIDAD:")
    for i, alerta in enumerate(alertas_calidad, 1):
        icono = (
            "üî¥"
            if alerta["nivel"] == "CR√çTICA"
            else "üü†"
            if alerta["nivel"] == "ALTA"
            else "üü°"
        )
        print(f"   {i}. {icono} {alerta['nivel']}: {alerta['mensaje']}")
        print(f"      ‚Üí Acci√≥n: {alerta['accion']}")
else:
    print(f"\n‚úÖ No se detectaron alertas cr√≠ticas de calidad")

# Mejores pr√°cticas identificadas
print(f"\nüèÜ MEJORES PR√ÅCTICAS IDENTIFICADAS:")
if len(mejores_devs) > 0:
    mejor_dev = mejores_devs.index[0]
    mejor_tasa = mejores_devs.iloc[0]["Tasa_Exito"]
    print(f"   ‚Ä¢ Mejor desarrollador: {mejor_dev} ({mejor_tasa:.0f}% tasa de √©xito)")

if len(mejores_repos) > 0:
    mejor_repo = mejores_repos.index[0]
    mejor_repo_tasa = mejores_repos.iloc[0]["Tasa_Exito"]
    print(
        f"   ‚Ä¢ Mejor repositorio: {mejor_repo} ({mejor_repo_tasa:.0f}% tasa de √©xito)"
    )

# Recomendaciones prioritarias
print(f"\nüéØ RECOMENDACIONES PRIORITARIAS:")

if tasa_exito_general < 70:
    print(f"   1. üîß Implementar c√≥digo de revisi√≥n peer-to-peer antes de PR")
    print(f"   2. üìö Crear gu√≠as de est√°ndares de c√≥digo m√°s claras")
    print(f"   3. üéì Programa de capacitaci√≥n en mejores pr√°cticas")

if len(devs_atencion) > 0:
    print(f"   4. üë• Mentoring espec√≠fico para desarrolladores con baja tasa de √©xito")
    print(f"   5. üîç Revisi√≥n de criterios de calidad para uniformidad")

if porcentaje_cola_larga > 10:
    print(f"   6. üìã Checklist obligatorio de calidad antes de enviar PR")
    print(f"   7. ü§ñ Herramientas automatizadas de an√°lisis de c√≥digo")

print(f"\nüìã RESUMEN EJECUTIVO:")
print(f"   ‚Ä¢ Calidad inicial: {color_calidad} {calidad_general}")
print(f"   ‚Ä¢ Tasa de √©xito: {tasa_exito_general:.1f}%")
print(
    f"   ‚Ä¢ Desarrolladores destacados: {len(mejores_devs[mejores_devs['Tasa_Exito'] > 80])}"
)
print(
    f"   ‚Ä¢ Repositorios con buena calidad: {len(mejores_repos[mejores_repos['Tasa_Exito'] > 80])}"
)

# Interpretaci√≥n de cola larga espec√≠fica
if prs_cola_larga > 0:
    print(f"   ‚Ä¢ Cola larga: {prs_cola_larga} PRs requieren atenci√≥n especial")
    if porcentaje_cola_larga > 15:
        print(f"   üî¥ Indica problemas sistem√°ticos de calidad")
    else:
        print(f"   üü° Dentro de par√°metros normales pero monitoreable")

print("\n‚úÖ An√°lisis de M√©tricas de Calidad del C√≥digo COMPLETADO!")
print("=" * 55)

## üë• REPORTE 5: An√°lisis de Devoluciones por Autor

Este reporte se enfoca espec√≠ficamente en el an√°lisis de **devoluciones por desarrollador**, identificando patrones de calidad individual y proporcionando insights sobre qu√© desarrolladores entregan c√≥digo que cumple los criterios de QA versus aquellos que requieren m√∫ltiples iteraciones.

In [None]:
# REPORTE 5: AN√ÅLISIS DE DEVOLUCIONES POR AUTOR
print("üë• AN√ÅLISIS DETALLADO DE DEVOLUCIONES POR AUTOR")
print("=" * 55)

# 1. Estad√≠sticas completas por autor
print("\nüìä ESTAD√çSTICAS DETALLADAS POR DESARROLLADOR:")
print("-" * 50)

# Crear an√°lisis completo por autor
autor_stats = (
    df_prs_merged.groupby("Autor")["Devoluciones"]
    .agg(
        [
            "count",  # Total de PRs
            "sum",  # Total de devoluciones
            "mean",  # Promedio de devoluciones
            "median",  # Mediana de devoluciones
            "std",  # Desviaci√≥n est√°ndar
            "min",  # M√≠nimo de devoluciones
            "max",  # M√°ximo de devoluciones
        ]
    )
    .round(2)
)

autor_stats.columns = [
    "PRs_Total",
    "Dev_Total",
    "Dev_Promedio",
    "Dev_Mediana",
    "Dev_Std",
    "Dev_Min",
    "Dev_Max",
]

# Calcular m√©tricas adicionales
autor_stats["Tasa_Exito"] = (
    (
        autor_stats["PRs_Total"]
        - df_prs_merged.groupby("Autor")["Devoluciones"].apply(lambda x: (x > 0).sum())
    )
    / autor_stats["PRs_Total"]
    * 100
).round(1)
autor_stats["Coef_Variacion"] = (
    (autor_stats["Dev_Std"] / autor_stats["Dev_Promedio"] * 100).fillna(0).round(1)
)
autor_stats["PRs_Sin_Dev"] = df_prs_merged.groupby("Autor")["Devoluciones"].apply(
    lambda x: (x == 0).sum()
)
autor_stats["PRs_Con_Dev"] = autor_stats["PRs_Total"] - autor_stats["PRs_Sin_Dev"]

# Filtrar autores con al menos 3 PRs para an√°lisis m√°s representativo
autor_stats_filtered = autor_stats[autor_stats["PRs_Total"] >= 3].copy()

print(f"Total de desarrolladores analizados: {len(autor_stats)}")
print(f"Desarrolladores con ‚â•3 PRs: {len(autor_stats_filtered)}")
print(f"Promedio general de devoluciones: {df_prs_merged['Devoluciones'].mean():.2f}")

# 2. Clasificaci√≥n de desarrolladores por calidad
print(f"\nüèÜ CLASIFICACI√ìN POR CALIDAD DE C√ìDIGO:")
print("-" * 40)

# Clasificar desarrolladores
excelentes = autor_stats_filtered[
    (autor_stats_filtered["Tasa_Exito"] >= 80)
    & (autor_stats_filtered["Dev_Promedio"] <= 1)
]
buenos = autor_stats_filtered[
    (autor_stats_filtered["Tasa_Exito"] >= 60)
    & (autor_stats_filtered["Dev_Promedio"] <= 2)
]
regulares = autor_stats_filtered[
    (autor_stats_filtered["Tasa_Exito"] >= 40)
    & (autor_stats_filtered["Dev_Promedio"] <= 3)
]
necesitan_atencion = autor_stats_filtered[
    (autor_stats_filtered["Tasa_Exito"] < 40)
    | (autor_stats_filtered["Dev_Promedio"] > 3)
]

print(f"üü¢ EXCELENTES (Tasa ‚â•80%, Prom ‚â§1): {len(excelentes)} desarrolladores")
for dev in excelentes.head(3).index:
    data = excelentes.loc[dev]
    print(
        f"   ‚Ä¢ {dev}: {data['Tasa_Exito']:.0f}% √©xito, {data['Dev_Promedio']:.1f} prom ({int(data['PRs_Total'])} PRs)"
    )

print(f"\nüü° BUENOS (Tasa ‚â•60%, Prom ‚â§2): {len(buenos)} desarrolladores")
for dev in buenos.head(3).index:
    data = buenos.loc[dev]
    print(
        f"   ‚Ä¢ {dev}: {data['Tasa_Exito']:.0f}% √©xito, {data['Dev_Promedio']:.1f} prom ({int(data['PRs_Total'])} PRs)"
    )

print(f"\nüü† REGULARES: {len(regulares)} desarrolladores")
for dev in regulares.head(3).index:
    data = regulares.loc[dev]
    print(
        f"   ‚Ä¢ {dev}: {data['Tasa_Exito']:.0f}% √©xito, {data['Dev_Promedio']:.1f} prom ({int(data['PRs_Total'])} PRs)"
    )

print(f"\nüî¥ NECESITAN ATENCI√ìN: {len(necesitan_atencion)} desarrolladores")
for dev in necesitan_atencion.index:
    data = necesitan_atencion.loc[dev]
    print(
        f"   ‚Ä¢ {dev}: {data['Tasa_Exito']:.0f}% √©xito, {data['Dev_Promedio']:.1f} prom ({int(data['PRs_Total'])} PRs)"
    )

print("\n‚úÖ An√°lisis estad√≠stico por autor completado!")

In [None]:
# 3. Crear visualizaciones espec√≠ficas por autor
import seaborn as sns

plt.style.use("default")
fig = plt.figure(figsize=(20, 16))
gs = plt.GridSpec(4, 2, figure=fig, hspace=0.4, wspace=0.3)

# 1. Gr√°fico de barras principal: Promedio de devoluciones por autor (seaborn)
ax1 = fig.add_subplot(gs[0, :])
# Ordenar por promedio de devoluciones para mejor visualizaci√≥n
autor_stats_sorted = autor_stats_filtered.sort_values("Dev_Promedio")

# Crear colores basados en la clasificaci√≥n
colors_clasificacion = []
for autor in autor_stats_sorted.index:
    if autor in excelentes.index:
        colors_clasificacion.append("green")
    elif autor in buenos.index:
        colors_clasificacion.append("gold")
    elif autor in regulares.index:
        colors_clasificacion.append("orange")
    else:
        colors_clasificacion.append("red")

bars = sns.barplot(
    data=df_prs_merged[df_prs_merged["Autor"].isin(autor_stats_sorted.index)],
    x="Autor",
    y="Devoluciones",
    estimator=np.mean,
    order=autor_stats_sorted.index,
    palette=colors_clasificacion,
    ax=ax1,
)
ax1.set_title(
    "üìä PROMEDIO DE DEVOLUCIONES POR DESARROLLADOR\n(Verde=Excelente, Amarillo=Bueno, Naranja=Regular, Rojo=Necesita Atenci√≥n)",
    fontweight="bold",
    fontsize=14,
)
ax1.set_xlabel("Desarrollador")
ax1.set_ylabel("Promedio de Devoluciones")
ax1.tick_params(axis="x", rotation=45)

# Agregar l√≠nea de promedio general
promedio_general = df_prs_merged["Devoluciones"].mean()
ax1.axhline(
    y=promedio_general,
    color="red",
    linestyle="--",
    alpha=0.7,
    label=f"Promedio General: {promedio_general:.2f}",
)
ax1.legend()

# Agregar valores en las barras
for i, (bar, autor) in enumerate(zip(bars.patches, autor_stats_sorted.index)):
    valor = autor_stats_sorted.loc[autor, "Dev_Promedio"]
    ax1.text(
        bar.get_x() + bar.get_width() / 2,
        bar.get_height() + 0.05,
        f"{valor:.1f}",
        ha="center",
        va="bottom",
        fontsize=9,
        fontweight="bold",
    )

# 2. Box plot: Distribuci√≥n de devoluciones por autor (seaborn)
ax2 = fig.add_subplot(gs[1, :])
# Limitar a desarrolladores m√°s activos para mejor visualizaci√≥n
top_devs_boxplot = (
    autor_stats_filtered.sort_values("PRs_Total", ascending=False).head(8).index
)
df_boxplot = df_prs_merged[df_prs_merged["Autor"].isin(top_devs_boxplot)]

sns.boxplot(data=df_boxplot, x="Autor", y="Devoluciones", ax=ax2)
ax2.set_title(
    "üì¶ DISTRIBUCI√ìN DE DEVOLUCIONES POR DESARROLLADOR (Top 8 m√°s activos)",
    fontweight="bold",
    fontsize=14,
)
ax2.set_xlabel("Desarrollador")
ax2.set_ylabel("N√∫mero de Devoluciones")
ax2.tick_params(axis="x", rotation=45)

# 3. Gr√°fico de dispersi√≥n: PRs vs Promedio de devoluciones
ax3 = fig.add_subplot(gs[2, 0])
scatter = ax3.scatter(
    autor_stats_filtered["PRs_Total"],
    autor_stats_filtered["Dev_Promedio"],
    c=[
        colors_clasificacion[list(autor_stats_sorted.index).index(autor)]
        if autor in autor_stats_sorted.index
        else "gray"
        for autor in autor_stats_filtered.index
    ],
    s=100,
    alpha=0.7,
    edgecolors="black",
)

ax3.set_title(
    "üéØ Experiencia vs Calidad\n(PRs Total vs Promedio Devoluciones)",
    fontweight="bold",
    fontsize=12,
)
ax3.set_xlabel("Total de PRs")
ax3.set_ylabel("Promedio de Devoluciones")

# Agregar nombres de desarrolladores problem√°ticos
for autor in necesitan_atencion.index:
    if autor in autor_stats_filtered.index:
        x = autor_stats_filtered.loc[autor, "PRs_Total"]
        y = autor_stats_filtered.loc[autor, "Dev_Promedio"]
        ax3.annotate(
            autor[:10],
            (x, y),
            xytext=(5, 5),
            textcoords="offset points",
            fontsize=8,
            alpha=0.8,
        )

# 4. Gr√°fico de barras: Tasa de √©xito por desarrollador
ax4 = fig.add_subplot(gs[2, 1])
autor_stats_exito = autor_stats_filtered.sort_values("Tasa_Exito", ascending=False)
bars_exito = ax4.bar(
    range(len(autor_stats_exito)),
    autor_stats_exito["Tasa_Exito"],
    color=[
        colors_clasificacion[list(autor_stats_sorted.index).index(autor)]
        if autor in autor_stats_sorted.index
        else "gray"
        for autor in autor_stats_exito.index
    ],
)

ax4.set_xticks(range(len(autor_stats_exito)))
ax4.set_xticklabels(
    [
        autor[:10] + "..." if len(autor) > 10 else autor
        for autor in autor_stats_exito.index
    ],
    rotation=45,
    ha="right",
)
ax4.set_title(
    "üèÜ Tasa de √âxito por Desarrollador\n(% PRs sin devoluciones)",
    fontweight="bold",
    fontsize=12,
)
ax4.set_ylabel("Tasa de √âxito (%)")
ax4.axhline(y=70, color="orange", linestyle="--", alpha=0.7, label="Meta: 70%")
ax4.legend()

# 5. Heatmap de m√©tricas por desarrollador
ax5 = fig.add_subplot(gs[3, :])
# Seleccionar m√©tricas clave para el heatmap
metrics_heatmap = autor_stats_filtered[
    ["Dev_Promedio", "Tasa_Exito", "Coef_Variacion", "PRs_Total"]
].copy()
metrics_heatmap_norm = metrics_heatmap.copy()

# Normalizar para el heatmap (invertir donde menor es mejor)
metrics_heatmap_norm["Dev_Promedio"] = 100 - (
    metrics_heatmap["Dev_Promedio"] / metrics_heatmap["Dev_Promedio"].max() * 100
)
metrics_heatmap_norm["Coef_Variacion"] = 100 - (
    metrics_heatmap["Coef_Variacion"] / metrics_heatmap["Coef_Variacion"].max() * 100
)
metrics_heatmap_norm["PRs_Total"] = (
    metrics_heatmap["PRs_Total"] / metrics_heatmap["PRs_Total"].max() * 100
)

# Limitar a top 10 desarrolladores por PRs para mejor visualizaci√≥n
top_10_devs = metrics_heatmap_norm.sort_values("PRs_Total", ascending=False).head(10)

im = ax5.imshow(top_10_devs.T.values, cmap="RdYlGn", aspect="auto", vmin=0, vmax=100)
ax5.set_xticks(range(len(top_10_devs)))
ax5.set_xticklabels(
    [dev[:12] + "..." if len(dev) > 12 else dev for dev in top_10_devs.index],
    rotation=45,
    ha="right",
)
ax5.set_yticks(range(len(top_10_devs.columns)))
ax5.set_yticklabels(
    ["Calidad C√≥digo", "Tasa √âxito (%)", "Consistencia", "Experiencia (PRs)"]
)
ax5.set_title(
    "üî• MAPA DE CALOR: M√âTRICAS DE DESARROLLADORES\n(Verde=Excelente, Amarillo=Bueno, Rojo=Necesita Mejora)",
    fontweight="bold",
    fontsize=14,
)

# Agregar valores en el heatmap
for i in range(len(top_10_devs.columns)):
    for j in range(len(top_10_devs)):
        value = top_10_devs.iloc[j, i]
        ax5.text(
            j,
            i,
            f"{value:.0f}",
            ha="center",
            va="center",
            fontweight="bold",
            fontsize=9,
            color="white" if value < 50 else "black",
        )

# Agregar colorbar
cbar = plt.colorbar(im, ax=ax5, shrink=0.8)
cbar.set_label("Puntuaci√≥n de Calidad (0-100)")

plt.suptitle(
    "üë• AN√ÅLISIS COMPLETO DE DEVOLUCIONES POR DESARROLLADOR",
    fontsize=18,
    fontweight="bold",
    y=0.98,
)
plt.tight_layout()
plt.show()

print("\n‚úÖ Visualizaciones de an√°lisis por autor completadas!")

In [None]:
# 4. Insights espec√≠ficos y planes de acci√≥n por desarrollador
print("\n\nüí° INSIGHTS DETALLADOS Y PLANES DE ACCI√ìN:")
print("=" * 55)

# An√°lisis de patrones por categor√≠a
print(f"üìä RESUMEN POR CATEGOR√çAS:")
print(
    f"   üü¢ Desarrolladores EXCELENTES: {len(excelentes)} ({len(excelentes) / len(autor_stats_filtered) * 100:.1f}%)"
)
print(
    f"   üü° Desarrolladores BUENOS: {len(buenos)} ({len(buenos) / len(autor_stats_filtered) * 100:.1f}%)"
)
print(
    f"   üü† Desarrolladores REGULARES: {len(regulares)} ({len(regulares) / len(autor_stats_filtered) * 100:.1f}%)"
)
print(
    f"   üî¥ Desarrolladores que NECESITAN ATENCI√ìN: {len(necesitan_atencion)} ({len(necesitan_atencion) / len(autor_stats_filtered) * 100:.1f}%)"
)

# An√°lisis de problem√°ticas espec√≠ficas
print(f"\nüîç AN√ÅLISIS DE PROBLEM√ÅTICAS ESPEC√çFICAS:")

# Desarrolladores con alta variabilidad
alta_variabilidad = autor_stats_filtered[autor_stats_filtered["Coef_Variacion"] > 100]
if len(alta_variabilidad) > 0:
    print(f"\n‚ö†Ô∏è  DESARROLLADORES CON ALTA VARIABILIDAD ({len(alta_variabilidad)}):")
    print("   ‚Üí Posible falta de comprensi√≥n consistente de requisitos")
    for dev in alta_variabilidad.index:
        cv = alta_variabilidad.loc[dev, "Coef_Variacion"]
        prom = alta_variabilidad.loc[dev, "Dev_Promedio"]
        print(f"   ‚Ä¢ {dev}: CV={cv:.0f}%, Promedio={prom:.1f}")

# Desarrolladores con muchos PRs pero alta tasa de devoluciones
experimentados_problematicos = autor_stats_filtered[
    (autor_stats_filtered["PRs_Total"] >= 5)
    & (autor_stats_filtered["Dev_Promedio"] > 2)
]
if len(experimentados_problematicos) > 0:
    print(
        f"\n‚ö†Ô∏è  DESARROLLADORES EXPERIMENTADOS CON PROBLEMAS DE CALIDAD ({len(experimentados_problematicos)}):"
    )
    print(
        "   ‚Üí Posibles malos h√°bitos establecidos o falta de actualizaci√≥n en est√°ndares"
    )
    for dev in experimentados_problematicos.index:
        prs = experimentados_problematicos.loc[dev, "PRs_Total"]
        prom = experimentados_problematicos.loc[dev, "Dev_Promedio"]
        tasa = experimentados_problematicos.loc[dev, "Tasa_Exito"]
        print(f"   ‚Ä¢ {dev}: {int(prs)} PRs, {prom:.1f} prom dev, {tasa:.0f}% √©xito")

# Desarrolladores nuevos con potencial
nuevos_prometedores = autor_stats_filtered[
    (autor_stats_filtered["PRs_Total"] <= 5)
    & (autor_stats_filtered["Dev_Promedio"] <= 1.5)
]
if len(nuevos_prometedores) > 0:
    print(f"\nüåü DESARROLLADORES NUEVOS CON POTENCIAL ({len(nuevos_prometedores)}):")
    print("   ‚Üí Mantener buenas pr√°cticas y mentoring")
    for dev in nuevos_prometedores.index:
        prs = nuevos_prometedores.loc[dev, "PRs_Total"]
        prom = nuevos_prometedores.loc[dev, "Dev_Promedio"]
        print(f"   ‚Ä¢ {dev}: {int(prs)} PRs, {prom:.1f} prom dev")

# Generar planes de acci√≥n espec√≠ficos
print(f"\nüéØ PLANES DE ACCI√ìN ESPEC√çFICOS:")

# Para desarrolladores que necesitan atenci√≥n
if len(necesitan_atencion) > 0:
    print(f"\nüî¥ PLAN PARA DESARROLLADORES QUE NECESITAN ATENCI√ìN:")
    for dev in necesitan_atencion.index:
        data = necesitan_atencion.loc[dev]
        print(f"\n   üë§ {dev}:")
        print(
            f"      üìä M√©tricas: {data['Tasa_Exito']:.0f}% √©xito, {data['Dev_Promedio']:.1f} prom dev"
        )

        # Diagn√≥stico espec√≠fico
        if data["Dev_Promedio"] > 3:
            print(f"      üîç Diagn√≥stico: Promedio muy alto de devoluciones")
            print(f"      üí° Recomendaciones:")
            print(f"         - Revisi√≥n exhaustiva de est√°ndares de c√≥digo")
            print(f"         - Mentoring 1:1 con desarrollador senior")
            print(f"         - Implementar checklist personal antes de PR")

        if data["Tasa_Exito"] < 30:
            print(f"      üîç Diagn√≥stico: Muy baja tasa de √©xito al primer intento")
            print(f"      üí° Recomendaciones:")
            print(f"         - Capacitaci√≥n espec√≠fica en testing")
            print(f"         - Revisi√≥n de comprensi√≥n de requisitos")
            print(f"         - Pair programming con desarrolladores excelentes")

        if data["Coef_Variacion"] > 150:
            print(f"      üîç Diagn√≥stico: Alta inconsistencia en calidad")
            print(f"      üí° Recomendaciones:")
            print(f"         - Estandarizar proceso personal de desarrollo")
            print(f"         - Capacitaci√≥n en metodolog√≠as de calidad")

# Para desarrolladores excelentes
if len(excelentes) > 0:
    print(f"\nüü¢ PLAN PARA DESARROLLADORES EXCELENTES:")
    print(f"   üéØ Acciones:")
    print(f"      - Asignar como mentores de desarrolladores que necesitan atenci√≥n")
    print(f"      - Documentar sus mejores pr√°cticas")
    print(f"      - Considerar para roles de liderazgo t√©cnico")
    print(f"      - Asignar PRs m√°s complejos o cr√≠ticos")

# M√©tricas de seguimiento recomendadas
print(f"\nüìà M√âTRICAS DE SEGUIMIENTO RECOMENDADAS:")
print(f"   üìä Semanales:")
print(f"      ‚Ä¢ Tasa de √©xito por desarrollador")
print(f"      ‚Ä¢ Promedio de devoluciones en PRs nuevos")
print(f"   üìä Mensuales:")
print(f"      ‚Ä¢ Evoluci√≥n de coeficiente de variaci√≥n")
print(f"      ‚Ä¢ Comparaci√≥n con benchmarks del equipo")
print(f"   üìä Trimestrales:")
print(f"      ‚Ä¢ Reclasificaci√≥n de desarrolladores")
print(f"      ‚Ä¢ Evaluaci√≥n de efectividad de planes de mejora")

# Impacto en el equipo
promedio_team = autor_stats_filtered["Dev_Promedio"].mean()
desarrolladores_sobre_promedio = len(
    autor_stats_filtered[autor_stats_filtered["Dev_Promedio"] > promedio_team]
)
impacto_mejora = desarrolladores_sobre_promedio / len(autor_stats_filtered) * 100

print(f"\nüí∞ IMPACTO POTENCIAL:")
print(
    f"   ‚Ä¢ {desarrolladores_sobre_promedio} desarrolladores est√°n sobre el promedio del equipo"
)
print(
    f"   ‚Ä¢ Mejorando estos desarrolladores se podr√≠a reducir {impacto_mejora:.1f}% las devoluciones"
)
print(
    f"   ‚Ä¢ Tiempo estimado ahorrado: ~{impacto_mejora * 0.5:.1f} horas/semana en re-trabajo"
)

print("\n‚úÖ An√°lisis de Devoluciones por Autor COMPLETADO!")
print("=" * 55)