In [2]:
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest
from IPython.display import display # Importar o display para formatar tabelas
from statsmodels.stats.contingency_tables import Table2x2
import warnings

In [3]:
# =============================================================================
# Bloco 1: Funções Auxiliares (Copiadas do seu notebook original)
# =============================================================================

def compare_acceptance_rates(series_group1, series_group2, alpha=0.05, label_1 = 'group1', label_2 = 'group2'):
    """
    Compara duas proporções (taxas de aceitação) usando um Teste Z de duas proporções.
    
    Parâmetros:
    - series_group1 (pd.Series): Série booleana ou 0/1 para o grupo 1 (ex: Agentes).
    - series_group2 (pd.Series): Série booleana ou 0/1 para o grupo 2 (ex: Humanos).
    - alpha (float): Nível de significância.
    - label_1 (str): Rótulo para o grupo 1.
    - label_2 (str): Rótulo para o grupo 2.

    Retorna:
    - (pd.DataFrame): DataFrame com os resultados estatísticos.
    """
    
    # Lida com casos onde um grupo pode não ter dados
    if series_group1.empty or series_group2.empty:
        print(f"Aviso: O grupo {label_1} ou {label_2} está vazio. Teste Z não realizado.")
        return None

    count = [series_group1.sum(), series_group2.sum()]
    nobs = [len(series_group1), len(series_group2)]
    
    # Evita divisão por zero se um grupo não tiver observações
    if nobs[0] == 0 or nobs[1] == 0:
        print(f"Aviso: O grupo {label_1} ({nobs[0]} obs) ou {label_2} ({nobs[1]} obs) não tem observações. Teste Z não realizado.")
        return None

    # Lida com erro de valor se ambos os grupos tiverem 0% ou 100% de aceitação
    if (count[0] == 0 and count[1] == 0) or (count[0] == nobs[0] and count[1] == nobs[1]):
         print(f"Aviso: Ambos os grupos têm a mesma taxa (0% ou 100%). Teste Z não realizado.")
         return None

    stat, pval = proportions_ztest(count, nobs)
    
    rate_group1 = count[0] / nobs[0]
    rate_group2 = count[1] / nobs[1]
    
    significant = pval < alpha
    
    if significant:
        interpretation = label_1 + " significativamente piores" if stat < 0 else label_1 + " significativamente melhores"
    else:
        interpretation = "Sem diferença significativa"
        
    result = {
        f"{label_1}_accept_rate": rate_group1,
        f"{label_2}_accept_rate": rate_group2,
        "z_stat": stat,
        "p_value": pval,
        "significant": significant,
        "interpretation": interpretation,
        "absolute_difference": rate_group1 - rate_group2,
    }
    
    return pd.DataFrame([result])

def cliffs_delta(x, y):
    """
    Calcula o Cliff's Delta (d). Retorna um valor entre -1 e 1.
    """
    x = np.asarray(x)
    y = np.asarray(y)
    
    if len(x) == 0 or len(y) == 0:
        return np.nan
        
    # Cria uma matriz de comparações
    comparisons = np.sign(x[:, None] - y)
    
    # Calcula a média dessas comparações
    d = np.mean(comparisons)
    
    return d

def compare_continuous_non_parametric(group1_series, group2_series, group1_name="Grupo 1", group2_name="Grupo 2"):
    """
    Compara duas amostras independentes não paramétricas usando Mann-Whitney U
    e calcula o tamanho do efeito usando Cliff's Delta.
    """
    
    if group1_series.empty or group2_series.empty:
        print("Não há dados suficientes em um dos grupos para a comparação de Mann-Whitney U.")
        return None

    # 1. Teste Mann-Whitney U
    stat, p_value = stats.mannwhitneyu(group1_series, group2_series)
    print(f"P-valor do Mann-Whitney U: {p_value}")

    # 2. Tamanho do Efeito (Cliff's Delta)
    delta = cliffs_delta(group1_series, group2_series)

    # Interpretação da Magnitude
    abs_delta = abs(delta)
    if abs_delta < 0.147:
        magnitude = "Insignificante"
    elif abs_delta < 0.33:
        magnitude = "Pequeno"
    elif abs_delta < 0.474:
        magnitude = "Médio"
    else:
        magnitude = "Grande"

    print(f"\n--- Tamanho do Efeito (Cliff's Delta) ---")
    print(f"Cliff's Delta: {delta:.4f}")
    print(f"Interpretação: O tamanho da diferença é considerado '{magnitude}'.")

    # Interpretação da Direção
    if delta < 0:
        print(f"(O primeiro grupo, '{group1_name}', tende a ter valores MENORES que o segundo, '{group2_name}')")
    elif delta > 0:
         print(f"(O primeiro grupo, '{group1_name}', tende a ter valores MAIORES que o segundo, '{group2_name}')")
    else:
        print("(Os grupos são perfeitamente sobrepostos)")
        
    return {
        "mw_stat": stat,
        "mw_p_value": p_value,
        "cliffs_delta": delta,
        "effect_size_magnitude": magnitude
    }

def check_normality(data_series):
    """
    Verifica a normalidade de uma série de dados usando o teste de Shapiro-Wilk.
    """
    data = data_series.dropna()
    
    if len(data) > 5000:
        print("Aviso: Mais de 5000 amostras. O p-valor de Shapiro-Wilk pode não ser acurado (usando amostra de 5000).")
        data = data.sample(5000)

    if len(data) < 3:
        print("Não há dados suficientes para o teste de normalidade.")
        return None, "Insuficiente"

    stat, p_value = stats.shapiro(data)
    
    print(f"P-valor do Teste de Shapiro-Wilk: {p_value}")
    if p_value > 0.05:
        print("Os dados parecem ser normalmente distribuídos.")
        return p_value, "Normal"
    else:
        print("Os dados NÃO são normalmente distribuídos.")
        return p_value, "Não Normal"

def analyze_odds_ratio(grouped_df, agent_label='Group1', human_label='Group2'):
    """
    Calcula o Odds Ratio a partir de um DataFrame agrupado.
    """
    try:
        a = grouped_df.loc[agent_label, 'accepted_count'] # Grupo 1 Aceito
        b = grouped_df.loc[agent_label, 'rejected_count'] # Grupo 1 Rejeitado
        c = grouped_df.loc[human_label, 'accepted_count']     # Grupo 2 Aceito
        d = grouped_df.loc[human_label, 'rejected_count']     # Grupo 2 Rejeitado
    except KeyError as e:
        print(f"Erro: Rótulo não encontrado no DataFrame agrupado: {e}")
        return None

    if b == 0 or c == 0:
        print(f"Erro: Divisão por zero iminente (contagem 0 em '{agent_label}_rejected' ou '{human_label}_accepted').")
        odds_ratio = np.inf if c == 0 else 0
        inverse_or = 1 / odds_ratio if odds_ratio != 0 else np.inf
    else:
        odds_ratio = (a * d) / (b * c)
        inverse_or = 1 / odds_ratio

    print(f"Odds Ratio ({agent_label} vs {human_label}): {odds_ratio:.4f}")
    print(f"Odds Ratio Inverso ({human_label} vs {agent_label}): {inverse_or:.4f}")
    print(f"\nInterpretação: As chances de '{human_label}' ser aceito são {inverse_or:.2f} vezes maiores do que '{agent_label}'.")
    
    return {
        "odds_ratio": odds_ratio,
        "inverse_odds_ratio": inverse_or
    }


In [4]:
# =============================================================================
# Bloco 2: A NOVA FUNÇÃO MASTER
# =============================================================================

def run_full_comparison(df, group1_mask, group2_mask, 
                        group1_label, group2_label, 
                        analysis_title="Análise Comparativa",
                        acceptance_col='accepted',
                        state_col='state',
                        closed_value='closed',
                        created_at_col='created_at',
                        closed_at_col='closed_at'):
    """
    Executa uma análise comparativa completa (Taxa de Aceitação, Odds Ratio, Duração)
    entre dois grupos definidos por máscaras booleanas.

    Parâmetros:
    - df (pd.DataFrame): O DataFrame de entrada.
    - group1_mask (pd.Series): Máscara booleana para o Grupo 1 (ex: df['user_type'] == 'Human').
    - group2_mask (pd.Series): Máscara booleana para o Grupo 2 (ex: df['user_type'] != 'Human').
    - group1_label (str): Rótulo para o Grupo 1 (ex: 'Human').
    - group2_label (str): Rótulo para o Grupo 2 (ex: 'Agent').
    - analysis_title (str): Título para a saída da análise.
    - ... (nomes das colunas)
    """
    
    print(f"=========================================================")
    print(f"INICIANDO: {analysis_title}")
    print(f"=========================================================\n")
    
    all_results = {}
    
    # --- 1. Análise da Taxa de Aceitação (Z-Test) ---
    print(f"--- 1. Análise de Taxa de Aceitação ({group2_label} vs {group1_label}) ---")
    
    # Garante que estamos usando apenas os dados do DataFrame original
    accepted_g1 = df.loc[group1_mask, acceptance_col]
    accepted_g2 = df.loc[group2_mask, acceptance_col]
    
    # Passa g2 (ex: Agent) como label_1 e g1 (ex: Human) como label_2
    acceptance_results_df = compare_acceptance_rates(
        accepted_g2, accepted_g1, 
        label_1=group2_label, label_2=group1_label
    )
    
    if acceptance_results_df is not None:
        style_format = {
            f"{group2_label}_accept_rate": "{:.2%}",
            f"{group1_label}_accept_rate": "{:.2%}",
            "z_stat": "{:.2f}",
            "p_value": "{:.2e}",
            "absolute_difference": "{:.2%}",
        }
        display(acceptance_results_df.style.format(style_format))
        all_results['acceptance'] = acceptance_results_df
    else:
        print("Não foi possível calcular a taxa de aceitação.\n")
        all_results['acceptance'] = None

    print("\n")

    # --- 2. Análise de Odds Ratio ---
    print(f"--- 2. Análise de Odds Ratio ({group2_label} vs {group1_label}) ---")
    g1_accepted = accepted_g1.sum()
    g1_rejected = len(accepted_g1) - g1_accepted
    
    g2_accepted = accepted_g2.sum()
    g2_rejected = len(accepted_g2) - g2_accepted

    data = {
        'accepted_count': [g2_accepted, g1_accepted],
        'rejected_count': [g2_rejected, g1_rejected]
    }
    grouped_df = pd.DataFrame(data, index=[group2_label, group1_label])
    
    print("Dados Agrupados:")
    display(grouped_df)
    
    odds_results = analyze_odds_ratio(
        grouped_df, 
        agent_label=group2_label, 
        human_label=group1_label
    )
    all_results['odds_ratio'] = odds_results
    print("\n")

    # --- 3. Análise de Duração (Mann-Whitney U) ---
    print(f"--- 3. Análise de Duração de PRs Fechados ({group2_label} vs {group1_label}) ---")
    
    # Filtrar para PRs fechados
    closed_df = df[df[state_col] == closed_value].copy()
    
    if closed_df.empty:
        print("Não há PRs fechados para analisar a duração.\n")
        all_results['duration'] = None
    else:
        # Calcular duração
        closed_df['created_at_dt'] = pd.to_datetime(closed_df[created_at_col], errors='coerce')
        closed_df['closed_at_dt'] = pd.to_datetime(closed_df[closed_at_col], errors='coerce')
        closed_df['pr_duration(h)'] = (closed_df['closed_at_dt'] - closed_df['created_at_dt']).dt.total_seconds() / 3600
        
        # Verificar normalidade (no conjunto total de durações fechadas)
        print("Verificação de Normalidade (Duração Total de PRs Fechados):")
        check_normality(closed_df['pr_duration(h)'].dropna())
        print("\n")

        # Aplicar máscaras ao dataframe filtrado
        # Usar .index.intersection para garantir que só pegamos IDs presentes em closed_df
        g1_indices = closed_df.index.intersection(group1_mask[group1_mask].index)
        g2_indices = closed_df.index.intersection(group2_mask[group2_mask].index)

        duration_g1 = closed_df.loc[g1_indices, 'pr_duration(h)'].dropna()
        duration_g2 = closed_df.loc[g2_indices, 'pr_duration(h)'].dropna()

        if duration_g1.empty or duration_g2.empty:
            print("Não há dados de duração suficientes para um ou ambos os grupos.\n")
            all_results['duration'] = None
        else:
            print(f"Comparando Duração: {group2_label} ({len(duration_g2)} PRs) vs {group1_label} ({len(duration_g1)} PRs)")
            duration_results = compare_continuous_non_parametric(
                duration_g2,  # g2 (ex: Agent) primeiro
                duration_g1,  # g1 (ex: Human) segundo
                group2_label, 
                group1_label
            )
            all_results['duration'] = duration_results
    
    print(f"\n--- FIM DA ANÁLISE: {analysis_title} ---\n")
    return all_results

In [14]:
# =============================================================================
# Bloco 3: Exemplo de Uso
# =============================================================================

# 1. Carregar e preparar seus dados (como na célula [13] e [14] do notebook)
#    !!!! IMPORTANTE: Substitua o caminho do arquivo pelo caminho correto. !!!!
path_to_file = r'output_files\\fix_prs_with_issues_and_files_and_tests.parquet'
fixes_with_issues = pd.read_parquet(path_to_file)

# Preparação básica (como no seu notebook)
fixes_with_issues.rename(columns={'agent': 'user_type'}, inplace=True)
fixes_with_issues['accepted'] = fixes_with_issues['merged_at'].notnull().astype(int)

closed_prs = fixes_with_issues[fixes_with_issues['state'] != 'open']

print(f"DataFrame carregado com sucesso: {len(closed_prs)} linhas.")

# -------------------------------------------------------------------------
# Cenário 1: Agents vs Humans (em todos os PRs 'fix')
# (Substitui as células [14], [15], [16] do notebook)
# -------------------------------------------------------------------------

# Definir as máscaras para os grupos
mask_human = closed_prs['user_type'] == 'Human'
mask_agent = closed_prs['user_type'] != 'Human'

# Chamar a função master
results_agent_vs_human = run_full_comparison(
    df=closed_prs, 
    group1_mask=mask_human, 
    group2_mask=mask_agent, 
    group1_label='Human', 
    group2_label='Agents', 
    analysis_title="Análise 1: Agents vs Humans (Todos os PRs 'fix')"
)

DataFrame carregado com sucesso: 9052 linhas.
INICIANDO: Análise 1: Agents vs Humans (Todos os PRs 'fix')

--- 1. Análise de Taxa de Aceitação (Agents vs Human) ---


Unnamed: 0,Agents_accept_rate,Human_accept_rate,z_stat,p_value,significant,interpretation,absolute_difference
0,71.37%,87.62%,-13.74,5.6000000000000004e-43,True,Agents significativamente piores,-16.25%




--- 2. Análise de Odds Ratio (Agents vs Human) ---
Dados Agrupados:


Unnamed: 0,accepted_count,rejected_count
Agents,5267,2113
Human,1465,207


Odds Ratio (Agents vs Human): 0.3522
Odds Ratio Inverso (Human vs Agents): 2.8392

Interpretação: As chances de 'Human' ser aceito são 2.84 vezes maiores do que 'Agents'.


--- 3. Análise de Duração de PRs Fechados (Agents vs Human) ---
Verificação de Normalidade (Duração Total de PRs Fechados):
Aviso: Mais de 5000 amostras. O p-valor de Shapiro-Wilk pode não ser acurado (usando amostra de 5000).
P-valor do Teste de Shapiro-Wilk: 3.306597086869737e-86
Os dados NÃO são normalmente distribuídos.


Comparando Duração: Agents (7380 PRs) vs Human (1672 PRs)
P-valor do Mann-Whitney U: 4.285526421172503e-74

--- Tamanho do Efeito (Cliff's Delta) ---
Cliff's Delta: -0.2848
Interpretação: O tamanho da diferença é considerado 'Pequeno'.
(O primeiro grupo, 'Agents', tende a ter valores MENORES que o segundo, 'Human')

--- FIM DA ANÁLISE: Análise 1: Agents vs Humans (Todos os PRs 'fix') ---



In [16]:
closed_prs

Unnamed: 0,id,number,user,user_id,user_type,title,body,state,created_at,closed_at,...,has_issues,modified_files,modified_files_list,#_of_files,added_tests,modified_tests,removed_tests,renamed_tests,has_modified_test,accepted
0,2438086945,88748,iamrajjoshi,33237075,Human,:bug: fix: update how we fetch workflow_id and...,i realized i made a mistake for how i fetch th...,closed,2025-04-03T21:36:59Z,2025-04-04T15:10:57Z,...,False,"[{""filename"": ""src/sentry/integrations/opsgeni...","[{'additions': 3, 'changes': 5, 'deletions': 2...",4,0,2,0,0,True,1
1,2265431531,83085,ArthurKnaus,7033940,Human,fix(org-stats): Require project membership,### Problem\r\n\r\nIf the user is not member o...,closed,2025-01-08T07:47:13Z,2025-01-08T08:49:40Z,...,True,"[{""filename"": ""static/app/views/organizationSt...","[{'additions': 29, 'changes': 29, 'deletions':...",2,0,1,0,0,True,1
2,2622011651,94465,bukzor,640328,Human,fix(dev): mktemp: too few X's in template,"For maximum compatibility, busybox mktemp requ...",closed,2025-06-26T18:54:10Z,2025-06-26T19:57:23Z,...,False,"[{""filename"": "".envrc"", ""status"": ""modified"", ...","[{'additions': 1, 'changes': 2, 'deletions': 1...",1,0,0,0,0,False,1
3,2565399631,92785,dashed,139499,Human,fix(billing): Update calculateCategoryPrepaidU...,Closes https://linear.app/getsentry/issue/BIL-...,closed,2025-06-03T22:22:51Z,2025-06-05T18:13:54Z,...,False,"[{""filename"": ""static/gsApp/views/subscription...","[{'additions': 6, 'changes': 12, 'deletions': ...",3,0,2,0,0,True,1
4,2374801945,86438,brendanhsentry,171613822,Human,fix: copy updates to checkout page,closes https://github.com/getsentry/getsentry/...,closed,2025-03-05T22:39:12Z,2025-03-06T16:57:20Z,...,False,"[{""filename"": ""static/gsApp/views/amCheckout/s...","[{'additions': 32, 'changes': 49, 'deletions':...",2,0,1,0,0,True,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9879,3260452571,1542,devin-ai-integration[bot],158243242,Devin,Fix CSS color assertions in test_lambdas.py,# Fix CSS color assertions in test_lambdas.py\...,closed,2025-07-24T16:14:38Z,2025-07-25T11:29:31Z,...,False,"[{""filename"": ""tests/test_lambdas.py"", ""status...","[{'additions': 2, 'changes': 4, 'deletions': 2...",1,0,1,0,0,True,1
9880,2857103111,2151,devin-ai-integration[bot],158243242,Devin,fix: Initialize storage in StringKnowledgeSource,Fixes #2150\n\n## Issue\nStringKnowledgeSource...,closed,2025-02-17T08:16:22Z,2025-02-25T16:39:20Z,...,True,"[{""filename"": ""src/crewai/knowledge/source/str...","[{'additions': 51, 'changes': 60, 'deletions':...",2,0,1,0,0,True,0
9881,2857279950,8459,devin-ai-integration[bot],158243242,Devin,Add missing OpenSSL TLSEXT status response codes,Fixes the build failure in the OpenSSL coexist...,closed,2025-02-17T09:32:13Z,2025-02-17T09:34:11Z,...,False,"[{""filename"": ""wolfssl/openssl/ssl.h"", ""status...","[{'additions': 5, 'changes': 5, 'deletions': 0...",1,0,0,0,0,False,0
9882,2857942945,2,devin-ai-integration[bot],158243242,Devin,fix: improve dark mode input focus and toggle ...,# UI Improvements: Dark Mode Input Focus and T...,closed,2025-02-17T13:57:22Z,2025-02-17T14:40:12Z,...,False,"[{""filename"": ""app.js"", ""status"": ""modified"", ...","[{'additions': 10, 'changes': 17, 'deletions':...",2,0,0,0,0,False,1


In [7]:
# -------------------------------------------------------------------------
# Cenário 2: Com Teste vs Sem Teste (em todos os PRs 'fix')
# (Substitui as células [18], [19], [20], [21] do notebook)
# -------------------------------------------------------------------------

# Definir as máscaras
# Nota: 'has_modified_test' é booleano, não precisamos de string 'True'
mask_with_test = closed_prs['has_modified_test'] == True
mask_without_test = closed_prs['has_modified_test'] == False

# Chamar a função master
# Nota: Mudei a ordem para 'PRs sem teste' ser o grupo 1 (human_label)
# e 'PRs com teste' ser o grupo 2 (agent_label) para corresponder à
# interpretação "PRs com teste significativamente piores" da sua célula [21].
results_test_vs_notest = run_full_comparison(
    df=closed_prs,
    group1_mask=mask_without_test,
    group2_mask=mask_with_test,
    group1_label='PRs sem teste',
    group2_label='PRs com teste',
    analysis_title="Análise 2: Com Teste vs Sem Teste (Todos os PRs 'fix')"
)

INICIANDO: Análise 2: Com Teste vs Sem Teste (Todos os PRs 'fix')

--- 1. Análise de Taxa de Aceitação (PRs com teste vs PRs sem teste) ---


Unnamed: 0,PRs com teste_accept_rate,PRs sem teste_accept_rate,z_stat,p_value,significant,interpretation,absolute_difference
0,69.39%,77.36%,-8.41,4.19e-17,True,PRs com teste significativamente piores,-7.97%




--- 2. Análise de Odds Ratio (PRs com teste vs PRs sem teste) ---
Dados Agrupados:


Unnamed: 0,accepted_count,rejected_count
PRs com teste,2358,1040
PRs sem teste,4374,1280


Odds Ratio (PRs com teste vs PRs sem teste): 0.6635
Odds Ratio Inverso (PRs sem teste vs PRs com teste): 1.5072

Interpretação: As chances de 'PRs sem teste' ser aceito são 1.51 vezes maiores do que 'PRs com teste'.


--- 3. Análise de Duração de PRs Fechados (PRs com teste vs PRs sem teste) ---
Verificação de Normalidade (Duração Total de PRs Fechados):
Aviso: Mais de 5000 amostras. O p-valor de Shapiro-Wilk pode não ser acurado (usando amostra de 5000).
P-valor do Teste de Shapiro-Wilk: 2.4738304491454185e-87
Os dados NÃO são normalmente distribuídos.


Comparando Duração: PRs com teste (3398 PRs) vs PRs sem teste (5654 PRs)
P-valor do Mann-Whitney U: 6.352229461546988e-16

--- Tamanho do Efeito (Cliff's Delta) ---
Cliff's Delta: 0.1013
Interpretação: O tamanho da diferença é considerado 'Insignificante'.
(O primeiro grupo, 'PRs com teste', tende a ter valores MAIORES que o segundo, 'PRs sem teste')

--- FIM DA ANÁLISE: Análise 2: Com Teste vs Sem Teste (Todos os PRs 'fix') ---



In [8]:
# -------------------------------------------------------------------------
# Cenário 3: Agents vs Humans (APENAS em PRs COM TESTE)
# (Substitui as células [23], [24], [25], [26], [27] do notebook)
# -------------------------------------------------------------------------

# 1. Criar o DataFrame filtrado primeiro
df_with_tests_only = closed_prs[closed_prs['has_modified_test'] == True].copy()
print(f"\nFiltrando para PRs com testes: {len(df_with_tests_only)} linhas.")

# 2. Definir as máscaras NESTE NOVO DataFrame
mask_human_wt = df_with_tests_only['user_type'] == 'Human'
mask_agent_wt = df_with_tests_only['user_type'] != 'Human'

# 3. Chamar a função master
results_agent_vs_human_wt = run_full_comparison(
    df=df_with_tests_only,
    group1_mask=mask_human_wt,
    group2_mask=mask_agent_wt,
    group1_label='Human',
    group2_label='Agents',
    analysis_title="Análise 3: Agents vs Humans (Apenas PRs 'fix' COM TESTES)"
)


Filtrando para PRs com testes: 3398 linhas.
INICIANDO: Análise 3: Agents vs Humans (Apenas PRs 'fix' COM TESTES)

--- 1. Análise de Taxa de Aceitação (Agents vs Human) ---


Unnamed: 0,Agents_accept_rate,Human_accept_rate,z_stat,p_value,significant,interpretation,absolute_difference
0,65.98%,88.02%,-10.08,6.4899999999999996e-24,True,Agents significativamente piores,-22.04%




--- 2. Análise de Odds Ratio (Agents vs Human) ---
Dados Agrupados:


Unnamed: 0,accepted_count,rejected_count
Agents,1895,977
Human,463,63


Odds Ratio (Agents vs Human): 0.2639
Odds Ratio Inverso (Human vs Agents): 3.7890

Interpretação: As chances de 'Human' ser aceito são 3.79 vezes maiores do que 'Agents'.


--- 3. Análise de Duração de PRs Fechados (Agents vs Human) ---
Verificação de Normalidade (Duração Total de PRs Fechados):
P-valor do Teste de Shapiro-Wilk: 7.689958852324727e-76
Os dados NÃO são normalmente distribuídos.


Comparando Duração: Agents (2872 PRs) vs Human (526 PRs)
P-valor do Mann-Whitney U: 4.351086697208543e-25

--- Tamanho do Efeito (Cliff's Delta) ---
Cliff's Delta: -0.2833
Interpretação: O tamanho da diferença é considerado 'Pequeno'.
(O primeiro grupo, 'Agents', tende a ter valores MENORES que o segundo, 'Human')

--- FIM DA ANÁLISE: Análise 3: Agents vs Humans (Apenas PRs 'fix' COM TESTES) ---



In [9]:
# -------------------------------------------------------------------------
# Cenário 3: Com Issues vs Sem Issues (em todos os PRs 'fix')
# -------------------------------------------------------------------------

fixes_with_linked_issues = closed_prs[closed_prs['has_issues'] == True]

# Definir as máscaras
# Nota: 'has_modified_test' é booleano, não precisamos de string 'True'
mask_Human = fixes_with_linked_issues['user_type'] == 'Human'
mask_Agents = fixes_with_linked_issues['user_type'] != 'Human'

# Chamar a função master
# Nota: Mudei a ordem para 'PRs sem teste' ser o grupo 1 (human_label)
# e 'PRs com teste' ser o grupo 2 (agent_label) para corresponder à
# interpretação "PRs com teste significativamente piores" da sua célula [21].
results_test_vs_notest = run_full_comparison(
    df=fixes_with_linked_issues,
    group1_mask=mask_Human,
    group2_mask=mask_Agents,
    group1_label='PRs de humanos',
    group2_label='PRs de agentes',
    analysis_title="Análise 3: Com Issues de Agents vs Humans (Todos os PRs 'fix')"
)

INICIANDO: Análise 3: Com Issues de Agents vs Humans (Todos os PRs 'fix')

--- 1. Análise de Taxa de Aceitação (PRs de agentes vs PRs de humanos) ---


Unnamed: 0,PRs de agentes_accept_rate,PRs de humanos_accept_rate,z_stat,p_value,significant,interpretation,absolute_difference
0,53.97%,85.34%,-11.9,1.23e-32,True,PRs de agentes significativamente piores,-31.37%




--- 2. Análise de Odds Ratio (PRs de agentes vs PRs de humanos) ---
Dados Agrupados:


Unnamed: 0,accepted_count,rejected_count
PRs de agentes,1142,974
PRs de humanos,355,61


Odds Ratio (PRs de agentes vs PRs de humanos): 0.2015
Odds Ratio Inverso (PRs de humanos vs PRs de agentes): 4.9635

Interpretação: As chances de 'PRs de humanos' ser aceito são 4.96 vezes maiores do que 'PRs de agentes'.


--- 3. Análise de Duração de PRs Fechados (PRs de agentes vs PRs de humanos) ---
Verificação de Normalidade (Duração Total de PRs Fechados):
P-valor do Teste de Shapiro-Wilk: 4.3627625948154074e-63
Os dados NÃO são normalmente distribuídos.


Comparando Duração: PRs de agentes (2116 PRs) vs PRs de humanos (416 PRs)
P-valor do Mann-Whitney U: 0.006490113324588512

--- Tamanho do Efeito (Cliff's Delta) ---
Cliff's Delta: 0.0843
Interpretação: O tamanho da diferença é considerado 'Insignificante'.
(O primeiro grupo, 'PRs de agentes', tende a ter valores MAIORES que o segundo, 'PRs de humanos')

--- FIM DA ANÁLISE: Análise 3: Com Issues de Agents vs Humans (Todos os PRs 'fix') ---



In [10]:
# =============================================================================
# Bloco 5: Análise de Aceitação por Agente
# =============================================================================

print("\n=========================================================")
print("INICIANDO: Análise 4: Taxa de Aceitação por Agente vs. Humanos")
print("=========================================================\n")

# 1. Obter a série de dados de aceitação dos Humanos (definida no Bloco 4)
human_acceptance = closed_prs.loc[mask_human, 'accepted']

# 2. Obter a lista de user_type de agentes únicos
agent_types = closed_prs[~mask_human]['user_type'].unique()

print(f"Comparando {len(agent_types)} tipos de agentes contra 'Human' ({len(human_acceptance)} PRs)...")

results_by_agent = []

# 3. Iterar por cada tipo de agente
for agent_name in agent_types:
    mask_current_agent = closed_prs['user_type'] == agent_name
    agent_acceptance = closed_prs.loc[mask_current_agent, 'accepted']
    
    print(f"\n--- Comparando {agent_name} ({len(agent_acceptance)} PRs) vs Human ---")
    
    # 4. Chamar a função ORIGINAL (do Bloco 2 do seu arquivo)
    #    Isso criará colunas dinâmicas (ex: Devin_accept_rate)
    result_df = compare_acceptance_rates(
        agent_acceptance,
        human_acceptance,
        label_1=agent_name,
        label_2='Human'
    )
    
    if result_df is not None:
        result_df['agent_type'] = agent_name
        result_df['agent_PRs'] = len(agent_acceptance)
        result_df['agent_accepted_count'] = agent_acceptance.sum()
        results_by_agent.append(result_df)

# 5. Concatenar e processar os resultados
if results_by_agent:
    # Neste ponto, o DF tem colunas como 'Devin_accept_rate', 'Sweep_accept_rate', etc., cheias de NaNs
    final_results_df = pd.concat(results_by_agent, ignore_index=True, sort=False)
    
    # --- MÁGICA DO PANDAS PARA COLAPSAR COLUNAS ---
    # a. Encontra todas as colunas de taxa de agente
    agent_rate_cols = [col for col in final_results_df.columns if 'accept_rate' in col and 'Human' not in col]
    
    # b. Cria a coluna única 'agent_accept_rate' somando os valores
    #    (Como só há um valor não-NaN por linha, a soma funciona perfeitamente)
    final_results_df['agent_accept_rate'] = final_results_df[agent_rate_cols].sum(axis=1)
    final_results_df['agent_rejected_count'] = final_results_df['agent_PRs'] - final_results_df['agent_accepted_count']
    
    # c. Remove as colunas de taxa de agente dinâmicas originais
    final_results_df = final_results_df.drop(columns=agent_rate_cols)
    # --- Fim da mágica ---

    # 6. Definir a ordem final das colunas (agora padronizada)
    cols_order = [
        'agent_type', 
        'agent_PRs', 
        'agent_accepted_count',
        'agent_rejected_count',
        'agent_accept_rate',
        'Human_accept_rate',
        'z_stat', 
        'p_value', 
        'significant', 
        'interpretation', 
        'absolute_difference'
    ]
    
    # Filtrar colunas que realmente existem no DF
    final_cols = [col for col in cols_order if col in final_results_df.columns]

    style_format = {
        'agent_accept_rate': "{:.2%}",
        'Human_accept_rate': "{:.2%}",
        "z_stat": "{:.2f}",
        "p_value": "{:.2e}",
        "absolute_difference": "{:.2%}",
    }
    
    print("\n\n--- Resultado Consolidado: Aceitação por Agente vs. Humanos ---")
    
    display(final_results_df[final_cols].sort_values('z_stat').style.format(style_format))
    #final_results_df[final_cols].sort_values('z_stat').to_csv('output_files/teste.csv')
else:
    print("\nNenhuma comparação de agente pôde ser concluída.")


INICIANDO: Análise 4: Taxa de Aceitação por Agente vs. Humanos

Comparando 5 tipos de agentes contra 'Human' (1672 PRs)...

--- Comparando Claude_Code (91 PRs) vs Human ---

--- Comparando Copilot (1558 PRs) vs Human ---

--- Comparando OpenAI_Codex (4155 PRs) vs Human ---

--- Comparando Cursor (365 PRs) vs Human ---

--- Comparando Devin (1211 PRs) vs Human ---


--- Resultado Consolidado: Aceitação por Agente vs. Humanos ---


Unnamed: 0,agent_type,agent_PRs,agent_accepted_count,agent_rejected_count,agent_accept_rate,Human_accept_rate,z_stat,p_value,significant,interpretation,absolute_difference
4,Devin,1211,536,675,44.26%,87.62%,-24.94,3.0099999999999997e-137,True,Devin significativamente piores,-43.36%
1,Copilot,1558,845,713,54.24%,87.62%,-21.01,5.8399999999999996e-98,True,Copilot significativamente piores,-33.38%
3,Cursor,365,281,84,76.99%,87.62%,-5.26,1.44e-07,True,Cursor significativamente piores,-10.63%
0,Claude_Code,91,66,25,72.53%,87.62%,-4.15,3.36e-05,True,Claude_Code significativamente piores,-15.09%
2,OpenAI_Codex,4155,3539,616,85.17%,87.62%,-2.42,0.0153,True,OpenAI_Codex significativamente piores,-2.45%


In [11]:
# =============================================================================
# Bloco 6: Matriz de Comparação 6x6 (Odds Ratio + Intervalo de Confiança)
# =============================================================================

print("\n=========================================================")
print("INICIANDO: Análise 5: Matrizes de Comparação 6x6 (com IC 95%)")
print("=========================================================\n")

# 1. Obter a lista completa de tipos de usuário (Human primeiro)
# Assumindo que 'fixes_with_issues' já está carregado no ambiente
human_mask = closed_prs['user_type'] == 'Human'
agent_types = sorted(list(closed_prs[~human_mask]['user_type'].unique()))
user_types_list = ['Human'] + agent_types

print(f"Comparando os seguintes grupos: {user_types_list}")

# 2. Pré-calcular contagens
try:
    grouped_counts = closed_prs.groupby('user_type')['accepted'].agg(
        accepted_count=lambda x: x.sum(),
        total_count=lambda x: x.count()
    )
    grouped_counts['rejected_count'] = grouped_counts['total_count'] - grouped_counts['accepted_count']

    # 3. Inicializar as matrizes
    df_odds_ratios = pd.DataFrame(np.nan, index=user_types_list, columns=user_types_list, dtype=float)
    df_p_values = pd.DataFrame(np.nan, index=user_types_list, columns=user_types_list, dtype=float)
    
    # Novas matrizes para o Intervalo de Confiança
    df_ci_lower = pd.DataFrame(np.nan, index=user_types_list, columns=user_types_list, dtype=float)
    df_ci_upper = pd.DataFrame(np.nan, index=user_types_list, columns=user_types_list, dtype=float)
    df_ci_formatted = pd.DataFrame("", index=user_types_list, columns=user_types_list, dtype=object)

    # 4. Iterar por cada par
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        
        for user_X in user_types_list: # Grupo de interesse
            for user_Y in user_types_list: # Grupo de referência
                
                # Diagonal
                if user_X == user_Y:
                    df_odds_ratios.loc[user_X, user_Y] = 1.0
                    df_p_values.loc[user_X, user_Y] = 1.0
                    df_ci_lower.loc[user_X, user_Y] = 1.0
                    df_ci_upper.loc[user_X, user_Y] = 1.0
                    df_ci_formatted.loc[user_X, user_Y] = "[1.00, 1.00]"
                    continue
                
                try:
                    # Montar tabela 2x2
                    a = grouped_counts.loc[user_X, 'accepted_count']
                    b = grouped_counts.loc[user_X, 'rejected_count']
                    c = grouped_counts.loc[user_Y, 'accepted_count']
                    d = grouped_counts.loc[user_Y, 'rejected_count']
                    
                    contingency_table = [[a, b], [c, d]]
                    ct = Table2x2(contingency_table)
                    
                    # Preencher OR e P-Value
                    df_odds_ratios.loc[user_X, user_Y] = ct.oddsratio
                    df_p_values.loc[user_X, user_Y] = ct.oddsratio_pvalue()
                    
                    # --- NOVO: Calcular Intervalo de Confiança (95%) ---
                    ci_low, ci_upp = ct.oddsratio_confint(alpha=0.05)
                    
                    df_ci_lower.loc[user_X, user_Y] = ci_low
                    df_ci_upper.loc[user_X, user_Y] = ci_upp
                    
                    # Formatando para exibição amigável: "[Low, High]"
                    df_ci_formatted.loc[user_X, user_Y] = f"[{ci_low:.2f}, {ci_upp:.2f}]"

                except Exception as e:
                    print(f"Erro ao comparar {user_X} vs {user_Y}: {e}")
                    
    # 7. Exibir resultados
    print("\n--- Matriz de Odds Ratios ---")
    display(df_odds_ratios.style.format("{:.3f}").background_gradient(cmap='coolwarm', vmin=0, vmax=2))

    print("\n--- Matriz de P-Values (Negrito se < 0.05) ---")
    # Usando .map() conforme sua correção anterior
    display(df_p_values.style.format("{:.2e}").map(lambda x: 'font-weight: bold' if x < 0.05 else ''))

    print("\n--- Matriz de Intervalos de Confiança 95% ---")
    print("Interpretação: Se o intervalo cruza o valor 1.0 (ex: [0.8, 1.2]), a associação não é estatisticamente significativa.")
    display(df_ci_formatted)

except Exception as e:
    print(f"Ocorreu um erro geral: {e}")


INICIANDO: Análise 5: Matrizes de Comparação 6x6 (com IC 95%)

Comparando os seguintes grupos: ['Human', 'Claude_Code', 'Copilot', 'Cursor', 'Devin', 'OpenAI_Codex']

--- Matriz de Odds Ratios ---


Unnamed: 0,Human,Claude_Code,Copilot,Cursor,Devin,OpenAI_Codex
Human,1.0,2.681,5.972,2.116,8.913,1.232
Claude_Code,0.373,1.0,2.228,0.789,3.325,0.46
Copilot,0.167,0.449,1.0,0.354,1.492,0.206
Cursor,0.473,1.267,2.823,1.0,4.213,0.582
Devin,0.112,0.301,0.67,0.237,1.0,0.138
OpenAI_Codex,0.812,2.176,4.848,1.717,7.235,1.0



--- Matriz de P-Values (Negrito se < 0.05) ---


Unnamed: 0,Human,Claude_Code,Copilot,Cursor,Devin,OpenAI_Codex
Human,1.0,6.24e-05,9.660000000000001e-88,2.29e-07,1.86e-119,0.0155
Claude_Code,6.24e-05,1.0,0.000859,0.373,6.8e-07,0.00113
Copilot,9.660000000000001e-88,0.000859,1.0,1.13e-14,2.01e-07,1.2000000000000001e-122
Cursor,2.29e-07,0.373,1.13e-14,1.0,1.01e-25,4.07e-05
Devin,1.86e-119,6.8e-07,2.01e-07,1.01e-25,1.0,3.8200000000000005e-164
OpenAI_Codex,0.0155,0.00113,1.2000000000000001e-122,4.07e-05,3.8200000000000005e-164,1.0



--- Matriz de Intervalos de Confiança 95% ---
Interpretação: Se o intervalo cruza o valor 1.0 (ex: [0.8, 1.2]), a associação não é estatisticamente significativa.


Unnamed: 0,Human,Claude_Code,Copilot,Cursor,Devin,OpenAI_Codex
Human,"[1.00, 1.00]","[1.65, 4.34]","[5.01, 7.12]","[1.59, 2.81]","[7.41, 10.72]","[1.04, 1.46]"
Claude_Code,"[0.23, 0.60]","[1.00, 1.00]","[1.39, 3.57]","[0.47, 1.33]","[2.07, 5.34]","[0.29, 0.73]"
Copilot,"[0.14, 0.20]","[0.28, 0.72]","[1.00, 1.00]","[0.27, 0.46]","[1.28, 1.74]","[0.18, 0.24]"
Cursor,"[0.36, 0.63]","[0.75, 2.13]","[2.17, 3.67]","[1.00, 1.00]","[3.22, 5.51]","[0.45, 0.75]"
Devin,"[0.09, 0.13]","[0.19, 0.48]","[0.58, 0.78]","[0.18, 0.31]","[1.00, 1.00]","[0.12, 0.16]"
OpenAI_Codex,"[0.69, 0.96]","[1.36, 3.48]","[4.25, 5.53]","[1.33, 2.22]","[6.28, 8.34]","[1.00, 1.00]"


In [12]:
display(final_results_df[['agent_type','agent_accept_rate','Human_accept_rate','z_stat',
                          'p_value','significant','interpretation']].sort_values('z_stat').style.format(style_format))

Unnamed: 0,agent_type,agent_accept_rate,Human_accept_rate,z_stat,p_value,significant,interpretation
4,Devin,44.26%,87.62%,-24.94,3.0099999999999997e-137,True,Devin significativamente piores
1,Copilot,54.24%,87.62%,-21.01,5.8399999999999996e-98,True,Copilot significativamente piores
3,Cursor,76.99%,87.62%,-5.26,1.44e-07,True,Cursor significativamente piores
0,Claude_Code,72.53%,87.62%,-4.15,3.36e-05,True,Claude_Code significativamente piores
2,OpenAI_Codex,85.17%,87.62%,-2.42,0.0153,True,OpenAI_Codex significativamente piores
