# Análise Exploratória de Dados (EDA) - Pull Requests
Este notebook faz parte do estudo entitulado "Influência da Comunicação em Pull Requests e
Issues na Qualidade da Revisão de Código: Um
Estudo de Caso no React e Hugging Face" e tem como objetivo garantir a reprodutibilidade seguindo os princípios do OpenScience.

### 1. Carregar o Arquivo CSV
Execute a célula abaixo para selecionar e carregar o seu arquivo CSV (ex: `pull_requests_unicas.csv`).

In [1]:
import pandas as pd
import plotly.express as px
import io
from google.colab import files

uploaded = files.upload()

if uploaded:
    file_name = list(uploaded.keys())[0]
    df = pd.read_csv(io.BytesIO(uploaded[file_name]))
    print(f"Arquivo '{file_name}' carregado com sucesso!")
    display(df.head())
else:
    print("Nenhum arquivo foi carregado.")

Saving pull_requests_unicas.csv to pull_requests_unicas.csv
Arquivo 'pull_requests_unicas.csv' carregado com sucesso!


Unnamed: 0,PR_ID,Project,Title,Status,Author,Comments,Participants,Commits,Score,Engagement,Critical_Density
0,648,Hugging Face,Use Kimi K2.5 instead of Llama 4,Merged,Wauplin,5,3,2,5,Muito Alto,0.4
1,635,Hugging Face,Implement guest_info_tool and update assistant...,Closed,kashif-saeed1122,7,3,1,3,Médio,0.1429
2,614,Hugging Face,Update ToolCallingAgent model initialization,Merged,lucadivit,5,2,3,4,Alto,0.4
3,629,Hugging Face,Update readme,Closed,SkyMeilin,0,1,3,1,Nulo,0.0
4,636,Hugging Face,Fix comma problem in ko quiz,Merged,sergiopaniego (Mantenedor),1,1,1,1,Muito Baixo,0.0


### 2. Distribuição das Notas de Qualidade por Projeto
Visualização da frequência das notas (1-5) em cada projeto.

In [10]:
if 'df' in locals():
    fig1 = px.histogram(df, x='Score', color='Project', barmode='group',
                       title='Distribuição de Notas de Qualidade por Projeto',
                       labels={'Score': 'Nota de Qualidade', 'count': 'Quantidade de PRs'},
                       category_orders={'Score': [1, 2, 3, 4, 5]})

    fig1.update_layout(
      plot_bgcolor="white",
      paper_bgcolor="white",
    )


    fig1.show()
else:
    print("Por favor, carregue o arquivo CSV primeiro.")

### 3. Engajamento vs. Nota de Qualidade
Relação entre participantes, comentários e a nota final (tamanho do ponto).

In [3]:
if 'df' in locals():
    fig2 = px.scatter(df, x='Participants', y='Comments', size='Score', color='Project',
                     hover_name='PR_ID', title='Engajamento vs. Nota de Qualidade',
                     labels={'Participants': 'Número de Participantes', 'Comments': 'Total de Comentários'})
    fig2.show()
else:
    print("Por favor, carregue o arquivo CSV primeiro.")

### 4. Status das PRs
Distribuição percentual do desfecho das Pull Requests.

In [5]:
if 'df' in locals():
    fig4 = px.pie(df, names='Status', title='Distribuição de Status das PRs',
                 hole=0.3, color_discrete_sequence=px.colors.sequential.RdBu)
    fig4.show()
else:
    print("Por favor, carregue o arquivo CSV primeiro.")

In [8]:
fig = px.histogram(
        df,
        x="Project",
        color="Project",
        title="Total de PRs por Projeto",
        labels={"Project": "Projeto", "count": "Total de PRs"}
    )

fig.update_layout(template="simple_white")

fig.show()