
# üìä Visualiza√ß√µes do Dataset **alab-NII/morehopqa**

Este notebook carrega o dataset **MoreHopQA** do Hugging Face e gera 5 visualiza√ß√µes explorat√≥rias usando **Altair**.


In [None]:

# Instalar depend√™ncias necess√°rias
!pip install datasets pandas altair vega_datasets --quiet


In [None]:

# ------------------------------
# 1. Imports
# ------------------------------
import altair as alt
import pandas as pd
from datasets import load_dataset


In [None]:

# ------------------------------
# 2. Carregar dataset
# ------------------------------

# Carregar o split de treino
dataset = load_dataset("alab-NII/morehopqa", split="train")

# Converter para pandas DataFrame
df = dataset.to_pandas()

# Mostrar amostras
df.head()


In [None]:

# ------------------------------
# 3. Pr√©-processamento
# ------------------------------

# Calcular tamanho da decomposi√ß√£o
df["decomp_len"] = df["question_decomposition"].apply(lambda x: len(x) if isinstance(x, list) else 0)

# Fun√ß√£o para extrair t√≠tulos de par√°grafos de suporte
def extract_paragraphs(decomposition):
    if isinstance(decomposition, list):
        return [d.get("paragraph_support_title", None) for d in decomposition if d.get("paragraph_support_title")]
    return []

# Criar coluna com par√°grafos
df["paragraphs"] = df["question_decomposition"].apply(extract_paragraphs)

# Explodir par√°grafos para contar frequ√™ncia
support_counts = (
    df.explode("paragraphs")
    .dropna(subset=["paragraphs"])
    .groupby("paragraphs")
    .size()
    .reset_index(name="count")
)

support_counts.head()


In [None]:

# ------------------------------
# 4.1 Distribui√ß√£o de tipos de racioc√≠nio
# ------------------------------

chart_reasoning = alt.Chart(df).mark_bar().encode(
    x=alt.X('reasoning_type:N', title='Tipo de racioc√≠nio'),
    y=alt.Y('count()', title='N√∫mero de exemplos'),
    color='reasoning_type:N'
).properties(title='Distribui√ß√£o de tipos de racioc√≠nio')

chart_reasoning


In [None]:

# ------------------------------
# 4.2 N√∫mero de hops
# ------------------------------

chart_hops = alt.Chart(df).mark_bar().encode(
    x=alt.X('no_of_hops:O', title='N√∫mero de hops'),
    y='count()',
    color='no_of_hops:O'
).properties(title='Distribui√ß√£o do n√∫mero de hops')

chart_hops


In [None]:

# ------------------------------
# 4.3 Tipos de resposta vs anterior
# ------------------------------

chart_answer_types = alt.Chart(df).mark_bar().encode(
    x=alt.X('answer_type:N', title='Tipo de resposta (atual)'),
    y='count()',
    color='previous_answer_type:N',
    tooltip=['answer_type', 'previous_answer_type']
).properties(title='Compara√ß√£o entre tipos de resposta')

chart_answer_types


In [None]:

# ------------------------------
# 4.4 Comprimento da decomposi√ß√£o
# ------------------------------

chart_decomp = alt.Chart(df).mark_boxplot().encode(
    y=alt.Y('decomp_len:Q', title='Comprimento da decomposi√ß√£o de perguntas')
).properties(title='Distribui√ß√£o do comprimento da decomposi√ß√£o')

chart_decomp


In [None]:

# ------------------------------
# 4.5 Par√°grafos de suporte mais usados
# ------------------------------

chart_support = alt.Chart(support_counts).mark_circle().encode(
    x=alt.X('paragraphs:N', title='Par√°grafo de suporte'),
    y=alt.Y('count:Q', title='Frequ√™ncia'),
    size='count:Q',
    tooltip=['paragraphs', 'count']
).properties(title='Par√°grafos mais usados como suporte').interactive()

chart_support



---

‚úÖ Agora voc√™ tem 5 visualiza√ß√µes principais do dataset **MoreHopQA**:  
1. Distribui√ß√£o de tipos de racioc√≠nio  
2. N√∫mero de hops por quest√£o  
3. Tipos de resposta (atual vs anterior)  
4. Comprimento da decomposi√ß√£o de perguntas  
5. Par√°grafos mais usados como suporte  

