
# 📊 Visualizações do Dataset **alab-NII/morehopqa**

Este notebook carrega o dataset **MoreHopQA** do Hugging Face e gera 5 visualizações exploratórias usando **Altair**.


In [None]:

# Instalar dependências necessárias
!pip install datasets pandas altair vega_datasets --quiet


In [None]:

# ------------------------------
# 1. Imports
# ------------------------------
import altair as alt
import pandas as pd
from datasets import load_dataset


In [None]:

# ------------------------------
# 2. Carregar dataset
# ------------------------------

# Carregar o split de treino
dataset = load_dataset("alab-NII/morehopqa", split="train")

# Converter para pandas DataFrame
df = dataset.to_pandas()

# Mostrar amostras
df.head()


In [None]:

# ------------------------------
# 3. Pré-processamento
# ------------------------------

# Calcular tamanho da decomposição
df["decomp_len"] = df["question_decomposition"].apply(lambda x: len(x) if isinstance(x, list) else 0)

# Função para extrair títulos de parágrafos de suporte
def extract_paragraphs(decomposition):
    if isinstance(decomposition, list):
        return [d.get("paragraph_support_title", None) for d in decomposition if d.get("paragraph_support_title")]
    return []

# Criar coluna com parágrafos
df["paragraphs"] = df["question_decomposition"].apply(extract_paragraphs)

# Explodir parágrafos para contar frequência
support_counts = (
    df.explode("paragraphs")
    .dropna(subset=["paragraphs"])
    .groupby("paragraphs")
    .size()
    .reset_index(name="count")
)

support_counts.head()


In [None]:

# ------------------------------
# 4.1 Distribuição de tipos de raciocínio
# ------------------------------

chart_reasoning = alt.Chart(df).mark_bar().encode(
    x=alt.X('reasoning_type:N', title='Tipo de raciocínio'),
    y=alt.Y('count()', title='Número de exemplos'),
    color='reasoning_type:N'
).properties(title='Distribuição de tipos de raciocínio')

chart_reasoning


In [None]:

# ------------------------------
# 4.2 Número de hops
# ------------------------------

chart_hops = alt.Chart(df).mark_bar().encode(
    x=alt.X('no_of_hops:O', title='Número de hops'),
    y='count()',
    color='no_of_hops:O'
).properties(title='Distribuição do número de hops')

chart_hops


In [None]:

# ------------------------------
# 4.3 Tipos de resposta vs anterior
# ------------------------------

chart_answer_types = alt.Chart(df).mark_bar().encode(
    x=alt.X('answer_type:N', title='Tipo de resposta (atual)'),
    y='count()',
    color='previous_answer_type:N',
    tooltip=['answer_type', 'previous_answer_type']
).properties(title='Comparação entre tipos de resposta')

chart_answer_types


In [None]:

# ------------------------------
# 4.4 Comprimento da decomposição
# ------------------------------

chart_decomp = alt.Chart(df).mark_boxplot().encode(
    y=alt.Y('decomp_len:Q', title='Comprimento da decomposição de perguntas')
).properties(title='Distribuição do comprimento da decomposição')

chart_decomp


In [None]:

# ------------------------------
# 4.5 Parágrafos de suporte mais usados
# ------------------------------

chart_support = alt.Chart(support_counts).mark_circle().encode(
    x=alt.X('paragraphs:N', title='Parágrafo de suporte'),
    y=alt.Y('count:Q', title='Frequência'),
    size='count:Q',
    tooltip=['paragraphs', 'count']
).properties(title='Parágrafos mais usados como suporte').interactive()

chart_support



---

✅ Agora você tem 5 visualizações principais do dataset **MoreHopQA**:  
1. Distribuição de tipos de raciocínio  
2. Número de hops por questão  
3. Tipos de resposta (atual vs anterior)  
4. Comprimento da decomposição de perguntas  
5. Parágrafos mais usados como suporte  

