# Datasets surveys

1. [DeepDialogue](https://arxiv.org/abs/2505.19978)
2. 

MUPETALKS
=====

- Preciso pegar o dataset do MUPE e fazer um recorte nele seguindo algumas regras.
- As regras são essencialmente ditadas pelo paper de referência: [DailyTalk](https://arxiv.org/abs/2207.01063).

### Regras de recorte:
1. Pegar somente pessoas falantes de SP capital;
2. Como o início das entrevistas no MUPE contêm dados sensíveis, foi discutido para começar um pouco pra frente pra garantir anonimidade. Talvez esta anonomidade tenha que ser refinada manualmente;
3. 

### Datasets
- MUPE-ASR: [CORAA-MUPE-ASR | HuggingFace](https://huggingface.co/datasets/nilc-nlp/CORAA-MUPE-ASR): $\approx 41.8 \text{ GB}$
    - train: 277k
    - test: 10k
    - validation: 31k
- Metadata: [Google Sheets | Metadata](https://docs.google.com/spreadsheets/d/1_gg2bL8TbIbqarlR3sfthMzGTiANvJis/edit?gid=1202708851#gid=1202708851)




# Considerations

- `birth_state == Null`

    Where the `birth_country != 'Brasil'` the states are `Null`

    ```
    birth_country
    Brasil       272
    Portugal       4
    Chile          4
    Alemanha       3
    Argentina      2
    Nigéria        1
    Japão          1
    Mónaco         1
    Itália         1
    Name: count, dtype: int64
    ```



In [75]:
import os
import difflib
from typing import List, Tuple

import rich
import numpy as np
import pandas as pd

from google import genai
from google.genai import types


GeminiClient = genai.Client(api_key='AIzaSyD_A0WGXw77MX6hj1qgf47781uUxZhDiAg')

# Opening train dataset

In [115]:
mupe_train = pd.read_csv("./datasets/train.csv")
mupe_train.head()

Unnamed: 0,audio_id,audio_name,file_path,speaker_type,speaker_code,speaker_gender,audio_quality,start_time,end_time,duration,normalized_text,original_text
0,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_0_6.69_8.37.wav,P/2,MA108,F,high,6.693,8.374,1.681,ponto de cultura museu aberto,"Ponto de Cultura, Museu Aberto."
1,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_5_26.53_27.87.wav,P/1,ADC052,F,high,26.528,27.869,1.341,bom dia professor,"Bom dia, professor."
2,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_6_28.47_32.63.wav,P/1,ADC052,F,high,28.469,32.631,4.162,estamos aqui no museu da cultura hoje é dia vi...,"Estamos aqui no Museu da Cultura, hoje é dia v..."
3,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_8_47.94_53.44.wav,P/1,ADC052,F,high,47.938,53.441,5.503,professor para começar eu gostaria que o senho...,"Professor, para começar, eu gostaria que o sen..."
4,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_10_57.47_64.17.wav,R,MA_HV064,M,high,57.469,64.174,6.705,nasci no dia trinta e um de maio de mil novece...,Nasci no dia trinta e um de maio de mil novece...


In [3]:
# Getting some statistics from `mupe_train`

# rows
num_rows = mupe_train.shape[0]
# number of uniques `audio_name` and `audio_id`
num_unique_audio_names = mupe_train['audio_name'].nunique()
num_unique_audio_ids = mupe_train['audio_id'].nunique()

print(f"Number of rows: {num_rows}"
      f"\nNumber of unique audio names: {num_unique_audio_names}"
      f"\nNumber of unique audio IDs: {num_unique_audio_ids}"
)

Number of rows: 276881
Number of unique audio names: 250
Number of unique audio IDs: 250


## A sample

In [4]:
' '.join(mupe_train[mupe_train['audio_id'] == 859]['normalized_text'].astype(str))

'ponto de cultura museu aberto bom dia professor estamos aqui no museu da cultura hoje é dia vinte e seis de setembro de dois mil e sete professor para começar eu gostaria que o senhor dissesse o seu nome completo data e local de nascimento nasci no dia trinta e um de maio de mil novecentos e cinquenta e dois numa cidade do interior joanópolis depois por volta de dez anos então vim para são paulo e estou até hoje em são paulo qual o nome do seu pai e da sua mãe eh quantos irmãos nós somos em sete irmãos sendo quatro homens e três mulheres entre o meu irmão mais velho e eu que sou caçula da dos sete nós temos uma diferença de vinte e cinco anos todos ainda todos ainda vivos o que o que o senhor sabe sobre a origem da sua família bom uma origem humilde não chegaram a ter essa oportunidade do estudo ainda na na época em que nasci o estudo ainda era uma coisa ou para quem morava na cidade ou para gente rica né quer dizer um colírio melhor a pessoa que morava num sítio como é num sítio numa

# Opening metadata

In [80]:
mupe_metadata = pd.read_csv("./datasets/mupe_metadata.csv", sep=',')
mupe_metadata.head()

Unnamed: 0,split,braz_id,mupe_id,mupe_code,interviewee_name,current_audio_name,mupe_link,youtube_link,recording_date,interviewer1,...,gender,birthday,religion,education,birth_city,occupation,profession,birth_state,birth_country,interviewee_bio
0,test,901.0,15085.0,PC_MA_HV169,Patricia Santos Souza,PC_MA_HV169_Patricia Santos Souza,https://museudapessoa.org/historia-detalhe/?id...,https://www.youtube.com/watch?v=non3ULc83pA,2008-11-04,Ricardo Pedroni,...,Feminino,1981-08-25,Catolicismo,Nível Técnico,Simão Dias,,Balconista e faxineira,Sergipe,Brasil,"Patricia Santos Souza nasceu em 1981, em Sergi..."
1,dev,31.0,119.0,PC_MA_HV003,Simone Mattos de Alcântara Pinto,PC_MA_HV003_Simone Mattos de Alcântara Pinto,https://museudapessoa.org/historia-detalhe/?id...,https://www.youtube.com/watch?v=EAcPf_JhR_4,2007-05-15,Maria Lenir Justo,...,Feminino,1958-10-03,,Superior Completo,São Paulo,Consultora de educação e cultura,Pedagoga,São Paulo,Brasil,Simone Mattos de Alcântara Pinto nasceu em São...
2,train,859.0,6715.0,PC_MA_HV064,Durval Bueno,PC_MA_HV064_Durval Bueno,https://museudapessoa.org/historia-detalhe/?id...,https://www.youtube.com/watch?v=mpnW-41UnYk,2007-09-26,Aparecida da Cruz,...,Masculino,1952-03-31,,,Joanópolis,,Professor de História,São Paulo,Brasil,"Durval Bueno nasceu em Joanópolis, cidade do i..."
3,train,423.0,6718.0,PC_MA_HV024,Wagner Pinheiro,PC_MA_HV024_Wagner Pinheiro,https://museudapessoa.org/historia-detalhe/?id...,https://www.youtube.com/watch?v=pYkYxbdMtYg,2007-07-05,Emílio Cordeiro,...,Masculino,1960-05-04,,,São Paulo,,Professor de História,São Paulo,Brasil,O professor Wagner ingressou na PUC no ano de ...
4,train,505.0,6842.0,PC_MA_HV235,Roberta de Oliveira,PC_MA_HV235_Roberta de Oliveira,https://museudapessoa.org/historia-detalhe/?id...,https://www.youtube.com/watch?v=BPreRmzA03E,2010-02-04,Marta Dellelis,...,Feminino,1972-08-24,,,Campinas,,Educadora e articuladora comunitária,São Paulo,Brasil,"Filha de pais separados, Roberta logo cedo con..."


In [81]:
def preprocess_metadata_dataset(df:pd.DataFrame) -> pd.DataFrame:
    df = df.copy()
    df = df[df['birth_country'] == 'Brasil']
    df = df[['split', 'braz_id', 'mupe_code', 'interviewee_name',
       'youtube_link', 'interviewer1', 'interviewer2', 'interviewer3', 'title',
       'gender', 'birth_state', 'interviewee_bio']]
    df = df.rename(columns={'braz_id': 'audio_id'})
    print(f"Number of rows with NA in 'audio_id': {df['audio_id'].isna().sum()}")
    df = df.dropna(subset=['audio_id'])
    df['audio_id'] = df['audio_id'].astype(int)
    return df

In [82]:
mupe_metadata = preprocess_metadata_dataset(mupe_metadata)
mupe_metadata.head()

Number of rows with NA in 'audio_id': 0


Unnamed: 0,split,audio_id,mupe_code,interviewee_name,youtube_link,interviewer1,interviewer2,interviewer3,title,gender,birth_state,interviewee_bio
0,test,901,PC_MA_HV169,Patricia Santos Souza,https://www.youtube.com/watch?v=non3ULc83pA,Ricardo Pedroni,Mariana Casellato,,Paixão e movimento na grande São Paulo,Feminino,Sergipe,"Patricia Santos Souza nasceu em 1981, em Sergi..."
1,dev,31,PC_MA_HV003,Simone Mattos de Alcântara Pinto,https://www.youtube.com/watch?v=EAcPf_JhR_4,Maria Lenir Justo,Laura Olivieri,,Dança entre memórias,Feminino,São Paulo,Simone Mattos de Alcântara Pinto nasceu em São...
2,train,859,PC_MA_HV064,Durval Bueno,https://www.youtube.com/watch?v=mpnW-41UnYk,Aparecida da Cruz,Marta Alves,,A educação vale a pena,Masculino,São Paulo,"Durval Bueno nasceu em Joanópolis, cidade do i..."
3,train,423,PC_MA_HV024,Wagner Pinheiro,https://www.youtube.com/watch?v=pYkYxbdMtYg,Emílio Cordeiro,Patrícia Fortunato,,Professor de ideias,Masculino,São Paulo,O professor Wagner ingressou na PUC no ano de ...
4,train,505,PC_MA_HV235,Roberta de Oliveira,https://www.youtube.com/watch?v=BPreRmzA03E,Marta Dellelis,Isabela de Arruda,,Pérola rara no viver e no cantar,Feminino,São Paulo,"Filha de pais separados, Roberta logo cedo con..."


In [83]:
mupe_metadata[mupe_metadata['birth_state'].isna()]

Unnamed: 0,split,audio_id,mupe_code,interviewee_name,youtube_link,interviewer1,interviewer2,interviewer3,title,gender,birth_state,interviewee_bio


In [87]:
mupe_metadata_sp = mupe_metadata[mupe_metadata['birth_state'].str.contains('Paulo')].reset_index(drop=True)
print(mupe_metadata_sp.shape)
mupe_metadata_sp.head()

(167, 12)


Unnamed: 0,split,audio_id,mupe_code,interviewee_name,youtube_link,interviewer1,interviewer2,interviewer3,title,gender,birth_state,interviewee_bio
0,dev,31,PC_MA_HV003,Simone Mattos de Alcântara Pinto,https://www.youtube.com/watch?v=EAcPf_JhR_4,Maria Lenir Justo,Laura Olivieri,,Dança entre memórias,Feminino,São Paulo,Simone Mattos de Alcântara Pinto nasceu em São...
1,train,859,PC_MA_HV064,Durval Bueno,https://www.youtube.com/watch?v=mpnW-41UnYk,Aparecida da Cruz,Marta Alves,,A educação vale a pena,Masculino,São Paulo,"Durval Bueno nasceu em Joanópolis, cidade do i..."
2,train,423,PC_MA_HV024,Wagner Pinheiro,https://www.youtube.com/watch?v=pYkYxbdMtYg,Emílio Cordeiro,Patrícia Fortunato,,Professor de ideias,Masculino,São Paulo,O professor Wagner ingressou na PUC no ano de ...
3,train,505,PC_MA_HV235,Roberta de Oliveira,https://www.youtube.com/watch?v=BPreRmzA03E,Marta Dellelis,Isabela de Arruda,,Pérola rara no viver e no cantar,Feminino,São Paulo,"Filha de pais separados, Roberta logo cedo con..."
4,train,501,PC_MA_HV238,Vânia Bure,https://www.youtube.com/watch?v=IUl-xIuwKWk,Nadia Lopes de Camargo,Fernanda Prado,,Defensora dos direitos da população em Mauá,Feminino,São Paulo,Vânia nasceu em 12 de janeiro de 1967 em Lucél...


In [88]:
def get_gender_map(names:List[str]):
    #TODO
    # assert that every element in names is a string

    #single_input = isinstance(names, str)
    # name_list = [names] if single_input else [n for n in names if isinstance(n, str) and n.strip()]
    # if not name_list:
    #     return 'Unknown' if single_input else {}

    formatted_names = "\n".join(f"- {name}" for name in names)
    prompt = (
        "Classifique cada nome brasileiro listado abaixo como Masculino, Feminino ou Unknown. "
        'Responda somente com JSON no formato '
        '[{"name": "Nome", "gender": "Masculino|Feminino|Unknown"}, ...].\n\n'
        f"Nomes:\n{formatted_names}"
    )

    response: types.GenerateContentResponse = GeminiClient.models.generate_content(
        model="gemini-2.5-flash",
        contents=prompt,
        config=types.GenerateContentConfig(
            temperature=0.2, 
            response_mime_type="application/json",
            response_json_schema={'name': 'Name', 'gender': 'Masculino|Feminino|Unknown'})
    )
    
    #TODO check if the parsed is well formed
    # List[{"name": str, "gender": str}]
    parsed = response.parsed
    assert isinstance(parsed, list)

    gender_map = {i['name']: i['gender'] for i in parsed}
    return gender_map

def rank_name_similarity(target: str, candidates: List[str]) -> List[Tuple[str, float]]:
    target_norm = target.strip().casefold()
    scores = []
    for name in candidates:
        cand_norm = name.strip().casefold()
        ratio = difflib.SequenceMatcher(None, target_norm, cand_norm).ratio()
        scores.append((name, ratio))
    scores.sort(key=lambda item: item[1], reverse=True)
    best_candidate = scores[0]
    return best_candidate[0]

def infer_gender_from_map(name: str, gender_map: dict):
    key_name = rank_name_similarity(name, list(gender_map.keys()))
    return gender_map.get(key_name, 'Unknown')


# name_gender_map = get_gender_map(mupe_metadata['interviewee_name'].tolist())

# mupe_metadata['interviewee_gender'] = mupe_metadata['interviewee_name'].map(
#     lambda person: infer_gender_from_map(person, name_gender_map)
# )

In [89]:
name_gender_map = get_gender_map(mupe_metadata_sp['interviewer1'].tolist())

mupe_metadata_sp['interviewer1_gender'] = mupe_metadata_sp['interviewer1'].map(
    lambda person: infer_gender_from_map(person, name_gender_map)
)

In [91]:
mupe_metadata_sp[['interviewer1', 'interviewer1_gender']]

Unnamed: 0,interviewer1,interviewer1_gender
0,Maria Lenir Justo,Feminino
1,Aparecida da Cruz,Feminino
2,Emílio Cordeiro,Masculino
3,Marta Dellelis,Feminino
4,Nadia Lopes de Camargo,Feminino
...,...,...
162,Rosali Maria Nunes Henriques,Feminino
163,Danilo Eiji Lopes,Masculino
164,Gustavo Ribeiro Sanchez,Masculino
165,Gisele Vitor da Rocha,Feminino


In [94]:
mupe_metadata_sp['interviewer2'] = mupe_metadata_sp['interviewer2'].fillna('Unknown')
name_gender_map = get_gender_map(mupe_metadata_sp['interviewer2'].tolist())

mupe_metadata_sp['interviewer2_gender'] = mupe_metadata_sp['interviewer2'].map(
    lambda person: infer_gender_from_map(person, name_gender_map)
)

In [101]:
mupe_metadata_sp['interviewer3'].value_counts()

interviewer3
Unknown           164
Valdir Junior       1
Daniel Milazzo      1
Kety Viana          1
Name: count, dtype: int64

In [114]:
mupe_metadata_sp_gender_slice = mupe_metadata_sp[mupe_metadata_sp['gender'] != mupe_metadata_sp['interviewer1_gender']]#.to_csv("./datasets/mupe_metadata_sp_gender_slice.csv", index=False)
mupe_metadata_sp_gender_slice['split'].value_counts()

split
train    80
test      2
dev       1
Name: count, dtype: int64

In [None]:
mupe_metadata_sp['interviewer3'] = mupe_metadata_sp['interviewer3'].fillna('Unknown')
name_gender_map = get_gender_map(mupe_metadata_sp['interviewer3'].tolist())

mupe_metadata_sp['interviewer3_gender'] = mupe_metadata_sp['interviewer3'].map(
    lambda person: infer_gender_from_map(person, name_gender_map)
)

In [None]:
# mupe_metadata_sp.to_csv("./datasets/mupe_metadata_sp.csv", index=False)

# Merge Train & Metadata datasets

In [117]:
mupe_train.head()

Unnamed: 0,audio_id,audio_name,file_path,speaker_type,speaker_code,speaker_gender,audio_quality,start_time,end_time,duration,normalized_text,original_text
0,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_0_6.69_8.37.wav,P/2,MA108,F,high,6.693,8.374,1.681,ponto de cultura museu aberto,"Ponto de Cultura, Museu Aberto."
1,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_5_26.53_27.87.wav,P/1,ADC052,F,high,26.528,27.869,1.341,bom dia professor,"Bom dia, professor."
2,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_6_28.47_32.63.wav,P/1,ADC052,F,high,28.469,32.631,4.162,estamos aqui no museu da cultura hoje é dia vi...,"Estamos aqui no Museu da Cultura, hoje é dia v..."
3,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_8_47.94_53.44.wav,P/1,ADC052,F,high,47.938,53.441,5.503,professor para começar eu gostaria que o senho...,"Professor, para começar, eu gostaria que o sen..."
4,859,pc_ma_hv064,train/pc_ma_hv064/pc_ma_hv064_10_57.47_64.17.wav,R,MA_HV064,M,high,57.469,64.174,6.705,nasci no dia trinta e um de maio de mil novece...,Nasci no dia trinta e um de maio de mil novece...


In [129]:
mupe_train[mupe_train['audio_id'].isin(mupe_metadata_sp_gender_slice['audio_id'])]['duration'].sum()/3600

np.float64(106.63130944444445)

# MUPE

- 5+ Turnos
- Possivelmente Tirar o começo para garantir o contexto
- somente SP

- Manter idade para fazer análise prosódica

- 

In [5]:
# audio_901.iloc[226:250]

In [26]:
print(*audio_901.iloc[92:100]['original_text'], sep='\n')

E complica (riso) Tem um professor que você lembra que você gostava?
Do primário?
( )  lembrar o nome dela completo.
A gente chamava ela de Lurdinha, que foi a primeira professora.
ensinou até a terceira série.
Da primeira à terceira série.
Agora o nome dela completo eu não lembro. (riso)
Eu tenho muito tempo, né? (riso)


In [27]:
for idx, row in audio_901[audio_901['normalized_text'].str.contains("nome")].iterrows():
    print(idx, row['normalized_text'])

0 para começar você poderia falar o seu nome local e data de nascimento
16 você pode falar o nome dos seus irmãos
94 lembrar o nome dela completo
98 agora o nome dela completo eu não lembro
226 qual que é o nome do seu marido
