In [30]:
import pandas as pd
from pathlib import Path
from ast import literal_eval

In [38]:
df = pd.read_csv("mupetalk_train.csv")

def to_path_list(value):
    if pd.isna(value):
        return []
    if isinstance(value, list):
        items = value
    elif isinstance(value, str):
        parsed = literal_eval(value)
        items = parsed if isinstance(parsed, list) else [parsed]
    else:
        items = [value]
    return [Path(item) for item in items]

def get_second_level(path_list):
    second_levels = []
    for item in path_list:
        path_obj = Path(item)
        if len(path_obj.parts) > 1:
            second_levels.append(path_obj.parts[1])
    unique_levels = set(second_levels)
    if len(unique_levels) == 1:
        return next(iter(unique_levels))
    return None

df["file_path"] = df["file_path"].apply(to_path_list)
df["interview_id"] = df["file_path"].apply(get_second_level)

inconsistent_rows = df["interview_id"].isna().sum()
print(f"Rows with mixed/invalid second-level path: {inconsistent_rows}")
print(df[["file_path", "interview_id"]].head(3))

Rows with mixed/invalid second-level path: 0
                                           file_path interview_id
0  [train/pc_ma_hv229/pc_ma_hv229_5_43.8610000000...  pc_ma_hv229
1  [train/pc_ma_hv229/pc_ma_hv229_6_46.303_48.224...  pc_ma_hv229
2  [train/pc_ma_hv229/pc_ma_hv229_8_63.588_65.911...  pc_ma_hv229


In [39]:
df.head(10)

Unnamed: 0,file_path,file_id,speaker_code,start_time,end_time,duration,original_text,subsection,group_id,interview_id
0,[train/pc_ma_hv229/pc_ma_hv229_5_43.8610000000...,[5],MD006,43.861,46.303,2.442,E o que que eles faziam?,FAMÍLIA,1,pc_ma_hv229
1,[train/pc_ma_hv229/pc_ma_hv229_6_46.303_48.224...,"[6, 7]",MA_HV229,46.303,63.588,15.894,"Meu pai era mecânico de máquinas, E minha mãe ...",FAMÍLIA,1,pc_ma_hv229
2,[train/pc_ma_hv229/pc_ma_hv229_8_63.588_65.911...,"[8, 9, 10, 11]",MD006,63.588,70.034,6.446,E quantos anos você tinha quando seu pai morre...,FAMÍLIA,1,pc_ma_hv229
3,[train/pc_ma_hv229/pc_ma_hv229_12_70.033999999...,[12],MA_HV229,70.034,72.677,2.643,"Infelizmente, quase nada.",FAMÍLIA,1,pc_ma_hv229
4,[train/pc_ma_hv229/pc_ma_hv229_13_72.676999999...,[13],MD006,72.677,73.658,0.981,"Mas da sua mãe, sim?",FAMÍLIA,1,pc_ma_hv229
5,[train/pc_ma_hv229/pc_ma_hv229_14_75.114_76.41...,"[14, 15, 16]",MA_HV229,75.114,90.086,14.972,"Você me lembra da minha mãe? Sim, minha mãe mi...",FAMÍLIA,1,pc_ma_hv229
6,[train/pc_ma_hv229/pc_ma_hv229_17_90.086000000...,[17],MD006,90.086,93.269,3.183,"Como você descreveria, assim, a sua mãe?",FAMÍLIA,1,pc_ma_hv229
7,[train/pc_ma_hv229/pc_ma_hv229_18_93.269_94.93...,"[18, 19, 20, 21, 23, 24, 25]",MA_HV229,93.269,135.185,32.04,"Uma guerreira. Uma guerreira, porque eu com se...",FAMÍLIA,1,pc_ma_hv229
8,[train/pc_ma_hv229/pc_ma_hv229_26_135.185_138....,[26],MD006,135.185,138.126,2.941,"De Santa Catarina, mas tem alguma ascendência?",FAMÍLIA,1,pc_ma_hv229
9,[train/pc_ma_hv229/pc_ma_hv229_27_138.126_139....,"[27, 28, 29]",MA_HV229,138.126,149.891,11.765,"Não, não, não. Eh... Acho que meu pai era de d...",FAMÍLIA,1,pc_ma_hv229


In [40]:
df[df["interview_id"] == "pc_ma_hv229"]["group_id"].value_counts()

group_id
1    10
5     8
4     6
3     6
2     5
6     5
Name: count, dtype: int64

In [41]:
df.to_csv("mupetalk_train_v2.csv", index=False)