In [1]:
import mamkit

### Test classification

In [47]:
from mamkit.data.datasets import MMUSEDFallacy, InputMode
from pathlib import Path

def loading_data_example():
    base_data_path = Path("C:/Users/Usuario")
    loader = MMUSEDFallacy(
        task_name='afc',
        input_mode=InputMode.TEXT_ONLY,  # or TEXT_AUDIO or AUDIO_ONLY
        base_data_path=base_data_path
    )
    split_info = loader.get_splits('mm-argfallacy-2025')

    # Imprimir el contenido de split_info para verificar qué contiene
    print("Split info: ", split_info)

    if split_info:  # Verificar si split_info tiene datos válidos
        return split_info[0].train, split_info[0].val, split_info[0].test
    else:
        print("Error: No se encontraron splits.")
        return None, None, None  # Retornar valores nulos si no hay datos

In [48]:
train, val, test = loading_data_example()

if train is not None and val is not None and test is not None:
    print("Los datasets fueron cargados correctamente.")
    # Ahora puedes trabajar con los datasets
else:
    print("Hubo un problema al cargar los datasets.")


Mapping audio data...: 100%|██████████| 3388/3388 [00:02<00:00, 1526.80it/s]
Building AFC Context: 100%|██████████| 3388/3388 [00:00<00:00, 9032.12it/s]


Split info:  [SplitInfo(train=<mamkit.data.datasets.UnimodalDataset object at 0x000002D881EC77C0>, val=<mamkit.data.datasets.UnimodalDataset object at 0x000002D881EC5E40>, test=<mamkit.data.datasets.UnimodalDataset object at 0x000002D881EC76D0>)]
Los datasets fueron cargados correctamente.


In [49]:
import pandas as pd

def create_dataframe_from_dataset(dataset):
    """
    Convierte un dataset de mamkit en un DataFrame de pandas.
    
    Parameters:
    - dataset: Un conjunto de datos de mamkit (por ejemplo, train, val, test)
    
    Returns:
    - df: DataFrame con las columnas 'Texto', 'Etiqueta', 'Prueba'
    """
    # Extraer el texto, la etiqueta y la prueba de todas las muestras
    data = [(sample[0], sample[1]) for sample in dataset]
    
    # Crear un DataFrame con las columnas 'Texto', 'Etiqueta' y 'Prueba'
    df = pd.DataFrame(data, columns=["Texto", "Etiqueta"])
    
    return df

In [50]:
# Convertir train, val y test en DataFrames
df_train = create_dataframe_from_dataset(train)
df_val = create_dataframe_from_dataset(val)
df_test = create_dataframe_from_dataset(test)

In [51]:

# Agrupar por la columna 'Etiqueta' y contar el número de muestras en cada grupo
grouped_by_label = df_train.groupby("Etiqueta").size().reset_index(name='Cantidad')

# Mostrar el resultado
print(grouped_by_label)

   Etiqueta  Cantidad
0         0       757
1         1       190
2         2       145
3         3        56
4         4        46
5         5        34


In [52]:

# Agrupar por la columna 'Etiqueta' y contar el número de muestras en cada grupo
grouped_by_label = df_val.groupby("Etiqueta").size().reset_index(name='Cantidad')

# Mostrar el resultado
print(grouped_by_label)


Empty DataFrame
Columns: [Etiqueta, Cantidad]
Index: []


In [53]:
df_test

Unnamed: 0,Texto,Etiqueta
0,We got to take a look at what I was left when ...,
1,We had an economy that was in free fall.,
2,The pandemic was so badly handled.,
3,Many people were dying.,
4,"All he said was, it's not that serious.",
...,...,...
2155,She gave a lot of it away to the Taliban.,
2156,She gave it to Afghanistan.,
2157,What these people have done to our country and...,
2158,Many of them are criminals and they're destroy...,


In [54]:
df_test.to_csv('test_afc.csv', index=False)
df_train.to_csv('train_afc.csv', index=False)

print("Archivos CSV guardados: 'test_afc.csv' y 'train_afc.csv'")

Archivos CSV guardados: 'test_afc.csv' y 'train_afc.csv'


## Test detection

In [19]:
def loading_data_example_afd():
    base_data_path = Path("C:/Users/Usuario/OneDrive - UPV")  # o tu ruta correcta
    loader = MMUSEDFallacy(
        task_name='afd',
        input_mode=InputMode.TEXT_ONLY,
        base_data_path=base_data_path
    )

    split_info = loader.get_splits('mm-argfallacy-2025')

    # Imprimir el contenido de split_info para verificar qué contiene
    print("Split info: ", split_info)

    if split_info:  # Verificar si split_info tiene datos válidos
        return split_info[0].train, split_info[0].val, split_info[0].test
    else:
        print("Error: No se encontraron splits.")
        return None, None, None  # Retornar valores nulos si no hay datos

In [20]:
train, val, test = loading_data_example_afd()

if train is not None and val is not None and test is not None:
    print("Los datasets fueron cargados correctamente.")
    # Ahora puedes trabajar con los datasets
else:
    print("Hubo un problema al cargar los datasets.")


Mapping audio data...: 100%|██████████| 3388/3388 [00:02<00:00, 1272.17it/s]
Building AFD data...: 100%|██████████| 37/37 [00:09<00:00,  3.73it/s]

Split info:  [SplitInfo(train=<mamkit.data.datasets.UnimodalDataset object at 0x000002D87D470C10>, val=<mamkit.data.datasets.UnimodalDataset object at 0x000002D87D47F8E0>, test=<mamkit.data.datasets.UnimodalDataset object at 0x000002D87D47E8F0>)]
Los datasets fueron cargados correctamente.





In [39]:
import pandas as pd

def create_dataframe_from_dataset(dataset):
    """
    Convierte un dataset de mamkit en un DataFrame de pandas.
    
    Parameters:
    - dataset: Un conjunto de datos de mamkit (por ejemplo, train, val, test)
    
    Returns:
    - df: DataFrame con las columnas 'Texto', 'Etiqueta', 'Prueba'
    """
    # Extraer el texto, la etiqueta y la prueba de todas las muestras
    data = [(sample[0], sample[1]) for sample in dataset]
    
    # Crear un DataFrame con las columnas 'Texto', 'Etiqueta' y 'Prueba'
    df = pd.DataFrame(data, columns=["Texto", "Etiqueta"])
    
    return df


In [40]:
# Convertir train, val y test en DataFrames
df_train = create_dataframe_from_dataset(train)
df_val = create_dataframe_from_dataset(val)
df_test = create_dataframe_from_dataset(test)

In [41]:
# Agrupar por la columna 'Etiqueta' y contar el número de muestras en cada grupo
grouped_by_label = df_train.groupby("Etiqueta").size().reset_index(name='Cantidad')

# Mostrar el resultado
print(grouped_by_label)


   Etiqueta  Cantidad
0       0.0     15550
1       1.0      1568


In [42]:
# Agrupar por la columna 'Etiqueta' y contar el número de muestras en cada grupo
grouped_by_label = df_val.groupby("Etiqueta").size().reset_index(name='Cantidad')

# Mostrar el resultado
print(grouped_by_label)

Empty DataFrame
Columns: [Etiqueta, Cantidad]
Index: []


In [43]:
df_test

Unnamed: 0,Texto,Etiqueta
0,We got to take a look at what I was left when ...,
1,We had an economy that was in free fall.,
2,The pandemic was so badly handled.,
3,Many people were dying.,
4,"All he said was, it's not that serious.",
...,...,...
2170,She gave a lot of it away to the Taliban.,
2171,She gave it to Afghanistan.,
2172,What these people have done to our country and...,
2173,Many of them are criminals and they're destroy...,


In [44]:
df_test.to_csv('test_afd.csv', index=False)
df_train.to_csv('train_afd.csv', index=False)

print("Archivos CSV guardados: 'test_afd.csv' y 'train_afd.csv'")

Archivos CSV guardados: 'test_afd.csv' y 'train_afd.csv'
