In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from scipy.stats import mannwhitneyu
import re
import os
import seaborn as sns
from matplotlib import cm, colors

In [2]:
pd.set_option('display.max_columns', None) # Mostrar todas las columnas del DataFrame

In [3]:
PATH = os.getcwd()
TEST_FOLDER = 'test-result'
MW_FOLDER = 'mann-whitney'

## Mann-Whitney Test

In [4]:
order = pd.read_excel('order_filename.ods')

In [5]:
obj_params = pd.read_excel('voces_test_rms.ods')

In [6]:
df_final = pd.read_csv(r'aux_file\data_to_mannwhitney.csv')

In [7]:
df_values =  pd.merge(
    df_final,
    order,
    how='left',
    on='ID'
)

In [8]:
df_mannwhitney =  pd.merge(
    df_values,
    obj_params[['file', 'genero']],
    how='left',
    left_on='filename',
    right_on='file'
).drop(columns=['filename'])

In [9]:
df_mannwhitney

Unnamed: 0,Inteligibilidad,Pronunciacion,Acentuacion,Naturalidad,Cadencia,ID,file,genero
0,5,5,5,4,5,1,alonso-naturalreader.wav,masculino
1,5,5,5,5,5,2,hyacinthe-lovo-v3.wav,femenino
2,5,4,2,2,2,3,neural2C-pitchmodified-speedmodified.wav,masculino
3,4,3,3,3,4,4,francisca-lovo-v2.wav,femenino
4,5,4,2,2,3,5,antoni-evenlabs-linguistico-v2.wav,masculino
...,...,...,...,...,...,...,...,...
795,5,5,4,3,4,16,neural2A-GCP.wav,femenino
796,5,4,4,1,3,17,antoni-evenlabs-v3.wav,masculino
797,5,5,5,2,2,18,elvira-lovo-pitchmodified.wav,femenino
798,5,5,5,2,4,19,neural2B-GCP.wav,masculino


### Inteligibilidad

In [10]:
mask_masculina = df_mannwhitney.genero == 'masculino'
inteligibilidad_masculina = df_mannwhitney.loc[mask_masculina, ['Inteligibilidad']].values.flatten()

In [11]:
mask_femenina = df_mannwhitney.genero == 'femenino'
inteligibilidad_femenina = df_mannwhitney.loc[mask_femenina, ['Inteligibilidad']].values.flatten()

In [12]:
# Realizar el test de Mann-Whitney U
inteligibilidad_estadistico, inteligibilidad_valor_p = mannwhitneyu(inteligibilidad_masculina, inteligibilidad_femenina)

In [13]:
if inteligibilidad_valor_p <= 0.05:
    print('El genero es factor de influencia para la inteligibilidad', 'p_value:', inteligibilidad_valor_p)
else:
    print('El genero no es factor de influencia para la inteligibilidad', 'p_value:', inteligibilidad_valor_p)

El genero no es factor de influencia para la inteligibilidad p_value: 0.12963062219716953


### Pronunciación

In [14]:
mask_masculina = df_mannwhitney.genero == 'masculino'
pronunciacion_masculina = df_mannwhitney.loc[mask_masculina, ['Pronunciacion']].values.flatten()

In [15]:
mask_femenina = df_mannwhitney.genero == 'femenino'
pronunciacion_femenina = df_mannwhitney.loc[mask_femenina, ['Pronunciacion']].values.flatten()

In [16]:
# Realizar el test de Mann-Whitney U
pronunciacion_estadistico, pronunciacion_valor_p = mannwhitneyu(pronunciacion_masculina, pronunciacion_femenina)

In [17]:
if pronunciacion_valor_p <= 0.05:
    print('El genero es factor de influencia para la pronunciación', 'p_value:', pronunciacion_valor_p)
else:
    print('El genero no es factor de influencia para la pronunciación', 'p_value:', pronunciacion_valor_p)

El genero es factor de influencia para la pronunciación p_value: 0.037513325130613624


### Acentuación

In [18]:
mask_masculina = df_mannwhitney.genero == 'masculino'
acentuacion_masculina = df_mannwhitney.loc[mask_masculina, ['Acentuacion']].values.flatten()

In [19]:
mask_femenina = df_mannwhitney.genero == 'femenino'
acentuacion_femenina = df_mannwhitney.loc[mask_femenina, ['Acentuacion']].values.flatten()

In [20]:
# Realizar el test de Mann-Whitney U
acentuacion_estadistico, acentuacion_valor_p = mannwhitneyu(acentuacion_masculina, acentuacion_femenina)

In [21]:
if acentuacion_valor_p <= 0.05:
    print('El genero es factor de influencia para la acentuación', 'p_value:', acentuacion_valor_p)
else:
    print('El genero no es factor de influencia para la acentuación', 'p_value:', acentuacion_valor_p)

El genero es factor de influencia para la acentuación p_value: 0.0018631840072653517


### Naturalidad

In [22]:
mask_masculina = df_mannwhitney.genero == 'masculino'
naturalidad_masculina = df_mannwhitney.loc[mask_masculina, ['Naturalidad']].values.flatten()

In [23]:
mask_femenina = df_mannwhitney.genero == 'femenino'
naturalidad_femenina = df_mannwhitney.loc[mask_femenina, ['Naturalidad']].values.flatten()

In [24]:
# Realizar el test de Mann-Whitney U
naturalidad_estadistico, naturalidad_valor_p = mannwhitneyu(naturalidad_masculina, naturalidad_femenina)

In [25]:
if naturalidad_valor_p <= 0.05:
    print('El genero es factor de influencia para la naturalidad', 'p_value:', naturalidad_valor_p)
else:
    print('El genero no es factor de influencia para la naturalidad', 'p_value:', naturalidad_valor_p)

El genero es factor de influencia para la naturalidad p_value: 0.00020305097947062839


### Cadencia

In [26]:
mask_masculina = df_mannwhitney.genero == 'masculino'
cadencia_masculina = df_mannwhitney.loc[mask_masculina, ['Cadencia']].values.flatten()

In [27]:
mask_femenina = df_mannwhitney.genero == 'femenino'
cadencia_femenina = df_mannwhitney.loc[mask_femenina, ['Cadencia']].values.flatten()

In [28]:
# Realizar el test de Mann-Whitney U
cadencia_estadistico, cadencia_valor_p = mannwhitneyu(cadencia_masculina, cadencia_femenina)

In [29]:
if cadencia_valor_p <= 0.05:
    print('El genero es factor de influencia para la cadencia', 'p_value:', cadencia_valor_p)
else:
    print('El genero no es factor de influencia para la cadencia', 'p_value:', cadencia_valor_p)

El genero es factor de influencia para la cadencia p_value: 8.79190661398857e-06


### Output Mann-Whitney Test

In [30]:
dicc_manwhitney = {
    'Parametro_subjetivo': [
        'inteligibilidad',
        'pronunciación',
        'acentuación',
        'naturalidad',
        'cadencia'
    ],
    'p_valor':[
        inteligibilidad_valor_p,
        pronunciacion_valor_p,
        acentuacion_valor_p,
        naturalidad_valor_p,
        cadencia_valor_p
    ]
}

df_output_mannwhitney = pd.DataFrame(dicc_manwhitney)

In [31]:
df_output_mannwhitney['Manwhitney'] = df_output_mannwhitney.apply(
    lambda x: 'Hay evidencia para afirmar que el genero es factor de influencia' if x.p_valor <= 0.05
        else 'No hay evidencia para afirmar que el genero es factor de influencia',
    axis=1
)

In [32]:
df_output_mannwhitney

Unnamed: 0,Parametro_subjetivo,p_valor,Manwhitney
0,inteligibilidad,0.129631,No hay evidencia para afirmar que el genero es...
1,pronunciación,0.037513,Hay evidencia para afirmar que el genero es fa...
2,acentuación,0.001863,Hay evidencia para afirmar que el genero es fa...
3,naturalidad,0.000203,Hay evidencia para afirmar que el genero es fa...
4,cadencia,9e-06,Hay evidencia para afirmar que el genero es fa...


In [33]:
df_output_mannwhitney.to_excel(os.path.join(PATH, TEST_FOLDER, MW_FOLDER, 'df_output_mannwhitney.xlsx'), index=False)

In [34]:
df_values.to_csv(r'aux_file\data_preprocess_regression.csv', index=False)