En está sección, haremos un análisis categórico con pruebas ANOVA para las variables identificadas en la primera sección que tienen una distribución normal.

https://www.cienciadedatos.net/documentos/pystats09-analisis-de-varianza-anova-python.html

In [5]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

df = pd.read_excel('1_Descr_normal.xlsx', sheet_name='Transformados continuas', index_col=0)

elec_metodo = pd.read_excel('1_Descr_normal.xlsx', sheet_name='Elección método analisis').drop(['Distribución normal del par tipo / variable continua'], axis=1)
elec_metodo = elec_metodo.loc[elec_metodo['Prueba'] == 'ANOVA']
elec_metodo = elec_metodo.drop(['Prueba'], axis=1).reset_index(drop=True)

tipos = list(pd.unique(df['Y_type']))
variables = list(pd.unique(elec_metodo['Variable']))

groups = {}
for v in variables:
    groups[v] = {}

for t in tipos:
    doc = df.loc[df['Y_type'] == t]
    for v in variables:
        groups[v][t] = list(doc[v])

elec_metodo

Unnamed: 0,Tipo 1,Tipo 2,Variable
0,Manifestación de parte,Consignación billete de deposito,X_apellido_actor
1,Solicitud de copias certificadas,Manifestación de parte,X_apellido_actor
2,Solicitud de copias certificadas,Consignación billete de deposito,X_apellido_actor
3,Solicitud de copias certificadas,Manifestación de parte,X_nombre_actor
4,Solicitud de copias certificadas,Manifestación de parte,X_nombre_demandado


Una ANOVA unidireccional utiliza las siguientes hipótesis nulas y alternativas:

- H0 (hipótesis nula): μ 1 = μ 2 = μ 3 =… = μ k (todas las medias poblacionales son iguales)
- H1 (hipótesis alternativa): al menos una media poblacional es diferente del resto

El ANOVA es bastante robusto a la falta de homodedasticidad si el diseño es equilibrado (mismo número de observaciones por grupo), entonces omitiremos el test de homodedasticidad en nuestro caso.

1. Variable Apellido Actor

Compararemos la varianza de la variable Apellido Actor para la clasificación entre:
- Manifestación de parte y Consignación billete de deposito 
- Solicitud de copias certificadas, Manifestación de parte 
- Solicitud de copias certificadas y Consignación billete de deposito.

2. Compararemos la varianza de la variable Nombre Actor para la clasificación entre Solicitud de copias certificadas, Manifestación de parte
3. Compararemos la varianza de la variable Nombre Demandado para la clasificación entre Solicitud de copias certificadas, Manifestación de parte


## 1. Variable Apellido Actor

In [17]:
from scipy.stats import f_oneway

grupo1 = df.loc[df['Y_type'] == 'Manifestación de parte']['X_apellido_actor']
grupo2 = df.loc[df['Y_type'] == 'Consignación billete de deposito']['X_apellido_actor']
grupo3 = df.loc[df['Y_type'] == 'Solicitud de copias certificadas']['X_apellido_actor']

print('Manifestación de parte y Consignación billete de deposito')
print(f_oneway(grupo1, grupo2))

print('Solicitud de copias certificadas y Manifestación de parte')
print(f_oneway(grupo3, grupo1))

print('Solicitud de copias certificadas y Consignación billete de deposito')
print(f_oneway(grupo3, grupo2))

Manifestación de parte y Consignación billete de deposito
F_onewayResult(statistic=0.8765537417918144, pvalue=0.3581040560313825)
Solicitud de copias certificadas y Manifestación de parte
F_onewayResult(statistic=1.654712643763896, pvalue=0.20965589620984962)
Solicitud de copias certificadas y Consignación billete de deposito
F_onewayResult(statistic=0.45659736789649935, pvalue=0.5054215776916644)


En cada uno de los casos, dado que el p-value no es menor que 0.05, no podemos rechazar la hipótesis nula. Esto significa que no tenemos evidencia suficiente para decir que el apellido del actor permite diferenciar entre los documentos. Eso confirma la prueba no paramétrica realizada en la sección 2.

## 2. Compararemos la varianza de la variable Nombre Actor para la clasificación entre Solicitud de copias certificadas y Manifestación de parte.

In [18]:
grupo1 = df.loc[df['Y_type'] == 'Solicitud de copias certificadas']['X_nombre_actor']
grupo2 = df.loc[df['Y_type'] == 'Manifestación de parte']['X_nombre_actor']

print('Solicitud de copias certificadas y Manifestación de parte')
print(f_oneway(grupo1, grupo2))

Solicitud de copias certificadas y Manifestación de parte
F_onewayResult(statistic=1.2692613937320105, pvalue=0.270196498717093)


Dado que el p-value no es menor que 0.05, no podemos rechazar la hipótesis nula. Esto significa que no tenemos evidencia suficiente para decir que el nombre del actor permite diferenciar entre los documentos Solicitud de copias certificadas y Manifestación de parte. Eso confirma la prueba no paramétrica realizada en la sección 2.

## 3. Compararemos la varianza de la variable Nombre Demandado para la clasificación entre Solicitud de copias certificadas y Manifestación de parte

In [19]:
grupo1 = df.loc[df['Y_type'] == 'Solicitud de copias certificadas']['X_nombre_demandado']
grupo2 = df.loc[df['Y_type'] == 'Manifestación de parte']['X_nombre_demandado']

print('Solicitud de copias certificadas y Manifestación de parte')
print(f_oneway(grupo1, grupo2))

Solicitud de copias certificadas y Manifestación de parte
F_onewayResult(statistic=0.21240803951588183, pvalue=0.6487185571428585)


Dado que el p-value no es menor que 0.05, no podemos rechazar la hipótesis nula. Esto significa que no tenemos evidencia suficiente para decir que el nombre del demandado permite diferenciar entre los documentos Solicitud de copias certificadas y Manifestación de parte. Eso confirma la prueba no paramétrica realizada en la sección 2.