In [1]:
import pandas as pd
import scipy.stats as stats
import numpy as np


In [2]:
data = pd.read_csv("data-tampoco.csv")
significance = 0.05

In [3]:
data

Unnamed: 0,Ciudad,CCiudad,Genero,CGenero,Edad,CEdad,Escolaridad,CEscolaridad,Usos,CUsos
0,CDMX,1,F,1,A,2,3,3,C,1
1,CDMX,1,F,1,A,2,3,3,C,1
2,CDMX,1,F,1,A,2,3,3,C,1
3,CDMX,1,F,1,A,2,3,3,C,1
4,CDMX,1,F,1,A,2,3,3,C,1
...,...,...,...,...,...,...,...,...,...,...
458,Montevideo,3,F,1,M,3,2,2,N,2
459,Montevideo,3,F,1,M,3,2,2,N,2
460,Montevideo,3,F,1,M,3,1,1,N,2
461,Montevideo,3,H,2,M,3,2,2,N,2


In [4]:
def print_analysis(p):
    if p < significance:
        print(
            "👎🏻 Rechazamos la hipótesis nula, hay una diferencia significativa entre las distribuciones"
        )
    else:
        print(
            "👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuciones"
        )


In [5]:
columns = ["CCiudad", "CEdad", "CEscolaridad"]
splitting_cols = {
    "CUsos": np.unique(data["CUsos"]),
    "CGenero": np.unique(data["CGenero"]),
}

In [6]:
for c in columns:
    for split_col, cases in splitting_cols.items():
        split_cases = [data[data[split_col] == case][c] for case in cases]

        stat, pvalue = stats.mannwhitneyu(split_cases[0], split_cases[1])
        print(f"{split_col=}")
        print(f"{c=}")
        print(f"{stat=}")
        print(f"{pvalue=}")
        print_analysis(pvalue)
        print()


split_col='CUsos'
c='CCiudad'
stat=26947.0
pvalue=0.2643823163555362
👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuciones

split_col='CGenero'
c='CCiudad'
stat=26636.0
pvalue=0.44405088884988786
👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuciones

split_col='CUsos'
c='CEdad'
stat=27033.0
pvalue=0.2331659073046456
👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuciones

split_col='CGenero'
c='CEdad'
stat=25694.0
pvalue=0.9554065734033022
👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuciones

split_col='CUsos'
c='CEscolaridad'
stat=21509.5
pvalue=0.0026376877759814003
👎🏻 Rechazamos la hipótesis nula, hay una diferencia significativa entre las distribuciones

split_col='CGenero'
c='CEscolaridad'
stat=24970.5
pvalue=0.6231559577623619
👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuc

In [7]:
# investigate about the CUsos -> CEscolaridad

use_1_school = data[data["CUsos"] == 1]["CEscolaridad"]
use_2_school = data[data["CUsos"] == 2]["CEscolaridad"]

use_school_test = stats.mannwhitneyu(use_1_school, use_2_school, alternative="less")
print(use_school_test)
print_analysis(use_school_test.pvalue)

MannwhitneyuResult(statistic=21509.5, pvalue=0.0013188438879907002)
👎🏻 Rechazamos la hipótesis nula, hay una diferencia significativa entre las distribuciones


Podemos inferir de este conjunto de tests que:
1. Hay una diferencia significativa entre la distribución del nivel educativo y el uso de la palabra tampoco.
2. Estocásticamente hablando, la distribución del nivel educativo entre las personas que usan tampoco de forma 1 (C) es menor que la distribución del nivel educativo entre las personas que la utilizan del modo 2 (N).
   1. Es decir: en general, las personas con un nivel educativo más alto tienden a utilizar el modo 2 (N) en lugar del 1 (C).

In [8]:
# investigate missing combination Gender -> Use

use_1 = data[data["CUsos"] == 1]["CGenero"]
use_2 = data[data["CUsos"] == 2]["CGenero"]

use_gender_test = stats.mannwhitneyu(use_1, use_2)
print(use_gender_test)
print_analysis(use_gender_test.pvalue)


MannwhitneyuResult(statistic=26362.5, pvalue=0.45292125619466017)
👍🏻 Aceptamos la hipótesis nula, no existe una diferencia significativa entre las distribuciones


In [9]:
def print_analysis_wilcox(pvalue):
    if pvalue < significance:
        print("👎🏻 Rechazamos la hipótesis nula, la mediana de diferencias ≠ 0")
    else:
        print("👍🏻 Aceptamos la hipótesis nula, la mediana de diferencias ≈ 0")


def print_analysis_generic(pvalue):
    if pvalue < significance:
        print("👎🏻 Rechazamos la hipótesis nula")
    else:
        print("👍🏻 Aceptamos la hipótesis nula")


In [10]:
# Age -> Education
cols = ["CCiudad", "CGenero", "CEdad", "CEscolaridad"]

for c in cols:
    wilc = stats.wilcoxon(data["CUsos"], data[c])
    print(c, wilc.statistic, wilc.pvalue)
    print_analysis_wilcox(wilc.pvalue)


CCiudad 10947.0 4.3631627104847785e-12
👎🏻 Rechazamos la hipótesis nula, la mediana de diferencias ≠ 0
CGenero 9412.5 2.5396285894708567e-10
👎🏻 Rechazamos la hipótesis nula, la mediana de diferencias ≠ 0
CEdad 14391.0 3.543292558294026e-07
👎🏻 Rechazamos la hipótesis nula, la mediana de diferencias ≠ 0
CEscolaridad 6902.0 1.5208508948312462e-27
👎🏻 Rechazamos la hipótesis nula, la mediana de diferencias ≠ 0


In [25]:
# Age -> Education
cols = ["CCiudad", "CGenero", "CEdad", "CEscolaridad"]

for c in cols:
    wilc = stats.wilcoxon(data["CUsos"], data[c], alternative="less")
    print(c, wilc.pvalue)
    print_analysis_generic(wilc.pvalue)
    print()

CCiudad 2.1815813552423893e-12
👎🏻 Rechazamos la hipótesis nula

CGenero 0.9999999998730186
👍🏻 Aceptamos la hipótesis nula

CEdad 1.771646279147013e-07
👎🏻 Rechazamos la hipótesis nula

CEscolaridad 7.604254474156231e-28
👎🏻 Rechazamos la hipótesis nula

