In [1]:
# Litt administrativt

from scipy import stats     #scipy sin statistikkpakke gir oss funksjonen 
                            # for å regne Mann-Whitney U-test

import numpy as np          #numpy er nødvendig for å regne med matriser

In [2]:
%%html                      
<style>
table {float:left}
</style>

In [3]:
# Definerer en funksjon som gjennomfører Mann-Whitney U-test for en gitt
# dimensjon og dens tilhørende data, og returnerer noen setninger om resultatet. 
# Dersom p_verdi er mindre eller lik enn tallet angitt som toleranse, får du melding
# om at P-verdien er lav nok til at funnet er signifikant.

def MWU_Test(dimensjon, data, toleranse):
    U,p_verdi = stats.mannwhitneyu(data[0],data[1],use_continuity=True)
    output   =   ["Resultater, dimensjon " + str(dimensjon)]
    output.append("Mann-Whitney U-verdien for gruppene er: " + str(U))
    output.append("P-verdien for resultatet antatt en normalfordeling er: " + "%.2f" % p_verdi + 
                      " sett opp mot en toleranse på " + str(toleranse))
    if p_verdi <= toleranse:
        output.append("P-verdien er lav nok til å avvise nullhypotesen.")
    else:
        output.append("P-verdien er ikke lav nok til å avvise nullhypotesen.")
    output.append('\n')
    return output

Her laster vi inn data fra CSV. Vår testfil heter nytestdata.csv og ligger i katalogen sammen med scriptet. Det er i bunn og grunn en tekstfil, som ser slik ut:

|Utadventhet| Flyte-evne | Dyrevern | Sjonglering | Populasjon|
|-----------|------------|----------|-------------|-----------|
|    3      |     2      |    1     |     10      |     A     |
| 5 | 4 | 2 | 9 | B |
| 9 | 7 | 5 | 10 | A |
| 6 | 9 | 10 | 7 | B |
| 9 | 1 | 10 | 2 | A |
| 2 | 4 | 1 | 3 | B |
| 1 | 10 | 8 | 6 | A |
| 8 | 5 | 8 | 8 | B |
| 7 | 3 | 2 | 5 | A |
| 8 | 6 | 1 | 2 | B |

Jeg har laget et par egne personlighetsdimensjoner, som jeg mener kan være flotte prediktorer. Den siste kollonnen setter en kandidat i enten gruppe A eller gruppe B.

In [4]:
# importerer data fra tekstfil
testdata = np.genfromtxt('nytestdata.csv',delimiter=',',dtype='str')

In [5]:
#splitter dataene mellom gruppe A og B, samt fjerner merkingen av gruppetilhørighet.
gruppe_A = np.asarray([x[:-1] for x in testdata if x[-1]=='A']).T
gruppe_B = np.asarray([x[:-1] for x in testdata if x[-1]=='B']).T

#Henter ut hvilke dimensjoner vi jobber i (altså personlighetstrekk)
dimensjoner = list(testdata[0][:-1])

# Denne setter sammen disse to datastrukturene til en felles, som inneholder personlighetstrekket, fulgt av resultatene fra
# de enkelte gruppene.

grunnlag = dict(zip(dimensjoner,list(zip(gruppe_A,gruppe_B))))


In [6]:
# Lager en liste over resultatene av MWU-testene for alle dimensjoner
alle_resultater = [MWU_Test(dimensjon,data,0.05) for dimensjon,data in grunnlag.items()]

#Skriver ut alle resultatene. Det er også mulig å skrive disse til fil.

for dimensjoner in alle_resultater:
    for resultater in dimensjoner:
        print(resultater)

Resultater, dimensjon Utadventhet
Mann-Whitney U-verdien for gruppene er: 17.5
P-verdien for resultatet antatt en normalfordeling er: 0.50 sett opp mot en toleranse på 0.05
P-verdien er ikke lav nok til å avvise nullhypotesen.


Resultater, dimensjon Sjonglering
Mann-Whitney U-verdien for gruppene er: 14.0
P-verdien for resultatet antatt en normalfordeling er: 0.29 sett opp mot en toleranse på 0.05
P-verdien er ikke lav nok til å avvise nullhypotesen.


Resultater, dimensjon Flyte-evne
Mann-Whitney U-verdien for gruppene er: 10.0
P-verdien for resultatet antatt en normalfordeling er: 0.11 sett opp mot en toleranse på 0.05
P-verdien er ikke lav nok til å avvise nullhypotesen.


Resultater, dimensjon Dyrevern
Mann-Whitney U-verdien for gruppene er: 15.0
P-verdien for resultatet antatt en normalfordeling er: 0.34 sett opp mot en toleranse på 0.05
P-verdien er ikke lav nok til å avvise nullhypotesen.


