# Korstabeller

*av Anders Sundell*

En statistisk analys ska vara korrekt, men den ska också gå att förklara på ett pedagogiskt och bra sätt. Går det att använda en enkel metod är det, allt annat lika, att föredra.

En av de enklaste metoderna för att undersöka samband är så kallade korstabeller. Fördelen med dem är att de är relativt lätta att förstå och att de går snabbt att göra. Nackdelen är att det är krångligt (men inte omöjligt) att ta hänsyn till fler än två variabler. För det är regressionsanalys bättre. Men korstabeller kan vara bra för att ge en snabb överblick av ett samband.

För att ha något att jobba med kommer vi i det här exemplet att använda oss av <a href="https://qog.pol.gu.se/data/datadownloads/qogbasicdata" target=_blank>QoG basic-datamängden</a>. Här har jag skrivit in sökvägen till datamängden direkt på internet, men man kan givetvis ladda ned den till sin dator och öppna den därifrån istället - det är vanligtvis att rekommendera.

In [1]:
use "https://www.qogdata.pol.gu.se/data/qog_bas_cs_jan18.dta", clear

(Quality of Government Basic dataset 2018 - Cross-Section)


## En enkel korstabell 

I det här exemplet ska vi titta närmare på sambandet mellan ett lands grad av demokrati och dess system för politisk representation, närmare bestämt om man har proportionell representation (PR) eller inte. PR innebär att man i valen fördelar mandat i förhållande till partiernas valresultat, som i Sverige. I den amerikanska kongressen har man inte PR, utan där väljer man ledamöter i enmansvalkretsar, där den som får flest röster i en valkrets väljs. Det kan bland annat få konsekvensen att ett parti som bara har något fler röster får en stor majoritet i parlamentet. En del forskning pekar också på att PR skulle vara mer gynnsamt för demokratin.

En korstabell kan inte säga något om orsak och verkan, men vi kan åtminstone se om det är så att länder som har PR också är mer demokratiska.

Som demokratiindikator använder vi oss av __fh_status__, som visar hur fritt ett land är, enligt den amerikanska organisationen Freedom House. För att mäta PR använder vi variabeln __dpi_pr__, från Database of Political Institutions.

In [2]:
codebook fh_status


---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
fh_status                                                                                                                                                                                                                                        Freedom Status
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                  type:  numeric (byte)
                 label:  lblfhstatus

                 range:  [1,3]                        units:  1
         unique values:  3                        missing .:  0/194

            tabulat

Först på type ser vi att det är en numerisk variabel. Den har alltså siffervärden, även om koderna i det här fallet motsvarar olika kvalitativa bedömningar.

Vi ser att range är 1,3, vilket betyder att variabeln har värden som spänner mellan 1 och 3. Det finns också 3 unika (alltså olika) värden i datamängden.

0 av 194 analysenheter i datamängden har "missing" på variabeln, vilket är bra. Variabelns information finns för alla länder i datamängden.

Slutligen får vi också en så kallad frekvenstabell, som visar hur många analysenheter (i kolumnen Freq.) som har varje värde, och vad det värdet har för etikett (tex Free). Använder man samma kommando på en variabel med fler värden får man ut delvis andra uppgifter. Vi kan till exempel prova med ett mått på BNP per capita, gle_rgdpc:

In [9]:
codebook gle_rgdpc


---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
gle_rgdpc                                                                                                                                                                                                                            Real GDP per Capita (2005)
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                  type:  numeric (float)

                 range:  [285.95,95696.97]            units:  .01
         unique values:  192                      missing .:  2/194

                  mean:   12596.3
              std. 

Mycket är samma, men här fick vi också ut medelvärdet, standardavvikelsen, och olika percentiler. Den 50:ende percentilen (6955.53) är också medianen. Lika många länder har alltså BNP per capita under 6955.53 som över det.

## Summarize

Summarize-kommandot, som kan förkortas sum, ger lite mer kondenserad statistik, och passar bäst att använda på kontinuerliga variabler där medelvärdet är av intresse, som till exempel BNP per capita. Det fina med kommandot är att man kan skriva in flera variabler på samma gång, och då få ut en lättöverskådlig tabell. Ett exempel:

In [7]:
sum gle_rgdpc gle_pop wdi_poprul wdi_popurb


    Variable |        Obs        Mean    Std. Dev.       Min        Max
-------------+---------------------------------------------------------
   gle_rgdpc |        192     12596.3     15803.7     285.95   95696.97
     gle_pop |        192    35888.69    135162.5         10    1324353
  wdi_poprul |        193    43.20123    23.53091          0      91.45
  wdi_popurb |        193    56.79877    23.53091       8.55        100


När man gör regressionsanalyser är oftast alla variabler av den här typen, och då passar sum-kommandot bra. I tabeller med beskrivande statistik i uppsatser är det ofta precis de här uppgifterna - antal observationer, medelvärde, standardavvikelse, min och max som efterfrågas.

## Tabulate

För kategoriska variabler, alltså variabler med distinkta steg (utan decimaler), är det ofta inte intressant att titta på medelvärden. Variabeln fh_status som vi tittade på tidigare är till exempel en sådan. Då kan det istället vara bättre med en frekvenstabell, som listar de olika värdena, hur många analysenheter som har respektive värde, och hur många procent de utgör av hela datamängden.

Kommandot kan förkortas tab.

In [8]:
tab fh_status


    Freedom |
     Status |      Freq.     Percent        Cum.
------------+-----------------------------------
       Free |         89       45.88       45.88
Partly Free |         54       27.84       73.71
   Not Free |         51       26.29      100.00
------------+-----------------------------------
      Total |        194      100.00


Antalet analysenheter som har respektive värde såg vi också med codebook, men mer intressant än antalet är ofta procentandelen. Här kan vi se att knappa 46% av världens länder betecknas som fria, medan dryga 26% räknas som Not Free. Den sista kolumnen visar den kumulativa procenten, vilket man får fram genom att addera de olika procentkategorierna från toppen till botten. Där kan vi till exempel se att 73,71% av länderna är antingen Free eller Partly Free.

## Avslutning

Vilken beskrivande statistik man ska presentera beror, som allt annat, på vilken frågeställning man undersöker. All information som är nödvändig för att tolka resultaten på ett bra sätt ska med, allt onödigt kan lämnas ute.

Ofta är det också informativt att använda olika typer av grafer för att presentera beskrivande statistik, till exempel histogram, som visar fördelningen av en variabel. Det finns beskrivet i egna inlägg.

Kom också ihåg att man alltid kan skriva help *kommando* för att få en uttömmande beskrivning av allt man kan göra med kommandot.