# <span style="color:dodgerblue; font-family:freestyle script; font-size:5em">Harmonisering:</span> <br><span style="color:black; font-family:freestyle script; font-size:4em">Data från SLOSH</span>
***

# Innehållsförteckning
1. [Importera bibliotek](#1)
2. [Importera data](#2)
3. [Datatvätt](#3)  
    3.1 [Icke-arbetande](#3.1)  
    3.2 [Konstiga värden](#3.2)  
    3.3 [Tvåställig SSYK](#3.3)  
    3.4 [Överflödiga variabler](#3.4)  
    3.5 [Ändra ordning och variabelnamn](#3.5)  
    3.6 [Invertera data](#3.6)
4. [Aggregera data](#4)
5. [Exportera data](#5)  
    
***

# <a id = "1">1. Importera bibliotek</a>
De bibliotek som behövs i det här skriptet är **pandas**, **numpy** och **os**. 

In [1]:
import os
import pandas as pd
import numpy as np

In [2]:
os.chdir('C:/Users/mabr4821/Desktop/Python WD') 
os.getcwd()

'C:\\Users\\mabr4821\\Desktop\\Python WD'

***
# <a id = "2">2. Importera data</a>
Data från excelfil importeras till en **dataframe** och som kallas för **data**. Datafilen omfattar variablerna **loadtime_7**, **interrup_7**, **morework_7**, **workfast_7**, **workhard_7**, **workeffo_7**, **worktime_7**, **workcntr_7**, **workskil_7**, **workinge_7**, **worklear_7**, **workrepe_7**, **workhow_7**, **workwhat_7**, **r_7**, **lopnr_slosh**, samt **ssyk_7**. Samtliga variabler är från den sjunde SLOSH-vågen (2010).

In [3]:
data = pd.read_excel('SLOSH rådata harmonisering.xlsx')

***
Ta fram de första fem raderna för att få en första blick på data.

In [4]:
data.head(5)

Unnamed: 0,loadtime_7,interrup_7,morework_7,workfast_7,workhard_7,workeffo_7,worktime_7,workcntr_7,workskil_7,workinge_7,worklear_7,workrepe_7,workhow_7,workwhat_7,r_7,lopnr_slosh,ssyk_7
0,4.0,3.0,4.0,2.0,3.0,4.0,1.0,4.0,1.0,1.0,1.0,1.0,1.0,1.0,2,100001,7131.0
1,,,,1.0,2.0,2.0,1.0,3.0,2.0,1.0,,,2.0,3.0,1,100002,4119.0
2,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,2.0,2.0,3.0,3.0,2,100003,5111.0
3,,,,,,,,,,,,,,,0,100004,
4,3.0,3.0,3.0,2.0,2.0,2.0,2.0,3.0,2.0,2.0,2.0,2.0,3.0,3.0,2,100005,2422.0


***
# <a id = "3">3. Datatvätt</a>
Datamängden måste modifieras innan den kan användas. Detta görs i flera steg som går att följa nedan. Ta bort icke-arbetande individer och omvandla SSYK-variabeln från fyrställig nivå till tvåställig. Ta bort konstiga värden, ändra ordning och namn på variablerna, och ta bort onönskade variabler.

***
## <a id = "3.1">3.1 Icke-arbetande</a>
Variabeln **r_7** är 1 för icke-arbetande individer och 2 för arbetande. Ta bort alla icke-arbetande individer.

In [5]:
data = data[data.r_7 == 2]

***
## <a id = "3.2">3.2 Konstiga värden</a>
Ersätt värdena "bortfall" och "kodas ej" med **NaN** (s.k missing value). 

In [6]:
data = data.replace(['bortfall', 'kodas ej'], np.nan)

I samtliga variabler, förutom SSYK, bör värden som överstiger 4 ersättas med **NaN**. Detta eftersom värden större än fyra är ett resultat av att individen kryssat i mer än ett alternativ. En deltagare som kryssar i både alternativ två och tre kodas exempelvis som 23.

In [7]:
data.iloc[:, :13][data.iloc[:, :13]>4] = np.nan

Data måste vara av rätt typ för att deskriptiv statistk ska bli korrekt.

In [8]:
data = data.apply(pd.to_numeric)

***
## <a id = "3.3">3.3 Tvåställig SSYK</a>
Variabeln **ssyk_7** är på fyrställig nivå. Dela de värden som överskrider 999 med 100 för att omvandla till ett heltal mellan 0 och 99.

In [9]:
data.ssyk_7[data.ssyk_7 > 999] = data.ssyk_7[data.ssyk_7 > 999]/100

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Nu finns inga heltal större än 999 kvar, dock finns det heltal större än 99. Dela dessa med 10.

In [10]:
data.ssyk_7[data.ssyk_7 > 99] = data.ssyk_7[data.ssyk_7 > 99]/10

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Nu är samtliga värden mellan 0 och 99. Använd nu **np.floor** för att avrunda decimalerna ner till närmaste heltal.

In [11]:
data['ssyk_7'] = data['ssyk_7'].apply(np.floor)

***
## <a id = "3.4">3.4 Överflödiga variabler</a>
Variablerna **r_7** och **lopnr_slosh** behövs inte längre.

In [12]:
data = data.drop(['r_7', 'lopnr_slosh'], axis = 1)

***
## <a id = "3.5">3.5 Ändra ordning och variabelnamn </a>
Ge variablerna enklare namn.

In [13]:
data.columns = ['Loadtime', 'Interrup', 'Morework', 'Workfast','Workhard', 
                'Workeffo', 'Worktime', 'Workcntr', 'Workskil', 'Workinge',
                'Worklear', 'Workrepe', 'Workhow', 'Workwhat', 'SSYK']

Ändra ordning på variablerna.

In [14]:
data = data[['SSYK', 'Loadtime', 'Interrup', 'Morework', 'Workfast','Workhard', 
             'Workeffo', 'Worktime', 'Workcntr', 'Workskil', 'Workinge',
             'Worklear', 'Workrepe', 'Workhow', 'Workwhat']]

***
## <a id = "3.6">3.6 Invertera data </a>
Samtliga variabler (förutom **SSYK**) har kodlistor med fyra koder: 1, 2, 3 och 4. Inverteringen innebär att dessa koder (och tillhörande text) arrangeras om i nya par enligt följande schema:<br>
***
**Före (ej inverterad)**
1. Ja, ofta
2. Ja, ibland
3. Nej, sällan
4. Nej, så gott som aldrig/Aldrig
***
**Efter (inverterad)**
1. Nej, så gott som aldrig/Aldrig
2. Nej, sällan
3. Ja, ibland
4. Ja, ofta
***  
Detta uppnås enklast genom att låta $inverterat\space värde = 5-ursprungligt\space värde$.

In [15]:
data.iloc[:, 1:] = 5-data.iloc[:, 1:]

***
# <a id = "4">4. Aggregera data</a>
Gruppera data enligt SSYK och ta fram medelvärde och antal observationer för varje annan variabel.

In [16]:
aggregerad_data = data.groupby('SSYK').aggregate(['mean', 'count'])

Avrunda medelvärden till 1 decimal.

In [17]:
aggregerad_data = aggregerad_data.round(1)

***
# <a id = "5">5. Exportera data</a>
Ändra namn på variablerna.

In [18]:
aggregerad_data.columns = ['Loadtime_mean', 'Loadtime_count', 'Interrup_mean', 'Interrup_count',
                           'Morework_mean', 'Morework_count', 'Workfast_mean', 'Workfast_count', 
                           'Workhard_mean', 'Workhard_count', 'Workeffo_mean', 'Workeffo_count',
                           'Worktime_mean', 'Worktime_count', 'Workcntr_mean', 'Workcntr_count', 
                           'Workskil_mean', 'Workskil_count', 'Workinge_mean', 'Workinge_count',
                           'Worklear_mean', 'Worklear_count', 'Workrepe_mean', 'Workrepe_count',
                            'Workhow_mean', 'Workhow_count', 'Workwhat_mean', 'Workwhat_count']
                           

Spara ner aggregerad data i en excelfil.

In [19]:
aggregerad_data.to_excel('SLOSH Medelvärden och n per SSYK för harmonisering.xlsx')

***
**Kontakt:** [Marcus Brafors](https://www.su.se/profiles/mabr4821-1.403903)