# <span style="color:lightcoral; font-family:freestyle script; font-size:3em">Dokumentation av SLOSH</span> <br><span style="color:black; font-family:freestyle script; font-size:2em">Frekvenstabeller till SQLite</span>
***

# Innehållsförteckning
1. [Importera bibliotek](#1)
2. [Importera data](#2)
3. [Datatvätt](#3)  
    3.1 [Variabelnamn](#3.1)  
    3.2 [Variabeltyp](#3.2)  
    3.3 [Tvåställig SSYK](#3.3)  
    3.4 [Data saknas och NaN](#3.4)  
    3.5 [Invertera data](#3.5)
4. [Aggregera data](#4)
5. [Exportera data](#5)  
6. [Sammanfoga data från SLOSH och LNU](#6)
***

# <a id = "1">1. Importera bibliotek</a>
De bibliotek som behövs i det här skriptet är **pandas**, **numpy** och **os**. 

In [1]:
import os
import pandas as pd
import numpy as np

In [2]:
os.getcwd()

'C:\\Users\\mabr4821\\Documents\\GitHub\\REWHARDpilot'

***
# <a id = "2">2. Importera data</a>
De variabler som behövs är **z1, z18, z670, z671, z672, z673, z674, z680, z681, z682, z616, z621, z622, z624, z625, z626, z647, z651, z652, z653, z654, z655, z656**. Datafilen återfinns på LNU:s server och sökvägen dit är:  
  
*LNU 2010/LNU2010_DATA/LNU2010.dta*  

Variablerna väljs ut och läggs i en dataframe som kallas **data**. För mer information om variablerna hänvisas till [LNU:s kodbok](https://www.sofi.su.se/forskning/tre-forskningsavdelningar/lnu/dokumentation/lnu-2010).

In [3]:
data = pd.read_stata('J:/LNU 2010/LNU2010_DATA/LNU2010.dta', columns=['z1', 'z18', 'z670', 'z671', 'z672', 'z673', 'z674',
                                                                      'z680', 'z681', 'z682', 'z616','z621', 'z622', 'z624',
                                                                      'z625', 'z626', 'z647', 'z651', 'z652', 'z653', 'z654',
                                                                      'z655', 'z656'])

***
Ta fram de första fem raderna för att få en första blick på data.

In [4]:
data.head(5)

Unnamed: 0,z1,z18,z670,z671,z672,z673,z674,z680,z681,z682,...,z624,z625,z626,z647,z651,z652,z653,z654,z655,z656
0,10001.0,8334,2 Nej,2 Nej,2 Nej,1 Beslut ej krav,2 Övrigt,2 Mindre del av tiden,2 Mindre del av tiden,1 Inte alls,...,2 Nej,,2 2-5 dagar,1Ja,2 Nej,1Ja,4 I liten grad,3 I viss grad,4 I liten grad,2 I hög grad
1,10003.0,2131,2 Nej,1 Ja,2 Nej,1 Beslut ej krav,2 Övrigt,2 Mindre del av tiden,1 Inte alls,1 Inte alls,...,1 Ja,5.0,5 3 månader-1 år,2 Nej,1 Ja,1Ja,1 I mycket hög grad,1 I mycket hög grad,1 I mycket hög grad,2 I hög grad
2,10004.0,2330,1 Ja,1 Ja,2 Nej,3 Ej beslut men krav,2 Övrigt,4 Stor del av tiden,1 Inte alls,5 Hela tiden,...,1 Ja,4.0,7 mer än 2 år,1Ja,1 Ja,2 Nej,3 I viss grad,1 I mycket hög grad,3 I viss grad,2 I hög grad
3,10005.0,5131,2 Nej,1 Ja,2 Nej,1 Beslut ej krav,2 Övrigt,1 Inte alls,1 Inte alls,1 Inte alls,...,1 Ja,5.0,6 1-2 år,1Ja,1 Ja,1Ja,2 I hög grad,2 I hög grad,2 I hög grad,1 I mycket hög grad
4,10006.0,6130,1 Ja,1 Ja,2 Nej,,,2 Mindre del av tiden,2 Mindre del av tiden,2 Mindre del av tiden,...,,,,,,,,,,


***
# <a id = "3">3. Datatvätt</a>
Datamängden måste modifieras innan den kan användas. Detta görs i flera steg som går att följa nedan. Först ska några variabler döpas om, sedan ska datatyp korrigeras. SSYK ska omvandlas från fyrställig nivå till tvåställig, och till sist ska luckor i datamängden hanteras. 
***
## <a id = "3.1">3.1 Variabelnamn</a>
Döp om **z1** och **z18** till "Lopnr" respektive "SSYK".

In [5]:
data.rename(columns={'z1': 'Lopnr', 'z18': 'SSYK'}, inplace=True)

***
## <a id= "3.2">3.2 Datatyp</a>
Cellerna verkar innehålla data av olika typ. Se efter vilken typ av data som finns i varje kolumn.

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4415 entries, 0 to 4414
Data columns (total 23 columns):
Lopnr    4415 non-null float64
SSYK     4415 non-null int32
z670     3059 non-null category
z671     3059 non-null category
z672     3059 non-null category
z673     2687 non-null category
z674     2687 non-null category
z680     3059 non-null category
z681     3059 non-null category
z682     3058 non-null category
z616     2689 non-null category
z621     2689 non-null category
z622     2687 non-null category
z624     2689 non-null category
z625     2041 non-null category
z626     2689 non-null category
z647     2689 non-null category
z651     2689 non-null category
z652     2689 non-null category
z653     2689 non-null category
z654     2689 non-null category
z655     2689 non-null category
z656     2689 non-null category
dtypes: category(21), float64(1), int32(1)
memory usage: 187.0 KB


***
Ta bort all svarstext ur cellerna, behåll endast siffror som representerar svarsalternativ.

In [7]:
data.replace(regex=True, inplace=True, to_replace=r'\D', value=r'')

***
Variabeln **z626** har svarstext som innehåller siffror. Svarstexten till alternativ två är t.ex. "2-5 dagar". Ta bort dessa restsiffror och behåll endast siffran som representerar svarsalternativet.

In [8]:
data['z626'] = data['z626'].astype(str).str[:1]
data['z626'] = data['z626'].replace('n', np.nan)

***
Data måste vara av rätt typ för att deskriptiv statistk ska bli korrekt.

In [9]:
data = data.apply(pd.to_numeric)

***
## <a id = "3.3">3.3 Tvåställig SSYK</a>
Variabeln **SSYK** är på fyrställig nivå. Dela de värden som överskrider 999 med 100 för att omvandla till ett heltal mellan 0 och 99.

In [10]:
data.SSYK[data.SSYK > 999] = data.SSYK[data.SSYK > 999]/100

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Nu finns inga heltal större än 999 kvar, dock finns det heltal större än 99. Dela dessa med 10.

In [11]:
data.SSYK[data.SSYK > 99] = data.SSYK[data.SSYK > 99]/10

Nu är samtliga värden mellan 0 och 99. Använd nu **np.floor** för att avrunda decimalerna ner till närmaste heltal.

In [12]:
data['SSYK'] = data['SSYK'].apply(np.floor)

***
## <a id = "3.4">3.4 Data saknas och NaN</a>
Variablerna **z670, z671, z672, z673, z674, z680, z681, z682, z616, z624, z626, z647, z651, z652, z653, z654, z655, z656** har samtliga en kodlista i vilken koden 9 står för "Svar saknas". Variabeln **z625** har koden 99 för "Svar saknas" och **z621, z622** har 9999. Dessa koder kommer påverka medelvärden på ett oönskat sätt och ersätts därför med **NaN** (eller s.k. "missing value"). Börja med att sortera om variablerna så att dessa tre grupper hamnar i följd.

In [13]:
data = data[['Lopnr', 'SSYK', 'z670', 'z671', 'z672', 'z673', 'z674', 'z680', 'z681',  
           'z682','z616', 'z624', 'z626', 'z647', 'z651', 'z652', 'z653', 'z654',
           'z655', 'z656', 'z625', 'z621', 'z622']]

***
Ersätt 9 i den första gruppen med **NaN**, gör sedan detsamma med 99 och 999 för den andra respektive tredje gruppen.


In [14]:
data.iloc[:, 2:20] = data.iloc[:, 2:20].replace(9, np.nan)
data.z625 = data.z625.replace(99, np.nan)
data.iloc[:, 21:] = data.iloc[:, 21:].replace(9999, np.nan)

I variablerna **z680** och **z81** är svarsalternativ "Vet ej" kodat som 8. Ersätt detta med **NaN**.

In [15]:
data.z680 = data.z680.replace(8, np.nan) 
data.z681 = data.z681.replace(8, np.nan)

***
De individer som svarar ja på fråga **z624**:   
*Behöver man någon skol- eller yrkesutbildning utöver folk- eller grundskola i din befattning?*  

Får sedan ange hur lång en sådan utbildning är i fråga **z625**:  
*Ungefär hur många års utbildning utöver folk- eller grundskola behöver man?*  
  
De som däremot svarade nej på **z624**, (637 individer, eller 23%) kodas som **NaN** i fråga **z625**. Detta ger ett missvisande medelvärde, bättre vore om dessa 23% kodades som 0. På så vis blir medelvärdet betydligt lägre.


In [16]:
data.loc[data.z624==2, ['z625']] = 0

***  
## <a id = "3.5">3.5 Invertera data</a>  
Vissa variabler är sådana att deras medelvärden blir enklare att tolka ifall variabeln inverteras. Inverteringen innebär att variabelns koder (och tillhörande text) arrangeras om i nya par enligt följande schema:
***
**Före (ej inverterad)**
1. Ja
2. Nej
***
**Efter (inverterad)**
1. Nej
2. Ja
***  
Variablerna **z624**, **z647**, **z651**, **z652**, **z670**, **z671**, **z672** har koderna 1 och 2. Variablerna **z563**, **z654**, **z655**, **z656**, **z680**, **z681**, **z682** har koderna 1 till 5. Den första gruppen inverteras därför enklast genom att låta $inverterat\space värde = 3-ursprungligt\space värde$. För den andra gruppen gäller att $inverterat\space värde = 6-ursprungligt\space värde$. Börja med den första gruppen.

In [17]:
data.z624 = 3 - data.z624
data.z647 = 3 - data.z647
data.z651 = 3 - data.z651
data.z652 = 3 - data.z652
data.z670 = 3 - data.z670
data.z671 = 3 - data.z671
data.z672 = 3 - data.z672

Invertera sedan den andra gruppen.

In [18]:
data.z653 = 6 - data.z653
data.z654 = 6 - data.z654
data.z655 = 6 - data.z655
data.z656 = 6 - data.z656
data.z680 = 6 - data.z680
data.z681 = 6 - data.z681
data.z682 = 6 - data.z682

**2019-10-30**  
Under mötet bestämde vi att invertera även **z621**. Variabelns högsta värde är 2011. Inverteringen innebär att variabeln anger hur länge den svarande varit anställd (nuvarande arbete) vid intervjutillfället.

In [19]:
data.z621 = 2011 - data.z621

De variabler som inte kommer att inverteras är **z616**, **z622**, **z625**, **z626**, **z673** och **z674**.

***
# <a id = "4">4. Aggregera data</a>
Ta bort variabeln Lopnr, den behövs ej för att aggregera data.

In [20]:
data = data.drop('Lopnr', axis = 1)

**2019-10-30**  
Variabeln behövs endast för att koda om **z625**, den bör inte vara med i faktoranalysen.

In [21]:
data = data.drop('z624', axis = 1)

***
Gruppera data enligt SSYK och ta fram medelvärde och antal observationer för varje annan variabel. 

In [22]:
aggregerad_data = data.groupby('SSYK').aggregate(['mean', 'count'])

***
Avrunda medelvärden till 1 decimal.

In [23]:
aggregerad_data = aggregerad_data.round(1)

In [24]:
aggregerad_data.head(5)

Unnamed: 0_level_0,z670,z670,z671,z671,z672,z672,z673,z673,z674,z674,...,z655,z655,z656,z656,z625,z625,z621,z621,z622,z622
Unnamed: 0_level_1,mean,count,mean,count,mean,count,mean,count,mean,count,...,mean,count,mean,count,mean,count,mean,count,mean,count
SSYK,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
9.0,1.4,319,1.6,318,1.1,319,1.7,3,2.7,3,...,4.0,3,4.5,2,6.0,2,32.0,3,50.5,2
11.0,2.0,11,2.0,11,1.2,11,2.5,11,2.5,11,...,3.7,11,4.2,11,4.5,11,13.5,11,17.4,11
12.0,1.8,123,1.8,123,1.0,123,1.9,123,2.4,123,...,3.9,123,3.8,123,5.2,123,13.0,123,28.5,123
13.0,1.4,22,1.8,22,1.1,22,1.8,22,2.0,22,...,3.5,22,3.8,22,1.7,22,5.4,22,5.4,22
21.0,1.5,166,1.7,166,1.1,166,1.7,166,2.2,166,...,3.9,166,3.9,166,5.2,165,10.9,165,11.1,166


Ersätt flernivåindex med ett enkelt index.

In [25]:
aggregerad_data.columns = aggregerad_data.columns.to_flat_index()

***
# <a id = "5">5. Exportera data</a>
Ändra namn på variablerna.

In [27]:
aggregerad_data.rename(columns={('z670', 'mean'): 'z670_mean', ('z670', 'count'): 'z670_count',
                                ('z671', 'mean'): 'z671_mean', ('z671', 'count'): 'z671_count',
                                ('z672', 'mean'): 'z672_mean', ('z672', 'count'): 'z672_count',
                                ('z673', 'mean'): 'z673_mean', ('z673', 'count'): 'z673_count',
                                ('z674', 'mean'): 'z674_mean', ('z674', 'count'): 'z674_count',
                                ('z680', 'mean'): 'z680_mean', ('z680', 'count'): 'z680_count',
                                ('z681', 'mean'): 'z681_mean', ('z681', 'count'): 'z681_count',
                                ('z682', 'mean'): 'z682_mean', ('z682', 'count'): 'z682_count',
                                ('z616', 'mean'): 'z616_mean', ('z616', 'count'): 'z616_count',
                                ('z647', 'mean'): 'z647_mean', ('z647', 'count'): 'z647_count',
                                ('z651', 'mean'): 'z651_mean', ('z651', 'count'): 'z651_count',
                                ('z626', 'mean'): 'z626_mean', ('z626', 'count'): 'z626_count',
                                ('z652', 'mean'): 'z652_mean', ('z652', 'count'): 'z652_count',
                                ('z653', 'mean'): 'z653_mean', ('z653', 'count'): 'z653_count',
                                ('z654', 'mean'): 'z654_mean', ('z654', 'count'): 'z654_count',
                                ('z655', 'mean'): 'z655_mean', ('z655', 'count'): 'z655_count',
                                ('z656', 'mean'): 'z656_mean', ('z656', 'count'): 'z656_count',
                                ('z625', 'mean'): 'z625_mean', ('z625', 'count'): 'z625_count',
                                ('z621', 'mean'): 'z621_mean', ('z621', 'count'): 'z621_count',
                                ('z622', 'mean'): 'z622_mean', ('z622', 'count'): 'z622_count'}, inplace=True)

***
Spara ner aggregerad data i en excelfil.

In [None]:
aggregerad_data.to_excel('LNU Medelvärden och n per SSYK för harmonisering.xlsx')

***
# <a id = "6">6. Sammanfoga data från SLOSH och LNU</a>
Importera aggregerad data från SLOSH.

In [None]:
slosh = pd.read_excel('SLOSH Medelvärden och n per SSYK för harmonisering.xlsx')

Sammanfoga data med hjälp av den gemensamma SSYK-variabeln. Specificera "outer" för att få union snarare än snitt. Detta är viktigt eftersom det inte är lika många SSYK-koder i SLOSH och LNU.

In [None]:
sammanfogad = pd.merge(aggregerad_data, slosh, on = 'SSYK', how = 'outer')  

Justera index och sortera.

In [None]:
sammanfogad = sammanfogad.set_index('SSYK')

In [None]:
sammanfogad = sammanfogad.sort_index()

Spara ner data i en excelfil.

In [None]:
sammanfogad.to_excel('SLOSH och LNU medelvärden och n per SSYK för harmonisering.xlsx')

***
**Kontakt:** [Marcus Brafors](https://www.su.se/profiles/mabr4821-1.403903)