## LAB ØVELSE: Datahåndtering i Python

**Om øvelsen**

I denne øvelse skal du bruge forskellige datahåndteringsteknikker fra Python og særligt fra `pandas` pakken. Der er flere måder at løse øvelserne på, men de kan løses med de teknikker, som indgår i materialet til første Python session. Derudover kan man altid finde hjælp og vejledninger til de forskellige pandas funktioner fra pandas dokumentationen: https://pandas.pydata.org/docs/.

**Formål**

Vi vil gerne undersøge sammenhængen mellem politisk ståsted (venstre- eller højreorienteret), og hvorvidt man bekymrer sig om digital teknologi og internettet. Eurobarometer-sættet indeholder data, som kan bruges til at undersøge dette. Datasættet er dog ikke med det samme klar til at foretage denne undersøgelse.

**1.**

Indlæs Eurobarometer-sættet som en pandas data frame. Datasættet kan findes i mappen "data" i kursusmaterialet på UCloud. Filen hedder "eurobarometer-96_dk_subset.csv". Variabeloversigt findes i mappen "doc" i kursusmaterialet.

*Bemærk*: Datasættet er en .csv-fil.

**2.**

Der skal bruges et mål for respondenternes bekymring om digital teknologi. Kolonnerne `qb3_1-qb3_7` angiver områder inden for digital teknologi og internet, som respondenten er bekymret for (hvis der er et svar: bekymret; ellers er de ikke bekymret). 

Dan et indeks for, hvor bekymret man er for digital teknologi og internettet ud fra kolonnerne `qb3_1-qb3-7`.

*Bemærk:* Kolonnerne bør rekodes til dummy-variable (0/1), inden de lægges sammen. (se evt. afsnittet om rekodning med mappings fra første python session og dokumentationen for pandas metoden `.replace()`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html).

**3.**

Datasættet indeholder allerede et mål for politisk ståsted. Kolonnen `d1` indeholder respondents politiske placering på venstre-højre skala (1: venstreorienteret, 2: højreorienteret). Python genkender dog ikke denne som en numerisk kolonne.

Konvertér `d1` til en numerisk variabel. 

*Bemærk*: Nogle af værdierne skal rekodes, før den kan laves om til numerisk. Derudover skal kolonnens *datatype* tvinges om til numerisk (se evt. afsnit om typecasting fra første python session og dokumentation for pandas metoden `.astype()`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html?highlight=astype#pandas.Series.astype).

**4.**

Undersøg hvorvidt indekset for bekymring om digitale teknologier og politisk placering korrelerer (brug evt. `pd.Series.corr()`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.corr.html#pandas.Series.corr).


**5.**

Udforsk forskelle i indekset - fx forskelle mellem køn, uddannelsesniveau, region eller andet

In [38]:
from os.path import join
import pandas as pd
import numpy as np

data_path = join('/work', '83232', 'data', 'eurobarometer-96_dk_subset.csv') # skal måske ændres
eurob = pd.read_csv(data_path)

In [19]:
eurob.head()

Unnamed: 0,uniqid,d11,polintr,qb1,qb3_1,qb3_2,qb3_3,qb3_4,qb3_5,qb3_6,...,d10,d15a,d15b,d25,d63,d1,p1,p2,p3,region_denmark
0,110005573,71,Not at all,Fairly important,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,...,Man,"Retired, unable to work","Middle management, etc.",Large town,The middle class of society,9,16 Sep 21,13 - 16 h,2099,DK05 - Nordjylland
1,110005574,23,Medium,Very important,Use of personal data and information by compan...,Cyber-attacks and cybercrime such as theft or ...,Not mentioned,Not mentioned,Not mentioned,Not mentioned,...,Man,Student,"Unskilled manual worker, etc.",Large town,The middle class of society,6,16 Sep 21,17 - 19 h,2784,DK05 - Nordjylland
2,110005575,53,Medium,Very important,Not mentioned,Cyber-attacks and cybercrime such as theft or ...,The difficulty of learning new digital skills ...,Not mentioned,Not mentioned,Not mentioned,...,Woman,"Unskilled manual worker, etc.",Inap. (not 1 to 4 in d15a),Rural area or village,The middle class of society,8,17 Sep 21,13 - 16 h,1738,DK02 - Sjaelland
3,110005576,70,Medium,Very important,Not mentioned,Cyber-attacks and cybercrime such as theft or ...,Not mentioned,The safety and well-being of children,The difficulty some people have accessing the ...,Not mentioned,...,Man,"Retired, unable to work","Middle management, etc.",Rural area or village,The middle class of society,8,17 Sep 21,13 - 16 h,2759,DK02 - Sjaelland
4,110005577,71,Medium,Fairly important,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,...,Woman,"Employed position, service job",Inap. (not 1 to 4 in d15a),Small/middle town,The working class of society,5,17 Sep 21,8 - 12 h,1768,DK01 - Hovedstaden


In [20]:
eurob.columns

Index(['uniqid', 'd11', 'polintr', 'qb1', 'qb3_1', 'qb3_2', 'qb3_3', 'qb3_4',
       'qb3_5', 'qb3_6', 'qb3_7', 'd7r', 'd9b', 'd10', 'd15a', 'd15b', 'd25',
       'd63', 'd1', 'p1', 'p2', 'p3', 'region_denmark'],
      dtype='object')

In [21]:
qb3list = list(eurob.columns[eurob.columns.str.startswith('qb3_')])
qb3list

['qb3_1', 'qb3_2', 'qb3_3', 'qb3_4', 'qb3_5', 'qb3_6', 'qb3_7']

In [41]:
zero_recode = {'Not mentioned': 0}

eurob[qb3list] = eurob[qb3list].replace(zero_recode)

for var in qb3list:
    eurob.loc[eurob[var] != 0, var] = 1

In [42]:
eurob.head()

Unnamed: 0,uniqid,d11,polintr,qb1,qb3_1,qb3_2,qb3_3,qb3_4,qb3_5,qb3_6,...,d15a,d15b,d25,d63,d1,p1,p2,p3,region_denmark,d1_num
0,110005573,71,Not at all,Fairly important,0,0,0,0,0,0,...,"Retired, unable to work","Middle management, etc.",Large town,The middle class of society,9,16 Sep 21,13 - 16 h,2099,DK05 - Nordjylland,9
1,110005574,23,Medium,Very important,1,1,0,0,0,0,...,Student,"Unskilled manual worker, etc.",Large town,The middle class of society,6,16 Sep 21,17 - 19 h,2784,DK05 - Nordjylland,6
2,110005575,53,Medium,Very important,0,1,1,0,0,0,...,"Unskilled manual worker, etc.",Inap. (not 1 to 4 in d15a),Rural area or village,The middle class of society,8,17 Sep 21,13 - 16 h,1738,DK02 - Sjaelland,8
3,110005576,70,Medium,Very important,0,1,0,1,1,0,...,"Retired, unable to work","Middle management, etc.",Rural area or village,The middle class of society,8,17 Sep 21,13 - 16 h,2759,DK02 - Sjaelland,8
4,110005577,71,Medium,Fairly important,0,0,0,0,0,0,...,"Employed position, service job",Inap. (not 1 to 4 in d15a),Small/middle town,The working class of society,5,17 Sep 21,8 - 12 h,1768,DK01 - Hovedstaden,5


In [43]:
eurob['qb3_scale'] = eurob['qb3_1'] + eurob['qb3_2'] + eurob['qb3_3'] + eurob['qb3_4'] + eurob['qb3_5'] + eurob['qb3_6'] + eurob['qb3_7']
eurob['qb3_scale']

0      0
1      2
2      2
3      3
4      0
      ..
988    2
989    4
990    4
991    3
992    3
Name: qb3_scale, Length: 993, dtype: object

In [44]:
eurob['qb3_scale'] = eurob[qb3list].sum(axis = 1)
eurob['qb3_scale']

0      0.0
1      2.0
2      2.0
3      3.0
4      0.0
      ... 
988    2.0
989    4.0
990    4.0
991    3.0
992    3.0
Name: qb3_scale, Length: 993, dtype: float64

In [45]:
left_right_rep = {'1 Left': 1, '10 Right': 10, 'DK (SPONT.)': np.nan, 'Refusal (SPONT.)': np.nan}

eurob['d1_num'] = eurob['d1'].replace(left_right_rep)

eurob['d1_num'].value_counts()

5     213
7     142
4     128
3     122
6     103
8      99
2      56
1      45
9      31
10     22
Name: d1_num, dtype: int64

In [47]:
eurob['qb3_scale'].value_counts()

4.0    382
3.0    270
2.0    184
1.0    134
0.0     23
Name: qb3_scale, dtype: int64

In [51]:
eurob['d1_num'] = eurob['d1_num'].astype('float')

In [52]:
eurob['d1_num'].dtypes

dtype('float64')

In [53]:
eurob['d1_num'].corr(eurob['qb3_scale'])

-0.10391337980500467