# Problem

1. PDF:en som heter "litenkodbok" består av tre sidor. När jag försöker läsa in den får jag bara tag på första sidan.  

Måste jag dela upp LNU:s kodbok i lika måna PDF:er som den har sidor?  
  
2. *Om* jag delar upp kodboken i flera sidor, hur gör jag med de fall då en enskild "variabelruta" sträcker sig över en sidbrytning?

***  

På [den här sidan](https://github.com/atlanhq/camelot) finns bakgrundsinformation.

Jag behöver pandas, re (för regex) och camelot. Camelot är modulen som hämtar "tabeller" fårn pdf-filer.

In [4]:
import camelot
import pandas as pd
import re

Läs in PDF-filen. Just den här filen har tre sidor. Camelot ska lägga "tabellerna" från pdf:en i en lista. Av någon anledning hämtar den bara tabellen från första sidan.

In [217]:
tables = camelot.read_pdf('LNU32.pdf')
tables

<TableList n=1>

Gör om "tabellen" till en DataFrame (`df`). Det verkar som att varje ruta i LNU:s kodbok blir en cell i `df` (som bara har en kolumn). Värdet i cellen är en sträng. Camelot tycks ha plockat varje textbit i rutan och lagt ihop till en lång sträng. Delarna i strängen skiljs åt av "\n".  

In [218]:
tables.n

1

In [219]:
df = tables[0].df
df

Unnamed: 0,0
0,"Z8 \nTYP AV INTERVJU \nX10, Y7, U7 \nTyp av in..."
1,"Z9 \nINDIREKT INTERVJU \njfr X11, Y8, \nU8, V7..."
2,Z10 \nINTERVJUSPRÅK \njfr X12 \nAnger huruvida...
3,"Z11 \nKÖN \nX8, Y10, U10, \nV718, W2 \nIntervj..."
4,"Z12 \nFÖDELSEÅR \nX9, Y11, U11, \nV815, W533 \..."


Såhär ser den första cellen ut.

In [220]:
df.loc[0][0]

'Z8 \nTYP AV INTERVJU \nX10, Y7, U7 \nTyp av intervju. \n1 \nBesöksintervju \n3278 \n74.3 \n2 \nTelefonintervju \n1137 \n25.7 \n \nTotalt \n4415 \n100'

Nu skapar jag en lista `L1` som innehåller strängen från varje cell i `df`. Varje sådan sträng har gjorts om till en lista (`L1[i]`) med kortare strängar som tagits fram genom att dela den ursprungliga strängen vid varje "\n". Varje `L1[i]` motsvarar alltså en variabel i LNU:s kodbok.

In [221]:
L1 = [df.loc[i][0].split('\n') for i in df.index]

Den första strängen i varje ruta i kodboken (`L1[i]`) är alltid variabelnamnet.

In [222]:
L1[0][0]

'Z8 '

Vid sidbrytning kommer dock den första strängen inte se ut sådär. Därför måste jag använda ett `regex`.

In [223]:
regex1 = re.compile(r'^Z\d|^PZ\d')

Listan `namn` ska innehålla alla variabelnamn. Jag går igenom den första strängen i varje cell och ser ifall den är ett "äkta" variabelnamn med hjälp av `regex1`. Är den det läggs strängen i `namn`, i annat fall lägger jag `'sidbrytning'` i listan. På så vis kan jag i ett senare skede ta bort alla rader i tabellen vars variabelnamn är `'sidbrytning'`.

In [242]:
# namn = [L1[i][0] if bool(regex1.findall(L1[i][0])) == True else 'sidbrytning' for i in range(len(L1))]

namn = []

for i in range(len(L1)):
    for j in range(len(L1[i])):
        a = len(namn)
        if bool(regex1.findall(L1[i][j])) == True:
            namn.append(L1[i][j])
            break
    if len(namn) == a:
        namn.append('sidbrytning')

<span style="color:lightcoral">Den andra strängen är alltid (utom vid sidbrytningar så klart) en beskrivning.</span>

In [243]:
L1[1][1]

'INDIREKT INTERVJU '

In [244]:
namn

['Z8 ', 'Z9 ', 'Z10 ', 'Z11 ', 'Z12 ']

In [227]:
L1[0]

['Z8 ',
 'TYP AV INTERVJU ',
 'X10, Y7, U7 ',
 'Typ av intervju. ',
 '1 ',
 'Besöksintervju ',
 '3278 ',
 '74.3 ',
 '2 ',
 'Telefonintervju ',
 '1137 ',
 '25.7 ',
 ' ',
 'Totalt ',
 '4415 ',
 '100']

<span style="color:lightcoral">På samma sätt går det därför att samla alla beskrivningar i en lista. Här behöver jag inte bry mig om att använda ett `regex`. Det räcker att det står `'sidbrytning'` i namn-kolumnen för att hitta de rader som ska tas bort.</span>

In [245]:
# beskrivning = [L1[i][1] if len(L1[i]) > 5 else 'sidbrytning' for i in range(len(L1))]
regex4 = re.compile(r'[A-Z]{3}')

beskrivning = []

for i in range(len(L1)):
    for j in range(len(L1[i])):
        a = len(beskrivning)
        if bool(regex4.findall(L1[i][j])) == True:
            beskrivning.append(L1[i][j])
            break
    if len(beskrivning) == a:
        beskrivning.append('sidbrytning')


    

In [246]:
beskrivning

['TYP AV INTERVJU ',
 'INDIREKT INTERVJU ',
 'INTERVJUSPRÅK ',
 'sidbrytning',
 'FÖDELSEÅR ']

In [230]:
bool(regex4.findall('ÅR/MÅNAD FÖR START UTOMLANDSBOENDE 1 * '))

True

In [236]:
L1[3]

['Z11 ',
 'KÖN ',
 'X8, Y10, U10, ',
 'V718, W2 ',
 'Intervjupersonens kön. ',
 '1 ',
 'Man ',
 '2257 ',
 '51,1 ',
 '2 ',
 'Kvinna ',
 '2158 ',
 '48,9 ',
 ' ',
 'Totalt ',
 '4415 ',
 '100']

<span style="color:lightcoral">Det är mer komplicerat att hitta enkättexten. Den kommer alltid på tredje eller fjärde plats beroende på hur många "liknande variabler" som listats i högra hörnet i kodboken. För att hantera detta skapar jag en regex som svarar på strängar som beskriver "liknande variabler". Sådana strängar undviks och de övriga läggs i en lista.</span>

In [232]:
regex2 = re.compile(r'^NY|^jfr|^[XYZUVW]\d|^\s')

regex3 = re.compile(r'^\d')

In [233]:
enkättext = []

for i in range(len(L1)):
    textdelar = []
    for j in range(3, len(L1[i])):
        if bool(regex3.findall(L1[i][j])) == True:
            break
        if bool(regex2.findall(L1[i][j])) == False:
            textdelar.append(L1[i][j])
    enkättext.append(''.join(textdelar))

In [234]:
enkättext

['Typ av intervju. ',
 'Anger huruvida intervju gjordes med intervjupersonen eller annan än intervjupersonen ',
 'Anger huruvida intervjun genomfördes på svenska eller med hjälp av tolk. ',
 'Intervjupersonens kön. ',
 'Intervjupersonens födelseår. ']

Tyvärr verkar det som att vissa variabler saknar enkättext (t.ex. Z3). Dessa är förmodligen väldigt få, de är sanolikt bara vissa bakgrundsvariabler som saknar enkättext. I dessa fall läggs det en siffran från variabelns kodlista i `enkättext`. Detta går enkelt att åtgärna i efterhand genom att ersätta alla siffror med säg `NaN`.

In [32]:
enkättext

['Är/var båda dina föräldrar födda i Sverige? Frågan ej ställd till panelen, men uppgifter från tidigare LNU har i ']

In [138]:
L1[1]

['*',
 ' ',
 'NY ',
 'Z45 ',
 'ÅR/MÅNAD FÖR START UTOMLANDSBOENDE 1 * ',
 'År och månad då ip inledde sitt första utomlandsboende.  ',
 'Endast minsta samt högsta år och månad redovisas. ',
 'Tabellen gäller för Z43 GT 0. ',
 '193503 ',
 ' ',
 ' ',
 ' ',
 '201007 ',
 ' ',
 ' ',
 ' ',
 ' ',
 'Totalt ',
 '973 ',
 ' ',
 '999999 ',
 'Svar saknas ',
 '2 ',
 ' ',
 ' ',
 'Ej aktuellt ',
 '3440 ',
 ' ',
 ' ',
 ' ',
 '4415 ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 'Motsvarande uppgifter för ytterligare utomlandsboenden, se z45_a-z45_n (boende 2-15)']

Nu tar jag de listor jag skapat och gör dem till kolumner i en DataFrame (`df`).

In [140]:
df = pd.DataFrame.from_dict({'Variabelnamn': namn, 'Beskrivning': beskrivning, 'Enkättext': enkättext})

Lägg till en Enkät-kolumn. Alla variabler är såklart från LNU.

In [141]:
df['Enkät'] = 'LNU'

Ändra ordningen på kolumnerna.

In [142]:
df = df[['Variabelnamn', 'Enkät', 'Beskrivning', 'Enkättext']]

In [22]:
df

Unnamed: 0,Variabelnamn,Enkät,Beskrivning,Enkättext
0,sidbrytning,LNU,Studerande,55
1,"X15, Y13, jfr",LNU,Z14,Eget yrke/sysselsättning enligt socioekonomisk...
2,Z15,LNU,NYK80 NUVARANDE YRKE,Nuvarande yrke eller sysselsättning kodat enli...
3,X17,LNU,Z16,Nuvarande yrke eller sysselsättning kodat enli...
4,Z17,LNU,EGEN EGP,"Eget yrke/sysselsättning enligt Erikson, Goldt..."


In [248]:
regex1 = re.compile(r'^Z\d|^PZ\d')

regex2 = re.compile(r'^NY|^jfr|^[XYZUVW]\d')

regex3 = re.compile(r'^\d')

regex4 = re.compile(r'[A-Z]{3}')


delar = []

for i in range(32, 357):
    # Läs in sidan i från LNU:s kodbok
    tables = camelot.read_pdf('LNU{}.pdf'.format(i))
    
    print(i)
    # Gör om "tabellen" på sidan till en DataFrame. Vissa sidor, t.ex. 36, har ingen tabell alls. Kolla därför att tabell finns.
    if tables.n != 0:
        df = tables[0].df

        # Dela upp strängen i varje cell vid "\n".
        L1 = [df.loc[i][0].split('\n') for i in df.index]
    
        # Skapa lista med namn (se exempel längre upp för förklaring av regex)
        namn = []

        for i in range(len(L1)):
            for j in range(len(L1[i])):
                a = len(namn)
                if bool(regex1.findall(L1[i][j])) == True:
                    namn.append(L1[i][j])
                    break
            if len(namn) == a:
                namn.append('sidbrytning')
        
        
        # Skapa listan med beskrivningar.         
        beskrivning = []

        for i in range(len(L1)):
            for j in range(len(L1[i])):
                a = len(beskrivning)
                if bool(regex4.findall(L1[i][j])) == True:
                    beskrivning.append(L1[i][j])
                    break
            if len(beskrivning) == a:
                beskrivning.append('sidbrytning')
        
        # Skapa listan med enkättexter.
        enkättext = []

        for i in range(len(L1)):
            textdelar = []
            for j in range(3, len(L1[i])):
                if bool(regex3.findall(L1[i][j])) == True:
                    break
                if bool(regex2.findall(L1[i][j])) == False:
                    textdelar.append(L1[i][j])
            enkättext.append(''.join(textdelar))
        
        # Skapa en dataframe av listorna namn, beskrivning och enkättext. 
        df = pd.DataFrame.from_dict({'Variabelnamn': namn, 'Beskrivning': beskrivning, 'Enkättext': enkättext})
    
        # Nu har hela sidan i blivit en dataframe och läggs i en lista som heter "delar".
        delar.append(df)

32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298


In [250]:
delar[189]

Unnamed: 0,Variabelnamn,Beskrivning,Enkättext
0,sidbrytning,sidbrytning,
1,Z597,ARBETSLÖS UNDER 2009,"Sökte eller väntade du på arbete, var arbetslö..."
2,Z598,ARBETSLÖSHETSVECKOR 2009,Antal veckor under 2009: arbetssökande/arbetsl...
3,Z599,FÖRRA VECKAN: HELTID,"Var du anställd på heltid (inklusive semester,..."


In [129]:
LNU = pd.concat(delar)

In [135]:
LNU['Variabelnamn'].value_counts()

sidbrytning    282
Z488             1
Z760             1
Z537             1
Z355             1
              ... 
Z831             1
Z420             1
Z602             1
Z890             1
Z130             1
Name: Variabelnamn, Length: 817, dtype: int64

Här är lite extra exempel på hur camelot används.

In [None]:
variabel = {'variabel': var[0], 'beskrivning': var[1], 'enkättext': var[3]}

In [None]:
tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite
tables[0]

In [None]:
tables[0].parsing_report

In [None]:
#tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite
tables[0].df # get a pandas DataFrame!