  # 0. Bibliotek och data
  Biblioteket `sqlite3` krävs för att skapa funktionen `Nyrad()` nedan. SLOSH-datafilen läses in.

In [1]:
import sqlite3
import pandas as pd

In [2]:
datafil = r'\\win.su.se\dfs\common\stressforskning.su.se\SLOSH-data\SLOSH och AMU\SLOSH\Enkätdata\SLOSH (Huvudfil, t.o.m. 2018)\Test\Slosh_all_amuar_18.xlsx'

df = pd.read_excel(datafil)

# 1. Definiera funktionen  
Funktionen `Nyrad()` tar (namnet på) en tabell, en tuple med kolumnnamn samt en tuple med kolumnvärden. Den skapar en rad av denna information och försöker lägga in den i databasen. Om den lyckas kommer den SQL-kod som används för att skapa raden att noteras i en text-fil. Denna text-fil ska tjäna dels som en backup men även som en logg. Skulle något hända med databasen går det enkelt att bara köra text-filen så återskapas allting.  
  Ifall funktionen inte lyckas lägga in en rad i databasen, kanske p.g.a. att "foregin key" inte respekteras, kommer ett felmeddelande konstatera detta. För mer information om hur SQLite används i python: https://pynative.com/python-sqlite-insert-into-table/.

In [3]:
def Nyrad(tabell, kolumner, värden):    
    try:
        # Koppla databasen
        sqliteConnection = sqlite3.connect('SLOSH.db')

        # Skapa en "cursor"... vet ej vad detta är, men det är nödvändigt.
        cursor = sqliteConnection.cursor()

        print("Successfully Connected to SQLite")

        # Denna query ska skrivas i SQL och körs av python mot databasen
        sqlite_insert_query = 'INSERT INTO {} {} VALUES {}'.format(tabell, kolumner, värden)

        # Först måste 'foreign key constraint' slås på, i SQLite är detta avstängt som default. 
        cursor.execute('PRAGMA foreign_keys = 1')

        # Nu kan raden läggas in
        cursor.execute(sqlite_insert_query)

        # commit:a till databasen
        sqliteConnection.commit()
        print('\033[1m' + 'Rad inlagd i tabellen {}'.format(tabell), cursor.rowcount)

        # Stäng
        cursor.close()
        
        # När en rad lagts till ska SQL-kommandot sparas i en textfil.
        text = open("SQL-logg.txt", "a", encoding = 'UTF-8')
        text.write('INSERT INTO {} {} VALUES {};\n \n'.format(tabell, kolumner, värden))
        text.close()

    except sqlite3.Error as error:
        print("Failed to insert data into sqlite table", error)
    finally:
        if (sqliteConnection):
            sqliteConnection.close()
            print("The SQLite connection is closed")
    

# 2.Transkribera item  
Här transkriberas ett item i taget. Den transkriberade informationen kommer att användas för att skapa rader i flera olika tabeller. Exempelvis förekommer `kodlista` i tre olika tabeller. Se först hur stor andel av SLOSH som redan dokumenterats.    

**OBS!**  
Det är viktigt att databasfilen `SLOSH.db` inte används av något annat program samtidigt som pythonkärnan försöker få tillgång till den. Det går inte att skriva information till databasen från mer än ett ställe samtidigt. Se följande kommentar från stackoverflow:  
>Yes SQLite can support multiple users at once. It does however lock the whole database when writing, so if you have lots of concurrent writes it is not the database you want (usually the time the database is locked is a few milliseconds - so for most uses this does not matter). But it is very well tested and very stable (and widely used) so you can trust it.
You may read this short document for information when to use SQLite and not: http://www.sqlite.org/whentouse.html

In [4]:
totvar = len(df.columns)

# Koppla databasen
sqliteConnection = sqlite3.connect('SLOSH.db')

# Skapa en "cursor"... vet ej vad detta är, men det är nödvändigt.
cursor = sqliteConnection.cursor()

# Denna query ska skrivas i SQL och körs av python mot databasen
cursor.execute('SELECT variabel FROM Variabler')

dokvar = len(cursor.fetchall())

# Stäng
cursor.close()

print('\033[1m' + 'Andel dokumenterad data: {}%'.format(round(100*dokvar/totvar, 2)))

[1mAndel dokumenterad data: 35.43%


Börja med att se efter ifall en given variabel förekommer i working, non-working eller båda. Specificera variabelnamnet.

In [13]:
variabel = 'sick1v_1'

In [6]:
r = 'r_{}'.format(variabel[-1])

frek_nw = df.loc[df[r] == 1, variabel].value_counts()

frek_w = df.loc[df[r] == 2, variabel].value_counts()

if len(frek_w) == 0:
    print('Variabeln {} förekommer ej i working'.format(variabel))
    
elif len(frek_nw) == 0:
    print('Variabeln {} förekommer ej i non-working'.format(variabel))
    
else:
    print('Variabeln {} förekommer i working och i non-working'.format(variabel))

    

Variabeln sick1v_1 förekommer i working och i non-working


Undersök frekvenstabellen:

In [14]:
r = 'r_{}'.format(variabel[-1])

df.loc[df[r] == 2, variabel].value_counts(dropna = False).sort_index()

1.0    2606
2.0    1442
3.0     803
4.0     229
NaN      61
Name: sick1v_1, dtype: int64

Givet testet ovan går det att transkribera resten av informationen. Notera att ifall variabeln förekommer i både working och non-working måste det göras två insättningar relationsdatabasen. 

In [15]:
enkät = 'SLOSH 06 working'
beskrivning = ''
itemnr = 'B12_a'
enkättext = """Hur många gånger har du varit sjukskriven en vecka
eller mindre under de senaste 12 månaderna? Räkna
inte med vård av sjukt barn i ditt svar."""

kodlista = ''
kodsvar = {'1': 'Ingen gång', '2': 'En gång', '3': 'Två till tre gånger', '4': 'Fyra gånger eller mer', '.': 'Missing'}

# 4. Infoga rader i databasen  
Nu kommer den transkriberade informationen att användas tillsamman med funktionen `Nyrad()` för var och en av tabellerna i databasen.

## C: Kodlistor

In [16]:
tabell = 'Kodlistor'

kolumner = ('KODLISTA')

värden = (kodlista)

In [17]:
Nyrad(tabell, kolumner, värden)

Successfully Connected to SQLite
Failed to insert data into sqlite table near "KODLISTA": syntax error
The SQLite connection is closed


## G: Enkättexter

In [18]:
tabell = 'Enkättexter'

kolumner = ('ENKÄTTEXT')

värden = (enkättext)

In [19]:
Nyrad(tabell, kolumner, värden)

Successfully Connected to SQLite
Failed to insert data into sqlite table near "ENKÄTTEXT": syntax error
The SQLite connection is closed


## H: Svarstexter

In [20]:
tabell = 'Svarstexter'

kolumner = ('SVARSTEXT')

värden = (svarstext)

NameError: name 'svarstext' is not defined

In [None]:
Nyrad(tabell, kolumner, värden)

## D: Kodlistor_stor

In [None]:
tabell = 'Kodlistor_stor'

kolumner = ('K_ID', 'KODLISTA', 'KOD', 'SVARSTEXT')

In [None]:
for i in kodsvar.keys():
    värden = (kodlista, i, kodsvar[i])
    Nyrad(tabell, kolumner, värden)

## B: Variabler

In [None]:
tabell = 'Variabler'

kolumner = ('VARIABEL', 'ENKÄT', 'BESKRIVNING', 'ITEMNR', 'ENKÄTTEXT', 'KODLISTA')

värden = (variabel, enkät, beskrivning, itemnr, enkättext, kodlista)

In [None]:
Nyrad(tabell, kolumner, värden)