In [1]:
def pos_thingie(sentence):
    #!/usr/bin/env python3
    """Python 3 Example script for sending queries to the Sparv 2 API."""

    import json

    # URL to the Sparv 2 API:
    sparv_url = "https://ws.spraakbanken.gu.se/ws/sparv/v2/"

    # The input text to be processed by Sparv:
    sparv_input = str(sentence)

    # Optional settings, specifying what analysis should be done (in this case compound analysis only):
    # Check https://ws.spraakbanken.gu.se/ws/sparv/v2/#settings for more info
    sparv_settings = json.dumps({
        "corpus": "Korpusnamn",
        "lang": "sv",
        "textmode": "plain",
        "positional_attributes": {
            "lexical_attributes": [
                "pos",
                "msd",
                "lemma"
            ]
        },
        "text_attributes": {
            "readability_metrics": [
                "lix",
                "ovix",
                "nk"
            ]
        }
    })

    query_parameters = {"text": sparv_input, "settings": sparv_settings}


    #-------------------------------------------------------------------
    # Example using Python's built-in urllib.request
    # https://docs.python.org/3/library/urllib.request.html
    #-------------------------------------------------------------------

    import urllib.request
    import urllib.parse

    enc_query = urllib.parse.urlencode(query_parameters).encode("UTF-8")
    resp = urllib.request.urlopen(sparv_url, data=enc_query).read()
    
    print("\nSparv response using urllib:\n")
    o = resp.decode("UTF-8")
    print(o)

    #-------------------------------------------------------------------
    # Example using the more intuitive but third-pary Requests library
    # https://docs.python-requests.org/en/master/
    #-------------------------------------------------------------------

    import requests

    response = requests.get(sparv_url, params=query_parameters)

    print("\n\nSparv response using the requests library:\n")
    print(response.text)
    
    return o

In [17]:
def printss(s1, s2):
    print("ORIGINAL:")
    good = pos_thingie(s1)
    print(good)
    print("_____________________________________________________")
    print("CORRECTED:")
    bad = pos_thingie(s2)
    print(bad)
    
    return str(good), str(bad)

In [1]:
import pandas as pd
import csv

file = "Sheet1.csv"
df = pd.read_csv(file)

pairs = []

with open(file, "r") as f:
    reader = csv.reader(f, delimiter="\t")
    for i, line in enumerate(reader):
        l = line[0].split(',')
        if l[6] == 'S-FinV':
            pairs.append((l[2], l[3]))
            
print(pairs)
print(len(pairs))

[('När jag kom först 2012 jag bodde i en kommunal lägenhet med 3 andra personer .', 'När jag först kom 2012 bodde jag i en kommunal lägenhet med 3 andra personer .'), ('Ibland vi kan titta och lyssna på hur det funkar .', 'Ibland kan vi titta och lyssna på hur det funkar .'), ('Ibland kan vi titta och lyssna på hur funkar det .', 'Ibland kan vi titta och lyssna på hur det funkar .'), ('Men nu jag är inte intresserad av den längre .', 'Men nu är jag inte intresserad av den längre .'), ('Dessutom kursen passar inte bra för mig .', 'Dessutom passar kursen inte bra för mig .'), ('Tyvärr någonting har hänt som gör att jag inte kan gå på kursen och jag önskar att få pengarna tillbaka .', 'Tyvärr har någonting hänt som gör att jag inte kan gå på kursen och jag önskar att få pengarna tillbaka .'), ('För det första måste jag stanna där lite längre så kan jag inte börja på den här kursen .', 'För det första måste jag stanna där lite längre så jag kan inte börja på den här kursen .'), ('För det a

In [2]:
def pos_shorter(sentence):
    #!/usr/bin/env python3
    """Python 3 Example script for sending queries to the Sparv 2 API."""

    import json

    # URL to the Sparv 2 API:
    sparv_url = "https://ws.spraakbanken.gu.se/ws/sparv/v2/"

    # The input text to be processed by Sparv:
    sparv_input = str(sentence)

    # Optional settings, specifying what analysis should be done (in this case compound analysis only):
    # Check https://ws.spraakbanken.gu.se/ws/sparv/v2/#settings for more info
    sparv_settings = json.dumps({
        "corpus": "Korpusnamn",
        "lang": "sv",
        "textmode": "plain",
        "positional_attributes": {
            "lexical_attributes": [
                "pos",
                "msd",
                "lemma"
            ]
        },
        "text_attributes": {
            "readability_metrics": [
                "lix",
                "ovix",
                "nk"
            ]
        }
    })

    query_parameters = {"text": sparv_input, "settings": sparv_settings}


    #-------------------------------------------------------------------
    # Example using Python's built-in urllib.request
    # https://docs.python.org/3/library/urllib.request.html
    #-------------------------------------------------------------------

    import urllib.request
    import urllib.parse

    enc_query = urllib.parse.urlencode(query_parameters).encode("UTF-8")
    resp = urllib.request.urlopen(sparv_url, data=enc_query).read()
    
#     print("\nSparv response using urllib:\n")
#     o = resp.decode("UTF-8")
#     print(o)

    #-------------------------------------------------------------------
    # Example using the more intuitive but third-pary Requests library
    # https://docs.python-requests.org/en/master/
    #-------------------------------------------------------------------

    import requests

    response = requests.get(sparv_url, params=query_parameters)

#     print("\n\nSparv response using the requests library:\n")
#     print(response.text)
    
    return resp, response

In [None]:
def idkwhatimdoing(resp, response):
    print('ORIGINAL:')
    print("\nSparv response using urllib:\n")
    print(resp.decode("UTF-8"))
    print("\n\nSparv response using the requests library:\n")
    print(response.text)
    print('_________________________________')
    print('CORRECTED:')
    print("\nSparv response using urllib:\n")
    print(resp.decode("UTF-8"))
    print("\n\nSparv response using the requests library:\n")
    print(response.text)
    print('_________________________________')

In [3]:
def pos_n_words_maker(s):
    pos = []
    for line in s:
        if line.startswith('<w pos='):
            pos.append(line)
    sentence_pos_n_words = []
    for p in pos:
        p_split = p.split()
        if len(p_split) == 3:
            lemma = p_split[2] #change to lemma
            front = lemma[:lemma.index(">")] + '>'
            back = lemma[lemma.index("<"):]
            nofront = lemma.replace(front,'')
            nofrontnorback = nofront.replace(back, '')
            pos_n_word = (p_split[1][5:7], nofrontnorback) # (pos tag, word)
            sentence_pos_n_words.append(pos_n_word)
        if len(p_split) == 4:
            lemma = p_split[3]
            front = lemma[:lemma.index(">")] + '>'
            back = lemma[lemma.index("<"):]
            nofront = lemma.replace(front,'')
            nofrontnorback = nofront.replace(back, '')
            pos_n_word = (p_split[1][5:7], nofrontnorback) # (pos tag, word)
            sentence_pos_n_words.append(pos_n_word)
    return sentence_pos_n_words

In [4]:
import re

final = []
for p1, p2 in pairs:
    pp1, _ = pos_shorter(p1)
    pp2, _ = pos_shorter(p2)
    pp1 = pp1.decode("UTF-8")
    pp2 = pp2.decode("UTF-8")
#     a = a.text
    s1 = pp1.splitlines()
    s2 = pp2.splitlines()
    
    p_n_w1 = pos_n_words_maker(s1)
    p_n_w2 = pos_n_words_maker(s2)
    final.append((p_n_w1, p_n_w2))    

In [5]:
print(final)

[([('HA', 'När'), ('PN', 'jag'), ('VB', 'kom'), ('AB', 'först'), ('RG', '2012'), ('PN', 'jag'), ('VB', 'bodde'), ('PP', 'i'), ('DT', 'en'), ('JJ', 'kommunal'), ('NN', 'lägenhet'), ('PP', 'med'), ('RG', '3'), ('JJ', 'andra'), ('NN', 'personer'), ('MA', '.')], [('HA', 'När'), ('PN', 'jag'), ('AB', 'först'), ('VB', 'kom'), ('RG', '2012'), ('VB', 'bodde'), ('PN', 'jag'), ('PP', 'i'), ('DT', 'en'), ('JJ', 'kommunal'), ('NN', 'lägenhet'), ('PP', 'med'), ('RG', '3'), ('JJ', 'andra'), ('NN', 'personer'), ('MA', '.')]), ([('AB', 'Ibland'), ('PN', 'vi'), ('VB', 'kan'), ('VB', 'titta'), ('KN', 'och'), ('VB', 'lyssna'), ('PP', 'på'), ('HA', 'hur'), ('PN', 'det'), ('VB', 'funkar'), ('MA', '.')], [('AB', 'Ibland'), ('VB', 'kan'), ('PN', 'vi'), ('VB', 'titta'), ('KN', 'och'), ('VB', 'lyssna'), ('PP', 'på'), ('HA', 'hur'), ('PN', 'det'), ('VB', 'funkar'), ('MA', '.')]), ([('AB', 'Ibland'), ('VB', 'kan'), ('PN', 'vi'), ('VB', 'titta'), ('KN', 'och'), ('VB', 'lyssna'), ('PP', 'på'), ('HA', 'hur'), ('VB'

In [6]:
print(len(final))

39


In [16]:
a = ([('AB', 'Så'), ('VB', 'önskar'), ('PN', 'jag'), ('SN', 'att'), ('PN', 'du'), ('VB', 'betalar'), ('PL', 'tillbaka'), ('PS', 'min'), ('NN', 'kursavgift'), ('AB', 'så'), ('AB', 'snart'), ('KN', 'som'), ('JJ', 'möjligt'), ('MA', '.')], [('KN', 'Så'), ('PN', 'jag'), ('VB', 'önskar'), ('SN', 'att'), ('PN', 'du'), ('VB', 'betalar'), ('PL', 'tillbaka'), ('PS', 'min'), ('NN', 'kursavgift'), ('AB', 'så'), ('AB', 'snart'), ('KN', 'som'), ('JJ', 'möjligt'), ('MA', '.')])

df1 = pd.DataFrame(a[0], columns =['POS og', 'Word og'])
df2 = pd.DataFrame(a[1], columns =['POS cr', 'Word cr'])

frames = [df1, df2]
  
result = pd.concat(frames, axis=1, join='inner')
print(result)

   POS og     Word og POS cr     Word cr
0      AB          Så     KN          Så
1      VB      önskar     PN         jag
2      PN         jag     VB      önskar
3      SN         att     SN         att
4      PN          du     PN          du
5      VB     betalar     VB     betalar
6      PL    tillbaka     PL    tillbaka
7      PS         min     PS         min
8      NN  kursavgift     NN  kursavgift
9      AB          så     AB          så
10     AB       snart     AB       snart
11     KN         som     KN         som
12     JJ     möjligt     JJ     möjligt
13     MA           .     MA           .
