In [1]:
!pip --quiet install transformers datasets torch

In [2]:
import transformers
import datasets
from transformers.pipelines.pt_utils import KeyDataset
from pprint import PrettyPrinter
from tqdm.auto import tqdm

pprint = PrettyPrinter(compact=True).pprint

In [None]:
data=[]
with open("sorted_qa_binary_parsebank.tsv", 'r') as f:
    for line in f:
        line=line.rstrip("\n")
        cols=line.split("\t")
        data.append(cols)

texts = [text[2] for text in data]
ids = [text[0] for text in data]

In [4]:
def load_dataset(name, files):
    dset = datasets.load_dataset(
        "csv",
        data_files={name: files},
        delimiter="\t",
        split=name, # so that it returns a dataset instead of datasetdict
        column_names=['id', 'label', 'text', 'prob1', 'prob2'],
        features=datasets.Features({    # Here we tell how to interpret the attributes
        "text":datasets.Value("string"),
        "label":datasets.ClassLabel(names=["QA_NEW", "NOT_QA"]),
        "id":datasets.Value("string"),
        "prob1":datasets.Value("float"),
        "prob2":datasets.Value("float"),
         }))
    return dset

In [5]:
dataset = load_dataset("train", "qa-sorted/sorted_qa_binary_parsebank.tsv")

Downloading and preparing dataset csv/default to /users/annieske/.cache/huggingface/datasets/csv/default-3b78b2539888fc6b/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to /users/annieske/.cache/huggingface/datasets/csv/default-3b78b2539888fc6b/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317. Subsequent calls will reuse this data.


In [6]:
def replace_n(example):
  example["text"] = example["text"].replace("\n", " ")
  example["text"] = example["text"].replace("\\n", " ")

  return example

dataset = dataset.map(replace_n)

Map:   0%|          | 0/31655 [00:00<?, ? examples/s]

In [20]:
token_classifier = transformers.pipeline("ner", model="../models/token-qa/question_model", tokenizer="xlm-roberta-base", aggregation_strategy="simple", ignore_labels=[""],device=0) # make ignore labels empty to not ignore O
# simple aggregation has been best so far?
 #stride=50, 

In [21]:
tokens = token_classifier(KeyDataset(dataset, "text")) #texts instead of keydataset

In [22]:
for idx, extracted_entities in enumerate(tokens):
    print("Original text:\n{}".format(dataset[idx]["text"]))
    print("Original id:\n{}".format(dataset[idx]["id"]))
    print("Extracted entities:")
    for entity in extracted_entities:
        print(entity)

Original text:
Olet täällä  31.1.2011  Kysymys  Terve, semmoista olisin kysynyt, että mitä tarkoittaa aivopoimut ja mihinkä se mahdollisesti vaikuttaa? Minun 4,5v tyttöni aivot on kuvattu ja lääkäri sanoi että mahdollisesti aivopoimuja voi olla liian vähän. Puheterapeutille oli lähete, mutta hänen mielestään artikuloi hyvin ja muutenkin ok..ei tarvitse sitä... Kaiken tämän ruljanssin takana on pieni pää tytölläni, jota on tutkittu kohta jo 3,5 vuotta ja selkoa ei ole tullut. Hänellä on todettu mikrokefalia, pään ympärys on tällä hetkellä 42,3 cm...että osaisitteko selittää niistä poimuista ja mihin ne mahdollisesti vaikuttaa? Lääkäri epäili että voi olla vaikeampaa oppia jotain asioita. Mutta olisi mukavaa jos voisitte jotain vastailla.  Vastaus  Hyvä kysyjä,  Noihin tutkimustuloksiin ei pidä tuijottaa. Pääasiahan on miten tyttärenne kehittyy. Jolleivät vanhemmat eivätkä edes puheterapeutti ole huomanneet mitään kuntoutettavaa, voitte mielestäni unohtaa löydökset. Jos jotain poikkeavaa

Original text:
Hakutulokset  Kysy allergiasta  Kysymys  Hei! Minulla on ollut noin 8 vuoden ajan noin 1-2 kuukauden välein joskus voi olla vähän enemmän väliä, mutta pääsääntöisesti aivastuskohtauksia, aivastan n. 10 tuntia yhtäjaksoisesti ja nenäliinoja kuluu 100 kpl paketti ja joskus enemmän, nenässä on semmoinen olo kun siellä kävelisi miljoona muurahaista,kun kohtaus on ohi sen jälkeen on kamala päänsärky ja ikeniä jomottaa ja silmät on ihan ummessa. Olen saanut lääkäriltä nenäsumutetta ja antihistamiinia, mutta niistä ei ole apua kun kohtaus alkaa yllättäin. En ole löytänyt mitään selitystä tälle kun se voi alkaa yks kaks ja missä ja milloinka vaan eli ei katso aikaa ei paikkaa, mutta raju "tauti" on, yleensä seuraava päivä menee leväten. Mitä pitäisi tehdä, mikä avuksi?  Vastaus  Voimakkaat, kivuliaat aivastuskohtaukset ovat harvinaisia. Niihin ei ole mitään yksittäistä syytä. Erikoislääkärillä käynti on ehdottomasti paikallaan. En ryhdy arvailemaan, mitä tutkimuksissa löytyy vai

Original text:
Vsd ja pieni koko  Kysymys  Hei, minua mietityttää että voiko sydänvika vaikuttaa vauvan kokoon? Meillä monen muuttuneen diagnoosin jälkeen todettiin vauvalla (joka on mahassa edelleen rv 34) VSD, ensin oli epäily hlhs, mutta kammio on kasvanut oikean kammion mukana, kapoisampana kylläkin, lääkärin mukaan kammion koko johtuu isosta vsd:tä. Kävimme juuri vauvan painoarviossa ja se oli vain 1764 g (rv 33+5), en siinä ymmärtänyt kysyä voiko sydänvika liittyä pieneen kokoon, kromosomit on tutkittu ja ne olivat kunnossa. Kuinka luotettava tutkimus se on? Niskaturvotusta vauvalla oli rv 12 0,6 eli ihan normaali.  Vastaus  Sydänvikainen tai yleensäkin sikiö, jolla on jokin rakennepoikkeavuus, ovat usein keskimääräistä pienempiä. Välttämättä näin ei kuitenkaan ole, vaan sikiö voi kasvaa aivan normaalisti. Kyseisen sikiön painoarvio menee melko lähelle normaalikäyrästön alarajaa ja vaattii siten tarkkaa kasvuseurantaa, mikä varmaan toteutuukin sydäntilanteen seurannan yhteydessä.

Original text:
Selaa kategorioita  Haava  Kysymys  Hei!  Olen nyt ymmärtänyt, että HIV ei siis tartu pintanaarmuista (esimerkiksi paperiviiltohaava, josta tulee verta), vaan haavan täytyy olla niin iso, että se vuotaa niin pahasti, että sitä täytyisi jo näyttää terveydenhoitajalle. Onko tämä totta? Ihmettelen, miksi kuitenkin laboratorioalalla kuitenkin tehdään altistuksesta tapaturmailmoitus, jos verta menee ihottumaiselle, haavaiselle tai rikkinäiselle iholle. Miksi näin, jos kuitenkaan HIV ei voi tästä tarttua? Vai voiko se tarttua?  Itselläni on paperiviiltohaavoja vähän väliä ja käsittelen näyteputkia lähes päivittäin. Pelkään HIV tartuntaa, ja on hämmentävää saada ristiriitaista tietoa. Onko se 100% varmaa, että mistään muusta haavasta HIV ei voi tarttua kuin syvästä terveydenhoitajan hoitoa vaativasta haavasta?  Vastaus  Hei. Hiv ei tartu paperiviiltohaavojen eikä pienten haavojen välityksellä. Työpaikoilla, joissa käsitellään verituotteita ja/tai neuloja on omat ohjeistuksensa 

Original text:
Vilkas sikiö (jatkoa)  Kysymys  Kävin tänään uusintaultrassa 21+6vko. Sikiön painoarvio oli 0,450 g ja päämitta vastasi viikkoja 22 ja raajat viikkoa 20. Kystaa ei näkynyt? Sovittiin raskauden jatkumisesta. Lapsivettä oli hiukan enemmän kuin normaalisti, napavirtaukset kaikki ok. Mistään löydöksistä ei mainittu enää? kasvot ok ja nenäkin ok. Ihmettelen enää tuota pään asiaa mansikkamaista, kun tänään sano sama lääkäri ettei ole mitään epämuodostumia??  Vastaus  Mansikkamainen pään muoto tarkoittaa, että pää on takaraivolta litteä ja siten mitta taka-eturaivo on tavallista lyhyempi. Tällainen pään muoto yhdistetään esim. 18-trisomiaan (yleensä muitakin löydöksiä).  Hieman tuntuu oudolta, että aikaisemmin oli runsaastikin erilaisia poikkevia löydöksiä (2 napasuonta, lyhyet luut, pleksuskysta jne) ja nyt siis kaikki normaalia. En pysty sanomaan mitään selitystä "kadonneille poikkeavuuksille". Kyllä asiaan pitää tutkineen lääkärin ottaa kantaa.  Kysymyksestä ei käy ilmi pitk

Original text:
Kysymys: lattiavalun kuivuminen  Muut  Kyselin jo aikaisemmin keväällä muovimaton alta puskevan imelän hajun alkuperää, joka on nyt sitten paikallistettu kostean valun+primerin yhdistelmäksi. Eli n. 8 kk sitten valetusta maanvaraisesta 80mm laatasta on jätetty sementtiliima hiomatta (kunnolla) + päälle on vedetty praimeri pölyämisen estäjäksi (koska kyseessä laajennusosa, joka yhteydessä asuttuun osaan). Lattioihin vedettiin muovimatot oletetun kuivumisajan jälkeen (3 kk), jotka sitten n. kuukauden jälkeen asennuksesta poistettiin imelän hajaun takia. Lattiat olivat kuivumassa noin 3 kk paperilla suojattuna ja sen jälkeen pintakosteusmittareilla mitattuina olivat edelleenkin kosteita/märkiä. Nyt primerit+sementtiliimat on hiottu käsipelissä pois ja infrapunalämmittimet + kosteudenpoistaja ovat olleet viikon töissä ja tarkoituksena on tilata porareikämittaus (suhteellisen kosteuden mittaus) ensi viikolla. Kysymys kuuluu: onko todennäköistä, että valun kuivumattomuus johtu

Original text:
verta ulosteessa  25.11.2013  oireet  Kysyisin mieheni puolesta hänellä on n.2 vuoden ajan tullut ummetuksen yhteydessä verta pönttöön, veri on kirkasta ja sitä ei tule joka kerta vaan muutamien kuukausien välillä kun hänellä on ummetusta niin sillon ja paperiin tulee myös pyyhkiessä verta. Voiko olla syöpää vai peräpukama/haavauma ? Mieheni ei lähde lääkäriin. Ja olen huolissani  Hyvä kysyjä,  Yleisin syy kirkkaan verentuloon ulostuksen mukana ovat peräpukamat. Toinen mahdollinen verenvuodon aiheuttaja on peräaukon haavauma. Haavauma aiheuttaa myös kipua ulostuksen mukana. Ummetus lisää taipumusta kirkkaan verenvuodon tulemiseen ulostamisen yhteydessä. Peräpukamiin ja haavaumiin on olemassa hyvät ja helpot hoidot.  Ennen hoitojen aloittamista tulisi diagnoosi varmistaa, joten miehesi tulisi käydä oman lääkärin vastaanotolla. Vastaanottokäynnin yhteydessä arvioidaan myös, onko tarvetta paksusuolitähystyksen eli kolonoskopian tekemiselle. Usein tähystystä suositellaan, jo

Original text:
Ketonen vastaa  Uusimmat kysymykset  Missä vika, kun Nissan Almera 1,6 vm 96 saa kohtauksen sadekelillä ? Auto käynnistyy mutta käy äärimmäisen huonosti, ei ota kierroksia ja sammuu. Sama toistuu uudelleen käynnistettäessä. Jos auton saa liikkeelle, ongelma katoaa n. puolen tunnin ajon jälkeen. Jonnekin varmaankin kertyy kosteutta, mutta merkkihuoltamo nosti kädet heti pystyyn. Mikä neuvoksi ?  Kysymykseni koskee tuontiauton tuontia koskevia maksuja. Löysin netistä toki yhden laskurin, mutta siihen tuli teksti että tulli muuttanee verotusta tai jotain vastaavaa...  Joka tapauksessa haluaisin tietää mitä pitää laskea auton hinnan päälle noin suurin piirtein kun alkaa oikea auto löytymään. Eli esim. 15000 € hintainen auto Saksassa mitä se maksaa Suomessa rekisteröitynä. Tiedän että tähän vaikuttaa monet seikat kuten auton ensirekisteröintiajat ym. ym. mutta haluaisinkin vain jonkun karkea laskutavan millä edetä asiassa.  Tapio Ketonen:  Sillä, mitä auto maksaa Saksassa, ei

Original text:
Huoli sikiön koosta  Kysymys  Kävin neuvolalääkärin vastaanotolla rv 26+3. Painoarvio oli ultran mukaan tällöin 926 g. Sikiö vastasi reisiluun pituuden (FL=47,8 mm) ja vatsanympärysmitan (AC=216 mm) mukaan viikkoja 25+5. Sen sijaan pään halkaisijan mukaan sikiö vastaisi viikkoja 28+1 (BPD=69,5 mm). Tiedän, että mitoissa voi olla pieniä eroja, näin suuri ero vaikuttaa kuitenkin mielestäni oudolta. Onko normaalia, että pää on näin suuri näillä viikoilla? Voiko kysessää olla jokin kehitysvamma tai vesipää? Kannattaisiko minun käydä vielä uudestaan lääkärissä asian takia? Olen erittäin huolestunut, joten toivoisin, että vastaisit kysymykseeni!  Vastaus  Sikiön pään luut ovat vielä kovin pehmeät ja siten pään muoto voi jonkin verran vaihdella sikiön asennon mukaan (esim. pää alaspäin tai perä). Tästä johtuen nimenomaan pään leveysmitta voi vaihdella eri mittauskerroilla ja siten pään ympärysmitta on useinkin parempi mitta, sillä se ei vaihtele. Itselläni käytössä olevien mitt

Original text:
Olet täällä  Down-lapsen synnyttäminen  07.01.2004  Kysymys  Hei. Odotan Down-vauvaa ja laskettu aika on 8.2. Haluaisin tietää, pitäisikö synnytyksessä ottaa jotain erityistä huomioon lapsen diagnoosin kannalta? Onko alatiesynnytys tai keisarinleikkaus jostain syystä parempi ja vaikuttaako mahd. sydänvika (ei ainakaan vielä todettu)? Entä kipulääkitys synnytyksessä?  Vastaus  Hyvä kysyjä,  "Koska odotatte vauvaa, jolla on Downin oireyhtymä, olette varmaan oman synnytyssairaalan äitiyspoliklinikan seurannassa. Kehottaisin teitä soittamaan äitiyspoliklinikalle, että haluaisitte seuraavan vastaanoton yhteydessä keskustella synnytykseen liittyvistä asioista. Jos te ette ole vielä äitiyspoliklinikalla seurannassa, tällöin suosittelen, että pyydätte omasta neuvolasta lähetteen tälle poliklinikalle."  Keskustelu
Original id:
1-1523295
Extracted entities:
{'entity_group': 'B', 'score': 0.99989367, 'word': 'Olet', 'start': 0, 'end': 4}
{'entity_group': 'I', 'score': 0.9999989, 'w

Original text:
Kysymys: Missähän mahtaa olla vika, kun drivet, väyläpuut ja rauta 4 antavat kaikki todella matalan, mutta pitkän lyönnin?? Lyönti on yleensä suora ja rullii hyvin, mutta lentää todella matalana. Väyläpuissa ongelmana on myös usein toppi. Mikä on hyvä pallon paikka lyötäessä puu 7 tai puu 5:lla.  Maila voi tulla osumassa liikaa ylhäältäpäin palloon. Tällöin maasta lähtee suurehko pala irti lyönnin mukana ja lyönti jää matalaksi.  Maila voi tulla palloon liiaksi varsi eteenpäin kallellaan, jolloin mailan lavan nostokulma jää pieneksi. Ongelma voi johtua liian vahvasta otteesta.  Molempia voi korjata siirtämällä pallon paikkaa edemmäksi (oikealta lyövällä vasemmalle). Myös ylävartalon pitäminen enemmän takana voi auttaa. Otteen heikentämistäkin kannattaa harkita.  Pallon paikka kaltevilla puumiloilla voi olla vasemman kantapään kohdalla, mieluiten vähän sen sisäpuolella tai jopa keskellä. Edempää lyötäessä pallo nousee korkeammalle ja keskemmältä lentää matalammalla.
Origi

Original text:
Olet täällä  13.12.2011  Kysymys  Hei! Meillä on 4-viikkoinen poika, jolla on nk. Sydney line eli jos olen oikein ymmärtänyt niin nelisormipoimun lisäksi hänellä on sen yläpuolella toinen poimu (heart line) normaalisti. Itselläni tällainen on myös toisessa kädessä, mutta pojallamme se on molemmissa käsissä. Olen lukenut että Sydney line voi liittyä leukemiaan, Alzheimeriin, oppimisvaikeuksiin, Downin syndroomaan jne. Onko lapsellani automaattisesti joku kehityshäiriö tai sairaus vai voiko hän olla myös täysin terve ja kumpi on todennäköisempää. Asia vaivaa minua todella paljon, enkä saa sitä pois mielestäni.  Vastaus  Hyvä kysyjä,  Pojallasi ei ole automaattisesti mitään kehityshäiriötä tai sairautta. Normaaliväestössä muutamalla prosentilla löytyy nelisormipoimu toisessa tai molemmissa käsissä. Perheessänne lapsillasi voi olla suurempi todennäköisyys saada nelisormipoimut, koska itselläsikin on sellainen. Jos poikasi nyt kasvaa ja kehittyy normaalisti on todennäköisempä

Original text:
Selaa kategorioita  Oireet  Kysymys  Voiko ensioireet kestää kuusi kuukautta. Harrastin seksiä miehen kanssa kuusi kuukautta sitten, jonka jälkeen kaksi päivää sain mononuleoosin kaltaisia oireita. Olen testannut itseni 6 viikon ja 3kk kohdalla ja tulokset olivat negatiivisiä.  Kuitenkin minulla on edelleen nielurisat turvoksissa ja limakalvoillani on alkanut olla muutoksia. Minulla on jatkuva hiiva sekä häpyhuulissa ”moukkuja”.  Luin CDC:n sivuilta, että 97% vasta-aineet ovat mitattavissa 3kk kohdalla. Mitä jos kuulun tähän 3% jonka tulokset ei vielä näy.  Tulisiko minun vielä käydä HIV-testissä?  Vastaus  Hei, Sinun ei tarvitse enää käydä hiv-testissä kyseisen riskitilanteen vuoksi. Hiv-testin negatiivinen tulos on hyvin luotettava jo 6 viikon kuluttua viimeisestä riskitilanteesta ja täysin luotettava 3 kk kuluttua. Sinun kannattaa käydä lääkärillä, jotta saat apua oireisiisi, mutta hivin oireita ne eivät voi olla, vaan ne johtuvat jostakin muusta. Hivin ensioireet eiv

Original text:
Olet täällä  Ultra viikolla 12 + 2, sikiön niskaturvotus 3,3 mm  30.5.2006  Kysymys  Kävin juuri ultrassa viikolla 12+2 ja sikiön niskaturvotus oli 3,3 mm. Pelkään kovasti, että se on down. En kestä tätä odottamista. Mikä riski minulla on saada down? Ikäni on 27 v. Sikiön koko vastasi ultran mukaan tuota 12+2 viikkoa. Odotan pääsyä lapsivesipunktioon, kun asia vaivaa todella paljon. Masentaa!  Vastaus  Ikäriski 27-vuotiaalla raskausviikolla 12 on noin 1/800. 3,3 mm niskaturvotus nostaa sitä lähes 10-kertaiseksi eli riski on noin 1 prosentin luokkaa.  Keskustelu
Original id:
7-779921
Extracted entities:
{'entity_group': 'B', 'score': 0.9998907, 'word': 'Olet', 'start': 0, 'end': 4}
{'entity_group': 'I', 'score': 0.9999989, 'word': 'täällä Ultra viikolla 12 + 2, sikiön niskaturvotus 3,3 mm 30.5.2006 Kysymys Kävin juuri ultrassa viikolla 12+2 ja sikiön niskaturvotus oli 3,3 mm. Pelkään kovasti, että se on down. En kestä tätä odottamista. Mikä riski minulla on saada down? Ik

Original text:
Ketonen vastaa  saab 90, tai 9000 turbo  Kysymys:  onko mahdollista löytää suomesta saab 90 turbo ajokuntoinen ja hyvä. mitä olet mielta kannattaako ostaa saab 9000 3.0 t yli 200hv v6 koneella jolla ajettu yli300.000 jos auto pidetty hyvin. kulutus ja tulevat korjaukset  Tapio Ketonen:  Alkuperäistä tehdastekoista Saab 90 Turboa ei ole mahdollista ostaa, koska sellaisia ei rakennettu. Saab 900 Turboja varmaan vielä löytyy, siis niitä pitkittäismoottorisiakin. Ne ovat kuitenkin jo vähintään 20 vuotta vanhoja, joten kunnon kanssa on vähän niin ja näin.  Ysitonnisetkin ovat jo niin vanhoja, että niitä ei kannata ostaa kuin autoja oikein hyvin tuntevien. Koska kysyt asiaa täältä, vastaus kysymykseesi on: Ei kannata. Vanha Saab voisi olla kiinnostava kohde entisöidä, ja osiakin löytyy vielä helposti. Arvelen kuitenkin, että kysyt asiaa hankkiaksesi käyttöauton. Suosittelen katselemaan tähän tarkoitukseen uudempia ajokkeja.
Original id:
0-1540065
Extracted entities:
{'entity_g

Original text:
Selaa kategorioita  HIV-tartunnan mahdollisuus  Kysymys  Hei, lähetin jo kerran kysymykseni, mutta siihen ei ole tullut vastausta. Kokeilen siis uudestaan, jos viesti ei vaikka ole tullut perille. Ja jos vastaavaan kysymykseen ei vain ole ehditty vielä vastaamaan, pahoitteluni tästä toisesta viestistä.  Eli onko mahdollista saada verensokerin ottolaitteen lansetista (ei ole ontto) hiv- tai hepatiittitartuntaa? Ottolaitettani on mahdollisesti räplätty enkä älynnyt vaihtaa lansettia ennen kuin otin itseltäni verensokerin. Olen 1-tyypin diabeetikko. Mahdollisen toisen ihmisen käytön tai vahingon ja minun käyttöni välissä oli aikaa noin tunnin verran. Olisiko lansettiin jäänyt toisen veri jo kuivunut tartuttamattomaksi tässä ajassa, tai vaikka jo puolessa tunnissakin? Eli miten on hiv-tartunnan laita? Entä hepatiittien, jotka voivat tarttua myös kuivuneen veren välityksellä? Pitääkö siis olla huolissaan ja mennä testeihin, vai onko se aiheetonta?  Tämä on siinä mielessä erit

Original text:
Kysymys  Tervehdys! Onko mahdollista saada HIV-tartunta samaa nuuskatykkiä käyttäessä? Nuuska kun aiheuttaa noita pieniä haavaumia huuliin.  Vastaus  Hei! Hiv ei tartu nuuskatykin välityksellä.  suuseksi  Kysymys  Onko mahdollista saada tartunta jos verta menee peniksen limakalvoille suuseksissä?  Vastaus  Suuseksissä riski saada hiv-tartunta on osapuolella, joka saa spermaa tai emätineritettä suuhunsa. Mikäli syljen mukana on pieni määrä verta, ei tartuntariskiä synny. Toki teoreettinen riski tartuntaan on, jos suusta vuotaa peniksen limakalvoille runsaasti verta. Tämä ei kuitenkaan ole realistinen tilanne.  Hiv pelko  Kysymys  Elän ajoittain todella pahassa hiv pelossa, haluasin vastauksen lyhyeen vaikkakin vähän outoon kysymykseen. Kärsin ajoittain voimakkaasta takapolen kutinasta ja hikoilusta joten voinko saada hiv tartunnan omista likaisista ja hikisistä alushousuista? kun on tapana joskus vaistomaisesti raapia takapuolta kutinan takia mikä on aika kiusallista.  Va

KeyboardInterrupt: 

In [12]:
from tqdm import tqdm

texts = dataset["text"]

In [13]:
questions = []
answers = []
for idx, extracted_entities in enumerate(tqdm(tokens)):
  previous = ""
  question = ""
  answer = ""
  # PERHAPS INSTEAD OF WORD I SHOULD USE STOP AND START TO GET FROM THE TEXT
  # ^ DID NOT FIX THE SPACING FUCK, probably actually impossible to fix :(
    # ALSO TODO, if there are two question answer pairs? how to do this then? add some sort of fail safe here then
  for entity in extracted_entities:
    if entity["entity_group"] == "QB":
      question = question + dataset[idx]["text"][entity["start"]:entity["end"]] #entity["word"]
      previous = "QB"
      # I should take into account that sometimes QI might be before QB but maybe this is more trustworthy
    elif previous == "QB" and entity["entity_group"] == "QI" or previous == "QI" and entity["entity_group"] == "QB":
      question = question + dataset[idx]["text"][entity["start"]:entity["end"]]
      previous = "QI"
    elif entity["entity_group"] == "AB":
      answer = answer + dataset[idx]["text"][entity["start"]:entity["end"]]
      previous = "AB"
    if previous == "AB" and entity["entity_group"] == "AI" or previous == "AI" and entity["entity_group"] == "AB":
      answer = answer + dataset[idx]["text"][entity["start"]:entity["end"]]
      previous = "AI"
    elif entity["entity_group"] == "O":
      previous = "O"
  # if answer == "" or question == "":
  #   continue
  questions.append(question)
  answers.append(answer)

  1%|          | 314/31655 [00:04<07:07, 73.31it/s]


KeyboardInterrupt: 

In [17]:
questions = []
for idx, extracted_entities in enumerate(tqdm(tokens)):
  previous = ""
  question = ""
  # PERHAPS INSTEAD OF WORD I SHOULD USE STOP AND START TO GET FROM THE TEXT
  # ^ DID NOT FIX THE SPACING FUCK, probably actually impossible to fix :(
    # ALSO TODO, if there are two question answer pairs? how to do this then? add some sort of fail safe here then
  for entity in extracted_entities:
    if entity["entity_group"] == "QB":
      question = question + dataset[idx]["text"][entity["start"]:entity["end"]] #entity["word"]
      previous = "QB"
      # I should take into account that sometimes QI might be before QB but maybe this is more trustworthy
    elif previous == "QB" and entity["entity_group"] == "QI" or previous == "QI" and entity["entity_group"] == "QB":
      question = question + dataset[idx]["text"][entity["start"]:entity["end"]]
      previous = "QI"
    elif entity["entity_group"] == "O":
      previous = "O"
  questions.append(question)

  1%|          | 250/31655 [00:03<07:09, 73.12it/s]


KeyboardInterrupt: 

In [18]:
answers = []
for i in range(len(questions)):
    answers.append("")

In [None]:
answers = []
for idx, extracted_entities in enumerate(tqdm(tokens)):
  previous = ""
  answer = ""
  # PERHAPS INSTEAD OF WORD I SHOULD USE STOP AND START TO GET FROM THE TEXT
  # ^ DID NOT FIX THE SPACING FUCK, probably actually impossible to fix :(
    # ALSO TODO, if there are two question answer pairs? how to do this then? add some sort of fail safe here then
  for entity in extracted_entities:
    elif entity["entity_group"] == "AB":
      answer = answer + dataset[idx]["text"][entity["start"]:entity["end"]]
      previous = "AB"
    if previous == "AB" and entity["entity_group"] == "AI" or previous == "AI" and entity["entity_group"] == "AB":
      answer = answer + dataset[idx]["text"][entity["start"]:entity["end"]]
      previous = "AI"
    elif entity["entity_group"] == "O":
      previous = "O"
  answers.append(answer)

In [19]:
for t, q, a in zip(texts, questions, answers):
  print("TEXT:", t)
  print("QUESTION:", q)
  print("ANSWER:", a)
  print("-------------")

TEXT: Olet täällä  31.1.2011  Kysymys  Terve, semmoista olisin kysynyt, että mitä tarkoittaa aivopoimut ja mihinkä se mahdollisesti vaikuttaa? Minun 4,5v tyttöni aivot on kuvattu ja lääkäri sanoi että mahdollisesti aivopoimuja voi olla liian vähän. Puheterapeutille oli lähete, mutta hänen mielestään artikuloi hyvin ja muutenkin ok..ei tarvitse sitä... Kaiken tämän ruljanssin takana on pieni pää tytölläni, jota on tutkittu kohta jo 3,5 vuotta ja selkoa ei ole tullut. Hänellä on todettu mikrokefalia, pään ympärys on tällä hetkellä 42,3 cm...että osaisitteko selittää niistä poimuista ja mihin ne mahdollisesti vaikuttaa? Lääkäri epäili että voi olla vaikeampaa oppia jotain asioita. Mutta olisi mukavaa jos voisitte jotain vastailla.  Vastaus  Hyvä kysyjä,  Noihin tutkimustuloksiin ei pidä tuijottaa. Pääasiahan on miten tyttärenne kehittyy. Jolleivät vanhemmat eivätkä edes puheterapeutti ole huomanneet mitään kuntoutettavaa, voitte mielestäni unohtaa löydökset. Jos jotain poikkeavaa ilmenee,