In [14]:
import re
import os
import json
#import csv
from pathlib import Path
import time
import json

In [2]:
output_dir = Path("data/diapol_explore")

In [3]:
corpus = Path("/home/max/Corpora/fb-pol-corpus/flashback-pol-time/yearly")

In [4]:
dwt_seeds = Path("utils/dwts.txt")

In [5]:
def read_util(file_path):
    with open(file_path, "r") as f:
        terms = [line.strip("\n").split("#")[0] for line in f.readlines()]
    terms = [term for term in terms if term != ""]
    return terms    

In [6]:
read_util(dwt_seeds)

['förortsgäng',
 'återvandr',
 'berika',
 'kulturberika',
 'ordning_och_reda_i_flyktingpolitiken',
 'globalist',
 'hjälpa_på_plats',
 'självständig_utrikespolitik']

In [10]:
def read_paradigm(file_path):
    paradigms = read_util(file_path)
    paradigms = [tuple([re.sub(r" \Z", r"", column) for column in p.split(" -> ")]) for p in paradigms]
    return paradigms

In [11]:
read_paradigm("utils/dwts.paradigm")

[('förortsgäng', 'N1', '\\bförortsgäng(|et|en|s|ets|ens)\\b', 'förortsgäng'),
 ('förortsgäng',
  'N1C',
  '\\bförortsgängs?[^(\\s|et|en|s|ets|ens)].*\\b',
  'förortsgängX'),
 ('återvandr',
  'N1',
  '\\båtervandring(|en|ar|s|ens|ars|arna|arnas)\\b',
  'återvandring'),
 ('återvandr', 'N2', '\\båtervandrar(e|en|es|ens|na|nas)\\b', 'återvandrare'),
 ('återvandr', 'N3', '\\båtervandrande(|t|ts|n|ns|rnas)', 'återvandrande'),
 ('återvandr',
  'N1C',
  '\\båtervandrings?[^(\\s|en|ar|s|ens|ars|arna|arnas)].*\\b',
  'återvandringsX'),
 ('återvandr', 'V1', '\\båtervandra(|r|d|de|t)\\b', 'återvandra'),
 ('berika', 'N1', '\\bberikar(e|en|na|es|ens|nas)\\b', 'berikare'),
 ('berika', 'N1C', '\\bberikar[^(\\s|en|na|s|ens|nas)].*\\b', 'berikarX'),
 ('berika', 'V1', '\\bberik(a|ar|ad|ade|at|ande)\\b', 'berika'),
 ('berika', 'N1', '\\bkulturberikar(e|en|na|es|ens|nas)\\b', 'kulturberikare'),
 ('berika',
  'N1C',
  '\\bkulturberikar[^(\\s|en|na|es|ens|nas)].*\\b',
  'kulturberikarX'),
 ('berika', 'V1', '

In [23]:
def dwt_counter(corpus, full_paradigm):
    t0 = time.time()
    corpus = Path(corpus)
    files = sorted(os.listdir(corpus))
    years = [year.strip(".txt") for year in files]
    roots, pos, regex, lemmas = zip(*full_paradigm)
    counter = {year: {lemma: {} for lemma in lemmas} for year in years}    
   
    paradigm = list(zip(pos, regex, lemmas))
    roots = set(roots)
    roots = re.compile(r"(" + "|".join(roots) + ")")
    
    hits = 0
   
    for k, file in enumerate(files, start=1):
        with open(corpus / file, "r") as f:
            year = file.strip(".txt")
            
            for i, line in enumerate(f):
                
#                 if hits > 5000:
#                     return counter
                
                if i % 10000 == 0:
                    print(f"{file} {k} / {len(files)}: {i}; hits = {hits}    ", end="\r")
                
                if re.search(roots, line) == None:
                    continue
                
                else:
                    hits += 1

                    for pos, regex, lemma in paradigm:
                        regex = re.compile(regex)
                        payload = re.search(regex, line)
                        if payload == None:
                            continue
                        else:
                            hit = payload.group(0)
                            
                            if hit in counter[year][lemma]:
                                counter[year][lemma][hit] += 1
                            else:
                                counter[year][lemma][hit] = 1
    
    delta_t = time.time() - t0
    m = int(delta_t / 60)
    s = int(delta_t / 60)
    
    print("Done!", f"({m} m, {s} s)")
    
    return counter               

In [24]:
dd = dwt_counter(corpus, read_paradigm("utils/dwts.paradigm"))

Done! (3 m, 3 s): 3730000; hits = 76582    


In [26]:
with open("dwts-sb_data/diapol_explore/dwts_fb-pol.json", "w") as f:
    f.write(json.dumps(dd))

In [25]:
for year in dd.keys():
    print(year)
    for lemma in dd[year].keys():
        tot = sum(dd[year][lemma].values())
        if tot > 0:
            print(lemma.upper(), f"(n={tot})")
            for word, count in dd[year][lemma].items():
                print("\t", word, count)

2000
FÖRORTSGÄNG (n=8)
	 förortsgäng 4
	 förortsgängen 4
BERIKARE (n=12)
	 berikarna 8
	 berikare 4
BERIKA (n=36)
	 berikar 16
	 berikat 5
	 berikande 7
	 berika 5
	 berikade 3
KULTURBERIKARE (n=39)
	 kulturberikare 19
	 kulturberikarna 10
	 kulturberikaren 10
KULTURBERIKARX (n=1)
	 kulturberikargäng 1
KULTURBERIKA (n=7)
	 kulturberikande 5
	 kulturberika 1
	 kulturberikade 1
HJÄLPA_X_PÅ_PLATS (n=1)
	 hjälpa folket på plats 1
2001
BERIKARE (n=5)
	 berikarna 1
	 berikare 3
	 berikaren 1
BERIKARX (n=5)
	 berikar- 5
BERIKA (n=19)
	 berikar 8
	 berikande 7
	 berika 4
KULTURBERIKARE (n=27)
	 kulturberikare 19
	 kulturberikaren 6
	 kulturberikarna 2
KULTURBERIKA (n=4)
	 kulturberikade 2
	 kulturberikande 2
2002
FÖRORTSGÄNG (n=2)
	 förortsgäng 1
	 förortsgänget 1
BERIKARE (n=3)
	 berikare 2
	 berikarna 1
BERIKA (n=21)
	 berikat 1
	 berika 6
	 berikande 3
	 berikar 8
	 berikad 3
KULTURBERIKARE (n=9)
	 kulturberikare 7
	 kulturberikarna 2
KULTURBERIKA (n=2)
	 kulturberika 1
	 kulturberikar 1
GL

	 hjälpa folk på plats 4
	 hjälpa dem och betydligt fler på plats 1
	 hjälper man bäst genom att ge dem en tillfällig tillflykt eller genom att hjälpa dem på plats 1
	 hjälpa för dom pengarna ... det är fan vidrigt hur man låter detta ske varför ska bara vissa ha hjälp med lyxliv i sverige när vi kunnat hjälpa så många mer på plats 1
	 hjälpa fler personer på plats 1
	 hjälpa mångfalt så många gånger fler på plats 1
	 hjälpa kanske hundra människor på plats 1
	 hjälpa dom på plats 1
	 hjälpa dessa på plats 2
	 hjälpa människor på plats 1
	 hjälpa dem så ska vi hjälpa dem på plats 1
	 hjälpa negrerna på plats 1
	 hjälpa folk i andra länder så är hjälp på plats 1
	 hjälpa så otroligt många fler om vi hjälper dom på plats 1
	 hjälpa tusen somalier på plats 1
	 hjälpa . på plats 1
	 hjälpa folk i ex.vis krigshärjade länder ska man göra det på plats 1
	 hjälpa negrer som har det svårt genom att flytta dem till sverige utan vi borde kanske istället hjälpa dem på plats 1
	 hjälpa om man istäl

	 globalistvärld 1
	 globalistvurmare 1
	 globalistpack 1
	 globalistmaffiatyper 1
	 globalistliberalt 2
	 globalistohyran 1
	 globalistmafians 1
	 globalistländer 1
	 globalistägda 1
	 globalistvänner 1
	 globalistjudarna 1
	 globalistmedia 1
	 globalistjuden 1
	 globalistförespråkare 1
	 globalistmakten 2
	 globalistbankirjudar 1
	 globalisthöjdare 1
	 globalistgrepp 1
	 globalistlakej 1
HJÄLPA_PÅ_PLATS (n=42)
	 hjälpa på plats 41
	 hjälper på plats 1
HJÄLPA_X_PÅ_PLATS (n=209)
	 hjälpa . av dessa människor vi kan hjälpa många fler genom att ta dessa pengar och hjälpa dom på plats 1
	 hjälpa dem på plats 15
	 hjälpa flyktingar på plats 14
	 hjälpa människor på plats 20
	 hjälpa många fler på plats 2
	 hjälpa männsiskor som har det svårt men det görs mycket bättre och effektivare på plats 1
	 hjälpa dom på plats 9
	 hjälper flest flyktingar att hjälpa dem i sverige med allt vad de innebär i form av migrationsärenden bidrag sfi sjukvård skola etc jämfört med att hjälpa dem på plats 1
	 

	 hjälpa människorna på plats 4
	 hjälpa folk men skicka för i helvete inte skiten hit till europa utan hjälp dom på plats 1
	 hjälpa en person i sverige istället för  st på plats 1
	 hjälpa folk i katastrofer . personer sprider information om det online  idealister åker till platsen och bidrar med hjälp på plats 1
	 hjälpa personer på plats 1
	 hjälpa främlingarna på plats 1
	 hjälpa mer flyktingar på plats 1
	 hjälpa till med att få delegationen i arbete väl på plats 1
	 hjälpa romer på plats 2
	 hjälpa rumänien att stödja romerna på plats 1
	 hjälpa  personer på plats 1
	 hjälpa människor så hjälper man på plats 1
	 hjälpa betydligt fler på plats 1
	 hjälpa andra människor så kan var man bestämma inom vilken utsträckning de vill göra det och hjälpen kommer då att ske på plats 1
	 hjälpa och rädda folk på plats 1
	 hjälpa bistå men på plats 1
	 hjälpa fler av dem på plats 1
	 hjälpa dem som är i behov på plats 1
	 hjälpa alla på plats 2
	 hjälpa personer i utsatta områden på plats 1


	 berikarna 36
	 berikares 2
	 berikaren 5
BERIKARX (n=8)
	 berikarkuk 1
	 berikarproblem 2
	 berikarröv 1
	 berikarland 1
	 berikartrollen 1
	 berikarbrott 1
	 berikarfenomen 1
BERIKA (n=662)
	 berika 172
	 berikade 95
	 berikad 28
	 berikande 139
	 berikar 141
	 berikat 87
KULTURBERIKARE (n=107)
	 kulturberikare 70
	 kulturberikarna 31
	 kulturberikarnas 5
	 kulturberikares 1
KULTURBERIKARX (n=1)
	 kulturberikarkorv 1
KULTURBERIKA (n=51)
	 kulturberikad 12
	 kulturberikade 12
	 kulturberika 3
	 kulturberikar 1
	 kulturberikat 7
	 kulturberikande 16
ORDNING_OCH_REDA_I_FLYKTINGPOLITIKEN (n=7)
	 ordning och reda i flyktingpolitiken 7
GLOBALIST (n=2074)
	 globalisternas 240
	 globalisterna 813
	 globalister 549
	 globalist 403
	 globalisters 10
	 globalisten 53
	 globalists 6
GLOBALISTX (n=356)
	 globalistbankiren 1
	 globalist- 64
	 globalistlakejer 5
	 globalistorganisationer 2
	 globalistmedia 23
	 globalistmaffian 31
	 globalistledare 1
	 globalistprojekt 4
	 globalistmotståndare 2
	

	 hjälpa till på plats 3
	 hjälpa mena länder på plats 1
	 hjälpa alla riktiga offer på plats 1
	 hjälpa shemale-afghanen med tal krönikor och pamfletter men man är inte på plats 1
	 hjälpa många ärliga   tals i hemlandet på plats 1
	 hjälpa    eller så många du vill med fördel på plats 1
	 hjälpa människor hade de bäst hjälps på plats 1
	 hjälpa alla på plats 1
	 hjälpa dem på plats 8
	 hjälpa personer på plats 1
	 hjälpa till med att införskaffa mat ge möjligheter till utbildning på plats 1
	 hjälpa xxx xxx antal fler på plats 1
	 hjälpa mer på plats 1
	 hjälpa så många som möjligt så är det mest effektivt att hjälpa dem på plats 1
	 hjälpa utom-européerna så står det dig fritt att flytta ner dit och hjälpa de på plats 1
	 hjälpa fler på plats 2
	 hjälpa folk på plats 5
	 hjälpa dom på plats 2
	 hjälpa flyktingar det hade i såfall skett på plats 1
	 hjälpa människorna på plats 1
	 hjälpa hjälp på plats 1
	 hjälpa andra dock helst på plats 1
	 hjälpa tusentals på plats 1
	 hjälpa flyk

	 globalistjudens 3
	 globalistmanér 1
	 globalistägda 4
	 globalistföreningarna 1
	 globalistvänster 2
	 globalistmaffiosos 1
	 globalisttankar 1
	 globalistvän 1
	 globalisthydrans 2
	 globalistföretagen 1
	 globalistmakten 3
	 globalisthunden 1
	 globalistmurvlar 1
	 globalistorganisations 1
	 globalistdiskussion 1
	 globalistlydigt 1
	 globalistviruset 1
	 globalistplanerna 1
	 globalistjävlar 2
	 globalistpiskan 2
	 globalistprogressiva 1
	 globalistorganisation 2
	 globalistliberalerna 2
	 globalistdekadens 1
	 globalistmajorinetten 1
	 globalistgroupie 1
	 globalistförespråkarna 1
	 globalisthökarna 1
	 globalistfamiljerna 1
	 globalistföretag 1
	 globalistmajorinett 1
	 globalistlobbyn 1
	 globalistpressen 1
	 globalistpresidenten 1
	 globalistmöte 1
	 globalisttrupper 1
	 globalistmongot 1
	 globalisthusse 1
	 globalistlojala 1
	 globalistdrulen 1
	 globalistprodukter 1
	 globalistpåfund 1
	 globalistliberalismen 2
HJÄLPA_PÅ_PLATS (n=44)
	 hjälpa på plats 44
HJÄLPA_X_PÅ_PLATS 

	 globalistmarxistiska 2
	 globalistmaggan 2
	 globalistbossen 1
	 globalistforumet 1
	 globalistpatrasket 1
	 globalistländer 1
	 globalistjävlarna 2
	 globalistpasset 1
	 globalistprodukter 1
	 globalistdrängar 1
	 globalistgökarna 1
	 globalistgrej 1
	 globalistjudesocialist 1
	 globalistlögnen 1
	 globalisthållet 1
	 globalistmaktens 1
	 globalistvurmarna 1
	 globalistjävel 1
	 globalistmarionetten 1
	 globalisttänk 1
	 globalistledare 1
	 globalistbögar 2
	 globalistländerna 1
	 globalisthjonen 1
	 globalistprojektets 1
	 globalistmedlöpare 1
	 globalistprojeketet 1
	 globalistbolagens 1
	 globalistjippo 1
	 globalistmysgemenskapen 1
	 globalistfälla 1
	 globalistmyntet 2
	 globalisthöjdarmöte 1
	 globalisthänsyn 1
	 globalistdårskapet 3
	 globalistmerkantilismen 1
	 globalistpolitiken 1
	 globalisthjärna 1
	 globalistfrälsta 1
	 globalisthororna 3
	 globalistpaketet 1
	 globalistmaskin 1
	 globalistjudetidning 1
	 globalistgalning 2
	 globalistbögen 1
	 globalistmedian 1
	 global