## Notebook for topic-modellering av "kvindernes mening om 'kvindernes underkuelse'"
Utviklet av Lars B.G. Johnsen

Litt boilerplate import

In [1]:
import topicmodelling as tm
import imp
import util
from bs4 import BeautifulSoup
import fork_kombo as fk
import matplotlib.pyplot as plt
%matplotlib inline

### Hent selve teksten:



In [2]:
my_corpus=['Kvindernes_mening_om_Kvindernes_underkuelse.txt']

### Bygging av korpuset:

In [3]:
corpus=[]
for filename in my_corpus:
    text = open(filename, encoding='utf-8').read()
    for paragraph in text.split('\n\n'):
        corpus.append(paragraph.split())


In [4]:
print(corpus)

[['Kvindernes', 'Mening', 'om', '“Kvindernes', 'Underkuelse”', 'Den', 'cerbodige', 'Taushed,', 'som', 'har', 'hersket', 'i', 'vort', 'Land', 'lige', 'overfor', 'John', 'Stuart', 'Mill', 'og', 'hans', 'Vcerk', 'indtil', 'nu,', 'er', 'endelig', 'blevet', 'afbrudt,', 'en', 'Kvinde', 'har', 'oploftet', 'Rosten', 'og', 'talt.', 'Vi', 'hilse', 'hende', 'som', 'en', 'kjcer', 'Soster;', 'det', 'er', 'glcedeligt', 'at', 'hore', 'hende', 'tale', 'og', 'at', 'se', 'hendes', 'Holdning.', 'Hun', 'staar', 'i', 'utvungen', 'og', 'opreist', 'Stilling', 'i', 'Folelsen', 'af', 'sin', 'Menneskevcerdighed,', 'og', 'man', 'horer', 'en', 'blod,', 'klar,', 'kvindelig', 'Rost.', 'Denne', 'Kvinde', 'maa', 'vcere', 'saa', 'ung,', 'at', 'hendes', 'Bevidsthed', 'og', 'Tankeliv', 'har', 'udfoldet', 'sig', 'efter', 'at', 'Loven', 'har', 'erklceret', 'Kvinderne', 'myndige.', 'Havde', 'hendes', 'Bevidsthed', 'vceret', 'vaagen', 'inden', 'dette', 'Tidspunkt,', 'medens', 'det', 'lammende', 'og', 'fornedrende', 'jernaag

### Frekvenslister for å lage stoppord

In [5]:
freqs = tm.corpusfreq(corpus)

In [6]:
freqs.most_common(20)

[('at', 228),
 ('og', 205),
 ('i', 134),
 ('som', 119),
 ('en', 113),
 ('det', 101),
 ('er', 91),
 ('for', 86),
 ('den', 86),
 ('til', 73),
 ('med', 65),
 ('har', 61),
 ('hun', 60),
 ('ikke', 57),
 ('saa', 52),
 ('sig', 52),
 ('af', 51),
 ('han', 50),
 ('et', 49),
 ('jeg', 48)]

### Lag  selve stoppordliste

Ordlista kan endres ved å legge til og trekke fra. 

Paramateret **freqs.most_common()** kan endres for å få andre stoppordlister. Ord som er tatt ut kan legges inn igjen. 

In [21]:
korpus_stopp = dict({x[0]:freqs[x[0]] for x in freqs.most_common(20)})

**Sjekk ut hva som fjernes...**

In [22]:
print(korpus_stopp.keys())

dict_keys(['at', 'og', 'i', 'som', 'en', 'det', 'er', 'for', 'den', 'til', 'med', 'har', 'hun', 'ikke', 'saa', 'sig', 'af', 'han', 'et', 'jeg'])


In [23]:
del korpus_stopp['har']

In [24]:
mystop = dict({"over":1, "ved":1})

In [25]:
korpus_stopp.update(mystop)

## Topic model NMF 

**Modeller tema/topic**





Parametrene spesifiseres i kallet til **tm.modeller()** eller **tm.modeller_set()** på den her måten:

<p style="font-family:courier">tm.modeller(**teksten**, *tema*=**10**, *chunk_size*=**1000**, *topic_size*=**20**, *stop_words*=**stop_words**)</p>
<p style="font-family:courier">tm.modeller_set(**liste_av_tekster**, *tema*=**10**, *chunk_size*=**1000**, *topic_size*=**20**, *stop_words*=**stop_words**)</p>

Forskjellen på de to er at med *modeller()* er det bare en tekst som modelleres, mens for *modeller_set()* er det flere tekster. 

In [26]:
tm.modeller_set(corpus, tema=65, chunk_size=75, stop_words = korpus_stopp, topic_size=15)

['Du, Dig,, skal, Jeg, hvad, om, har, dette, ham,, se,, Tillid, tales, hore,, mcerkede,, Ti,',
 'har, mere, kogt, om,, vil, dem, selv, give, Engstelse, Indbildning,, ligegyldig., udtalte, ytrede, Forandring,, Anordning',
 'vil, vcere, ganske, Hvor, Kvinde), (Mand, paa, Kvinden, da, dem:, Jorden, Eder, mere,, Tid,, alene,',
 'Du, vilde, har, mere, Ret;, lader, Dine, vi, gjore, Vcesen,, man, hos, lceste, Overbevisning., uddanne',
 'de, end, nye, hos, har, mere, havde, Mand, Kvinde, da, under, ncesten, Begrebsforvirring, selv,, bekjendt',
 'hendes, de, raa, der, hele, Natur, betydelig, ydre, stilles, Nervesystem,, skjsnneste, forer, Alt, virkeliggjort, Vanen,',
 'mere, har, Herre, Gud, Skabningens, jo, mig., fuldkommen, end, Halvdel, forncermer, ringe, indviklet,, Sands,, aabenbart',
 'vilde, nogen, vi, sin, Kvinde, eller, Kvinde,, hvad, hende, ligesaa, Tcenkemaade,, fore, stor,, tror,, saa,',
 'eller, end, to, de, vcere, vil, staa, Men, bekjendt, umuligt, altid, andet, Forhold, Henseende

In [16]:
tm.modeller_set(corpus, tema=50, chunk_size=75, stop_words = korpus_stopp, topic_size=15)

['har, kogt, trælbunden, fri, om,, bliver, Mcend, blot, altid, fik, kvindelige, fuldlommen, nok, for,, intelligente',
 'Kvinde), (Mand, Manden,, Menneske,, ganske, ovrige, alene, sagde, Mennesket, tale, Plads,, ncevner, isolere, tort, hermed',
 'sagde, (Manden), Veir,, Kvinden:, hos, kommer, Medhjcelp,, sig,, egentlig, Vcesentlige,, Herren:, hellige, fremfores, Herre?"", laget',
 'Han, ligesom, Mill, tilbage, fast, Lad, tide, nogcn, Fcestningsvcerter,, Mod, Kjon,, tilbage!", An, bombefaste, Skulderprydelser.',
 'se, ille, grue, nemlig, hvormed, Brev, Morgenbladet,, 1870, konservative, Protest, «Det, stor,, hore, virkeligt, Sag',
 'samme, Loven, gjennem, har, hele, nemlig, For, satte, Vcesen,, naa, Bevidsthed., lange, Gjerning, modsatte, hvem',
 'Hvor, hende., hele, har, At, Mineralier, Magtstilling., Klang,, benegte, Adfcerd,, skildre., Veste-Brunen, Manovre, isolerede, denne,',
 'begyndte, netop, samme, nye, har, Hvad, Natur, Vcesen, Frihed,, Oplysning, Ideer, Banner,, trcengte, forma

In [None]:
*