In [69]:
from speaker_data_simplified import speakers
from pprint import pprint
import pandas as pd
import json
import os

# Speaker data

In [76]:
file_path = '..\\Data\\project_files\\NPSC_speaker_data.json'

f = open(file_path , encoding='utf-8')
data = json.load(f)

amount_of_speakers = len(data)

dialects = dict()
genders = dict()
pob = dict()

for speaker in data:
    dialects[speaker['dialect']] = dialects.get(speaker['dialect'], 0) + 1
    genders[speaker['gender']] = genders.get(speaker['gender'], 0) + 1
    pob[speaker['pob_county']] = pob.get(speaker['pob_county'], 0) + 1

print('Number of speakers:', len(data))
print('\nSpeakers per dialect:')
pprint(dialects)
print('\nSpeakers per gender:')
pprint(genders)
print('\nSpeakers per "fylke"/county:')
pprint(pob)

Number of speakers: 267

Speakers per dialect:
{'Eastern Norway': 116,
 'Northern Norway': 33,
 'Southern Norway': 19,
 'Trøndelag': 28,
 'Western Norway': 70,
 'unclear': 1}

Speakers per gender:
{None: 2, 'female': 111, 'male': 154}

Speakers per "fylke"/county:
{None: 63,
 'Agder': 11,
 'Innlandet': 15,
 'Møre og Romsdal': 15,
 'Nordland': 11,
 'Oslo Municipality': 22,
 'Rogaland': 15,
 'Troms og Finnmark fylke': 17,
 'Trøndelag': 20,
 'Vestfold og Telemark': 13,
 'Vestland': 29,
 'Viken': 36}


# Sentence data

### Loading data

In [45]:
data_path = '..\\Data\\NPSC'
data_folders = os.listdir(data_path)

all_sentences = []
for folder in data_folders:
    try:
        file_path = os.path.join(data_path, folder, f"{folder}_sentence_data.json")
        f = open(file_path , encoding='utf-8')
        data = json.load(f)
        all_sentences += data['sentences']
    except:
        # Folder 20171211 is empty, also tries to open .pdf ...
        print(file_path, 'did not exist')

..\Data\NPSC\20171211\20171211_sentence_data.json did not exist
..\Data\NPSC\NPSC_doc_1_1.pdf\NPSC_doc_1_1.pdf_sentence_data.json did not exist


In [46]:
sentences_by_dialect, sentences_by_gender, sentences_by_speaker = dict(), dict(), dict()

for sentence in all_sentences:
    dialect = speakers[sentence['speaker_id']]['dialect']
    gender = speakers[sentence['speaker_id']]['gender']
    speaker = sentence['speaker_id']
    sentence_text = sentence['sentence_text']
    
    sentences_by_speaker.setdefault(speaker, []).append(sentence_text)
    sentences_by_dialect.setdefault(dialect, []).append(sentence_text)
    sentences_by_gender.setdefault(gender, []).append(sentence_text)

words_by_speaker = {k: " ".join(v) for k, v in sentences_by_speaker.items()}
words_by_dialect = {k: " ".join(v) for k, v in sentences_by_dialect.items()}
words_by_gender = {k: " ".join(v) for k, v in sentences_by_gender.items()}

# Dataframes with one sentence per column
- This results in many cells with NaN values

In [47]:
# Remove .transpose() to sort by columns instead
grouped_by_dialect = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in sentences_by_dialect.items() ])).transpose()
grouped_by_dialect.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,27189,27190,27191,27192,27193,27194,27195,27196,27197,27198
Eastern Norway,Stortingets møte er lovlig satt,da dette er første møte i det nye året vil pre...,on the gallery today we have a guest from Canada,Speaker of the House of Commons the Honourable...,the Speaker is on an official visit to Norway ...,thank you again for visiting Norway,a visit which improves the already strong rela...,representanten Øyvind Korsberg som har vært pe...,følgende innkalte vararepresentanter tar nå sete,for Buskerud fylke Tone Heimdal Brataas,...,og så opplever vi nå i revidert budsjett at re...,det er ikke til å tru,det er jo bare byråkratisk snikksnakk,det er manglende respekt for Stortingets vedta...,har regjeringa overhodet forsøkt å finne disse...,det tror jeg ikke,Fosterhjemsforeninga har ikke vært kontakta,jeg snakka med dem i går,de bidrar mer enn gjerne,men Arbeiderpartiets løse forslag nummer sytti...
Western Norway,president på vegne av meg sjøl Karin Andersen ...,president takk for anledninga til å gi en rede...,la meg først takke for det store arbeidet mang...,flere har ofra livet i denne innsatsen andre e...,vi takker dem og deres familier for det store ...,engasjementet i Afghanistan har nå vart i femt...,det har vært en av våre tyngste internasjonale...,store summer er investert både gjennom militær...,engasjementet er fortsatt svært krevende,det har høsta mange viktige erfaringer og lærd...,...,,,,,,,,,,
Northern Norway,takk skal du ha president,som statsministeren sa i sin nyttårstale histo...,og president jeg tør legge til særlig sammen m...,i en verden prega av raske endringer større uf...,i urolige tider skaper det nordiske samarbeide...,bredden og dybden i det nordiske samarbeidet e...,president første januar tok Norge over formann...,vårt formannskap i tjuesytten har tre hovedspor,det første hovedsporet er Norden i omstilling,Norden er en foregangsregion som har vist seg ...,...,,,,,,,,,,
Trøndelag,ja president la meg få lov til å starte med å ...,mitt spørsmål er knytta til Europaparlamentet ...,vart presentert av av kommisjonen i mai og lig...,<ee> er nå ganske omstendig behandling hvor fl...,det er en omfattende strategi,<ee> jeg har lyst til å utfordre statsråden på...,så spørsmålet blir da hva tenker <ee> statsråd...,er EU på rett vei eller går det i feil retning,president jeg jeg takker for svaret og deler s...,vi deler mange interesser der <ee> og har noen...,...,,,,,,,,,,
Southern Norway,takk president,først vil jeg få lov til å benytte anledningen...,president det er stor enighet om at problemsti...,i Norge ble det kasta flere tusen tonn spiseli...,forslagsstillerne viser au til at FN har estim...,produksjon av mat fører au til klimagassuts ut...,president alle er som sagt enige om at matkast...,sammen med klima- og miljøministeren fiskerimi...,heile bransjen er med på samarbeid heilt ifra ...,formålet med intensjonen er å styrke samarbeid...,...,,,,,,,,,,


In [48]:
grouped_by_gender = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in sentences_by_gender.items() ])).transpose()
grouped_by_gender.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,35323,35324,35325,35326,35327,35328,35329,35330,35331,35332
male,Stortingets møte er lovlig satt,da dette er første møte i det nye året vil pre...,on the gallery today we have a guest from Canada,Speaker of the House of Commons the Honourable...,the Speaker is on an official visit to Norway ...,thank you again for visiting Norway,a visit which improves the already strong rela...,representanten Øyvind Korsberg som har vært pe...,følgende innkalte vararepresentanter tar nå sete,for Buskerud fylke Tone Heimdal Brataas,...,president som enkeltmennesker og som nasjon st...,beredskap representerer evnen vår til å håndte...,Forsvaret utgjør nasjonens skarpeste beredskap...,Senterpartiet har gjennom flere år foreslått e...,president i Riksrevisjonen si rapport om objek...,at regjeringa legger opp til å si opp heimever...,det er trygle til vanlige norske borgere som s...,at rej regjeringa nedprioriterer dette arbeide...,peika Senterpartiet har peka på dette samme i ...,og vi har derfor la i dag lagt fram et forslag...
female,president la meg først få takke for muligheten...,vår innsats i Afghanistan foregår fortsatt gje...,våre soldater legger ned en stor innsats hver dag,og jeg er president opptatt av å snakke om sol...,utenriksministeren innleda med et viktig poeng,når vi snakker om innsatsen vår i Afghanistan ...,USA blei angrepet ellevte september totusenogén,NATOs artikkel fem om kollektivt forsvar ble a...,angrepet ble sett på som et med angrep på alle...,et bredt flertall i Stortinget mente det var r...,...,,,,,,,,,,
,unnskyld hallo,<INAUDIBLE>,<INAUDIBLE>,<INAUDIBLE>,er det ikke noen innpiskere fra Arbeiderpartie...,<INAUDIBLE> med alle vararepresentantene som s...,er det greit nå,bare få de der <INAUDIBLE>,<INAUDIBLE>,<INAUDIBLE>,...,,,,,,,,,,


In [49]:
grouped_by_speaker = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in sentences_by_speaker.items() ])).transpose()
grouped_by_speaker.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,2310,2311,2312,2313,2314,2315,2316,2317,2318,2319
305,president det går godt i Noreg og det går godt...,for mitt heimfylke,det var moro å lesa i fylkesavisene i slutten ...,tala viste at bedriftene i Telemark er meir po...,i Telemark er ein faktisk meir positiv enn gje...,arbeidsledigheten har vore stadig synkande og ...,det er behov for tømrarar snikkarar sjukepleia...,president veksten er på veg opp ledigheten er ...,me må tilbake til nitti-talet for å finne tils...,eit viktig bodskap frå næringslivet gjennom ti...,...,,,,,,,,,,
306,takk gode president,vi hører regjeringspartiene rose regjeringens ...,det overrasker ikke for det må de gjenta og gj...,men en vedtatt sannhet står ikke alltid i forh...,de jeg treffer når jeg er rundt i Kommune-Norg...,ta for eksempel Haugesund en vestlandskommune ...,Haugesund er en av kommunene som har forsvunne...,etter mange år med Høyre-styre var kommunen ha...,med ordfører fra Arbeiderpartiet i spissen har...,og for nøyaktig ett år siden den trettende jun...,...,,,,,,,,,,
307,takk president,vi har ei regjering og representanter for dem ...,det er synd for debatten og ikke minst for inn...,skal en sette inn rett medisin må en i det min...,en bør kunne forvente at i hvert fall dem er r...,Faktisk.no undersøkte det her i tjuesytten og ...,veksten i frie inntekter har blitt lavere unde...,det som da er enda mer bekymringsfullt er om e...,fra tjuetretten til tjueseksten vokste ifølge ...,gjeldsnivået er helt sentralt og viktig for å ...,...,,,,,,,,,,
309,president <qq> jeg vil også takke saksordfører...,og det er en enstemmig komité som har levert s...,Sivilombudsmannen har en viktig funksjon i sam...,gjennom Sivilombudsmannen så får den enkelte i...,Sivilombudsmannen gjør et viktig arbeid når de...,og i den forbindelse vil jeg understreke verdi...,Sivilombudsmannen har en viktig rolle i denne ...,president i totusenogfjorten fjorten så ble de...,dette som en følge av at Norge vedtok å slutte...,Norge har ved dette forpliktet seg til å forby...,...,,,,,,,,,,
291,president mot blant annet Arbeiderpartiets ste...,det er en trist dag for min region for min kom...,det er en trist dag for alle som har jobba for...,det er en trist dag for alle de unge som har s...,og det er en trist dag for de femten ansatte s...,president det er uhørt at regjeringen nærmest ...,det betyr over to hundre færre politifolk hver...,en så viktig og omfattende sak hadde fortjent ...,men nasjonalt handler det om så mye mer,det handler om kapasiteten til norsk politi i ...,...,,,,,,,,,,


# Number of sentences per category

In [50]:
grouped_by_dialect.transpose().count()

Eastern Norway     27199
Western Norway     16129
Northern Norway     6482
Trøndelag           4920
Southern Norway     3921
unclear               18
dtype: int64

In [51]:
grouped_by_gender.transpose().count()

male      35333
female    23233
None        103
dtype: int64

In [52]:
grouped_by_speaker.transpose().count()

32     2320
80      228
207     598
190     684
77      588
       ... 
305      27
306      21
307      21
309      36
291      25
Length: 260, dtype: int64

# Dataframes with all sentences in one column
- Counting words per category

In [53]:
words_grouped_by_speaker = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in words_by_speaker.items() ])).transpose()
words_grouped_by_speaker.columns = ['Text']
words_grouped_by_speaker['Number of words'] = words_grouped_by_speaker['Text'].apply(lambda n: len(n.split()))
words_grouped_by_speaker.sort_values(by=['Number of words'])

Unnamed: 0,Text,Number of words
186,president jeg vil fremsette et representantfor...,12
21,unnskyld hallo <INAUDIBLE> <INAUDIBLE> <INAUDI...,49
246,president det vi ofte omtaler som abortloven k...,63
98,president <ee> vi ønsker alle et levende landb...,95
166,ja <ee> president som <ee> Martin Henriksen sa...,108
...,...,...
35,tusen <ee> takk president <ee> jeg vil takke j...,26262
25,president jeg er enig med representanten Breiv...,31206
26,president på vegne av regjeringen har jeg den ...,33539
40,ærede president det å ha en god jernbane er vi...,36594


In [54]:
words_grouped_by_dialect = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in words_by_dialect.items() ])).transpose()
words_grouped_by_dialect.columns = ['Text']
words_grouped_by_dialect['Number of words'] = words_grouped_by_dialect['Text'].apply(lambda n: len(n.split()))
words_grouped_by_dialect.sort_values(by=['Number of words'])

Unnamed: 0,Text,Number of words
unclear,unnskyld hallo <INAUDIBLE> <INAUDIBLE> <INAUDI...,49
Southern Norway,takk president først vil jeg få lov til å beny...,77969
Trøndelag,ja president la meg få lov til å starte med å ...,97977
Northern Norway,takk skal du ha president som statsministeren ...,122416
Western Norway,president på vegne av meg sjøl Karin Andersen ...,328076
Eastern Norway,Stortingets møte er lovlig satt da dette er fø...,471309


In [55]:
words_grouped_by_gender = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in words_by_gender.items() ])).transpose()
words_grouped_by_gender.columns = ['Text']
words_grouped_by_gender['Number of words'] = words_grouped_by_gender['Text'].apply(lambda n: len(n.split()))
words_grouped_by_gender.head()

Unnamed: 0,Text,Number of words
male,Stortingets møte er lovlig satt da dette er fø...,670556
female,president la meg først få takke for muligheten...,425719
,unnskyld hallo <INAUDIBLE> <INAUDIBLE> <INAUDI...,1521


## General statistics
Note that the number of words and speakers differentiates from the metadata of the dataset. This may be a result of missing data in folder 20171219

In [67]:
total_num_words = words_grouped_by_speaker['Number of words'].sum()
total_num_speakers = len(words_grouped_by_speaker.index)
total_num_sentences = grouped_by_speaker.transpose().count().sum()

print('Number of words:', total_num_words)
print('Number of speakers', total_num_speakers)
print('Number of sentences', total_num_sentences)
print('Avg words per speaker', total_num_words / total_num_speakers)
print('Avg sentences per speaker', total_num_sentences / total_num_speakers)
print('Words per sentence', total_num_words / total_num_sentences)

# TODO: Add max and min sentences/word for a speaker

Number of words: 1097796
Number of speakers 260
Number of sentences 58669
Avg words per speaker 4222.292307692308
Avg sentences per speaker 225.65
Words per sentence 18.71168760333396
