<a href="https://colab.research.google.com/github/hackerlauman/schooldays/blob/main/729g49_l4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# L4: Kollokationer

I denna laboration ska ni ta fram de starkaste kollokationerna i en lingvistiskt uppmärkt text. För att göra detta behöver ni skatta sannolikheter för enskilda ord och samförekomster av ord. Vi begränsar oss till sekvenser av två ord (bigram).

Den korpus som ni kommer att jobba med i denna laboration innehåller automatiskt uppmärkta meningar ur nyhetsartiklar från [Göteborgsposten](http://www.gp.se/), en större svensk dagstidning. Nyhetsartiklarna kommer från perioden 2004–2011 och har sammanställts utifrån rådata från [Språkbanken](https://spraakbanken.gu.se/).

Börja med att importera de Python-moduler som ni behöver för denna laboration:

In [None]:
!wget -q -r -nH -np --cut-dirs=7 -R "index.html*" https://www.ida.liu.se/~729G49/LabData/lab4/; rm -rf sample_data; rm robots.txt; echo "Files downloaded:" ; ls

import lab4

In [None]:
!python3 --version

## Att arbeta med komprimerade filer

Eftersom den korpus som ni kommer att arbeta med är rätt så stor, har vi valt att komprimera den med hjälp av [bzip2](https://en.wikipedia.org/wiki/Bzip2). För att komma åt de egentliga datan kan ni antingen packa upp filen med ett separat verktyg eller använda följande modifierade version av vårt &rdquo;grundrecept&rdquo; för att öppna och läsa ifrån filer:

In [None]:
import bz2

# Här följer vi grundreceptet för att skriva ut antalet token i filen

n_tokens = 0
with bz2.open('729G49-GP.conllx.bz2', 'rt') as source:
    for sentence in lab4.sentences(source):
        n_tokens += len(sentence)
print(n_tokens)

## Uppgift 1: Beräkna absoluta frekvenser för ord

Er första uppgift är att extrahera alla ord i korpusfilen och beräkna deras absoluta frekvenser, dvs. hur ofta de förekommer i korpusen. Ett ord definieras här som ett token som inte är ett skiljetecken. För att avgöra om ett token är ett skiljetecken ska ni använda den ordklassinformation som finns annoterad i korpusen; se dokumentet [Part-of-Speech Categories in the Swedish Treebank](https://web.archive.org/web/20190131174232/https://stp.lingfil.uu.se/~nivre/swedish_treebank/pos.html).

<div class="panel panel-primary">
<div class="panel-heading">Uppgift 1</div>
<div class="panel-body">
    <p>Skriv kod som extraherar alla ord (token som inte är skiljetecken) och beräknar deras absoluta frekvenser. Returnera resultatet som en <code>Counter</code>.</p>
</div>
</div>

Skriv er kod i cellen nedan och utför den genom att köra cellen. Jämför ert resultat med det resultat som ni får när ni använder funktionen `lab4.problem1()`.

<div class="alert alert-warning">
    <strong>Ett tips:</strong> Återanvänd funktionen <code>sentences</code> från laboration&nbsp;L2. (Klistra in funktionsdefinitionen i en ny kodcell.)
</div>

In [None]:
# TODO: Skriv kod här för att lösa Uppgift 1. Spara resultatet i en Counter cnt1.
cnt1 = lab4.problem1()    # Kommentera ut denna rad när ni har skrivit egen kod

# Nästa rad skriver ut det totala antalet ord i korpusen enligt cnt1.
print(sum(cnt1.values()))

## Uppgift 2: Skatta ordsannolikheterna

I nästa steg ska ni skatta ordsannolikheterna. Enligt maximum likelihood-metoden kan ni göra detta genom att likställa sannolikheter med relativa frekvenser, dvs. den andel som varje ord har av det totala antalet ordförekomster i korpusfilen. Om vi skriver $\#(w)$ för den absoluta frekvensen för ordet $w$ och låter $w_1, \dots, w_n$ beteckna alla unika ord i korpusfilen så ska ni alltså beräkna

$$P(w) = \frac{\#(w)}{\#(w_1) + \cdots + \#(w_n)}$$

<div class="panel panel-primary">
<div class="panel-heading">Uppgift 2</div>
<div class="panel-body">
    <p>Skriv kod som beräknar alla relativa ordfrekvenser. Returnera resultatet som ett dictionary.</p>
</div>
</div>

Skriv er kod i cellen nedan och utför den genom att köra cellen. Testa ert resultat med hjälp av funktionen `lab4.test_problem2()`.

In [None]:
# TODO: Skriv kod här för att lösa Uppgift 2. Spara resultatet som ett dictionary p1.
p1 = lab4.problem2()    # Kommentera ut denna rad när ni har skrivit egen kod

# Nästa rad testar om p1 innehåller korrekta värden.
lab4.test_problem2(p1)

## Uppgift 3: Beräkna absoluta frekvenser för bigram

I nästa uppgift ska ni göra om samma sak som ni gjorde i Uppgift&nbsp;1 fast för **bigram**. Ett bigram är en sammanhängande sekvens av två ord, såsom *av fem*, *utan att* eller *och dödligheten*. I Python kan man representera bigram som [tupler](https://docs.python.org/3/tutorial/datastructures.html#tuples-and-sequences):

In [None]:
bigram1 = ('av', 'fem')
bigram2 = ('utan', 'att')
bigram3 = ('och', 'dödligheten')

När ni tar fram absoluta och relativa frekvenser för bigram ska ni bara ta med sådana bigram där *båda* komponenterna är ord i den mening som ni använt ovan, dvs. token som inte är skiljetecken.

<div class="panel panel-primary">
<div class="panel-heading">Uppgift 3</div>
<div class="panel-body">
    <p>Skriv kod som extraherar alla bigram och beräknar deras absoluta frekvenser. Returnera resultatet som en <code>Counter</code>.</p>
</div>
</div>

Skriv er kod i cellen nedan och utför den genom att köra cellen. Jämför ert resultat med det resultat som ni får när ni använder funktionen `lab4.problem3()`.

In [None]:
# TODO: Skriv kod här för att lösa Uppgift 3. Spara resultatet i en Counter cnt2.
cnt2 = lab4.problem3()    # Kommentera ut denna rad när ni har skrivit egen kod

# Nästa rad skriver ut det totala antalet bigram i korpusen enligt cnt2.
print(sum(cnt2.values()))

## Uppgift 4: Skatta bigramsannolikheter

I nästa steg ska ni skatta bigramsannolikheterna, återigen genom att liksätta sannolikheter med relativa frekvenser. Denna uppgift borde vara ganska enkel nu.

<div class="panel panel-primary">
<div class="panel-heading">Uppgift 4</div>
<div class="panel-body">
    <p>Skriv kod som beräknar alla relativa bigramfrekvenser. Returnera resultatet som ett dictionary.</p>
</div>
</div>

Skriv er kod i cellen nedan och utför den genom att köra cellen. Testa ert resultat med hjälp av funktionen `lab3.test_problem4()`.

In [None]:
# TODO: Skriv kod här för att lösa Uppgift 4. Spara resultatet som ett dictionary p2.
p2 = lab4.problem4()    # Kommentera ut denna rad när ni har skrivit egen kod

# Nästa rad testar om p2 innehåller korrekta värden.
lab4.test_problem4(p2)

## Uppgift 5: Pointwise mutual information

Med ordsannolikheterna och bigramsannolikheterna på plats kan ni nu beräkna pointwise mutual information-värden för alla bigram. Kom ihåg från föreläsningen att PMI-värdet för två ord $w_1$ och $w_2$ beräknas enligt följande formel:

$$\text{PMI}(w_1, w_2) = \log \frac{P(w_1w_2)}{P(w_1)P(w_2)}$$

<div class="panel panel-primary">
<div class="panel-heading">Uppgift 5</div>
<div class="panel-body">
    <p>Skriv kod som beräknar PMI-värden för alla bigram i korpusen och skriver ut de 20&nbsp;starkaste kollokationerna. Returnera resultatet som en <code>Counter</code>.</p>
</div>
</div>

En `Counter` är egentligen tänkt att innehålla heltalsvärden, men många av dess metoder fungerar även om man lagrar flyttal, såsom PMI-värden. En särskild användbar metod i sammanhanget är [`most_common()`](https://docs.python.org/3/library/collections.html#collections.Counter.most_common).

Skriv er kod i cellen nedan och utför den genom att köra cellen. Testa ert resultat med hjälp av funktionen `lab4.test_problem5()`.

In [None]:
# TODO: Skriv kod här för att lösa Uppgift 5. Spara resultatet som en Counter pmi.
pmi = lab4.problem5()    # Kommentera ut denna rad när ni har skrivit egen kod

# Nästa rad testar om pmi innehåller korrekta värden
lab4.test_problem5(pmi)

# TODO: Skriv kod som skriver ut de 20 starkaste kollokationerna

Hade ni förväntat er att se dessa kollokationer?

## Uppgift 6: Lexicographer&rsquo;s MI

Adam Kilgarrif har föreslagit en variant av PMI som han kallar Lexicographer&rsquo;s Mutual Information (LMI):

$$\text{LMI}(w_1, w_2) = \#(w_1 w_2) \cdot \log \frac{P(w_1w_2)}{P(w_1)P(w_2)}$$

Detta modifierade mått adresserar ett problem med det ursprungliga PMI-måttet.

<div class="panel panel-primary">

<div class="panel-body">
    <p>Denna uppgift består av två delar: </p>
    <ol>
       <li> Skriv kod som beräknar LMI-värden för alla bigram i korpusen och skriver ut de 20 starkaste kollokationerna. Ni kan "låna" mycket kod från föregående uppgift.
       <b>OBS: Här finns inget facit, utan ni ska istället i del två av denna uppgift reflektera över resultatet.</b>
       <li> Skriv en kort text (ca. 150 ord) som tar upp följande punkter:
       <ul>
               <li>Vad är problemet med PMI-måttet? Hur försöker LMI-måttet lösa detta problem? Vilka resultat fick ni med det modifierade måttet?</li>
        <li>Är de nya resultaten &rdquo;bättre&rdquo; än de gamla? Lever det modifierade måttet upp till förväntningarna?</li>
        <li>Vad lärde ni er från denna studie? Exakt hur lärde ni er detta? Varför är denna kunskap relevant?</li>
    </ul>
    </ol>

</div>
</div>

In [None]:
# TODO: Skriv kod för att lösa del 1 av uppgift 6
# TODO: Ni ska alltså skriva kod som skriver ut de 20 starkaste kollokationerna enligt LMI

I denna cell kan ni skriva texten för del två. (Dubbelklicka här)





<h3 class="alert alert-info">
    Glöm inte att läsa de allmänna reglerna för inlämningsuppgifterna på kurshemsidan innan ni skickar in denna notebook!
</h3>

## VG-del: Partikelverb

Många kollokationer i svenskan är kombinationer av ett verb och en partikel, såsom *slå igenom*, *hänga ihop* och *höra hemma*. Er uppgift i VG-delen av laborationen är att skapa en lista över sådana konstruktioner.

<div class="panel panel-primary">
<div class="panel-heading">Uppgift 7 (VG)</div>
<div class="panel-body">
    <p>Skriv kod för att skapa en lista över de 20&nbsp;starkaste partikelverb i korpusen. Använd samma metod som tidigare, med följande förändringar:</p>
    <ul>
        <li>Ta bara med bigram där den första komponenten är ett verb och den andra komponenten är en partikel.</li>
        <li>Istället för att beräkna frekvenser och LMI på ordnivå ska ni beräkna allt på lemmanivå.</li>
        <li>Er lista ska alltså inte skilja mellan <em>slår igenom</em> och <em>slog igenom</em> utan lista grundformen <em>slå igenom</em>.</li>
        <li>Några ord är annoterade med flera lemman, separerade genom vertikala streck. Ta i så fall det första lemmat.</li>
    </ul>
    <p>Skriv en kort text (ca. 150&nbsp;ord) om er korpusstudie. Utgå ifrån dessa frågor:</p>
    <ul>
        <li>Exakt hur gjorde ni för att lösa uppgiften? Vilka resultat fick ni utifrån denna metod?</li>
        <li>Hade ni förväntat er att se just dessa partikelverb? Finns det andra verb som ni saknar?</li>
        <li>Vad lärde ni er från denna studie? Exakt hur lärde ni er detta? Varför är denna kunskap relevant?</li>
    </ul>
</div>
</div>

<div class="alert alert-info">
    Glöm inte att läsa de allmänna reglerna för inlämningsuppgifterna på kurshemsidan innan ni skickar in denna notebook!
</div>