## Sprog, Tekst og samfund 2025
# 2.Introduktion til Pythonprogrammering og Digital Tekstanalyse: Mette Frederiksens Coronataler

### *Ulf Dalvad Berthelsen*

***
***

Keywords: `pre-processing`, `funktioner`, `loop`, `lister`, `plots`

Nye Python-udtryk: `range`, `[0:4]`, `for ... in ...`, `type()`, `def`, `return`
***
***

### Strings, lister, loops og plots
Vi skal nu prøve at arbejde med flere tekster på en gang - i dette tilfælde Mette Frederiksen 14 coronataler. Det kan man gøre på flere måde. En af de simpleste måder er at samle teksterne på en liste og så loope sig gennem listerne. I det følgende skal prøve et gennemføre en minianalyse, der indeholder alle de grundlæggende skridt:
1. Samle teksterne til et **datasæt**
2. **Rense** teksterne for støj (1 og 2 omtales ofte samlet som pre-processing)
3. Lave simple **analyser**
4. Lave simple **visualiseringer** af resultaterne.



## Impoter pakker
Vi begynder med at immportere de pakker vi skal bruge

In [2]:
import os #os-pakken tillader os bl.a. at finde filplaceringer på computeren
import matplotlib.pyplot as plt #matplotlib-pakken tilbyder som navnet antyder hjælp til at plotte vores resultater

# Datasæt som liste
Når vi skal håndtere større mængder af data, er der flere måder at gøre det på. Den simpleste er at samle de 14 tekster på en liste.

Da vi allerede har gemt teksterne under hver deres variabelnavn, kan vi ganske enkelt samle listen, ved at skrive variabelnavnene i firkantede parenteser og gemme listen under et nyt navn.

Kodelinjen nedenfor læses gem en liste med elementerne txt_1, txt_2 osv. under vatiabel navnet txt_list.

In [4]:
taler = [] # opretter tom liste

path = os.path.join("Coronataler") # specificerer fil-palceringen, bruges for at undgå mac/pc-problemerne med absolutte stinavne



for fil in os.scandir(path): # for-loop
    if fil.is_file(): # tjekker om elementerne i mappen er filer, og springer dem over, hvis det ikke er tilfældet
        with open (fil, encoding = "utf8", errors='ignore') as f: # context manager der åbner og lukker filen, 'ignore' giver besked om at ignorere, encoding errors; kan erstattes med 'replace', der også ignorerer fejlen, men samtidig indsætter en markør, der gør det muligt at finde det tegn, der gav anledning til fejlen 
            taler.append(f.read()) # tilføjer teksten (filens indhold) til listen

Tjek om alle talerne er med ved at bruge `len()`-funktionen. Der skal være 14 i alt.

Du kan også se en bestemt tale ved at taste `taler[0]`. 0 viser den færste tale, 1 den anden osv.

Prøv og så at skrive taler[1:3]. Hvad viser det? 

Prøv også funktionen `type()`. Indsæt variabel-navnet mellem parenteserne. Funktionen angiver værdiens datatype.

# Preprocessing

## Funktioner til datarens
Som forberedelse til arbejdet skal vi første definere to `funktioner`. Den første af de to funktioner er identisk med `rens`-funktionen, vi brugte sidst. Her blot omdøbt til `rens_ord`. Den anden funktion er magen til, bortset fra at den splitter ved punktum i stedet for ved blanktegn. Denne funktion kalder vi `rens_sæt`.

Vi skal desuden have åbnet og indlæst filen. Her bruger vi funktionerne `open()` og `.read()` ligesom sidst.

**Definition** af funktionen `rens_ord()`.
Definitionen af en funtion består af tre dele: 
1. keyword'et `def` (indikerer at vi konstruerer en ny funktion) + funktionsnavn + angivelse af input
2. beskrivelse af indholdet (funktionaliteten)
3. keywordét `return` + en specificering af outputtet

Kommentér linjerne nednenfor (brug #). Beskriv hvad hver enkelt linje betyder. 

In [None]:
def rens_ord(text_0):
    text_1 = text_0.replace("\n"," ")
    text_2 = text_1.replace("."," ")
    text_3 = text_2.replace(","," ")
    text_4 = text_3.replace(":"," ")
    text_5 = text_4.replace("*"," ")
    text_6 = text_5.replace("–"," ")
    text_7 = text_6.replace("'"," ")
    text_8 = text_7.replace("”"," ")
    text_ren = text_8.replace("-"," ")
    text_lav = text_ren.lower()
    text_token = text_lav.split()
    return text_token

Lav selv en ny funktion. Den skal hedde `rens_sæt`. Den skal være magen til `rens_ord` bortset fra, at den skal splitte teksten i sætninger i stedet for i ord.

# Loops og lister af lister
Vi har nu fået samling på vores datamateriale og kan begynde at udnytte fordelen ved at kunne automatisere både data cleaning-processen og analyseprocessen.

Prøv at skrive et for-loop, der måler længden af talerne. Du skal brige `for`, `in`og `len()` til at loope over listen `taler`.

I det følgende kommer til at arbejde med lister af lister. Når I inspicerer resultatet skal I tjekke om de har følgende struktur `[[...], [...], [...]]`

## Talerne gemt som lister af ord 
Vi kan nu bruge vores to funktioner til at lave to forskellige rense versioner af vores datasæt. En liste hvor talerne gemmes som lister af ord, og en liste, hvor talerne gemmes som lister af sætninger.

Bemærk at vi nu får lister af lister.

Hvad sker der i loopet nednfor?
Kommentér de enkelte kodelinjer.

In [None]:
txt_ord = []

for t in taler:
    txt_ord.append(rens_ord(t))

Hvis vi bare skriver `txt_ord` eller `print(txt_ord)` nedenfor, får vi 14 meget lange ordlister.

Prøv i stedet at skrive `txt_ord[7][0:10]`

**Hvad er resultatet? Husk at kommentere** 

## Talerne gemt som lister af sætninger
Vi skal også have lavet en liste med talerne repræsenteret som lister af sætninger. **Kopier** eksemplet ovenfor og tilpas det. Brug den rensefunktion, du selv lavede tidligere. Giv listen et informativ men kort navn.

Tjek om resultat er som for ventet ved at inspicere de første ti sætninger i den første tekst på listen. Brug samme fremgangsmåde som før.

## Tekslængde målt som antal ord og antal sætninger

Først målet vi teksternes længde mål på antal ord. Det kan gøres med et simpelt `for-loop`

In [None]:
lstOrdLen = []
for t in txt_ord:
    lstOrdLen.append(len(t))

print(lstOrdLen)

Lav selv en liste, der indholder tallene for talernes længde målt som antal sætninger. **Kopier** eksemplet ovenfor og tilpas det, så det loope over din liste med lister af sætninger, som du lavede ovenfor.

# Plots
Vi skal nu prøve at plotte de to lister, så vi kan sammenligne tallene. Tallene på x-aksen angiver talens nummer, og tallene på y-aksen angiver antal ord/sætninger.

Ved `y2 = ` skal i indsætte variabelnavnet på den liste i har lavet med tallene for tekstlængde mål på antal sætninger.

Læs koden til plottet grundigt. Hjælp hinanden med at finde ud af, hvad de enkelte dele betyder

In [None]:
# x-axens værdier
x = [1,2,3,4,5,6,7,8,9,10,11,12,13,14]
# y-axens værdier
y1 = lstOrdLen
y2 = #indsæt variabelnavnet på den liste du lavede med teksterne målt som antal sætninger

# plot vædierne
plt.plot(x, y1, label = "antal ord")
plt.plot(x, y2, label = "antal sætninger")
 
# navngiv x-aksen
plt.xlabel('Tale')
# navngiv y-aksen
plt.ylabel('Længde')
 
# titel på plot
plt.title('Coronataler')

# tilføj labelnavne til plot
plt.legend()
 
# vis plottet
plt.show()

# Ekstraopgave
Hvis I har til tilovers, kan I prøve at læse jer gennem eksemplet nedenfor. Tilføj **kommentarer** til de enkelte kodelinjer, hvor i beskriver, hvad hver enkelt linje betyder. 

In [None]:
corona_i_tekst = []
for tekst in txt_ord:
    corona_list = []
    for ord in tekst:
        if "corona" in ord:
            corona_list.append(ord)
    corona_i_tekst.append(corona_list)
    

In [None]:
print(corona_i_tekst)

In [None]:
antal_corona = []
for list in corona_i_tekst:
    antal_corona.append(len(list))

In [None]:
print(antal_corona)

In [None]:
 
# x-axens værdier
x = [1,2,3,4,5,6,7,8,9,10,11,12,13,14]
# y-axens værdier
y1 = antal_corona

# plot vædierne
# plt.plot(x, y1, label = "antal sætninger")
plt.plot(x, y1, label = "antal corona nævnt")
 
# navngiv x-aksen
plt.xlabel('Tale')
# navngiv y-aksen
plt.ylabel('Længde')
 
# titel på plot
plt.title('Coronataler')

# tilføj labelnavne til plot
plt.legend()
 
# vis plottet
plt.show()

# Ekstra ekstraopgave

Prøv at bruge sekvensen ovenfor til at lede efter andre corona-relaterede ord. Prøv også at plotte frekvensen af de nye ord.