## Sprog, Tekst og samfund 2025
# 3. Introduktion til Pythonprogrammering og Digital Tekstanalyse: Store data mængder og datasæt

### *Ulf Dalvad Berthelsen*

***
***

Keywords: `data`, `meta-data`, `datasæt`, `datatyper`, `dictionaries`, `data frames`, `pre-processing`, `funktioner`, `plots`,  

Nye Python-udtryk: `pip3 install`, `import ... as ...`, `pd.DataFrame()`, `{key: value}`, `pandas`, `apply`
***
***

### Strings, dictionaries og data frames
Vi har indtil videre har vi arbejdet med data som lister af tekster. Vi skal nu prøve at lave en såkaldt *data frame*, dvs. en datastruktur, der består af rækker og kolonner, hvor vi kan gemme både data og metadata på en systematiske og overskuelig måde. 

Vi har allerede stiftet bekendtskab med datatyperne *strings* `"..."` og *lists* `[...]`. I det følgende skal også arbejde med *dictionaries* `{key: value}` og *dataframes* (tabeller). 

### Importer nødvendige pakker
Når man skriver et Python-script, importerer man pakker for at genbruge kode, som andre allerede har skrevet. Pakker indeholder funktioner og værktøjer, der kan hjælpe med at løse specifikke opgaver, fx `Pandas` til at lave data frames og `matplotlib` til at lave diagrammer.

In [None]:
import os #os-pakken tillader os bl.a. at finde filplaceringer på computeren
import pandas as pd # pandas-pakken hjælper os med at lave data frames (tænk på regneark), data frames er en data type med egne methods
import matplotlib.pyplot as plt #matplotlib-pakken tilbyder som navnet antyder hjælp til at plotte vores resultater

### Åben og indlæs tekstfiler
Proceduren fpr at åbne og indlæse (det er to forskellige ting!) teksterne er den samme som sidst. Først oprettes en tom liste kaldet *taler*. Derefter angives filplaceringen til mappen "Coronataler" ved hjælp af os.path.join, hvilket sikrer, at stien fungerer korrekt både på Mac og PC.

Herefter gennemgås alle elementer i mappen "Coronataler" ved hjælp af et for-loop. For hvert element tjekkes det, om det er en fil. Hvis elementet er en fil, åbnes det med utf8-kodning, og eventuelle kodningsfejl ignoreres. Filens indhold læses og tilføjes til listen taler.

**Læs kodelinjerne grundigt**. det er vigtigt at forstå, hvad alle delene betyder!

**Kommentér alle kodelinjerne udførligt**

In [None]:
taler = [] 

path = os.path.join("Coronataler") 

for fil in os.scandir(path):
    if fil.is_file():
        with open (fil, encoding = "utf8", errors="ignore") as f: 
            taler.append(f.read()) 

### Stopord
Stopord er højfrekvente ord, der ofte fjernes fra teksterne i forbindelse med præprocesseringen, fordi de ikke bærer væsentlig betydning. Eksempler på stopord er "og", "men", "det", "er", osv. Ved at fjerne disse ord kan man fokusere på indholdsordene i teksterne.

I kodesekvensen nedenfor indlæses en lang liste med danske stopord. Listen er bare en lang liste af ord gemt som `.txt`-fil (dvs. uformatteret tekst). Hvis I åbner filen i en teksteditor, kan I selv tilføje flere stopord, gemme filen og genindlæse filen i Python. Så er de nye ord med på listen.

Kodesekvensen følger samme struktur som ovenfor. Først specificeres filnavnet "stopord.txt" ved hjælp af os.path.join, hvilket sikrer, at stien fungerer korrekt på forskellige operativsystemer. Derefter åbnes filen "stopord.txt" med `utf8-kodning`, og eventuelle kodningsfejl ignoreres. Filens indhold læses og opdeles i en liste af ord ved at splitte teksten ved hvert mellemrum (eller linjeskift eller tabulatorindrykning). Denne liste gemmes under variabelnavnet stopord.

**Læs kodelinjerne grundigt og kommentér hver enkelt linje**.

In [None]:
filnavn = os.path.join("stopord.txt")
with open(filnavn, encoding="utf8",errors="ignore") as f:   
    stopord = f.read().split()

### Metadata
Metadata er data om data. Det er information, der beskriver andre data og hjælper med at forstå, organisere og finde dem. For eksempel kan metadata for en bog inkludere titel, forfatter, udgivelsesår og genre. 

Metadata kan tilføjes på forskellige måder. Nedenfor udtrækker vi information, som allerede er inkluderet i de tekster vi arbejder med.

**Kommentér kodelinjen nedenfor. Hvilket output giver den?**

In [None]:
taler[0][0:100]

Som I kunne se ovenfor begynder teksterne med en lille sekvens med metainformation, herunder dato og årstal.

Vi skal nu prøve prøve at klippe denne sekvens ud og bruge den som titel, dvs. metadata. Det kan vi gøre ved hjælp at `.split()`, der per default (dvs. hvis vi ikke angiver andet) splitter på mellemrum, linjeskift og tabulatorindryk.

**Læs kodelinjerne nedenfor grundigt. Forklar med jeres egne ord, hvad der sker og kommentér hver enkelt linje**.

In [None]:
titler = []

for t in taler:
    titel = t.split("\n")[0]
    titler.append(titel)

Print herefter indholdet af listen `titler` og tjek, at alt er som forventet. brug `print()`-funktionen.

Vi skal også bruge en kolonne med datoer. Datoerne er allerede indholdt i titlerne, så vi skal bare trække dem ud og gemme dem på en selvstændig liste. Vi har allerede prøvet at slice ved hjælp af `[0:10]`, der slicer de første 10 elementer. Vi kan også slice de sidste elmenter. Det gør vi ved at skrive `[-10:0]` (læses: begynd ved det 10.-sidste tegn og inkluder alt derefter). Da datoen præcis udgør de ti sidste tegn i titlen skulle, dette gerne resultere i, at vi får udtrukket datoen som en streng for sig selv.

Vi skal nu lave en liste med datoer.

**Læs kodelinjerne nedenfor grundigt. Forklar med jeres egne ord, hvad der sker og kommentér hver enkelt linje**.

In [None]:
datoer = []
for t in titler:
    datoer.append(t[-10:])

Print listen `datoer` for at tjekke, at alt er som det skal være.

Det sidste vi skal have gjort, inden vi laver vores dataframe, er at fjene datoen fra teksten. Teksten er en `string`, så vi kan gøre det ved at splitte hver tekst i datolinje og resten. Fjerne datolinjen og gemme den resterende tekst på en liste.

**Læs kodelinjerne nedenfor grundigt. Forklar med jeres egne ord, hvad der sker og kommentér hver enkelt linje**.

In [None]:
taler_txt = []

for t in taler:
    første_linje = t.split()[0]
    taler_txt.append(t.replace(str(første_linje), " "))

Print det første element fra listen `taler_txt` og tjek om alt er, som forventet.

### Data frames

Vi er nu klar til at lave vores `data frame`. En data frame er en tabel-lignende datastruktur. Den minder om et regneark eller en database-tabel, hvor data er organiseret i rækker og kolonner. Hver kolonne kan indeholde forskellige typer data, som tal, tekst eller datoer. `Data frames` gør det nemt at analysere, manipulere og visualisere data. For at kunne arbejde med `data frames` er det nødvendigt (som vi allerede har gjort ovenfor), at importere pakken `Pandas`. 

Vi har allerede de elementer vi skal bruge, nemlig en liste med titler, som vi navngav `titler`, en liste med datoer, som vi navngav `datoer`, og en liste med tekster, som vi navngav `taler_txt`.

Der er forskellige måder at konstruere dataframes. En måde er først at lave en `dictionary`. En `dictionary` en datastruktur, der gemmer data som `key/value`-par. Det vil sige, at hver værdi er forbundet med en unik nøgle, som fungerer som en etiket - tænk på det som en systematisk orhanisering af variabler. For eksempel kan en dictionary bruges til at gemme en persons oplysninger, hvor nøglerne kunne være "navn", "alder" og "by", og værdierne kunne være "Anna", "24" og "Aarhus". 

En `dictionary` skrives på følgende måde: `{key: value, key: value, ... }`

I kodelinjen nedenfor laver vi en `dictionary`ud af vores tre lister.

**Læs kodelinjen nedenfor grundigt. Forklar med jeres egne ord, hvad der sker og kommentér linjen**.

In [None]:
data = {"Titler": titler, "Dato": datoer, "Taler": taler_txt}

Når vi først har lavet vores `dictionary`, er det let at lave en `data frame`. Vi konstruerer altid `data frames` vedhjælp af kommandoen `pd.DataFrame()`.

**Læs kodelinjen nedenfor grundigt. Forklar med jeres egne ord, hvad der sker og kommentér linjen**.

In [None]:
df_taler = pd.DataFrame(data)

Hvis vi vil se indholdet af vores `data frame` indtaster vi bare navnet.

In [None]:
df_taler

### Data cleaning
Vi genbruger rensefunktionerne fra sidst.

**Læs dem igennem. Vær sikker på at i forståe logikken i at definere en funktion**

In [None]:
# definition af funktion, der renser teksten for uønskede tegn og returnerer en liste med ord 

def rens_ord(text_0):
    text_1 = text_0.replace("\n"," ")
    text_2 = text_1.replace("."," ")
    text_3 = text_2.replace(","," ")
    text_4 = text_3.replace(":"," ")
    text_5 = text_4.replace("*"," ")
    text_6 = text_5.replace("–"," ")
    text_7 = text_6.replace("'"," ")
    text_8 = text_7.replace("”"," ")
    text_ren = text_8.replace("-"," ")
    text_lav = text_ren.lower()
    text_final = text_lav.split()
    return text_final

In [None]:
# definition af funktion, der renser teksten for uønskede tegn og returnerer en liste med sætninger 

def rens_sæt(text_0):
    text_1 = text_0.replace("\n"," ")
    text_2 = text_1.replace(";"," ")
    text_3 = text_2.replace(","," ")
    text_4 = text_3.replace(":"," ")
    text_5 = text_4.replace("*"," ")
    text_6 = text_5.replace("–"," ")
    text_7 = text_6.replace("'"," ")
    text_8 = text_7.replace("”"," ")
    text_ren = text_8.replace("-"," ")
    text_lav = text_ren.lower()
    text_final = text_lav.split(".")
    return text_final

### Anvend funktioner på `data frames`
Vi har nu en `data frame` med tekster og metadata (titel og dato). Dette er vores grunbdlæggende datasæt. Em af måderne at arbejde videre på er, at at loope gennem datasættet ved at anvende en funktion på en hel kolonne.
Til dette formål anvender vi `.apply()`.

`.apply()` er en data frame-method, der bruges i `Pandas` til at anvende en funktion på hver værdi i en kolonne eller række i en data frame. Det gør det nemt at udføre operationer på data uden at skulle skrive loops. Resultatet gemmer vi direkte i en ny kolonne.

I kodelinjen nedenfor anvender vi funktionen `rens_ord` på hver værdi i kolonnen `"Taler"` i data framen `df_taler`. Resultatet gemmes i en ny kolonne kaldet `"txt_ord"`. Vi renser med andre ord teksterne i kolonnen "Taler" og gemmer de rensede tekster i en ny kolonne.

**Læs kodelinjen grundigt og vær sikker på i forstår, hvad alle delene betyder.**

In [None]:
df_taler["txt_ord"] = df_taler["Taler"].apply(rens_ord)

Hvis vi vil inspicere indholdet af vores data frame kan vi indtaste navnet på den i kodefeltet. Hvis vi kun vil se de første fem eller de sidste fem linjer, kan vi tilføje `.head()` eller `.tail()` til variabelnavnet. 

**Afprøv de forskellige muligheder i kodefeltet nedenfor**

**Lav selv en ny kolonne**, hvor i anvender funktionen `rens_sæt`. 

**Inspicer** efterfølgende om kolonnen er tilføjet rigtigt. 

### Tekster uden stopord

For at færdiggøre vores datasæt tilføjer vi afslutningsvis en kolonne med en version af teksterne, hvor vi har fjernet alle **stopordene**.

Vi har allerede indlæst slisten med stopord, så vi skal nu definere en funktion - som vi vil kalde `goWords` - der returner en version af teksten, hvor alle stopordene er fjernet. Funktionen kan se således ud. **Skriv den ind i kodefeltet nedenfor**.

```
def goWords(text,stpWrds):
    gW = []
    for w in text:
        if w not in stpWrds:
            gW.append(w)
    return gW
```   

**Læse koden grundigt og kommentér hver enkelt linje**.

Tilføj herefter en kolonne med teksterne renset for stopord. Brug kodelinjen nedenfor. Denne sekvens anvender funktionen goWords på hver værdi i kolonnen "txt_ord" i data framen `df_taler`. Funktionen `goWords` bruger en liste af stopord (angivet som stopord) som argument. Resultatet gemmes i en ny kolonne kaldet "txt_goWords". Kort sagt, den filtrerer eller behandler ordene i kolonnen "txt_ord" ved hjælp af stopordene og gemmer det filtrerede resultat i en ny kolonne.

**VIGTIGT**: `Kommaet` efter stopord i args=(stopord,) betyder, at stopord bliver sendt som det ene argument i finktionen, hvor teksten fra `data framen`er den anden. Kommaet fortæller python, at `.apply()`-funktionen både skal hente et argument fra `data framen`, nemlig teksten, og et element udefra, nemlig stopordslisten.

`df_taler["txt_goWords"] = df_taler["txt_ord"].apply(goWords,args=(stopord,))`

**Læs kodesekvensen grundigt og vær sikker på, at I forstår alle delene**.

Indtast kodesekvensen i feltet nedenfor.

**Inspicér data framen** `df_taler`og tjek om alt ser ud som det skal.