Kurset gennemgår grundlæggende Python-kode, der kan få dig i gang med at bruge programmering som redskab til tekstbehandling, kvantitative analyser og tekst- og datamining.

Mere teknisk fortalt gennemgår vi begreber som variabler, værdier, datatyperne tekststrenge, lister og loops. 

Vi gennemgår et eksempel på, hvordan man kan hente tekstdata, klargøre data og bruge NLTK biblioteket til sin analyse. NLTK er meget udbredt inden for digital tekstanalyse, og bibliotekernes metoder er f.eks. beskrevet her. https://www.nltk.org/book/ 

Samtidigt lærer du om python-programmet Jupyter Notebook, så opnår du også et kendskab til det.

# Import af biblioteker

I python importerer man ofte biblioteker for at supplere med nogle flere metoder. Det er smart, fordi det er huritgere at programmere, når man ikke skal programmere alt fra bunden. Der følger mange biblioteker med, når man installerer Anaconda. Bibliotekerne bliver også nogle gange kaldt for pakker eller moduler.

In [None]:
# Til navigation på computerne
import os

# Webscrape biblioteker
from bs4 import BeautifulSoup
import requests

# Til klargøring og analyse
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')
import re

Vi laver nogle variabler, som vi bruger til at gemme de forskellige url'er til de sider, som vi vil webscrabe. 

In [None]:
# gem url'en i en variabel
url_en = 'https://en.wikipedia.org/wiki/2019%E2%80%932020_Hong_Kong_protests'
url_de = 'https://de.wikipedia.org/wiki/Proteste_in_Hongkong_2019/2020'
url_da = 'https://da.wikipedia.org/wiki/Demonstrationerne_i_Hongkong_2019-2020'

Vi indsætter et af variablenavnene i request.get('url') nedenfor.

In [None]:
# hent data
page = requests.get(url_da)

# scrape websiden
soup = BeautifulSoup(page.content, 'html.parser')

In [None]:
# find  headline1 og 3, samt paragraph-tags'
tags = soup.find_all(['h3', 'h1', 'p'])

# læs teksten ud af p_tags og 'join' den returnerede liste i variablen 'text'
text = ' '.join([p.get_text() for p in tags]).strip()

In [None]:
print (text)

Variablen 'text' er en 'string.' 

En string laver man ved at bruge citationstegn. Man kan enten bruge enkelt sitationstegn eller dobbelt citationstegn.

## Vælg et udsnit af teksten

Hvert enkelt tegn i en string (tekststeng) har et indekstal. Bemærk at i Python er første indextal 0 og ikke 1. Vi kan hente en udsnit af tekststrengen ved at skrive string[første indextal : andet indextal].

F.eks. retunerer string[0:50] de første 50 tegn.

Vi kan også bruge negative tal.

F.eks. retunerer string[-50:] de sidste 50 tegn.

Nedenfor bruger vi variabler vis værdi er lig med et tal i stedet for et tal. Det går nemlig også. 

In [None]:
text[500:3500]

In [None]:
print(text[500:3500])

# Klargøring af tekst 

## Rensning

Kodenstykket neden for bruger vi til at rense teksten. Koden gør brug strengmetoden .replace(), af biblioteket RegEx og strengmetoden .lower() 

In [None]:
import re
text_clean1 = text.replace('_','').replace(',','')
text_clean2 = re.sub(r'\[\d+?\]', ' ', text_clean1)
text_clean3 = ' '.join(re.findall(r'\b(\S+)\b', text_clean2) )
text_lower = text_clean3.lower() 

In [None]:
print(text_lower)

## Tokenisering og lister

Lister bliver benyttet til at gemme flere værdier i en variabel. Neden for bruger vi nltk.word_tokenize(), der retunerer en liste.For at bruge nltk.word_tokenize() skal vi først importere biblioteket nltk.

Tokenisering af tekst betyder en opslitning af teksten til en liste af ord.  

In [None]:
tokenized_text = nltk.word_tokenize(text_lower)

In [None]:
tokenized_text[:10]

Som det fremgår ovenfor bliver lister lavet vha. firkantede parenteser ( [ ] ).

Man kan tilgå elementerne i listen ved at referere til indekstallet. Igen kan vi bruge både positive og nagative tal. Husk at i python er første indextal 0 og ikke 1, hvilket betyder, at vi tilgår det første og det sidste element i listen på denne måde:

In [None]:
print (tokenized_text[0])
print (tokenized_text[-1])

# Forbered teksten til nltk metoderne

For at kunne arbejde med vores tekstdata skal vi bearbejde vores tekststreng lidt.

Først konverterer vi teksten til en liste over tokens med nltk word_tokenize()-funktionen (det har vi gjort ovenfor). Vi opretter også et nltk-tekstobjekt, som giver os mulighed for at anvende forskellige nltk-metoder.

In [None]:
nltk_text = nltk.Text(tokenized_text)

Nltk-tekstobjektet bliver produceret fra en list af tokens.

# Parts of Speech Tagging (POS)

POS tagging er grammatisk tagging. Der bliver tildelt et grammatisk tag til hvert ord. For at bruge nltk's pos tagger forudsætter det at vi har et nltk tekstobjekt, som vi har produceret ovenfor.   

In [None]:
# part-of-speech tagging af ord i tokeniserede afsnit
tagged_text = nltk.pos_tag(nltk_text)

# Loops

Loops bruger man til at gentage den samme handling. I denne sammenhæng vil vi prøve at bruge et loop til gennemse listen tagged_text for et udvalgt POS tag.

Vi begynder med en tom liste. Lister laver vi med firkantede parenteser.

Til loopets syntaks kan vi oversætte til: ' For hver element i variablen tagged_text, hvis elementets anden værdi er lige med 'NN', så tag den tomme liste og tilføj elementets første værdi dertil.

In [None]:
pos_tags = []
for item in tagged_text:
    if item[1] == 'NN':
        pos_tags.append(item[0])

In [None]:
# lad os se på fordelingen af tags
nltk.FreqDist(pos_tags).plot(20)

#### Opgave: prøv at udskifte 'NN' med andre tags.

## Stopord

Stopord er småord, som ofte ikke er betydningsbærende ord.

Vi har defor brug for at indlæse stopordslister. De ligger i mappen stopwords.

Vi bruger os biblioteket til at navigere over i stopordsmappen. Hver kan det blive lidt indviklet, fordi når det kommer til at navigere mellem mapper, så er der en lille forskel på om, man sidder med en mac eller en pc.

Jeg sidder med en pc og skal bruge '\\' som separator i min sti til min mappe, men hvis du har en  mac, så skal du bruge '/' som din separator i i stedet. 

In [None]:
# find din separator
os.sep

In [None]:
# find din nuværende mappe
os.getcwd()

In [None]:
# find ud af, hvad der ligger i mappen
os.listdir()

In [None]:
# flyt dig hen i mappen med stopord
os.chdir('.\\stopwords')

In [None]:
# find din nuværende mappe igen
os.getcwd()

In [None]:
# find ud af, hvad der ligger i mappen - igen
os.listdir()

Vi er klar til at indlæse vores stopord i tre forskellige variabler.

In [None]:
sw_de, sw_dk, sw_gb = [open(i, 'r', encoding='utf-8-sig').read().split() for i in os.listdir()]

Nu kan alle teksterne bliver filtreret for stopord.

In [None]:
filtered_tokens = []
for word in nltk_text:
    if word not in sw_dk and word.isalpha():
        filtered_tokens.append(word)

Med en ny ordliste, der ikke længere indeholder stopord, kan vi få overblik over, hvilke betydningsbærende ord, der flyder mest.

In [None]:
fdist_filtered = nltk.FreqDist(filtered_tokens).plot(20, title='Hyppigste ord (uden stopord)')

In [None]:
long_tokens = []

for word in filtered_tokens:
    if len(word) > 10:
        long_tokens.append(word)

In [None]:
fdist_filtered = nltk.FreqDist(long_tokens).plot(20, title='Længste ord')

# NLTK metoder

collocation_list() returnerer en liste over de mest almindelige ordpar i teksten. Bemærk, at i nogle versioner af Python virker collocation_list() ikke. Hvis dette er tilfældet, prøv _collocations()_ i stedet.

In [None]:
nltk_text.collocation_list()

Concordance()-metoden returnerer konteksten af et specifikt udtryk. Længden af output kan ændres med parametrene i width og lines.

In [None]:
nltk_text.concordance('lovforslag', lines=30, width=80)

For at identificere ord, der optræder i en lignende kontekst, kan vi bruge metoden similar().

Jeg har en forestilling om at metoden giver bedre resultater jo længere teksten er.

In [None]:
nltk_text.similar('demonstranter')

generate() metoden kan du bruge til at genere mere eller mindre sammenhængende tekst med udgangspunkt i en eksisterende tekst.

In [None]:
text_gen = nltk_text.generate(150)