In [1]:
# Import stuff <3
import pandas as pd
import requests
from bs4 import BeautifulSoup
import re
from tqdm.notebook import tqdm

In [2]:
# Find our letters
group_nr = 2
letters = "ABCDEFGHIJKLMNOPRSTUVWZABCDEFGHIJKLMNOPRSTUVWZ"[group_nr%23:group_nr%23+10]

Efter at have inspiceret den givne hjemmeside, er det blevet tydeligt, at de urls, der forbindes med de enkelte bogstaver, ligner hinanden bortset fra sidste karakter, der afhænger af, hvilket bogstav, der er tale om.

Derfor har vi valgt at lave en liste, der indeholder disse urls for herefter at kunne udforske hver enkelt side yderligere.

Det har vi håndteret ved at anvende et for-loop, der itererer igennem en liste af de bogstaver, vi har fået givet ud fra vores gruppenr. Hver bogstav placeres for enden af den fælles del af urlen, således der opstår en række unikke urls, der herefter tilføjes til listen url_list.

In [3]:
base = "https://en.wikinews.org" # For later use

# Create list with urls depending on letters
url_list = []
for l in letters:
    url_list.append(f'https://en.wikinews.org/w/index.php?title=Category:Politics_and_conflicts&from={l}')

Vi har implementeret et for-loop, der itererer igennem listen af urls (url_list) og listen af de bogstaver, vi har fået tildelt (letters) for at søge efter artikler, der starter med et givent bogstav.

I første omgang stødte vi på den udfordring, at der i nogle tilfælde var en enkelt side med sådanne artikler, mens der i andre tilfælde var flere sider. Det løste vi ved at lave et while-loop, der sørger for at tjekke, om alle artikler med det pågældende forbogstav er fundet. Inde i while-loopet tjekker vi mere konkret, hvorvidt den sidste artikel på siden har det pågældende forbogstav. Hvis ikke, må det betyde, at der ikke er flere relevante artikler at finde. Men hvis det derimod er tilfældet, må det betyde, at der kan være en side med artikler mere. Derfor har vi lavet et stykke kode, der leder efter "next page"-knappen på siden og følger dennes link.

Så længe while-loopet kører, bliver urlen læst. Der bliver oprettet en BeautifulSoup. Vi indsnævrer søgefeltet til den del af siden, vi er interesseret i vha. find og id. Og vi finder selve artiklerne vha. find_all.

Herfra har vi udtrukket titlerne på artiklerne ved brug af .text og gemt dem i en liste. Alle links har vi ligeledes gemt i en liste - udtrukket ved at anvende .get og søge efter 'href'. 

Vi har naturligvis kun været interesseret i at udtrække den relevante data, hvorfor vi har tilpasses koden flere steder f.eks. har vi tilføjet [:6] == "/wiki/" efter .get for at undgå links, der ikke linker til en artikel.

In [4]:
# Create empty lists
all_titles = []
all_links = []
all_dates = []
all_content = []
all_sources = []

# Loops through url list to retrieve titles and links
for url, l in zip(url_list,letters):
    
    # Needed for doing multiple passes
    all_found = False
    page_url = url
    
    # While there are still some articles not found
    while not all_found:
        response = requests.get(page_url)
        soup = BeautifulSoup(response.content, "html.parser")
        container = soup.find(id = "mw-pages")
        data = container.find_all('li')
        
        # Added so it only takes titles with the correct first letter
        titles = [m.text for m in data if m.text[0].upper()==l]
        
        # Append the titles to the running list
        all_titles += titles
        
        # Add links to our list
        links = [base + link.get('href') for link in container.find_all('a') if link.get('href')[:6] == "/wiki/"]
        
        all_links += links[:len(titles)]
        
        # If the last element on the page is not part of our letter we go to the next
        if data[-1].text[0] != l:
            break
            
        # Otherwise we find the "next page" button and follows it
        buttons = soup.findAll('a', href=True)
        for b in buttons:
            try:
                if b.contents[0] == "next page":
                    page_url = base + b["href"]
            except:
                pass

Med en liste af artiklernes links har det derfra været muligt for os at lave en for-loop, der itererer igennem alle artikler, læser urlen, opretter en BeautifulSoup, indsnævrer søgeområdet på siden og herfra udtrækker den data, vi er interesseret i.

Ved anvendelse af .text og find_all har vi udtrukket alle datoer og tilføjet dem til en liste. Vi har udtrukket artiklernes indhold samt referencekilder og ligeledes tilføjet til lister.

De endelige lister med data, vi ender ud med er all_titles, all_links, all_dates, all_content samt all_sources.

Da det kan være tidskrævende at loope igennem ca. 2650 artikler, har vi gjort brug af tqdm, så det er muligt at følge, hvor mange artikler, den har indlæst.

In [5]:
# Loops through links to retrieve data from each articles
for article in tqdm(all_links):
    response = requests.get(article)
    soup = BeautifulSoup(response.content, "html.parser")
    container = soup.find('div', class_ = "mw-parser-output")

    # Date
    date = [d.text for d in container.find_all("strong", class_ = "published")]
    all_dates.append(date)

    # Content
    content = [c.text for c in container.find_all("p")[1:]]
    all_content.append(content)

    # Sources
    sources = [s.text for s in container.find_all("span", class_ = "sourceTemplate")]
    all_sources.append(sources)

  0%|          | 0/2647 [00:00<?, ?it/s]

Vi har organiseret vores data ved at navngive kolonner og specificere, hvilken liste hver kolonne skal hente data fra. Herefter har vi benyttet Pandas til at lave en dataframe ud fra vores data. Til sidst eksporterer vi denne dataframe til hhv. csv og excel.

Det færdige datasæt indeholder 2645 rækker samt 5 kolonner. Kolonnerne omfatter titler på hver enkelt artikel, deres urls/links, dato for, hvornår hver enkelt artikel er skrevet, de enkelte artiklers indhold dvs. selve artikelteksten samt den eller de kilder, den enkelte artikel er udsprunget af.

In [6]:
# Organizing data
data = {'Title': all_titles, 'Link': all_links, 'Date': all_dates, 'Content': all_content, 'Sources': all_sources}

In [32]:
for d in data.keys():
    print(d,len(data[d]))

Title 2647
Link 2647
Date 2647
Content 2647
Sources 2647


In [10]:
# Create dataframe from data
df = pd.DataFrame(data)

# Export data as csv and excel
df.to_csv("wikinewsdata.csv")
df.to_excel("wikinewsdata.xlsx")