# German Medical Wiki Scraping

## Steps 
1. [X] Scraping all **Krankheit** category links under https://de.wikipedia.org/wiki/Kategorie:Krankheit
2. [X] Scraping all subcategory links under categories resulting from step 1

In [24]:
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
import numpy as np
from time import sleep
import pandas as pd

##### Notes

- Scrape only the p tags 
- Do not scrape information from these sections
    - span class="mw-headline" id="Literatur_und_Quellen">Literatur und Quellen</span
    - span class="mw-headline" id="Siehe_auch">Siehe auch</span
    - span class="mw-headline" id="Weblinks">Weblinks</span
    - span class="mw-headline" id="Einzelnachweise">Einzelnachweise</span

In [2]:
link_dict = {
    'diagnostik': 'https://de.wikipedia.org/wiki/Kategorie:Diagnostik',
    'therapie': 'https://de.wikipedia.org/wiki/Kategorie:Therapie',
    'krankheit': 'https://de.wikipedia.org/wiki/Kategorie:Krankheit',
    'krankheitsymptom': 'https://de.wikipedia.org/wiki/Kategorie:Krankheitssymptom',
    'gesundheit': 'https://de.wikipedia.org/wiki/Kategorie:Gesundheit'
}

## STEP 1 - Scraping all **Krankheit** category links under  https://de.wikipedia.org/wiki/Kategorie:Krankheit

In [3]:
link = link_dict['krankheit']
page = requests.get(link)
soup = BeautifulSoup(page.content, 'html.parser')

print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="de">
 <head>
  <meta charset="utf-8"/>
  <title>
   Kategorie:Krankheit – Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"e4255b88-ff61-4614-b99c-42f44df2bdfa","wgCSPNonce":!1,"wgCanonicalNamespace":"Category","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":14,"wgPageName":"Kategorie:Krankheit","wgTitle":"Krankheit","wgCurRevisionId":117336368,"wgRevisionId":117336368,"wgArticleId":324750,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Medizin"],"wgPageContentLanguage":"de","wgPageContentModel":"wikitext","wgRelevantPageName":"Kategorie:Krankheit","wgRelevantArtic

In [4]:
a_s = soup.find_all('a')

In [5]:
a_s

[<a id="top"></a>,
 <a class="mw-helplink" href="/wiki/Hilfe:Kategorien" target="_blank">Hilfe</a>,
 <a class="mw-jump-link" href="#mw-head">Zur Navigation springen</a>,
 <a class="mw-jump-link" href="#searchInput">Zur Suche springen</a>,
 <a href="/wiki/Kategorie:Berufskrankheit" title="Kategorie:Berufskrankheit">Kategorie:Berufskrankheit</a>,
 <a href="/wiki/Kategorie:Krankheitssymptom" title="Kategorie:Krankheitssymptom">Kategorie:Krankheitssymptom</a>,
 <a href="/wiki/Kategorie:Pflanzenkrankheit" title="Kategorie:Pflanzenkrankheit">Kategorie:Pflanzenkrankheit</a>,
 <a href="/wiki/Kategorie:Krankheit_als_Thema" title="Kategorie:Krankheit als Thema">Kategorie:Krankheit als Thema</a>,
 <a href="/wiki/Wikipedia:Redaktion_Medizin" title="Wikipedia:Redaktion Medizin">Wikipedia:Redaktion Medizin</a>,
 <a class="external text" href="https://commons.wikimedia.org/wiki/Category:Diseases_and_disorders?uselang=de"><span lang="en">Commons</span>: Diseases and disorders</a>,
 <a href="/wiki/Kate

#### Amele way of finding all links

In [6]:
# Start
a_s[4]

<a href="/wiki/Kategorie:Berufskrankheit" title="Kategorie:Berufskrankheit">Kategorie:Berufskrankheit</a>

In [7]:
# End
a_s[68]

<a href="/wiki/Sick-Building-Syndrom" title="Sick-Building-Syndrom">Sick-Building-Syndrom</a>

#### Smarter way of finding all links

In [8]:
# Smarter way of finding all links
a_s_title = soup.find_all(lambda tag: tag.name=='a' and tag.has_attr('title') and 'Kategorie:' in tag['title']) 

In [9]:
category_links = []
wiki_url_base = 'https://de.wikipedia.org'

for i in range(len(a_s_title)):
    # if loop to exclude other links
    if '.org' not in a_s_title[i]["href"]:
        category_links.append(wiki_url_base + a_s_title[i]["href"])

In [10]:
category_links

['https://de.wikipedia.org/wiki/Kategorie:Berufskrankheit',
 'https://de.wikipedia.org/wiki/Kategorie:Krankheitssymptom',
 'https://de.wikipedia.org/wiki/Kategorie:Pflanzenkrankheit',
 'https://de.wikipedia.org/wiki/Kategorie:Krankheit_als_Thema',
 'https://de.wikipedia.org/wiki/Kategorie:Autoimmunerkrankung',
 'https://de.wikipedia.org/wiki/Kategorie:Ern%C3%A4hrungsbedingte_Erkrankung',
 'https://de.wikipedia.org/wiki/Kategorie:Genetische_St%C3%B6rung',
 'https://de.wikipedia.org/wiki/Kategorie:Infektionskrankheit',
 'https://de.wikipedia.org/wiki/Kategorie:Stoffwechselkrankheit',
 'https://de.wikipedia.org/wiki/Kategorie:Strahlenbedingte_Erkrankung',
 'https://de.wikipedia.org/wiki/Kategorie:Tumor',
 'https://de.wikipedia.org/wiki/Kategorie:Berufskrankheit',
 'https://de.wikipedia.org/wiki/Kategorie:Krankheitssymptom',
 'https://de.wikipedia.org/wiki/Kategorie:Liste_(Krankheiten_nach_ICD-10)',
 'https://de.wikipedia.org/wiki/Kategorie:Liste_(Krankheitsopfer)',
 'https://de.wikipedia.

## STEP 2 - Scraping all subcategory links under categories resulting from step 1

In [11]:
print(category_links[10]) # Test concatanation 

https://de.wikipedia.org/wiki/Kategorie:Tumor


In [12]:
link2 = 'https://de.wikipedia.org/wiki/Kategorie:Tumor'
page2 = requests.get(link2)
soup2 = BeautifulSoup(page2.content, 'html.parser')
categoryTableContent = soup2.find('div', class_ = 'mw-category')


print(soup2.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="de">
 <head>
  <meta charset="utf-8"/>
  <title>
   Kategorie:Tumor – Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"d40ec9b1-5821-4473-88c4-d209671d4e81","wgCSPNonce":!1,"wgCanonicalNamespace":"Category","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":14,"wgPageName":"Kategorie:Tumor","wgTitle":"Tumor","wgCurRevisionId":164170834,"wgRevisionId":164170834,"wgArticleId":1308372,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Pathologie","Krankheit","Onkologie"],"wgPageContentLanguage":"de","wgPageContentModel":"wikitext","wgRelevantPageName":"Kategorie:Tumor","wgR

In [13]:
categoryTableContent.find_all('a')

[<a href="/wiki/Tumor" title="Tumor">Tumor</a>,
 <a href="/wiki/Liste_der_Neubildungen_nach_ICD-10" title="Liste der Neubildungen nach ICD-10">Liste der Neubildungen nach ICD-10</a>,
 <a href="/wiki/Tumorgenetik" title="Tumorgenetik">Tumorgenetik</a>,
 <a href="/wiki/Erbliche_Tumorerkrankungen" title="Erbliche Tumorerkrankungen">Erbliche Tumorerkrankungen</a>,
 <a href="/wiki/Aktinische_Keratose" title="Aktinische Keratose">Aktinische Keratose</a>,
 <a href="/wiki/Androblastom" title="Androblastom">Androblastom</a>,
 <a href="/wiki/Blasenmole" title="Blasenmole">Blasenmole</a>,
 <a href="/wiki/Blastom" title="Blastom">Blastom</a>,
 <a href="/wiki/Blut-Tumor-Schranke" title="Blut-Tumor-Schranke">Blut-Tumor-Schranke</a>,
 <a href="/wiki/Brenner-Tumor" title="Brenner-Tumor">Brenner-Tumor</a>,
 <a href="/wiki/Carcinoma_in_situ" title="Carcinoma in situ">Carcinoma in situ</a>,
 <a href="/wiki/Carney-Komplex" title="Carney-Komplex">Carney-Komplex</a>,
 <a href="/wiki/Carney-Komplex-Trismus-P

**Are there subcategories on the page?** <br>
if categoryTableExists returns True <br>
run collectTableItemLinks to collect the links

In [14]:
def categoryTableExists(link):
    page = requests.get(link)
    soup = BeautifulSoup(page.content, 'html.parser')
    categoryTableContent = soup.find('div', class_ = 'mw-category')
    if categoryTableContent is None:
        return (soup, False)
    else:
        return (soup, True)

In [15]:
def collectTableItemLinks(soup_object):
    categoryTableContent = soup_object.find('div', class_ = 'mw-category')
    a_s = categoryTableContent.find_all('a')
    links = []
    for i in range(len(a_s)):
        links.append(a_s[i]["href"])
        
    return links

In [16]:
categoryTableExists(category_links[0])[1]

True

In [17]:
# Go through each category link
url_list = []
for category_link in tqdm(category_links):
    
    # Get the soup object and state of whether there are subcategories in the page
    soup_obj, state = categoryTableExists(category_link)
    
    # If there are subcategories in the page
    if state:
        # Append list to the url_list 
        url_list.append(collectTableItemLinks(soup_obj))

100%|██████████| 39/39 [00:07<00:00,  5.46it/s]


In [18]:
flat_list = [wiki_url_base + item for sublist in url_list for item in sublist]

In [19]:
flat_list

['https://de.wikipedia.org/wiki/Berufskrankheit',
 'https://de.wikipedia.org/wiki/Aluminose',
 'https://de.wikipedia.org/wiki/Alveolitis',
 'https://de.wikipedia.org/wiki/Anthrakosilikose',
 'https://de.wikipedia.org/wiki/Asbestose',
 'https://de.wikipedia.org/wiki/Asthma_bronchiale',
 'https://de.wikipedia.org/wiki/B%C3%A4ckerkr%C3%A4tze',
 'https://de.wikipedia.org/wiki/Berufskrankheit_nach_Nr._2103_der_Anlage_zur_Berufskrankheiten-Verordnung',
 'https://de.wikipedia.org/wiki/Berylliose',
 'https://de.wikipedia.org/wiki/Boenninghaus-Syndrom',
 'https://de.wikipedia.org/wiki/Byssinose',
 'https://de.wikipedia.org/wiki/Caplan-Syndrom',
 'https://de.wikipedia.org/wiki/Cello-Hoden',
 'https://de.wikipedia.org/wiki/Farmerlunge',
 'https://de.wikipedia.org/wiki/Gesundheitssch%C3%A4den_durch_milit%C3%A4rische_Radaranlagen',
 'https://de.wikipedia.org/wiki/Green_Tobacco_Sickness',
 'https://de.wikipedia.org/wiki/Handekzem',
 'https://de.wikipedia.org/wiki/Hypothenar-Hammer-Syndrom',
 'https:

In [36]:
dfff = pd.DataFrame(flat_list, columns=['links'])
dfff.to_csv('data/vocabulary/list_links2scrape.csv')