# Web Scraping with [Python](https://www.python.org/) using [`BeautifulSoup`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) and [`requests`](https://2.python-requests.org/en/master/)

The task is to scarpe the content of ABV training courses from the [Vorlesungsverzeichnis](https://www.fu-berlin.de/vv/de/modul?id=478016&sm=606239) and analyze its content by generating a wordcloud.

__Set up__

In [None]:
%load_ext autoreload
%autoreload 2

__Import Libraries__

In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

## Understanding the website

Please check first the [https://www.fu-berlin.de/robots.txt](https://www.fu-berlin.de/robots.txt) site.

In [None]:
url = 'https://www.fu-berlin.de'
abv = '/vv/de/modul?id=478016&sm=606239'

Visit the website `https://www.fu-berlin.de/vv/de/modul?id=478016&sm=606239` an try to figure out where the data of interest, the review texts, is made available.

## Fetching the content of the website using `requests` and  `BeautifulSoup`

In [None]:
url+abv

In [None]:
page = requests.get(url+abv)

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')

> ### Challenge 1: Inspect the `soup` object and try to make sense of it.

In [None]:
## your code here 

In [None]:
# %load ../src/_solutions/soup.py

## Find the revelant item where the data is made available.

> ### Challenge 2: Extract data for the course name and the internet link to the course where additional information may be found  
> * #### Inspect the `soup` object or visit the website to find out where the data is made available. 
> * #### [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) offers many methods and attributes to extract data from a html file. Particular useful are the `find` and the `find_all` methods.
> * #### Build a pandas dataframe denoted as `data` with all course names and internet links in two columns denoted as `course_names` and `course_links`.
> * #### How many courses are available?

In [None]:
## your code here

In [None]:
# %load ../src/_solutions/build_dataframe.py

## Content extraction

> ### Challenge 3: Follow the link (`link`) as given below and extract the text data corresponding to the information on the website to the given link. 
> * #### Use the `requests` and `beautifulsoup` modules to get the job done. 
> * #### Write a function called `text_extraction`, taking only one argument, the internet link. The output should be a list of (not yet cleaned) strings.

In [None]:
link = 'https://www.fu-berlin.de/vv/de/lv/658261?m=348815&pc=478016&sm=606239'

In [None]:
## your code here

In [None]:
# %load ../src/_solutions/text_extraction.py

In [None]:
txt = text_extraction(link)
txt

### Data cleaning

> ### Challenge 4: Write a function `clean_text` that cleans the text data. 
> * #### Make sure you account for `\n`, `\r` and whitespaces.
> * #### You may also consider to dump the word `Schließen`
> * #### _Note: The interesting data is hidden in the second item of the list_
> * #### _Note: You may consider using the string method `replace(


#### The result should look like this:

    'Modul E - Lehrveranstaltung 2  Hinweis:   Vorkenntnisse sind nicht erforderlich.  Inhalte des Moduls   Datenanalyse mit Python   Python ist eine einfach zu erlernende Programmiersprache, die sich für viele wissenschaftliche Anwendungen hervorragend eignet. In diesem Kurs erlernen Sie die Grundlagen von Python. Das Schreiben einfacher Programme, die nützliche Aufgaben übernehmen können, ist dabei die erste Aufgabe. Sie werden lernen, Python als Datenanalysen und -visualisierungstool zu nutzen, um komplexe Aufgabenstellungen zu meistern. Die zusammenfassende Darstellung von Datenanalysen werden Sie visuell ansprechend erstellen lernen. Vorkenntnisse sind nicht erforderlich.   Programmierung mit Python I   In den ersten Kurswochen lernen Sie die grundlegende Befehlssyntax von Python kennen. Die eingebauten Datenstrukturen werden dabei Schritt für Schritt abgehandelt, ebenso wie die Ein- und Ausgabe von Dateien. Über Schleifen und Verzweigungen lernen Sie, die Ausführung Ihres Programms zu steuern. Schließlich werden Sie Funktionen aus der Python-Standardbibliothek und anderen open-source Hilfsbibliotheken anwenden, um die eigenen Programme sinnvoll zu erweitern.   Programmierung mit Python II   Aufbauend auf den Grundlagen aus den ersten Kurswochen kommen in den darauffolgenden Python-Bibliotheken zur Datenanalyse zum Einsatz. Diese dienen zum Beispiel der Datenakquise und der Datenaufbereitung. Sie werden bei der Datenakquise automatisiert Webseiten abfragen und bei der Datenaufbereitung den Umgang mit lückenhaften und inkonsistenten tabellarischen Daten üben. Einen Kern dieses Kursteils nimmt die Visualisierung ein. Diagramme unterschiedlicher Art werden Sie mit Python automatisiert erstellen. Darauf aufbauend werden Sie die Anwendung verschiedener uni-, bi- und multivariater statistischer Verfahren sowie die Erstellung von Interfenz- und Prädiktionsmodellen erlernen. Techniken des maschinellen Lernens bilden hierbei einen Schwerpunkt.   Programmierung mit Python III   Im dritten Teil des Kurses lernen Sie professionelle Entwicklungstools für Python kennen. Sie werden zunehmend Funktionen, Klassen und Module selbst entwickeln. Sie werden lernen große Datenmengen („big data“) effizient zu analysieren und zu visualisieren. Sie werden Methoden erlernen, die es Ihnen ermöglichen, Inhalte von Webseiten systematisch zu extrahieren und diese programmatisch zu analysieren. Die Erstellung einer Testumgebung und die Sicherung von Code mittels Versionskontrolle soll Ihnen helfen, besseren und robusteren Code zu entwickeln.'

In [None]:
## your code here

In [None]:
# %load ../src/_solutions/clean_text.py

## Let the computer do the work!

> ### Challenge 5: Write a function `extract_comments` that takes in links and returns the extracted text from all links. 
> * #### Make sure your function has an argument the provides the number of links to be followed.
> * #### Also try to implement the `time.sleep` function with random sleeping time. This does make it more likely that your IP is not flagged ;-)

>    `from numpy import random`   
>    `import time`   
>    `r = random.random()`   
>    `time.sleep(r)`
> * #### Consider reusing the functions `text_extraction` and `clean_text` from above. 
> * #### Make sure your function returns one string and no duplicates. The built-in functions `set` and `" ".join` may be handy. 



In [None]:
## your code here

In [None]:
# %load ../src/_solutions/extract_comments.py

In [None]:
text = extract_comments(links=df["course_links"], n_links=10)

In [None]:
text

## Generating a word cloud

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline

### A simple word cloud

In [None]:
# Create and generate a word cloud image:
wordcloud = WordCloud().generate(text)

# Display the generated image:
fig, ax = plt.subplots(figsize=(12,6))
ax.imshow(wordcloud, interpolation='bilinear')
ax.axis("off");

### Improving the wordcloud using stopwords

In [None]:
from stop_words import get_stop_words
stop_words = get_stop_words('de') + get_stop_words('en')

In [None]:
# Create and generate a word cloud image:
wordcloud = WordCloud(stopwords=stop_words).generate(text)

# Display the generated image:
fig, ax = plt.subplots(figsize=(12,6))
ax.imshow(wordcloud, interpolation='bilinear')
ax.axis("off");

### Making a really fancy wordcloud

In [None]:
from PIL import Image
import numpy as np
mask = np.array(Image.open("../data/images/berlin_bear.png"))   #choose mask

plt.imshow(mask)

In [None]:
# Create and generate a word cloud image:
wordcloud = WordCloud(
    stopwords=stop_words,
    background_color="white",
                    mask=mask,
                    mode="RGB",
                    random_state=42
                    ).generate(text)


# Display the generated image:
fig, ax = plt.subplots(figsize=(12,10))
ax.imshow(wordcloud, interpolation='bilinear')
ax.axis("off");

## Note on PNG images

PNG images may include transparency, but the wordcloud function expects the background to be white.
This short code snippet will replace a transparent background with a white one.

In [None]:
from PIL import Image
import numpy as np
mask = Image.open("../data/images/python.png")   #choose mask
plt.imshow(mask)

In [None]:
np.array(mask)[0,0]

Note that the mask contains **4** channels - RGBA. 

The first three channels are the well know RGB (red, green, blue) values with the last one being the _Alpha_ value (transparency; 0 being completely transparent).

See: [RGBA Color Model (Wikipedia)](https://en.wikipedia.org/wiki/RGBA_color_model)

In [None]:
background = Image.new("RGBA", mask.size, (255,255,255,255)) # create dummy background with white color only (255, 255, 255, no transparency)
mask = Image.alpha_composite(background, mask) # overlay mask over background
mask = np.array(mask)
plt.imshow(mask)

In [None]:
mask[0,0] # note that background is now white

In [None]:
# Create and generate a word cloud image:
wordcloud = WordCloud(
    stopwords=stop_words,
    background_color="white",
                    mask=mask,
                    mode="RGB",
                    random_state=42
                    ).generate(text)


# Display the generated image:
fig, ax = plt.subplots(figsize=(12,10))
ax.imshow(wordcloud)
ax.axis("off");

> ### Challenge 6: Improve the wordcloud as you whish. 
> * #### Therfore you may play around with any arguments of the `wordcloud` function.
> * #### Feel free to add any other mask of your choice. (watch out for transparent PNGs)
> * #### Add or remove stopwords as you like.
> * #### In order to have more fun the full data set is provided to you. Uncomment the cell below to access the extracted text from all currently available courses of ABV (full_text). 

In [None]:
import pickle
full_text = pickle.load(open('../data/full_text.p', 'rb'))

In [None]:
# Create and generate a word cloud image:
wordcloud = WordCloud(
    stopwords=stop_words,
    background_color="white",
                    mask=mask,
                    mode="RGB",
                    random_state=42
                    ).generate(full_text)


# Display the generated image:
fig, ax = plt.subplots(figsize=(12,10))
ax.imshow(wordcloud)
ax.axis("off");

***