# Website scraping

---

Group name: C

---

Scrape an article from one of the following websites (you can choose one of them):

-   [fivethirtyeight](https://fivethirtyeight.com/)
-   [cnn](https://edition.cnn.com/) or
-   [wired](https://www.wired.com/)

In your notebook:

-   Create a Pandas dataframe
-   Save the data as CSV in the data subfolder `data/raw` as `webscraping.csv`


In [9]:
#IMPORTS

# Importieren der benötigten Bibliotheken
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [10]:
#SOUP

# URL des Artikels festlegen, via Requests anfragen und mit BeautifulSoup parsen
url = 'https://edition.cnn.com/2022/12/12/us/common-questions-nuclear-fusion-climate/index.html'
html = requests.get(url)
soup = BeautifulSoup(html.text, 'html.parser')

In [11]:
#SCRAPE

# Absätze identifizieren
text = soup.find_all("p", class_="inline-placeholder")

# Erstellen einer Liste für die Absätze
paragraphs = []

# Iteratives hinzufügen der Absätze via for-Schleife
for i in text:
  paragraphs.append(i.string)

# Erstellen einer Pandas Series mit dem Typ String
text = pd.Series(paragraphs, dtype="string")

# Entfernung von \n
text = text.str.replace('\n', '')

df = pd.DataFrame({"text": text})

# Entfernung der leeren Zeilen
df = df.dropna()

# Alle Texte zusammenfügen
all_text = ', '.join(df.text)

# Artikeltext via Verkettung, Trennzeichen: Leer
artikeltext = df["text"].str.cat(sep=" ")

# Doppelte Leerzeichen durch einfache ersetzen
while "  " in artikeltext:
  artikeltext = artikeltext.replace("  ", " ")

# Nicht notwendige Leerzeichen entfernen
artikeltext = artikeltext.strip()

# Seitentitel
n = soup.title.string


In [12]:
#SAVE

# Erstellen des Dataframes
index=["Titel", "Artikeltext"]

df1 = pd.DataFrame([n, artikeltext], index=index)

# Transponieren des Dataframes
df1 = df1.T

# Abspeichern des Dataframes
df1.to_csv("webscraping.csv")