# Data Preprocessing: Analyse der Relevanz zwischen Nachrichten und Suchtrends anhand Google-Trends

## Stufe 1: Importierung von den zu nutzenden Bibliotheken und Speicherung der Rohdaten

Es werden die Bibliotheken importiert, die in den sämtlichen Analysenschritten global verwendet werden. Im Anschluss dazu werden die angesammelten Rohdaten durch die API-Anfrage (News-Scraper) aufbereitet und in den folgenden Schritten verarbeitet.

<p><strong>* Importierung </strong></p>

In [1]:
import requests # zuständig für die API-Abfrage
import json # Um den (String-)Content der API-Antworten in JSON-Format umzuwandeln
import csv
import datetime

<p><strong>* Abfrage zur Speicherung der Rohdaten </strong></p>

In [2]:
#Konstanten
VALUE = "value"

URL_FORMAT = "http://h2920750.stratoserver.net:5000/data/{}/all"
NEWS = "news"
TRENDS = "trends"
LIST_ENTITIES = [NEWS, TRENDS]

# Treands-Daten werden täglich um 0 Uhr gecrawlt, weshalb deren Datum um einen Tag substrahiert werden soll.
def subtrace_one_day(data):
    DATE = "date"
    DATE_FORMAT = "%d/%m/%Y"
    substracted = datetime.datetime.strptime(data[DATE], DATE_FORMAT) - datetime.timedelta(days=1)
    data[DATE] = substracted.strftime(DATE_FORMAT)
    return data
    
list_data = [] # 0: news; 1: trends

for ENTITY in LIST_ENTITIES:
    response = requests.get(
        URL_FORMAT.format(ENTITY)
    )
    
    if(not response.ok):
        response.raise_for_status()
    
    data = response.json()[VALUE]
    
    if ENTITY is TRENDS:
        data = list(map(subtrace_one_day, data))
    
    list_data.append(
        data
    )
    
    file = open("./data/raw/{}.csv".format(ENTITY), "w")
    dict_writer = csv.DictWriter(file, data[0].keys())
    dict_writer.writeheader()
    dict_writer.writerows(data)
    file.close()

FileNotFoundError: [Errno 2] No such file or directory: './data/1raw/news.csv'

## Stufe 2: 

In [1]:
import pandas as pd
import spacy
import re
import os

In [2]:
nlp = spacy.load("de_core_news_sm")
news = pd.read_csv("./data/raw/news.csv")
trends = pd.read_csv("./data/raw/trends.csv")
news.loc[28]

name                                                     Welt
date                                               01/06/2021
headline    „Eine bessere Vereinbarkeit von allen Lebenssi...
intro                                                       -
Name: 28, dtype: object

In [3]:
def process_data(x, without_stop = True):
    x = str(x) #Float64 in einem oder mehreren Datensätzen vorhanden
    if x != "-":
        # beseitigt vorhandene Sonderzeichen
        # wie z.B. , . ! ? etc.
        doc = nlp(re.sub('\W+',' ', x))

        processed = ""
        for tk in doc:
            # Stoppwörter werden aussortiert
            if (without_stop and not tk.is_stop) or not without_stop :
                # lemmatrisierte Wörter
                processed += tk.lemma_ + ";"
        processed = processed.strip()
        if len(processed) > 0 and processed[-1] == ";":
            processed = processed[:len(processed) - 1]
        if len(processed) > 0 and processed[0] == ";":
            processed = processed[1:]
        x = processed
    return x

In [4]:
text_to_test = "Es ist ein schöner Text zum Testen"
process_data(text_to_test) # Text zum Testen ohne stopwords

'schön;Text;Testen'

In [5]:
process_data(text_to_test, False) # Text zum Testen mit stopwords

'ich;sein;einen;schön;Text;zum;Testen'

In [6]:
news_without_stopwords = news.copy()
news_with_stopwords = news.copy()

for param in ["headline", "intro"]:
    news_without_stopwords[param] = news[param].apply(process_data)
    news_with_stopwords[param] = news[param].apply(lambda x: process_data(x, False))
    
news_without_stopwords.head()
news_with_stopwords.head()

Unnamed: 0,name,date,headline,intro
0,Welt,01/06/2021,Mit;sich;Mars;Landung;kommen;China;der;USA;gef...,-
1,Welt,01/06/2021,der;Politik;stürzen;der;Arzt;in;ein;kaum;lösba...,ab;nächst;Woche;sollen;Kind;ab;zwölf;Jahr;gege...
2,Welt,01/06/2021,WHO;benennen;Virusvarianten;um;um;Diskriminier...,der;Weltgesundheitsorganisation;wollen;besorgn...
3,Welt,01/06/2021,der;Bundesnotbremse;fällen;weg;doch;einen;letz...,Angela;Merkel;deuten;vorige;Woche;einen;möglic...
4,Welt,01/06/2021,Unerträgliche;Arroganz;spalten;Gesellschaft;Li...,um;insgesamt;16;Cent;wollen;Annalena;Baerbock;...


In [8]:
process_without_stopwords_path = os.path.join(os.getcwd() + "/data/processed/withoutStopwords", "news.csv")
news_without_stopwords.to_csv(process_without_stopwords_path, encoding='utf-8')

process_with_stopwords_path = os.path.join(os.getcwd() + "/data/processed/withStopwords", "news.csv")
news_with_stopwords.to_csv(process_with_stopwords_path, encoding='utf-8')

In [9]:
news_with_stopwords.head()

Unnamed: 0,name,date,headline,intro
0,Welt,01/06/2021,Mit;sich;Mars;Landung;kommen;China;der;USA;gef...,-
1,Welt,01/06/2021,der;Politik;stürzen;der;Arzt;in;ein;kaum;lösba...,ab;nächst;Woche;sollen;Kind;ab;zwölf;Jahr;gege...
2,Welt,01/06/2021,WHO;benennen;Virusvarianten;um;um;Diskriminier...,der;Weltgesundheitsorganisation;wollen;besorgn...
3,Welt,01/06/2021,der;Bundesnotbremse;fällen;weg;doch;einen;letz...,Angela;Merkel;deuten;vorige;Woche;einen;möglic...
4,Welt,01/06/2021,Unerträgliche;Arroganz;spalten;Gesellschaft;Li...,um;insgesamt;16;Cent;wollen;Annalena;Baerbock;...
