## Setup

Für die Aufgabe wird die Bibliothek "pandas" benötigt. Außerdem importieren wir nltk.

In [1]:
import pandas as pd
import nltk


Wir importieren unsere CSV-Datei aus Aufgabe 1

In [2]:
df = pd.read_csv("../data/raw/webscraping.csv")

Nun lassen wir uns den Dataframe ausgeben.

In [3]:
pd.read_csv(df)

TypeError: argument of type 'method' is not iterable

In [5]:
df['Inhalt'] = df['Inhalt'].astype(str).str.lower()

df.head(3)

Unnamed: 0.1,Unnamed: 0,Überschrift,Inhalt
0,0,The Best Apple Cyber Monday Deals,apple isn't holding a cyber monday sale per se...


## Datenkorrekturen

In [13]:
df['Inhalt'] = df['Inhalt'].astype(str).str.lower()

df.head(3)

Unnamed: 0.1,Unnamed: 0,Überschrift,Inhalt
0,0,The Best Apple Cyber Monday Deals,apple isn't holding a cyber monday sale per se...


## Text Mining und Vorbereiten der Daten

### Tokenization
Wir verwenden NLTK's RegexpTokenizer um Tokenisierung in Kombination mit regulären Ausdrücken durchzuführen. 

In [14]:
from nltk.tokenize import RegexpTokenizer

In [15]:
regexp = RegexpTokenizer('\w+') 
df['Inhalt_token']=df['Inhalt'].apply(regexp.tokenize) 

In [16]:
df.head()

Unnamed: 0.1,Unnamed: 0,Überschrift,Inhalt,Inhalt_token
0,0,The Best Apple Cyber Monday Deals,apple isn't holding a cyber monday sale per se...,"[apple, isn, t, holding, a, cyber, monday, sal..."


## Stopwords

wir laden uns aus nltk die "stopwords" herunter. Das sind Wörter in einer Stoppliste, die vor der Analyse von natürlichsprachlichen Daten gelöscht werden, da sie keine wertvollen Informationen enthalten.

In [6]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/katharina/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [7]:
import nltk
from nltk.corpus import stopwords

Wir speichern die Stoppwörter in "stopwords". Außerdem wollen wir nur die englischen Stoppwörter ausgeben.

In [8]:
stopwords = nltk.corpus.stopwords.words("english")


In [9]:
stopwords

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [12]:
df['Inhalt_token_s'] = df['Inhalt_token'].apply(lambda x: [i for i in x if i not in stopwords])

KeyError: 'Inhalt_token'