# Data Understanding

Nun gilt es den gesammelten Datensatz zu beschreiben und zu untersuchen. Die Untersuchung dient dem Zweck die Daten hinsichtlich ihrer Qualität bewerten zu können und Maßnahmen für das Data Cleaning zu beschließen.

#### 0. Lade Datensatz

In [1]:
import pandas as pd
df = pd.read_feather('../data/raw/twitter_tweets_raw.feather')

#### 1. Überblick

In [3]:
df.dtypes

url                          object
date            datetime64[ns, UTC]
rawContent                   object
lang                         object
replyCount                    int64
retweetCount                  int64
likeCount                     int64
dtype: object

#### 2. Überprüfe Anforderungen an den Datensatz

Um die Qualität der Daten zu bewerten, muss überprüft werden, ob die Daten den zuvor aufgestellen Anforderungen entsprechen. Nachfolgend werden daher folgende Untersuchungen vorgenommen:
- Prüfe ob alle Beiträge im angegebenen Zeitraum erstellt wurden
- Prüfe ob alle Beiträge Textdaten enthalten
- Prüfe ob Duplikate existieren 
- Prüfe ob alle Beiträge in englischer Sprache sind

In [6]:
# check whether all posts were created within the selected period
# expected result: True
import datetime

_ = df.copy()
_['date'] = pd.to_datetime(_.date).dt.tz_localize(None)

_.query('date < "2018-04-01" or date > "2023-04-01"').empty

True

In [8]:
# check if entries have no text
# expected result: False

df['rawContent'].isnull().any()

False

In [11]:
# check for duplicates
# expected result: False

df['rawContent'].duplicated().any()

True

In [12]:
# check if all texts are in English
# expected result: True

df['lang'].eq('en').all()

False

---