# Data Understanding

Nun gilt es den gesammelten Datensatz zu beschreiben und zu untersuchen. Die Untersuchung dient dem Zweck die Daten hinsichtlich ihrer Qualität bewerten zu können und Maßnahmen für das Data Cleaning zu beschließen.

#### 0. Lade Datensatz

In [None]:
import pandas as pd

df = pd.read_feather('../data/raw/twitter_tweets_raw.feather')

df.head(5)

#### 1. Überblick

In [None]:
df.dtypes

#### 2. Überprüfe Anforderungen an den Datensatz

Zur Bewertung der Datenqualität ist es erforderlich, die Konformität der Daten mit den zuvor definierten Anforderungen zu überprüfen. In diesem Zusammenhang werden die folgenden Untersuchungen durchgeführt:

- Überprüfung auf Zeitraum: Es wird überprüft, ob alle Beiträge innerhalb des angegebenen Zeitraums erstellt wurden. Hierbei werden mögliche Lücken in den Daten identifiziert.
<br>

- Überprüfung der Vollständigkeit: Es wird untersucht, ob alle Beiträge Textdaten enthalten
<br>

- Identifikation von Duplikaten: Es erfolgt eine systematische Untersuchung, um das Vorhandensein von Duplikaten innerhalb der Beiträge festzustellen. Dies ermöglicht eine präzise Einschätzung der Datenintegrität und die Vermeidung von doppelten Informationen. 
<br>

- Sprachliche Überprüfung: Es wird geprüft, ob alle Beiträge in englischer Sprache verfasst sind, um sicherzustellen, dass die Daten konsistent und für die geplante Analyse geeignet sind.

In [None]:
# check whether all posts were created within the selected period
# expected result: True
import datetime

_ = df.copy()
_['date'] = pd.to_datetime(_.date).dt.tz_localize(None)

_.query('date < "2018-04-01" or date > "2023-04-01"').empty

In [None]:
# check if entries have no text
# expected result: False

df['rawContent'].isnull().any()

In [None]:
# check for duplicates
# expected result: False

df['rawContent'].duplicated().any()

In [None]:
# check if all texts are in English
# expected result: True

df['lang'].eq('en').all()

---