# Data Understanding

Nun gilt es den gesammelten Datensatz zu beschreiben und zu untersuchen. Die Untersuchung dient dem Zweck die Daten hinsichtlich ihrer Qualität bewerten zu können und Maßnahmen für das Data Cleaning zu beschließen.

#### 0. Lade Datensatz

In [5]:
import pandas as pd
df = pd.read_feather('../data/raw/twitter_tweets_raw.feather')

#### 1. Überblick

In [6]:
df.dtypes

url           object
date          object
rawContent    object
dtype: object

#### 2. Überprüfe Anforderungen an den Datensatz

Um die Qualität der Daten zu bewerten, muss überprüft werden, ob die Daten den zuvor aufgestellen Anforderungen entsprechen. Nachfolgend werden daher folgende Untersuchungen vorgenommen:
- Prüfe ob alle Beiträge im angegebenen Zeitraum erstellt wurden
- Prüfe ob alle Beiträge Textdaten enthalten
- Prüfe ob Duplikate existieren 
- Prüfe ob alle Beiträge in englischer Sprache sind

In [7]:
# check whether all posts were created within the selected period
# expected result: True
import datetime

_ = df.copy()
_['date'] = _['date'].apply(lambda x: datetime.datetime.strptime(x, "%b %d, %Y · %I:%M %p %Z"))

_.query('date < "2022-10-01" or date > "2023-03-31"').empty

True

In [8]:
# check if entries have no text
# expected result: False

df['rawContent'].isnull().any()

False

In [9]:
# check for duplicates
# expected result: False

df['rawContent'].duplicated().any()

True

*Hinweis: Die nachfolgende Überprüfung kann einige Zeit in Anspruch nehmen!* <br>
*Ergebnis: False*

In [None]:
# check if all texts are in English
# expected result: True
from langdetect import detect

_ = df.copy()

# define function to identify language of tweet
def detect_language(text):
    try:
        lang = detect(text)
    except:
        lang = None
    return lang

_['lang'] = _['rawContent'].apply(detect_language)
_['lang'].eq('en').all()

---