# Content

>* [1. Introduction to Data Wrangling and Data Quality](#1)
    - [Data Wrangling](#1_1)
    - [2. Data Quality](#1_2)
        - [Data fit](#fit)
        - [Data integrity](#integrity)
>* [Plausibilitätschecks](#2)
>* [data preperation](#4)

# 1. Introduction to Data Wrangling and Data Quality <a name=1></a>

1. Data Quality
2. Data Wrangling

## Data wrangling <a name=1_1></a>

- is the process of taking “raw” or “found” data, and transforming it into something that can be used to generate insight and meaning. 

-  it is about much more than simply learning how to access and manipulate data; it’s about making judgments, inferences, and selections.

- Every significant data manipulation task is propelled by a **question**.

-  the data wrangling process is really more of a **cycle** than it is a linear set of steps.



#### Steps of data wrangling:
1. Researching.
2. Locating or collecting data
3. Reviewing the data
4. “Cleaning,” standardizing, transforming, and/or augmenting the data
5. Analyzing the data
6. Visualizing the data
7. Communicating the data

## Data Quality <a name=1_2></a>

- It it is up to the humans involved in data collection, acquisition, and analysis to ensure its quality so that the outputs of our data work actually mean something.

- axes for evaluating data quality:
1. the **integrity** of the data itself, 
2. and the “**fit**” or appropriateness of the data with respect to a particular question or problem.

### 1.1. Data Fit <a name=fit></a>

-  often we have to do a significant amount of integrity work before we can know with confidence that our dataset is actually fit for our selected question or project.

> **Definition** *Data Fit*
>
> The extent to which a given dataset accurately represents the phenomenon you're investigatig.

Data fit is based on **3 metrics**: [*validity*](#a1), [*reliability*](#a2), and [*representativeness*](#a3).

#### **1. Validity**  <a name=a1></a>

Describes the extent to which something measuresa what it is supposed to.


- **Construct Validity**: This refers to how well a test or tool measures the theoretical construct that it was designed to measure¹². For example, if a test is designed to measure introversion, construct validity would be the degree to which the test actually measures introversion¹. It's especially important when researching concepts that can't be quantified and/or are intangible¹.
> _important questions would be:_
>* _Sind die Variablen im Datensatz angemessen operationalisiert? (Alter in Jahre, Kategorie Male/Female für geschlecht)_

- **Content Validity**: This assesses how well a test represents all aspects of the construct¹². If a test is designed to measure introversion, content validity would be the degree to which the test covers all aspects of introversion¹. If some aspects are missing or irrelevant parts are included, the test has low content validity¹.

> _important questions would be:_
>* _Wie relevant für die Fragestellung sind die daten?_
>* _inwieweit können die Ergebnisse auf andere Situationen oder Populationen verallgemeinert werden?_


In summary, construct validity is about the test measuring what it's supposed to measure, while content validity is about the test covering the full breadth of the concept¹².

#### 2. Reliability <a name=a2></a>

Reliability of a given measure describes its accuracy and stability. Together they help us assess whether the same measure taken twice in the same circumstances will give us the same results.

> _important questions would be:_
>* _Gibt es inkonsistenzen?_
>* _Gibt es fehlende Werte?_
>* _Wenn die gleiche Studie unter den gleichen Bedingungen wiederholt würde, würden wir dann ähnliche Ergebnisse erhalten?_

#### 3. Representativeness <a name=a3></a>

Reliability of a given measure describes whether those insights are an accurate portrait of a particular situation or population.

> _important questions would be:_
>* _Sind die Probanden gut verteilt (z.b. auf stadteile einer stadt)?_
>* _Gibt es fehlende Werte die die Repräsentativität der Daten beeinträchtigen können?_
>* _War die Auswahl der Probanden zufällig oder sind bestimmte Gruppen über- oder unterrepräsentiert?_
>* _könnte man eine weitere Information nennen, die bisher nicht in den Daten enthalten ist, aber die hilfreich wäre, um die Repräsentativität besser beurteilen zu können? (Alter?)_

### 1.2. Data integrity  <a name=integrity></a>

the integrity of a dataset is evaluated using the data values and descriptors that make it up.

Data integrity is about whether the data you have can support the analysis you''ll need to perform in order to answer that quastion.

> **Definition** *Data Integrity*
>
>Data Integrity is the completeness, accuracy, and consistency of data as it is maintained over time and across all formats.

Data integrity is based on the following **metrics**: 

- [***Necessary, but not sufficient***](#a)
    - [Of known provence.](#a)
    - [Well-Annotated.](#a)
- ***Important***
    - [Timely.](#b)
    - [Complete.](#c)
    - [High Volume.](#d)
    - [Multivariant.](#e)
    - [Atomic](#f)
- ***Achievable***
    - [Consistent.](#g)
    - [Clear.](#h)
    - [Dimensionally structed.](#i)

here are short explanations for each of the points:

***Necessary, but not sufficient*** <a name=a></a>
- **Of known provenance**: This means the data's origin or source is known and can be traced. It's necessary for data integrity and authenticity, but not sufficient alone for overall data quality.
>* _is the dataset from a reliable source?_
- **Well-Annotated**: This refers to data being accompanied by explanatory information (annotations). While necessary for understanding the data, it alone doesn't guarantee the data's accuracy or relevance.



***Important*** <a name=b></a>
- **Timely**: This means the data is available when needed. Timeliness is important for data to be actionable, but it doesn't ensure other aspects like accuracy or completeness.
>* _is the dataset up to date?_
>* _does the dataset include the most recent records? Wurden neuen Mitglieder nach der Erstellung der Umfrage hinzugefügt?_
>* _when was the last time the data was updated?_
>* _What are the minimum and maximum dates in the table?_


- **Complete**: Complete data has all the necessary parts. It's important for a comprehensive analysis, but doesn't ensure the data is timely or accurate. <a name=c></a>
> _important questions would be:_
>* _Are there any missing values in the data?_
>* _Find the earliest date(s) in our “recent” data file and confirm that they are before a specific date._


- **High Volume**: This refers to having a large amount of data, which is important for statistical significance. However, high volume doesn't ensure the data is relevant or accurate. <a name=d></a>
>- Is the number of data in your dataset is enough?
>- Is the number of data for each category in your dataset is enough?


- **Multivariant**: This means the data covers multiple variables or factors. It's important for a holistic view, but doesn't ensure the data is complete or timely.
<a name=e></a>

> - gibt es mehr als eine Variable/Merkmal im datensatz?
> - Wenn ja:
    - können diese gleichzeitig betrachtet werden?
    - Korrelieren diese?

- **Atomic**: This refers to data that is in its smallest indivisible unit, providing a high level of detail. It's important for granular analysis, but doesn't ensure the data is complete or timely.
<a name=f></a>

> - gibt es irgendeiner Art Aggregation? (zusammengesetzten werte wie Listen oder dictionaries)
> - gibt es zusammenfassenden Statistiken?
> - Gibt es mehrere Zeilen für jeden Mitarbeiter (z.B. “Sara Hofmann”) mit unterschiedlichen Werten für andere Attribute?


***Achievable***
- **Consistent**: This means the data is uniform and reliable across all instances. It's achievable with good data governance, but doesn't ensure the data is timely or complete. <a name=g></a>
> _important questions would be:_
>* _are there duplicates?_
>* _Do the data match when thy are read from two different sources?_
>* are the decriptives used for the same value in the dataset consistent? (e.g. spelling of "male" vs "Male")


- **Clear**: This refers to data that is easy to understand and interpret. It's achievable with good data presentation, but doesn't ensure the data is accurate or complete.<a name=h></a>

> _important questions would be:_
>* _Are the column names clear?_
>* _Sind die benutzten Beschreibeungen klar?_

- **Dimensionally Structured**: This means the data is organized in a way that allows analysis across different dimensions (e.g., time, location). It's achievable with good data modeling, but doesn't ensure the data is timely or accurate. <a name=i></a>

> _important questions would be:_
>* _Gibt es klar definierte Dimensionen und Metriken? Dimensionen sind oft kategorische Attribute wie “Stadt”, “Produkttyp” oder “Zeit”, während Metriken quantitative Messungen wie “Umsatz”, “Anzahl der Besuche” oder “Dauer” sind._
>* _ wie sieht die Struktur des Datensatzes aus?_

# 2. Plausibilitätschecks <a name=2></a>

Ein Plausibilitätscheck (auch bekannt als "Data Quality Check" oder "Data Validation") ist ein Prozess, bei dem Daten auf ihre Richtigkeit, Vollständigkeit und Plausibilität überprüft werden, bevor sie weiter verarbeitet oder analysiert werden. 

**Das Ziel** ist es, falsche oder inkonsistente Daten zu identifizieren und zu korrigieren, um die Genauigkeit der Datenanalyse sicherzustellen. 
Arten von Plausibilitätschecks sind:
- Überprüfungen auf bereichsüberschreitende Werte
- Überprüfungen auf fehlende oder doppelte Daten
- Überprüfungen auf Konsistenz zwischen abhängigen Variablen².

Ein Beispiel für die Anwendung von Plausibilitätskontrollen in der Marktforschung ist die Überprüfung von Antworten in Umfragen auf bereichsüberschreitende Werte oder fehlende Daten². Eine solche Überprüfung kann helfen, falsche Antworten zu identifizieren und zu korrigieren, die durch menschliche Fehler oder technische Probleme entstanden sind².

> _important questions would be:_
>* _Überprüfen Sie, ob die Werte in den Spalten innerhalb eines erwarteten Bereichs liegen._
>*_Überprüfen Sie, ob alle erforderlichen Daten vorhanden sind?_
>* _Überprüfen Sie, ob die Daten in verschiedenen Spalten konsistent sind? Zum Beispiel, wenn ein Mitglied angibt, dass es das Jugendzentrum an einem bestimmten Tag besucht, sollte es an diesem Tag eine Aktivität geben._
>* _Überprüfen Sie, ob die Werte in den Spalten gültig sind. Zum Beispiel sollten die Werte in der Spalte “Stadtteil” einer der vier Stadtteile sein (Nord, Ost, Süd, West)._
>* _ob es sich um tatsächliche Duplikate handelt oder ob es einen Fehler bei der Datenerfassung gab?_

Nehmen Sie an, einer Ihrer Plausibilitätschecks schlägt fehlt. Was sollten Sie dann tun?