# Content
>* [1. Introduction to Data Wrangling and Data Quality](#1)
>* [2. Data Quality](#2)

# 1. Introduction to Data Wrangling and Data Quality <a name=1></a>

1. Data Quality
2. Data Wrangling

## Data wrangling

- is the process of taking “raw” or “found” data, and transforming it into something that can be used to generate insight and meaning. 

-  it is about much more than simply learning how to access and manipulate data; it’s about making judgments, inferences, and selections.

- Every significant data manipulation task is propelled by a **question**.

-  the data wrangling process is really more of a **cycle** than it is a linear set of steps.



#### Steps of data wrangling:
1. Researching.
2. Locating or collecting data
3. Reviewing the data
4. “Cleaning,” standardizing, transforming, and/or augmenting the data
5. Analyzing the data
6. Visualizing the data
7. Communicating the data

## Data Quality

- It it is up to the humans involved in data collection, acquisition, and analysis to ensure its quality so that the outputs of our data work actually mean something.

- axes for evaluating data quality:
1. the **integrity** of the data itself, 
2. and the “**fit**” or appropriateness of the data with respect to a particular question or problem.

### 1.1. Data Fit

-  often we have to do a significant amount of integrity work before we can know with confidence that our dataset is actually fit for our selected question or project.

> **Definition** *Data Fit*
>
> The extent to which a given dataset accurately represents the phenomenon you're investigatig.

Data fit is based on **3 metrics**: *validity*, *reliability*, and *representativeness*.

#### **1. Validity** 

Describes the extent to which something measuresa what it is supposed to.


- **Construct Validity**: This refers to how well a test or tool measures the theoretical construct that it was designed to measure¹². For example, if a test is designed to measure introversion, construct validity would be the degree to which the test actually measures introversion¹. It's especially important when researching concepts that can't be quantified and/or are intangible¹.

- **Content Validity**: This assesses how well a test represents all aspects of the construct¹². If a test is designed to measure introversion, content validity would be the degree to which the test covers all aspects of introversion¹. If some aspects are missing or irrelevant parts are included, the test has low content validity¹.

In summary, construct validity is about the test measuring what it's supposed to measure, while content validity is about the test covering the full breadth of the concept¹².

#### 2. Reliability

Reliability of a given measure describes its accuracy and stability. Together they help us assess whether the same measure taken twice in the same circumstances will give us the same results.

#### 3. Representativeness

Reliability of a given measure describes whether those insights are an accurate portrait of a particular situation or population.

### 1.2. Data integrity

the integrity of a dataset is evaluated using the data values and descriptors that make it up.

Data integrity is about whether the data you have can support the analysis you''ll need to perform in order to answer that quastion.

> **Definition** *Data Integrity*
>
>Data Integrity is the completeness, accuracy, and consistency of data as it is maintained over time and across all formats.

Data integrity is based on the following **metrics**: 

- ***Necessary, but not sufficient***
    - Of known provence.
    - Well-Annotated.
- ***Important***
    - Timely.
    - Complete.
    - High Volume.
    - Multivariant.
    - Atomic
- ***Achievable***
    - Consistent.
    - Clear.
    - Dimensionally structed.

here are short explanations for each of the points:

***Necessary, but not sufficient***
- **Of known provenance**: This means the data's origin or source is known and can be traced. It's necessary for data integrity and authenticity, but not sufficient alone for overall data quality.
>* _is the dataset from a reliable source?_
- **Well-Annotated**: This refers to data being accompanied by explanatory information (annotations). While necessary for understanding the data, it alone doesn't guarantee the data's accuracy or relevance.

***Important***
- **Timely**: This means the data is available when needed. Timeliness is important for data to be actionable, but it doesn't ensure other aspects like accuracy or completeness.
>* _is the dataset up to date?_
>* _does the dataset include the most recent records?_
>* _when was the last time the data was updated?_
>* _What are the minimum and maximum dates in the table?_
- **Complete**: Complete data has all the necessary parts. It's important for a comprehensive analysis, but doesn't ensure the data is timely or accurate.
> _important questions would be:_
>* _Are there any missing values in the data?_
>* _Find the earliest date(s) in our “recent” data file and confirm that they are before a specific date._
- **High Volume**: This refers to having a large amount of data, which is important for statistical significance. However, high volume doesn't ensure the data is relevant or accurate.
>Is the number of data in your dataset is enough?
- **Multivariant**: This means the data covers multiple variables or factors. It's important for a holistic view, but doesn't ensure the data is complete or timely.
- **Atomic**: This refers to data that is in its smallest indivisible unit, providing a high level of detail. It's important for granular analysis, but doesn't ensure the data is complete or timely.

***Achievable***
- **Consistent**: This means the data is uniform and reliable across all instances. It's achievable with good data governance, but doesn't ensure the data is timely or complete.
> _important questions would be:_
>* _are there duplicates?_
>* _Do the data match when thy are read from two different sources?_
>* are the decriptives used for the same value in the dataset consistent? (e.g. spelling of "male" vs "Male")
- **Clear**: This refers to data that is easy to understand and interpret. It's achievable with good data presentation, but doesn't ensure the data is accurate or complete.
- **Dimensionally Structured**: This means the data is organized in a way that allows analysis across different dimensions (e.g., time, location). It's achievable with good data modeling, but doesn't ensure the data is timely or accurate.

# 2. RDDs <a name=2></a>

- RDDs bilden diese die Grundlage der parallelen Verarbeitung.
- die wichtigsten Eigenschaften von RDDs:
    - In-Memory-Verarbeitung
    - Lazy
    - Partitioniert
    - Unveränderlich
    - Lineage

**Voretile der In-Memory-Verarbeitung**
- *Schnellere Datenverarbeitung*: Durch die Speicherung von Daten im Arbeitsspeicher (In-Memory) können Datenverarbeitungsaufgaben schneller ausgeführt werden als bei herkömmlichen Festplatten-basierten Systemen wie Hadoop.

- *Effeziente Wiederverwendung von Daten*: viele Algorithmen und Abfragen arbeiten iterativ auf demselben Datensatz. Die In-Memory-Verarbeitung ermöglicht eine effiziente Wiederverwendung dieser Daten, da sie zwischen Abfragen im Arbeitsspeicher gespeichert werden können.
- *Fehlertoleranz*: RDDs können nach einem Ausfall wiederhergestellt werden. Dies wird erreicht, indem die Abstammungslinie (Lineage) jedes RDDs verfolgt wird.
- *Skalierbarkeit und Prallelität*: RDDs können über ein Cluster verteilt und parallel verarbeitet werden, was die Verarbeitung von extrem großen Datenmengen ermöglicht


**Lazy Verarbeitung**

In der Programmierung bedeutet “Lazy-Ausführung” (oder “Lazy-Evaluation”), dass Berechnungen erst dann ausgeführt werden, wenn sie tatsächlich benötigt werden. Dies kann die Effizienz von Programmen verbessern, indem unnötige Berechnungen vermieden und Ressourcen gespart werden.

**Transformations und Actions:**

In Apache Spark sind Transformationen und Aktionen zwei Arten von Operationen, die auf Daten angewendet werden können. Hier sind die wichtigsten Unterschiede:

- **Transformationen** erstellen ein neues Dataset aus einem vorhandenen Dataset. Beispiele für Transformationen sind `map`, `filter` und `reduceByKey`. Transformationen in Spark sind "lazy", was bedeutet, dass sie erst ausgeführt werden, wenn eine Aktion aufgerufen wird. Sie führen also keine Berechnungen durch, wenn sie definiert werden, sondern erstellen lediglich einen Ausführungsplan.

- **Aktionen** hingegen liefern einen Wert an den Treiberprogramm zurück oder schreiben Daten in ein externes Speichersystem. Aktionen lösen die tatsächliche Berechnung aus, die durch die Transformationen definiert wurde. Beispiele für Aktionen sind `count`, `first`, `take`, `collect` und `save`.

Zusammengefasst, Transformationen erstellen einen Ausführungsplan, aber berechnen nichts, bis eine Aktion aufgerufen wird. Aktionen lösen die Berechnung aus und geben das Ergebnis zurück. Dieses Konzept ermöglicht es Spark, seine Berechnungen zu optimieren und effizient über große Datenmengen hinweg durchzuführen.


|  | Transformationen | Aktionen |
|---|---|---|
| **Was sie tun** | Erstellen ein neues Dataset aus einem vorhandenen Dataset | Liefern einen Wert an das Treiberprogramm zurück oder schreiben Daten in ein externes Speichersystem |
| **Beispiele** | `map`, `filter`, `reduceByKey` | `count`, `first`, `take`, `collect`, `save` |
| **Wann sie ausgeführt werden** | Sie sind "lazy" und werden erst ausgeführt, wenn eine Aktion aufgerufen wird | Sie lösen die tatsächliche Berechnung aus, die durch die Transformationen definiert wurde |
| **Ergebnis** | Sie erstellen einen Ausführungsplan, berechnen aber nichts | Sie lösen die Berechnung aus und geben das Ergebnis zuröglichen.

#### **Leere Partitionen**

Leere Partitionen in einem RDD können zu mehreren Problemen führen:

1. **Ressourcenverschwendung**: Jede Partition wird von einem separaten Task verarbeitet. Wenn eine Partition leer ist, wird ein Task verschwendet, da es nichts zu verarbeiten gibt.
2. **Ungleichmäßige Lastverteilung**: Wenn einige Partitionen viele Daten enthalten und andere leer sind, kann dies zu einer ungleichmäßigen Lastverteilung führen. Einige Tasks können sehr lange dauern, während andere schnell abgeschlossen sind.

$\longrightarrow$ Um das Problem leerer Partitionen zu lösen, kann man das RDD neu partitionieren, um die Daten gleichmäßiger zu verteilen. Dieser Prozess wird als **Shuffling** bezeichnet. Mit der `repartition()` Funktion in Spark kann man die Anzahl der Partitionen in einem RDD ändern:

```python
rdd_repartitioned = rdd_filtered.repartition(10)
```

Obwohl Shuffling das Problem leerer Partitionen lösen kann, sollte es normalerweise vermieden werden, da es mit hohen Kosten verbunden ist:

1. **Hoher Netzwerkverkehr**: Beim Shuffling werden alle Daten über das Netzwerk gesendet, was zu hohem Netzwerkverkehr führen kann.
2. **Hoher Disk I/O**: Die Daten müssen auf die Festplatte geschrieben und von dort gelesen werden, was zu hohem Disk I/O führt.
3. **Hoher CPU-Verbrauch**: Das Sortieren und Aggregieren der Daten erfordert CPU-Ressourcen.

Daher sollte Shuffling nur dann verwendet werden, wenn es unbedingt notwendig ist, z.B. wenn die Vorteile der Neuverteilung der Daten die Kosten des Shufflings überwiegen. Es ist immer eine gute Praxis, die Daten so früh wie möglich im Verarbeitungsprozess zu partitionieren, um die Notwendigkeit von Shuffling zu minimieren.

1. **Ressourcenverschwendung**: Jede Partition wird von einem separaten Task verarbeitet. Wenn eine Partition leer ist, wird ein Task verschwendet, da es nichts zu verarbeiten gibt.
2. **Ungleichmäßige Lastverteilung**: Wenn einige Partitionen viele Daten enthalten und andere leer sind, kann dies zu einer ungleichmäßigen Lastverteilung führen. Einige Tasks können sehr lange dauern, während andere schnell abgeschlossen sind.


**Unveränderlich und Lineage**
Resilient Distributed Datasets (RDDs) sind unveränderlich, was bedeutet, dass sie nach ihrer Erstellung nicht mehr verändert werden können. Dies hat mehrere Vorteile:

1. **Fehlerbehandlung**: Da RDDs unveränderlich sind, können sie bei einem Fehler einfach neu erstellt werden. Dies macht das System widerstandsfähiger gegen Ausfälle.
2. **Parallelisierung**: Unveränderlichkeit erleichtert die Parallelisierung von Operationen, da es keine Synchronisationsprobleme gibt, die normalerweise bei veränderlichen Daten auftreten.
3. **Effizienz**: Da RDDs unveränderlich sind, können sie effizient auf mehreren Knoten verteilt und zwischengespeichert werden, was die Verarbeitungsgeschwindigkeit verbessert.

Jedes RDD kennt seine Abstammung oder "Lineage", was bedeutet, dass es die Reihe von Transformationen kennt, die zu seiner Erstellung geführt haben. Dies hat auch mehrere Vorteile:

1. **Fehlerbehandlung**: Wenn ein RDD verloren geht, kann es anhand seiner Lineage neu erstellt werden. Dies macht das System widerstandsfähiger gegen Ausfälle.
2. **Optimierung**: Die Kenntnis der Lineage ermöglicht es Spark, die Verarbeitung zu optimieren. Zum Beispiel kann Spark entscheiden, einige Operationen zusammenzufassen oder die Reihenfolge der Operationen zu ändern, um die Effizienz zu verbessern.

Zusammenfassend lässt sich sagen, dass die Unveränderlichkeit und die Kenntnis der Lineage zwei der Schlüsseleigenschaften von RDDs sind, die Spark seine Robustheit und Effizienz verleihen. Sie ermöglichen eine effiziente verteilte Verarbeitung und eine robuste Fehlerbehandlung.