![R-Kenntnis](../Pics/header.png "R-Kenntnis")

<div class="alert alert-block alert-info">

* **Titel:** R-Kenntnis Übungen 06: Explorative Datenanalyse (Teil 2)
* **Autor:** Prof. Dr. Denis Royer
* **Datum:** 27.11.2022 (Version 2.1)

</div>

![Header_Data](../Pics/header_data.png "Data")

# BI - R-Kenntnis Übungen 06: Explorative Datenanalyse (Teil 2)

Dieses Übungsblatt bezieht sich auf den R-Kurs ***R-Kenntnis*** zur Vorlesung Business Intelligence im Wintersemester 2022/23.

Bitte lesen Sie die folgenden Kapitel und die enthaltenen Hinweise ***sorgfältig*** durch. Die Aufgaben sind zum Teil in den Kapiteln enthalten.

<div class="alert alert-block alert-warning">
<b>WICHTIG:</b> 
    
*Die Schritte im Source Code bauen zum Teil aufeinander auf. Sollten Sie Ihre RStudio oder JupyterLab Session schließen oder neu starten, so müssen Sie ggf. den **Code erneut ausführen**, bzw. die **Packages neu laden**.*
    
</div>

<div class="alert alert-block alert-info">
<b>Hinweis:</b> Weitere Hinweise und Quellen finden Sie <a href="../index.ipynb">auf der zenteralen Übersicht zu den Übungen</a>. </div>

## Vorbereitende Schritte für die Übung


<div class="alert alert-block alert-warning">
<b>Wichtig:</b> Bevor wir loslegen, müssen wir zunächst einmal ein paar vorbereitende Dinge erledigen:

* Die notwendigen Packages laden (bspw. `tidyverse`)
* Datensatz laden (siehe *Data/raw_bikeshare_data.csv*)
* Als weiteren Datensatz nutzen wir den Testdatensatz `starwars`

</div>


In [None]:
# Laden des Pakets tidyverse (lädt stringr, tibble, readr und dplyr)
library(tidyverse)
library(DT)

# Use Case: Bike Sharing LLC Marketing

Im Rahmen einer umfassenden Marketinganalyse hat *Bike Sharing LLC* eine Studie anderer Mitbewerber im Bereich Fahrradverleih eingekauft. Der Datensatz selbst enthält Informationen zu 172 Mitbewerbern, welche für eine Trendanalyse in der Fahrradverleihbranche erhoben wurden. Bei der Datenerhebung wurden folgende Aspekte erhoben:

* Ausgaben für Werbung mittels Google AdWords
* Ausgaben für Werbung auf Facebook
* Ausgaben für Werbung auf Twitter.com
* Gesamtes Marketing Budget
* Umsatz pro Unternehmen
* Anzahl an Mitarbeitern
* Bevölkerungsdichte des jeweiligen Marktes

Im Folgenden sollen nun verschiedene Schritte unternommen werden, um die Daten für die Marketingabteilung genauer zu analysieren.

## Laden und aufbereiten der Marketing Daten

Nutzen Sie den Datensatz `../Data/marketing.csv` und laden Sie die Daten in eine Variable (z.B. in die Variable *`marketing`*).

In [None]:
# Laden des Datensatzes mit der readr-Bibliothek.
# Wichtig: 
# - tidyverse vorher laden UND
# - Arbeitsverzeichnis setzen
marketing.df <- read_csv("../Data/marketing.csv")

Wie sehen die Daten aus? nutzen sie die `str()` Funktion um sich einen Überblick zu verschaffen.

Für die Aufgabe selbst sind die folgenden 2 Variablen interessant:

* *google_adwords*
* *pop_density*

Bei *pop_density* lohnt es sich, die Variable in einen Faktor umzuwandeln, der die Reihenfolge *Low*, *Medium*, *High* hat:

In [None]:
marketing.df$pop_density <- factor(marketing.df$pop_density,
                                ordered = TRUE, # Faktoren ordnen!
                                levels = c("Low", "Medium", "High"))

In [None]:
DT::datatable(marketing.df)

## Erste Analysen einzelner Variablen 

Erkunden Sie die Variablen *google_adwords* und *pop_density* aus dem Datensatz ein wenig. Nutzen Sie hierfür die Ihnen bereits bekannten Funktionen aus ***R***:

* *`summary()`* (Zusammenfassung)
* *`fivenum()`* (5-Punkte Zusammenfassung der Daten)
* *`mean()`* (Mittelwert)
* *`sd()`* (Standardabweichung)
* *`var()`* (Varianz)
* *`table()`* (bspw. für Faktoren)
* *`hist()`* (Grafik: Histogramm)
* *`plot()`* (Grafik: Plot)
* *`boxplot()`* (Grafik: Box-Plot)

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

***Frage:*** Nutzen Sie die oben genannten Funktionen für die Analyse der Variablen *google_adwords* und *pop_density*. 

**Was lässt sich erkennen?**

In [None]:
# Tabellarische Erkundung der Daten

summary(marketing.df$google_adwords)

In [None]:
fivenum(marketing.df$google_adwords)

In [None]:
mean(marketing.df$google_adwords) 
sd(marketing.df$google_adwords) 
var(marketing.df$google_adwords)

In [None]:
summary(marketing.df$pop_density)

In [None]:
# Grafische Erkundung der Daten
plot(marketing.df$pop_density)

In [None]:
par(mfrow = c(1, 2))
boxplot(marketing.df$google_adwords, ylab = "Ausgaben")
hist(marketing.df$google_adwords, main = NULL)

In [None]:
summary(marketing.df$twitter) 

In [None]:
boxplot(marketing.df$twitter, ylab = "Ausgaben", col = "gray")
hist(marketing.df$twitter, main = NULL, col = "blue")
par(mfrow = c(1, 1), lty = 1)

# Analyse zweier Variablen

Hat ein Datensatz mehr als zwei Variablen, so handelt es sich um *bivariate Daten*, welche man bspw. bezüglich Ihrer möglichen Zusammenhänge analysieren möchte. Die folgenden vier Fragestellungen können hierbei in einer explorativen Datenanalyse helfen:

* **Aussehen:** Wie sehen die Daten generell aus?
* **Beziehung:** Stehen zwei Variablen ggf. zueinander in Beziehung?
* **Korrelation:** Gibt es eine Korrelation zwischen den Daten?
* **Signifikanz:** Ist die Korrelation ggf. auch signifikant?

Im Folgenden werden wir diese Fragestellungen benutzen, um die Daten aus dem Marketing Datensatz (paarweise) zu analysieren.

## Aussehen der Daten

Das Aussehen der Daten kann mittels der bekannten `summary()` Funktion erfolgen.

Für die Analyse der Variable `marketing$employees` ist es hilfreich, diese etwas besser aufzuteilen. Hier hilft die `cut()`-Funktion, welche einen Vektor mit Werten in eine Faktor mit angegebenen Intervallen umwandelt:

In [None]:
# Welche Werte enthält marketing$employees
summary(marketing.df$employees)
# Hinzufügen der neuen, temporären Variable "emp_factor"
# und Aufteilung in eine Faktor-Variable mit den 
# zwei Intervallen "(2.99,7.5]" und "(7.5,12]"
marketing.df$emp_factor <- cut(marketing.df$employees, 2)

*Was passiert hier?:*

* Es wird eine neue Variable angelegt: `marketing$emp_factor`
* Es wird die `cut()` Funktion verwendet:
     * Diese nimmt die Variable `marketing$emp_factor`
     * Die Werte in `marketing$emp_factor` werden in 2 Intervalle aufgeteilt und in `marketing$emp_factor` gespeichert

In [None]:
str(marketing$emp_factor)
table(marketing$emp_factor)

## Beziehung der Daten

Grundsätzlich gibt es die Möglichkeit die Beziehung zweier Variablen tabellarisch oder grafisch zu analysieren:

* **Tabellarische Darstellungen** funktionieren gut für Faktoren. Hier eignet sich die Funktion `table()` von ***R***.
* **Grafische Darstellungen** nutzt man vor allem für numerische Daten. Hier sind Funktionen wie `mosaicplot()`, `boxplot()` oder `plot()` hilfreich. Darüber hinaus bietet ***R*** verschiedene Zusatzpakte wie ggplot2 und ähnliche, mit denen man Daten visualisieren kann.

### Übungen: Analysieren sie die folgenden Daten:

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

* Tabellarische Darstellung: Die Variablen emp_actor und pop_density
* Grafische Darstellung:
     * Mosaicplot (*Faktor/Faktor*): *pop_density* **und** *emp_factor*
     * Boxplot (*Faktor/Numerisch*): Die Variable *marketing_total* gruppiert nach *pop_density*
     * Plot (*Numerisch/Numerisch*): *google_adwords* **und** *revenues*


## Korrelation der Daten

Für die Analyse der Korrelation kann man in ***R*** sehr gut auf die Standardfunktion `cor()` zurückgreifen. Der resultierende Wert gibt darüber Aufschluss, wie stark eine Korrelation ist (0.0 für gar nicht *bis* 1.0 für starke Korrelationen) und ob die Korrelation negativ oder positiv ist (Vorzeichen des resultierenden Werts).

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Schauen sie sich folgende Korrelationen an. Was lässt sich feststellen?

<div class="alert alert-block alert-info">
<b>Tip:</b> Für zwei Variablen ist eine solche Analyse sicher außreichend - dennoch ist auch eine grafische Analyse hilfreich. Hierzu später noch mehr.</div>


* *google_adwords* und *revenues*
* *google_adwords* und *facebook*

In [None]:
cor(marketing.df$google_adwords, marketing.df$revenues)
cor(marketing.df$google_adwords, marketing.df$facebook)

## Signifikanz von Korrelationen

Die Signifikanz gibt in der Statistik Aufschluss darüber, wie stark Stichprobendaten von einer vorher festgelegten Annahme (Nullhypothese) abweichen. hier bietet ***R*** ebenfalls Werkzeuge an, um Korrelationen bezüglich ihrer Signifikanz zu testen - die `cor.test()` Funktion.

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")
**Aufgabe:** Schauen Sie sich folgende Tests einmal genauer an - was lässt sich beobachten/ableiten?

In [None]:
# cor.test
cor.test(marketing$google_adwords, marketing$revenues)
cor.test(marketing$twitter, marketing$revenues)
cor.test(marketing$facebook, marketing$revenues)

Wichtige Konzepte bezüglich des Tests der Signifikanz von Korrelationen:

<div class="alert alert-block alert-info">
<b>Tip:</b> 
    
Mehr unter: <https://flexikon.doccheck.com/de/Nullhypothese> und <https://flexikon.doccheck.com/de/P-Wert>.

</div>

* **Nullhypothese:** In der Statistik ist die Nullhypothese eine Annahme, welche mithilfe eines Hypothesentests überprüft werden soll. Die Nullhypothese sagt aus, dass zwischen zwei geprüften Daten kein Unterschied bzw. kein Zusammenhang besteht. Die Alternativhypothese (H1) stellt die gegensätzliche Vermutung dar.
* **T-Test:** Der t-Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests mit t-verteilter Testprüfgröße. Oft ist jedoch mit dem t-Test der Einstichproben- bzw. Zweistichproben-t-Test auf einen Mittelwertunterschied gemeint. 
* **P-Werte:** Der p-Wert ist die Wahrscheinlichkeit, dass die Teststatistik (= Prüfgröße, Testgröße, Prüffunktion) - bei Gültigkeit der Nullhypothese (H0) - mindestens den in der Stichprobe berechneten Wert (sprich diesen Wert oder einen größeren Wert) annimmt. Der p-Wert wird häufig von Statistik-Software angegeben. **Ein gängiger Wert eine Nullhypothese zu verwerfen liegt bei kleiner 0,05**.

**Aber:** Ist Korrelation auch kausal erklärbar? Schauen Sie sich folgende Daten einmal genauer an:
    
<div class="alert alert-block alert-info">
<b>Tip:</b> 
    
Den oben analysierten Fall und weitere Fälle für *"falsche Korrelationen"* finden Sie bspw. unter <http://tylervigen.com/view_correlation?id=3890>..

</div>


In [None]:
# Der Pro-Kopf-Verbrauch von Mozzarella-Käse (in den USA)
# korreliert mit Promotionen im Bereich Technik (in den USA)
cheese <- c(9.3, 9.7, 9.7, 9.7, 9.9, 10.2, 10.5, 11, 10.6, 10.6)
degrees <- c(480, 501, 540, 552, 547, 622, 655, 701, 712, 708)

In [None]:
# Korrelieren die Werte?
cor(cheese, degrees)
cor.test(cheese, degrees)

In [None]:
plot(cheese,degrees) # Grafische Ausgabe der Daten als Plot
abline(lm(degrees~cheese)) # Regressionsgeraden einfügen

<div class="alert alert-block alert-warning">
<b>Wichtig:</b> Anders als die alltagssprachliche Verwendung des Begriffs vortäuscht, trifft die Signifikanz keine Aussage über die Relevanz von Ergebnissen. 

***Korrelation ist nicht gleich Kausalität!***

</div>

## Grafische Darstellung

Ein letzter Schritt ist es, die Daten einmal grafisch darzustellen. Dies kann folgendermaßen geschehen:

In [None]:
par(mfrow = c(1, 3))
plot(marketing.df$google_adwords, marketing.df$revenues,
     main = "Cor: 0.766")
plot(marketing.df$google_adwords, marketing.df$facebook,
     main = "Cor: 0.076")
plot(marketing.df$marketing_total, marketing.df$revenues,
     main = "Cor: 0.853")
par(mfrow = c(1, 1))

In [None]:
marketing$emp_factor <- NULL

# Ausblick: Analyse von multivariaten Daten

Folgende Analysen können analog auch auf multivariate Daten angewendet werden:

In [None]:
# Aussehen der Daten
summary(marketing.df)

In [None]:
# Beziehung
# Nutzung einer Streudiagramm-Matrix
pairs(marketing.df, main = "Streudiagramm-Matrix")

In [None]:
# Korrelation
cor(marketing.df[ ,1:6])

In [None]:
# Signifikanz
# Nutzung des psych() Package für die Nutzung des cor.test
# für multivariate Daten.
library(psych)
corr.test(marketing.df[ ,1:6])

In [None]:
# Nutzung von corrgram() zur Erzeugung eines
# Korrelationsgraphen für die Variablen im 
# Datensatz. 
#
# Alternativ kann auch corrplot verwendet werden:
# <https://cran.r-project.org/web/packages/corrplot/vignettes/corrplot-intro.html>

library(corrgram)

In [None]:
corrgram(marketing.df[ ,1:6], order = FALSE,
         main = "Korrelation der Marketingdaten, ungeordnet",
         upper.panel = panel.ellipse,
         diag.panel = panel.minmax, text.panel = panel.txt)

In [None]:
corrgram(marketing.df[ ,1:6], order = TRUE,
         main = "Korrelation der Marketingdaten, geordnet",
         upper.panel = panel.pie,
         diag.panel = panel.minmax, text.panel = panel.txt)

# Workload: Explorative Datenanalyse

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Analysieren Sie die Daten, die Sie in *<a href="../Uebung 04/R-Kenntnis Uebung 04.ipynb">Uebung 04.ipynb</a>* für die Verleihdaten von *Bike Sharing LLC* aufbereitet haben und beantworten Sie folgende sieben Fragen:

1. Konnten Sie die Daten laden? Wie viele Variablen und Datensätze enthält der bearbeitete Datensatz?
2. Wie viele Beobachtungen gibt es pro Saison?
3. Wie lauten Mittelwert und Standardabweichung für die Variable Temperatur?
4. Welche der Variablen ist *nahezu* normalverteilt (Tipp: Histogramm nutzen)?
5. Welche der Variable ist am meisten Links- und welche am meisten Rechtsverschoben?
6. Welches der Wertepaare hat die größte positive und welches die größte negative Korrelation?
7. Welche Variable(n) haben eine signifikante Korrelation?

**Die Lösung wird in der kommenden Woche in der Übung besprochen.**

# Lösungen

Die Lösungen zu den Übungen finden Sie in der *Datei <a href="R-Kenntnis LSG Uebung 06.ipynb">R-Kenntnis LSG Uebung 06.ipynb</a>*. Die Datei wird jeweils nach der Durchsprache der Übung bereitgestellt.

<div class="alert alert-block alert-info">
<b>Info:</b> Die Datei wird jeweils nach der Durchsprache der Übung bereitgestellt.</div>