![R-Kenntnis](../Pics/header.png "R-Kenntnis")

<div class="alert alert-block alert-info">

* **Titel:** R-Kenntnis Übungen 06: Explorative Datenanalyse (Teil 2)
* **Autor:** Prof. Dr. Denis Royer
* **Datum:** 22.11.2022 (Version 2.0)

</div>

![Header_Data](../Pics/header_data.png "Data")

# BI - R-Kenntnis Lösung Übungen 06: Explorative Datenanalyse (Teil 2)

<div class="alert alert-block alert-warning">
<b>Wichtig:</b> Bevor wir loslegen, müssen wir zunächst einmal ein paar vorbereitende Dinge erledigen:

* Die notwendigen Packages laden (bspw. `tidyverse`, `lubridate`, `psych` und `corrgram`)

</div>

In [None]:
# Sofern das Paket tidyverse nicht installiert ist, soll es installiert werden. 
# Die require() Funktion prüft ab, ob das Paket bereits installiert ist. 
if(!require("tidyverse")) install.packages("tidyverse")
# Laden des Pakets tidyverse (lädt stringr, tibble, readr und dplyr)
library(tidyverse)

if(!require("psych")) install.packages("psych")
library(psych)

if(!require("corrgram")) install.packages("corrgram", dependencies = TRUE)
library(corrgram)

if(!require("lubridate")) install.packages("lubridate")
library(lubridate)


# Workload: Explorative Datenanalyse

![Übungsaufgabe](../Pics/excercise.png "Übungsaufgabe")

Analysieren Sie die Daten, die Sie in *Übungen 4* für die Verleihdaten von *Bike Sharing LLC* aufbereitet haben und beantworten Sie folgende sieben Fragen:

1. Konnten Sie die Daten laden? Wie viele Variablen und Datensätze enthält der bearbeitete Datensatz?
2. Wie viele Beobachtungen gibt es pro Saison?
3. Wie lauten Mittelwert und Standardabweichung für die Variable Temperatur?
4. Welche der Variablen ist *nahezu* normalverteilt (Tipp: Histogramm nutzen)?
5. Welche der Variable ist am meisten Links- und welche am meisten Rechtsverschoben?
6. Welches der Wertepaare hat die größte positive und welches die größte negative Korrelation?
7. Welche Variable(n) haben eine signifikante Korrelation?

**Die Lösung wird in der kommenden Woche in der Übung besprochen.**

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 1: Laden und vorbereiten der Daten</b></div>

Konnten Sie die Daten laden? Wie viele Variablen und Datensätze enthält der bearbeitete Datensatz?

<div class="alert alert-block alert-info">
<b>Tip:</b> Zum Thema laden der Daten siehe auch <a href="../Uebung 03/R-Kenntnis Uebung 03.ipynb">Datenimporte und Datenmanipulation</a> <a href="../Uebung 3/R-Kenntnis LSG Uebung 03.ipynb">(+LSG)</a>
    
</div>

In [None]:
# Daten einlesen und Datentypen konvertieren
bike.raw <- read.csv("../Data/cleaned_bikeshare_data.csv",
                 stringsAsFactors = TRUE)
# Kopie der Daten erstellen
bike.df <- bike.raw

<div class="alert alert-block alert-info">
<b>Hinweis:</b> Der Befehl read.csv() erzeugt automatisch aus den Strings Faktorvariablen (stringsAsFactors = TRUE). Liegt eine Ordinalskalierung vor, so muss man im nächsten Schritt die Rangfolge (order) einmal festlegen.
    
</div>

In [None]:
bike.df$season <- factor(bike.df$season, ordered = TRUE,
                      levels = c("spring", "summer",
                                 "fall", "winter"))

In [None]:
bike.df$weather <- factor(bike.df$weather, ordered = TRUE,
                       levels = c("clr_part_cloud", 
                                  "mist_cloudy",
                                  "lt_rain_snow",
                                  "hvy_rain_snow"))

In [None]:
# Einmal die Daten mit lubridate in echte Zeitstempel umwandeln.
# Das ist notwendig, damit die Dataen auch als Datumswerte erkannt werden.
bike.df$datetime <- ymd_hms(bike.df$datetime)

In [None]:
# Ausgabe der Struktur der Daten, um zu sehen
# ob alle Anpassungen passen.
str(bike.df)

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 2</b></div>

Wie viele Beobachtungen gibt es pro Saison?

In [None]:
# Die Funktion table() summiert automatisch die Anzahl
# der Ausprägungen einer Variable entlang der Faktoren
# zusammen und stellt diese tabellarisch dar.
table(bike.df$season)

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 3</b></div>

Wie lauten Mittelwert und Standardabweichung für die Variable Temperatur?

In [None]:
mean(bike.df$temp)
sd(bike.df$temp)

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 4</b></div>

Welche der Variablen ist *nahezu* normalverteilt (Tipp: Histogramm nutzen)?

<div class="alert alert-block alert-info">
<b>Hinweis:</b> Man kann sehr gut die hist() Funktion nutzen, um einmal alle Variablen aus bike sich als Plot darstellen lassen zu können.
    
</div>

In [None]:
hist(bike.df$temp)

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 5</b></div>

Welche der Variable ist am meisten Links- und welche am meisten Rechtsverschoben?

In [None]:
# Darstellung der Grafiken in zweispaltiger Ansicht
par(mfrow = c(1, 2))
# Ausgabe der Plots
plot(bike.df$workingday) # Rechtsverschoben
hist(bike.df$casual) #  Linksverschoben
# Darstellung zurück auf einspaltig stellen
par(mfrow = c(1, 1))

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 6</b></div>

Welches der Wertepaare hat die größte positive und welches die größte negative Korrelation?

In [None]:
# Da die cor() Funktion nur nummerische Variablen auswerten kann,
# erzeugen wir uns einmal eine Variante von bike, die nur nummerische
# Variablen enthält.
nbike.df <- bike.df[ ,-c(1:5, 13:14)]
cor(nbike.df)

In [None]:
pairs(nbike.df) # Der Aufrauf dauert ggf. ein wenig....

<div class="alert alert-block alert-success">
<b>Lösungsansatz zu Frage 7</b></div>

Welche Variable(n) haben eine signifikante Korrelation?

Ein sinnvolle Vorgehen ist es, die Daten einmal als Korrelogramm auszugeben (Package `corrgram`). Je nachdem wie stark die Korrelation ist, je stärker ist die Färbung der Felder. Weiterhin kann man anhand der Elipsen und Kreise im ersten Diagram sehen, wo das Gros der Daten liegt und wie stark die Korrelation in eine bestimmt Richtung geht.

In [None]:
corr.test(nbike.df)

In [None]:
corrgram(nbike.df, order = TRUE,
         main = "Korrelation der Daten (Elipsoid)",
         lower.panel = panel.shade, upper.panel = panel.ellipse,
         diag.panel = panel.minmax, text.panel = panel.txt)

In [None]:
corrgram(nbike.df, order = TRUE,
         main = "Korrelation der Daten (Pie)",
         lower.panel = panel.shade, upper.panel = panel.pie,
         diag.panel = panel.minmax, text.panel = panel.txt)