.Rhistory

# Installiere das Paket pacman, falls erforderlich
if (!require("pacman")) install.packages("pacman")
# Mit paceman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, tidyverse)
# Importieren von csv-Dateien mit dem Paket readr und Funktion read_csv()
# (readr::read_csv()) von tidyverse
df <- read_csv("../Daten/adult.csv")
# Importieren von csv-Dateien mit dem Paket readr und Funktion read_csv()
# (readr::read_csv()) von tidyverse
df <- read_csv("Daten/adult.csv")
# Titel:    Uebersichtlichkeit durch Pipes  %>%
# Datei:    02_08_Pipes.R
# Installieren und Laden von Paketen ################################
#####################################################################
##Dokumentation zu den Paketen: https://cran.r-project.org/web/packages/
## oder https://www.rdocumentation.org/
# Nutze dafuer den Pakete-Manager "pacman" (ist selbst ein Paket):
# https://www.rdocumentation.org/packages/pacman/versions/0.5.1
# Installiere das Paket pacman, falls erforderlich
if (!require("pacman")) install.packages("pacman")
# Mit paceman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, tidyverse)
#####################################################
# Importieren und Aufbereiten von Daten
# Speichere Daten als "df" (fuer Dataframe)
# Importieren von csv-Dateien mit dem Paket readr und Funktion read_csv()
# (readr::read_csv()) von tidyverse
df <- read_csv("Daten/adult.csv")
#Informationen zum Datensatz unter  https://archive.ics.uci.edu/ml/datasets/Census+Income
#auch als "adult" Dataset bekannt
# Datensatz ansehen
View(df)
#############################################################################
#Bereite Daten auf:
##1. Ohne Pipe %>%:
df1 <- read_csv("Daten/adult.csv") #Daten importieren
df1[df1 == "?"]<-NA       #Missing Values (NAs) kenntlich machen
df1 <- tibble(df1)       #lege df1 als tibble (Dataframe) ab
df1 <- select(df1,age,
occupation,
income)    #speichere nur bestimmte Spalten
df1$occupation <- as.factor(df1$occupation)  #wandle Spalte "occupation" in einen factor um
colnames(df1)[colnames(df1) == "income"] <- "y_Variable" #benenne Spalte "income" um
print(df1)
##2. wie 1. nur mit Pipe %>%:
df2 <- read_csv("Daten/adult.csv") %>%
na_if(., "?") %>%
as_tibble() %>%
select(age,
occupation,
income) %>%
mutate(occupation = as.factor(occupation)) %>%
rename(y_Variable = income) %>%
print()
##############################################################
# Environment leeren
rm(list = ls())
# Global environment leeren bzw. alle Pakete aus Arbeitsspeicher entfernen
p_unload(all)  #Befehl erfordert Paket "paceman"
detach("package:datasets", unload = TRUE)  # ohne "paceman", nur mit "base"
# Konsole leeren
cat("\014")  # ctrl+L
library(rjson)
# rjson: https://www.rdocumentation.org/packages/rjson/versions/0.2.20
#JSON einlesen und als daten speichern
daten <- fromJSON(file = "Daten/student.json")
#daten anzeigen
print(daten)
#daten in Dataframe umwandeln und als df speichern
df <- as.data.frame(daten)
print(df)
##########################################################
#Mit paceman
# Installieren von pacman ("package manager"), wenn erforderlich
if (!require("pacman")) install.packages("pacman")
# Pakete mit pacman laden
pacman::p_load(pacman, tidyverse, jsonlite)
# jsonlite: vorteilhaft bei verschachtelten JSON- Dateien,
# https://www.rdocumentation.org/packages/jsonlite/versions/1.7.2
# Bundesligadaten von https://www.openligadb.de/
fball <- "https://api.openligadb.de/getmatchdata/bl1/2021/1" %>%
fromJSON() %>%  # Lies Daten ein und packe sie in eine Liste
print()         # Zeige Daten
# Aufrufen einzelner Datenbloecke
fball$team1
# alternativ mit Paket plyr
fball %>%
select(team1)
# Nur teamID und teamName
fball$team1[1:2] # Spaltennummern 1 bis 2
fball$team2[c("teamId", "teamName")] # Spaltennamen
# alternativ mit Paket plyr
fball$team2 %>%
select(c("teamId", "teamName"))
# matchResults ist eine Liste mit Dataframes
mr <- fball$matchResults
mr
# bind_rows() vom Paket plyr erlaubt das Zusammenbinden in ein Dataframe bzw. Tibble
df <- bind_rows(mr, .id = "column_label") %>%
as_tibble() %>%
print()
##############################################################
# Environment leeren
rm(list = ls())
# Global environment leeren bzw. alle Pakete aus Arbeitsspeicher entfernen
p_unload(all)  #Befehl erfordert Paket "paceman"
detach("package:datasets", unload = TRUE)  # ohne "paceman", nur mit "base"
# Konsole leeren
cat("\014")  # ctrl+L
library("XML")
# Uebergib Daten und speichere diese als Dokument
daten <- xmlParse("Daten/student.xml")
daten
attr(daten ,"class")
# Konvertiere die Daten zu einem Dataframe
df <- xmlToDataFrame("Daten/student.xml", stringsAsFactors = TRUE)
df
#Zweite Spalte
df[2]
#Zweite Spalte, 2. und 3. Zeile
df[2,c(2,3)]
##########################################################
# fuer html
document <- htmlParse("http://cran.r-project.org/web/packages/XML/index.html")
showMethods(class=class(document), where=search())
#Dokument in character umwandeln
as(document, "character")
##########################################################
#Mit paceman
# Installieren von pacman ("package manager"), wenn erforderlich
if (!require("pacman")) install.packages("pacman")
# Pakete mit paceman laden
pacman::p_load(pacman,tidyverse, XML2R)
#https://www.rdocumentation.org/packages/XML2R/versions/0.0.6
df <- xmlParse(file = "data_loesch/student.xml") %>%
xmlToDataFrame(., stringsAsFactors = TRUE) %>%
print()
##############################################################
# Environment leeren
rm(list = ls())
# Global environment leeren bzw. alle Pakete aus Arbeitsspeicher entfernen
p_unload(all)  #Befehl erfordert Paket "paceman"
detach("package:datasets", unload = TRUE)  # ohne "paceman", nur mit "base"
# Konsole leeren
cat("\014")  # ctrl+L
library("XML")
# Uebergib Daten und speichere diese als Dokument
daten <- xmlParse("Daten/student.xml")
daten
# Konvertiere die Daten zu einem Dataframe
df <- xmlToDataFrame("Daten/student.xml", stringsAsFactors = TRUE)
df
#Zweite Spalte
df[2]
#Zweite Spalte, 2. und 3. Zeile
df[c(2,3),2]
document <- htmlParse("http://cran.r-project.org/web/packages/XML/index.html")
document
document <- htmlParse("http://cran.r-project.org/web/packages/XML/index.html")
showMethods(class=class(document), where=search())
#Dokument in character umwandeln
as(document, "character")
#Mit paceman
# Installieren von pacman ("package manager"), wenn erforderlich
if (!require("pacman")) install.packages("pacman")
# Pakete mit paceman laden
pacman::p_load(pacman,tidyverse, XML2R)
#https://www.rdocumentation.org/packages/XML2R/versions/0.0.6
df <- xmlParse(file = "Daten/student.xml") %>%
xmlToDataFrame(., stringsAsFactors = TRUE) %>%
print()
# Installiere das Paket pacman, falls erforderlich
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, rio, tidyverse)
#####################################################
# Importieren und Aufbereiten von Daten
# Speichere Daten als "df" (fuer Dataframe)
df <- import("Daten/adult.xlsx") %>%
na_if(., "?") %>%
as_tibble() %>%  #als tibble ablegen
select(age,      #bestimmte Spalten auswählen
occupation,
income) %>%
mutate(occupation = as.factor(occupation)) %>%  #Spalte "occupation" in factor umwandeln
rename(y_Variable = income) %>% #Spalte "income" in "y-Variable" umbenennen
print()                         #Ausgabe der Daten
# Befehl save()
save(df, file = "Daten/adultData.rdata")
# Loesche alle Objekte von der Environment
rm(list = ls())
# load() importiert Daten in die Environment; die Daten koennen nicht umbenannt werden
load("Daten/adultData.rdata")
df  # Datenausgabe
# Loesche Daten aus Environment
rm(list = ls())
# Jetzt mit import() von rio; Daten werden nicht in der Environment geladen
import("Daten/adultData.rdata") %>%
print()
# import() ermoeglicht es Daten umzubenennen und in Environment zu laden
new_df <- import("Daten/adultData.rdata") %>%
print()
# Loesche Daten aus Environment
rm(list = ls())
# Daten erstellen, falls notwendig
# Speichere Daten als "df" (fuer Dataframe)
df <- import("data_loesch/adult.xlsx") %>%
na_if(., "?") %>%
as_tibble() %>%  #als tibble ablegen
select(age,      #bestimmte Spalten auswählen
occupation,
income) %>%
mutate(occupation = as.factor(occupation)) %>%  #Spalte "occupation" in factor umwandeln
rename(y_Variable = income) %>% #Spalte "income" in "y-Variable" umbenennen
print()
# Befehl saveRDS()
df %>% saveRDS("data_loesch/adultData.rds")
# Daten erstellen, falls notwendig
# Speichere Daten als "df" (fuer Dataframe)
df <- import("Daten/adult.xlsx") %>%
na_if(., "?") %>%
as_tibble() %>%  #als tibble ablegen
select(age,      #bestimmte Spalten auswählen
occupation,
income) %>%
mutate(occupation = as.factor(occupation)) %>%  #Spalte "occupation" in factor umwandeln
rename(y_Variable = income) %>% #Spalte "income" in "y-Variable" umbenennen
print()
# Befehl saveRDS()
df %>% saveRDS("Daten/adultData.rds")
# Alternativ: Befehl write_rds() von tidyverse; Daten werden nicht kompremmiert;
# nuetzlich, wenn Daten schnell gespeichert werden sollen (und Speicherplatz nicht so wichtig ist)
df %>% write_rds("Daten/aldultData2.rds")
# Loesche alle Objekte von der Environment
rm(list = ls())
# import()
import("Daten/adultData.rds")
# In die Environment laden
new_df <- import("Daten/adultData.rds") %>%
print()
rm(list = ls())
# Global environment leeren bzw. alle Pakete aus Arbeitsspeicher entfernen
p_unload(all)  #Befehl erfordert Paket "paceman"
detach("package:datasets", unload = TRUE)  # ohne "paceman", nur mit "base"
# Konsole leeren
cat("\014")  # ctrl+L
# Installiere das Paket pacman, falls erforderlich
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(datasets, pacman, tidyverse)
?iris         # Informationen ueber den Datensatz
iris          # Datensatz anzeigen lassen
head(iris)    # erste 6 Zeilen ausgeben lassen
summary(iris) # ein bisschen deskriptive Statistik
#####################################################################
# Andere (nicht - Tidy - Formate):
# Zeitreihendaten
# XML/JSON Daten (hierachische Struktur)
# Spalten/Zellen mit mehreren variablen
#####################################################################
# Beispiel: Zeitreihendaten "sunspots"
?sunspots       # Informationen ueber den Datensatz
sunspots        # Datensatz anzeigen lassen
head(sunspots)  # zeigt erste 6 Beobachtungen
plot(sunspots)  # Grafische Darstellung
# Installiere das Paket pacman, falls erforderlich
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(datasets, pacman, tidyverse)
?ToothGrowth         # Informationen ueber den Datensatz
ToothGrowth          # Datensatz anzeigen lassen
head(ToothGrowth)    # erste 6 Zeilen ausgeben lassen
# iris als Dataframe in die Environment laden
df <- ToothGrowth
df
# Konvertiert iris von einem Dataframe zu einem Tibble
df_tibble <- ToothGrowth %>%
as_tibble() %>%
print()
# Mit tibble laesst sich leichter arbeiten und Datensatzanpassungen vornehmen, z.B.
df_tibble <- ToothGrowth %>%
as_tibble() %>%
mutate(supp = as.character(supp)) %>%  # Datentyp von "supp" in Character aendern
print()
###################################
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, lubridate, tidyverse, tsibble)
# lubridate: zum Arbeiten mit Datums- und Zeitformaten
# tsibble: fuer Zeitreihen
#####################################################
# Datensatz laden und aufbereiten
# Informationen zum Datensatz: https://archive.ics.uci.edu/ml/datasets/Seoul+Bike+Sharing+Demand
df <- read_csv("Daten/BikeData.csv") %>%
as_tibble() %>%
select(Date, Hour, "Rented Bike Count", Temperature) %>%
print()
# Verknuepfe Date und Hour zum eindeutigen Zeitstempel DateTime
df <- read_csv("Daten/BikeData.csv") %>%
as_tibble() %>%
mutate(DateTime = paste(Date, Hour)) %>%                # Generiere DateTime aus Date und Hour
mutate(across('DateTime',
~ as.POSIXct(.x,
format = "%d/%m/%Y %H"))) %>%       # Wandle es in ein Datum-Zeitformat
drop_na(DateTime) %>%                                   # loesche NA
select(DateTime, "Rented Bike Count", Temperature) %>%  # waehle Spalten aus
print()
# Generiere ein tsibble als Zeitreihe, index muss eindeutig sein
df_ts <- as_tsibble(df, index = DateTime) %>%
print()
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, tidyverse)
#####################################################
# Datensatz aufbereiten
# Generiere eine Liste mit Daten
L <- list(
c(1:8),
c("Mercury", "Venus", "Earth", "Mars", "Jupiter", "Saturn", "Uranus", "Neptun"),
c(4878, 12100, 12700, 6770, 139822, 114632, 51000, 49244),
c(FALSE, FALSE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE)
) %>%
print()
# Speichere die Liste L als Tibble
df <- as_tibble(L,
.name_repair = "unique") %>%  # Gib den Spalten eindeutige Namen
print()
# Benenne die Spaltennamen um
df <- df %>%
rename(id         = "...1") %>%
rename(planet     = "...2") %>%
rename(diameter   = "...3") %>%
rename(moon       = "...4") %>%
print()
######################################################
# Analysieren des Dataframes
# Generiere eine Tabelle mit Anzahl der Planeten, die keinen (FALSE) und mind.
# einen Mond (TRUE) haben
df %>% select(moon) %>% table()
# Gib nur die Anzahl der Planeten mit mind. einem Mond aus.
sum(df$moon)
# Gib alle Planeten aus, die mind. einen Mond besitzen.
df %>%
filter(moon == TRUE) %>%
select(planet)
# Gib alle Planeten und den jeweiligen Durchmesser aus, wenn
# der Durchmesser groesser als 100 000 km ist.
df %>%
filter(diameter > 100000) %>%
select(planet, diameter)
# Gib alle Zeilen aus df fuer Planeten mit einem Durchmesser < 50 000 km aus.
df %>%
filter(diameter < 50000)
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, rio, tidyverse)
# rio zum Importieren von Daten
#####################################################
# Importieren und Aufbereiten von Daten
# Speichere Daten als "df" (fuer Dataframe)
df <- import("Daten/adult.xlsx") %>%
na_if(., "?") %>%      # aendere Missing Values von ? in NA
as_tibble() %>%        # mach ein Tibble draus
select(age,            # waehle nur bestimmte Spalten aus
education,
occupation,
income) %>%
mutate(occupation = as.factor(occupation)) %>% # aendere Spalte in einen Factor
mutate(education = as.factor(education)) %>%
mutate(income = as.factor(income)) %>%
print()
#####################################################
# "ODER" - Filterkriterum durch  |
df %>%
filter(education   == "Bachelors" |
occupation == "Exec-managerial") %>%
print()
# "UND" - Filterkriterium durch  &
df %>%
filter(education   == "Bachelors" &
occupation == "Exec-managerial" &
income == ">50K" ) %>%
print()
# Ausschliessen durch vorgelagertes Ausrufezeichen !
# Alle Bachelors mit Income >50K, aber ohne Exec-managerial
df %>%
filter(education   == "Bachelors" &
!occupation == "Exec-managerial" &
income == ">50K") %>%
print()
df <- df %>%
mutate(
Count =                                       # die neue Variable heisst "Count"
ifelse(age > 17 & age <= 20, 1, 0) +        # wenn 17 < age <=20 , dann addiere 1 hinzu
ifelse(education == "Bachelors", 1, 0) +    # wenn education == "Bachelors", addiere 1 hinzu
ifelse(income == "<=50K", 1, 0)             # wenn income == "<=50K", addiere 1 hinzu
) %>%
arrange(desc(Count)) %>%                      # sortiere absteigend nach "Count"
print(n = 20)
# Daten nach Zaehlvariable gruppieren und Anzahl der "Treffer" ausgeben lassen
df %>%                         # Count rows by group
group_by(Count) %>%          # nach Count gruppieren
summarise(n = n())           # Zaehlen, wie oft 0, 1, 2 und 3 vorkommen
df %<>%
mutate(
Success = case_when(
(age > 17 & age <= 20) & education == "Bachelors" & income == "<=50K" ~ "y",
TRUE ~ "n"  # alle anderen Werte
)
) %>%
arrange(desc(Success)) %>%  # sortiere absteigend nach Success
print(n = 20)
#####################
setwd()
setwd()
getwd()
getwd()
getwd()
if (!require("pacman")) install.packages("pacman")
# Mit pacman koennen weitere Pakete unkompliziert geladen werden
pacman::p_load(pacman, tidyverse)
#####################################################
# Importieren und Aufbereiten von Daten
# Speichere Daten als "df" (fuer Dataframe)
# Importieren von csv-Dateien mit dem Paket readr und Funktion read_csv()
# (readr::read_csv()) von tidyverse
df <- read_csv("Daten/adult.csv")
#Informationen zum Datensatz unter  https://archive.ics.uci.edu/ml/datasets/Census+Income
#auch als "adult" Dataset bekannt
# Datensatz ansehen
View(df)
print(df1)
df1 <- read_csv("Daten/adult.csv") #Daten importieren
df1[df1 == "?"]<-NA       #Missing Values (NAs) kenntlich machen
df1 <- tibble(df1)       #lege df1 als tibble (Dataframe) ab
df1 <- select(df1,age,
occupation,
income)    #speichere nur bestimmte Spalten
df1$occupation <- as.factor(df1$occupation)  #wandle Spalte "occupation" in einen factor um
colnames(df1)[colnames(df1) == "income"] <- "y_Variable" #benenne Spalte "income" um
print(df1)
mydata <- data.frame(myGroup = c('a', 'b'), myX = c(1,1))
qplot(data = mydata,
x = myX,
facets = ~myGroup)
ggplot(data = mydata) +
geom_bar(aes(myX)) +
facet_wrap(~myGroup)
#create vertical side-by-side boxplots
ggplot(df1, aes(x=occupation, y=age, fill=team)) +
geom_boxplot() +
ggtitle('Points by Team')
ggtitle('Points by Team')
ggplot(df1, aes(x=occupation, y=age, fill=occupation) +
geom_boxplot() +
ggtitle('Points by Team')
#create vertical side-by-side boxplots
ggplot(df1, aes(x=occupation, y=age, fill=occupation)) +
geom_boxplot() +
ggtitle('Points by Team')
#create vertical side-by-side boxplots
ggplot(df1, aes(x=y_Variable, y=age, fill=occupation)) +
geom_boxplot() +
ggtitle('Points by Team')
#create vertical side-by-side boxplots
ggplot(df1, aes(x=occupation, y=age, fill=y_Variable)) +
geom_boxplot() +
ggtitle('Points by Team')
summary(occupation)
summary(df1$occupation)
summary(df$)
summary(df$education)
##2. wie 1. nur mit Pipe %>%:
df2 <- read_csv("Daten/adult.csv") %>%
na_if(., "?") %>%
as_tibble() %>%
select(age,
occupation,
education
income) %>%
mutate(occupation = as.factor(occupation)) %>%
mutate(education = as.factor(education)) %>%
rename(y_Variable = income) %>%
print()
##2. wie 1. nur mit Pipe %>%:
df2 <- read_csv("Daten/adult.csv") %>%
na_if(., "?") %>%
as_tibble() %>%
select(age,
occupation,
education,
income) %>%
mutate(occupation = as.factor(occupation)) %>%
mutate(education = as.factor(education)) %>%
rename(y_Variable = income) %>%
print()
summary(df1$occupation)
summary(df1$education)
summary(df2$education)