# Tag 1. Kapitel 3. Data Frame
## Lektion 20.2 Data Frame Operationen. Ein- und Ausgabe
### Import/Export von Daten aus/in verschiedenen Quellen.

Data Frames sind die Arbeitstiere von R, deshalb erstellen wir uns in dieser Lektion eine Art "Cheatsheet" der üblichsten Ein- und Ausgabe-Operationen. Dadurch wird diese Lektion extrem nützlich sein und uns im weiteren Verlauf des Kurses extrem viel Zeit sparen, da wir Data Frames bereits kennen und auf unser Cheatsheet zurückgreifen können. 

Wir werden uns eine Übersicht der folgenden typischen Operationen verschaffen:

* Daten in/von Zwischenablage (Clipboard) schreiben/lesen
* Daten in/von CSV-Datei schreiben/lesen
* Daten in/von Excel-Datei schreiben/lesen
* Daten in/von eine(r) Datenbank schreiben/lesen

**Tipp: Informationen Anbindung von R an verschiedene Datenbanken kann man auf der Webseite [Databases using R](https://db.rstudio.com/databases/) erfahren**

# Import und Export von Daten

## Manuelle Datenkorrektur in R Studio

In [4]:
leer <- data.frame() # Leerer Data Frame
c1 <- 1:15 # Vektor von Zahlen
c2 <- letters[1:15] # Verktor von Zeichen
df <- data.frame(spalte.name.1=c1,spalte.name.2=c2)

# Erstellte Datensätze anpassen und ausgeben 
df <- edit(df) # läuft nur in R Studio (in R Studio ausprobieren)
df

ERROR: Error in edit(df): 'edit()' not yet supported in the Jupyter R kernel


## Daten aus der Zwischenablage (Clipboard) lesen

In [7]:
# Daten aus der Zwischenablage (Clipboard) lesen
clp.dat <- read.table(file="clipboard",sep="\t", header=TRUE) # Tabulator (\t) als Trenner nutzen
clp.dat

# Daten manuell anpassen
clp.dat = edit(clp.dat) #läuft nur in R Studio

Date,Open,High,Low,Close,Adj.Close
2018-12-12,1068.0,1081.65,1062.79,1063.68,1063.68
2018-12-13,1068.07,1079.76,1053.93,1061.9,1061.9
2018-12-14,1049.98,1062.6,1040.79,1042.1,1042.1
2018-12-17,1037.51,1053.15,1007.9,1016.53,1016.53
2018-12-18,1026.09,1049.48,1021.44,1028.71,1028.71
2018-12-19,1033.99,1062.0,1008.05,1023.01,1023.01
2018-12-20,1018.13,1034.22,996.36,1009.41,1009.41
2018-12-21,1015.3,1024.02,973.69,979.54,979.54
2018-12-24,973.9,1003.54,970.11,976.22,976.22
2018-12-26,989.01,1040.0,983.0,1039.46,1039.46


ERROR: Error in edit(clp.dat): 'edit()' not yet supported in the Jupyter R kernel


## Daten in Zwischenablage (Clipboard) speichern

In [8]:
# clp.dat Data Frame in Clipboard speichern 
write.table(x=clp.dat,file = "clipboard",sep = "\t")

In [9]:
# Prüfen, ob die Speicherung funktioniert hat
read.table(file="clipboard",sep="\t", header=TRUE)

Date,Open,High,Low,Close,Adj.Close
2018-12-12,1068.0,1081.65,1062.79,1063.68,1063.68
2018-12-13,1068.07,1079.76,1053.93,1061.9,1061.9
2018-12-14,1049.98,1062.6,1040.79,1042.1,1042.1
2018-12-17,1037.51,1053.15,1007.9,1016.53,1016.53
2018-12-18,1026.09,1049.48,1021.44,1028.71,1028.71
2018-12-19,1033.99,1062.0,1008.05,1023.01,1023.01
2018-12-20,1018.13,1034.22,996.36,1009.41,1009.41
2018-12-21,1015.3,1024.02,973.69,979.54,979.54
2018-12-24,973.9,1003.54,970.11,976.22,976.22
2018-12-26,989.01,1040.0,983.0,1039.46,1039.46


## Daten von CSV-Datei lesen

In [10]:
# Aus CSV-Datei lesen (aktuelles Verzeichnis)
goog <- read.csv('GOOG_EN.csv')
head(goog) # erste Datensätze zeigen

Date,Open,High,Low,Close,Adj.Close,Volume
2018-12-12,1068.0,1081.65,1062.79,1063.68,1063.68,1523800
2018-12-13,1068.07,1079.76,1053.93,1061.9,1061.9,1329800
2018-12-14,1049.98,1062.6,1040.79,1042.1,1042.1,1686600
2018-12-17,1037.51,1053.15,1007.9,1016.53,1016.53,2385400
2018-12-18,1026.09,1049.48,1021.44,1028.71,1028.71,2192500
2018-12-19,1033.99,1062.0,1008.05,1023.01,1023.01,2479300


## Daten in CSV-Datei schreiben  

In [11]:
# Ausgabe zu CSV
write.csv(df, file='demo.csv', row.names = FALSE) 

# Aus "frischgechriebener" CSV-Datei lesen und Daten anzeigen
rd <- read.csv('demo.csv')
head(rd)

spalte.name.1,spalte.name.2
1,a
2,b
3,c
4,d
5,e
6,f


## Daten von Excel-Datei lesen

In [10]:
# Ggf. Excel-Pakete laden (wenn nichts bereits passiert)
install.packages("readxl")
library(readxl)

package 'readxl' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\dm_78\AppData\Local\Temp\RtmpWaECRr\downloaded_packages


In [13]:
# Rufe Info der Arbeitsblätter durch read.excel auf
tsla <- read_excel('TSLA.xlsx',sheet='TSLA_EN')

# geladene Datensätze zeigen (erste 6) 
head(tsla)
summary(tsla)

Date,Open,High,Low,Close,Adj Close,Volume
2018-12-12,369.420013,371.910004,365.160004,366.600006,366.600006,5027000
2018-12-13,370.149994,377.440002,366.75,376.790009,376.790009,7365900
2018-12-14,375.0,377.869995,364.329987,365.709991,365.709991,6337600
2018-12-17,362.0,365.700012,343.880005,348.420013,348.420013,7674000
2018-12-18,350.540009,351.549988,333.690002,337.029999,337.029999,7100000
2018-12-19,337.600006,347.01001,329.73999,332.970001,332.970001,8274200


     Date               Open               High               Low           
 Length:252         Length:252         Length:252         Length:252        
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
    Close            Adj Close            Volume         
 Length:252         Length:252         Length:252        
 Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character  

## Daten in Excel-Datei schreiben

In [7]:
# Ggf. Excel-Pakete laden (wenn nichts bereits passiert)
install.packages("xlsx")
library(xlsx)

"package 'xlsx' is in use and will not be installed"

In [8]:
# Daten in eine Excell-Datei speichern
f <- "demo_1.xlsx"
s <- "Data_1" 
# Standard-Methode 
write.xlsx(df, f, sheetName = s, col.names = TRUE, row.names = FALSE, append = FALSE)

In [11]:
# Aus "frischgechriebener" Excel-Datei lesen und Daten anzeigen
d <- read_excel(f, s)
head(d)

spalte.name.1,spalte.name.2
1,a
2,b
3,c
4,d
5,e
6,f


In [12]:
f2 <- "demo_2.xlsx"
s2 <- "Data_2" 
# Optimierte Methode(schneller bei großen Dateien)
write.xlsx2(goog, f2, sheetName = s2, col.names = TRUE, row.names = FALSE, append = FALSE)

ERROR: Error in is.data.frame(x): Objekt 'goog' nicht gefunden


In [18]:
# Aus "frischgechriebener" Excel-Datei lesen und Daten anzeigen
g <- read_excel(f2, s2)
head(g)

Date,Open,High,Low,Close,Adj.Close,Volume
2018-12-12,1068.0,1081.65,1062.79,1063.68,1063.68,1523800
2018-12-13,1068.07,1079.76,1053.93,1061.9,1061.9,1329800
2018-12-14,1049.98,1062.6,1040.79,1042.1,1042.1,1686600
2018-12-17,1037.51,1053.15,1007.9,1016.53,1016.53,2385400
2018-12-18,1026.09,1049.48,1021.44,1028.71,1028.71,2192500
2018-12-19,1033.99,1062.0,1008.05,1023.01,1023.01,2479300


## Daten aus/in Datenbank lesen/schreiben

In [35]:
# Ggf ODBC-Pakete installieren (wenn nicht vorhanden)
install.packages("DBI")
install.packages("odbc")


"package 'odbc' is in use and will not be installed"

In [36]:
# Datenbank Bibliotheken laden
library(DBI)
library(odbc)

In [37]:
# Verbindung öffnen 
# Achtung! Ggf. Verbindungsparameter anpassen.
con <- dbConnect(odbc::odbc(), 
                 Driver = "SQL Server", 
                 Server = "localhost\\SQLEXPRESS", 
                 Database = "R_STAT", 
                 Trusted_Connection = "True")

In [38]:
# init
cars.table <- "cars"

In [39]:
# cars-Tabelle anlegen bzw. überschreiben (mtcars ist ein in R eingebauter Data Frame)
dbWriteTable(con, cars.table, mtcars, overwrite=TRUE)

In [40]:
#prüfen, ob tabelle existiert
dbExistsTable(con, cars.table)

In [41]:
# in Schema vorhandene Tabellen auflisten
head(dbListTables(con))

In [42]:
# cars-Tabelle auslesen
cars <- dbReadTable(con, cars.table)
# cars Data Frame ausgeben
cars

row_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [43]:
# Neue Sätze anhängen
dbWriteTable(con, cars.table, cars, append=TRUE)

In [44]:
# Prüfen, ob neue Daten angekommen sind
cars2 <- dbReadTable(con, cars.table)
cars2

row_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.90,2.620,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.90,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.320,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.440,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.460,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.570,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.190,20.00,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.150,22.90,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.440,18.30,1,0,4,4


In [45]:
# cars-Tabelle löschen
dbRemoveTable(con, name = cars.table)

In [46]:
#prüfen, ob cars-Tabelle gelöscht worden ist
dbExistsTable(con, cars.table)

In [47]:
# Datenbank-Verbindung schliessen (immer ausführen um Datenbank-Verbindungsressourcen freizugeben)
dbDisconnect(con)

Herzlichen Glückwunsch! Sie sind mit dem 2. Teil der Lektion N° 20 fertig!

#### Bitte denkt daran, dieses Notebook als Referenz für spätere Lektionen und Aufgaben zu verwenden.