# Daten laden

## Tabelarische Daten lesen
Pandas hat eine Reihe von Funktionen zum Lesen tabelarischer Daten als DataFrame-Objekt.

 - *read_csv*: Loads separated data from a file, URL, or file-like object. Comma separators are preset by default.
 - *read_table*: Loads separated data from a file, URL, or file-like object. Tabs ('\t') are preset as separators.
 - *read_fwf*: Reads data with a fixed column width, that is, without separators.
 - *read_clipboard*: Works like read_table, the data from the clipboard list.

### Optionen für diese Funktionen:

  - *Indizierung*: Kann eine oder mehrere Spalten als den zurückgegebenen DataFrame behandeln und festlegen, ob Spaltennamen aus der Datei oder vom Benutzer kommen oder gar nicht verwendet werden sollen.
  - *Type-Inferenz und Datenkonvertierung*: Dies schliesst benutzerdefinierte Wertumwandlungen und benutzerdefinierte Marker für fehlende Werte ein.
  - *Datetime parsen*: Beeinhaltet Kombinationen wie das Zusammensetzen von über mehrere Spalten verteilten Datums- und Zeitinformationen zu einer Ergebnisspalte.
  - *Iterieren*: Unterstützung der Iteration über Abschnitte von sehr grossen Dateien.
  - *Behandeln unsauberer Daten*: Überspringen von Zeilen, Kommentadren oder einem Fussbereich sowie andere Kleinigkeiten wie numerische Daten mit Punkten aus Tausendertrennzeichen.


## Read from local csv File

In [2]:
import pandas as pd

# Display option
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

df = pd.read_csv('data/quotes.csv')
df.head(10)

Unnamed: 0,version_quote,source_id,quote_id,text,page,comment_quote,license_quote,doi_quote,language_quote,crc_quote
0,0,7374,118647,*In der Nacht zum 5. Oktober 944 gab es eine t...,DONE,{GrotzfeldQuoteId/162},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,e5ee4f4d62d0c2189bc68cd1f566d97e
1,0,7374,122295,*Im Jahre 1214 H [5.6.1799-24.5.1800] drangen ...,DONE,{GrotzfeldQuoteId/3859},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,43ba286259ce3009472e74ebbe3a700f
2,0,7599,126295,Erster Regen Abend des 9. Ṣafar (16. Dez.)↵{#T...,DONE,{GrotzfeldQuoteId/494},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,d6e51acbec691662ab2073fae024d583
3,0,7374,121845,*Der Nachmittag und die Nacht des 22.4.1752 wa...,DONE,{GrotzfeldQuoteId/3400},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,84e560da507105cb23c11da0fb94676c
4,0,7374,118814,★Im Jahr 440 H. ［16.06.1048-04.06.1049］ grassi...,DONE,{GrotzfeldQuoteId/330},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,ebb2f3aa39d9dc085d0ccaa3a0505f41
5,0,7374,118532,*Im Jahr 253 H. [11.01.-31.12.867] gab es eine...,DONE,{GrotzfeldQuoteId/46},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,1023f4231b63bc4a439bd50dfe6adb73
6,0,7374,118499,*Im Shawwal 208 H. [06.02.-05.03.824] gab es e...,DONE,{GrotzfeldQuoteId/13},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,c864805c56f47168c7f641a951b6b0ec
7,0,7374,121852,*Ab dem 18.5. war es klar und heiter bei frisc...,DONE,{GrotzfeldQuoteId/3406},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,9840a40e939dd4a3053c42b05e65808b
8,0,7374,118948,*Zu Beginn des Jahres 1308 gab es eine starke ...,DONE,{GrotzfeldQuoteId/463},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,6ac1e50eea4a45d6baf657e6cdf603a2
9,0,7374,118539,*Im Jahr 263 H. [24.09.876-12.09.877] gab es e...,DONE,{GrotzfeldQuoteId/53},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,f27e6a162426fb5d9f68ce50419d9caf


In [3]:
df = pd.read_csv('data/quotes.csv', sep=',') # mit Angabe zum Trennzeichen
df.head(10)

Unnamed: 0,version_quote,source_id,quote_id,text,page,comment_quote,license_quote,doi_quote,language_quote,crc_quote
0,0,7374,118647,*In der Nacht zum 5. Oktober 944 gab es eine t...,DONE,{GrotzfeldQuoteId/162},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,e5ee4f4d62d0c2189bc68cd1f566d97e
1,0,7374,122295,*Im Jahre 1214 H [5.6.1799-24.5.1800] drangen ...,DONE,{GrotzfeldQuoteId/3859},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,43ba286259ce3009472e74ebbe3a700f
2,0,7599,126295,Erster Regen Abend des 9. Ṣafar (16. Dez.)↵{#T...,DONE,{GrotzfeldQuoteId/494},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,d6e51acbec691662ab2073fae024d583
3,0,7374,121845,*Der Nachmittag und die Nacht des 22.4.1752 wa...,DONE,{GrotzfeldQuoteId/3400},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,84e560da507105cb23c11da0fb94676c
4,0,7374,118814,★Im Jahr 440 H. ［16.06.1048-04.06.1049］ grassi...,DONE,{GrotzfeldQuoteId/330},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,ebb2f3aa39d9dc085d0ccaa3a0505f41
5,0,7374,118532,*Im Jahr 253 H. [11.01.-31.12.867] gab es eine...,DONE,{GrotzfeldQuoteId/46},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,1023f4231b63bc4a439bd50dfe6adb73
6,0,7374,118499,*Im Shawwal 208 H. [06.02.-05.03.824] gab es e...,DONE,{GrotzfeldQuoteId/13},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,c864805c56f47168c7f641a951b6b0ec
7,0,7374,121852,*Ab dem 18.5. war es klar und heiter bei frisc...,DONE,{GrotzfeldQuoteId/3406},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,9840a40e939dd4a3053c42b05e65808b
8,0,7374,118948,*Zu Beginn des Jahres 1308 gab es eine starke ...,DONE,{GrotzfeldQuoteId/463},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,6ac1e50eea4a45d6baf657e6cdf603a2
9,0,7374,118539,*Im Jahr 263 H. [24.09.876-12.09.877] gab es e...,DONE,{GrotzfeldQuoteId/53},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,f27e6a162426fb5d9f68ce50419d9caf


In [6]:
pd.read_csv('data/yob1900.txt', header=None) # Datensatz hat keine Kopfzeile

Unnamed: 0,Mary,F,16706
0,Helen,F,6343
1,Anna,F,6114
2,Margaret,F,5304
3,Ruth,F,4765
4,Elizabeth,F,4096
...,...,...,...
3724,White,M,5
3725,Wilhelm,M,5
3726,Winifred,M,5
3727,Woodie,M,5


In [7]:
pd.read_csv('data/yob1990.txt', header=None, names=['name', 'sex', 'births']) # Mit Titelspalte

Unnamed: 0,name,sex,births
0,Jessica,F,46475
1,Ashley,F,45560
2,Brittany,F,36537
3,Amanda,F,34408
4,Samantha,F,25867
...,...,...,...
24711,Zeus,M,5
24712,Ziyad,M,5
24713,Zoilo,M,5
24714,Zoran,M,5


In [9]:
pd.read_csv('data/yob1990.txt', header=None, names=['name', 'sex', 'births'], index_col=['name', 'sex']) # Mit Titelspalte und Index

Unnamed: 0_level_0,Unnamed: 1_level_0,births
name,sex,Unnamed: 2_level_1
Jessica,F,46475
Ashley,F,45560
Brittany,F,36537
Amanda,F,34408
Samantha,F,25867
...,...,...
Zeus,M,5
Ziyad,M,5
Zoilo,M,5
Zoran,M,5


## Stückweise Lesen von Textdateien

In [14]:
Files topd.read_csv('data/quotes.csv', nrows=5) # nur die ersten 5 Zeilen einlesen

Unnamed: 0,version_quote,source_id,quote_id,text,page,comment_quote,license_quote,doi_quote,language_quote,crc_quote
0,0,7374,118647,*In der Nacht zum 5. Oktober 944 gab es eine t...,DONE,{GrotzfeldQuoteId/162},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,e5ee4f4d62d0c2189bc68cd1f566d97e
1,0,7374,122295,*Im Jahre 1214 H [5.6.1799-24.5.1800] drangen ...,DONE,{GrotzfeldQuoteId/3859},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,43ba286259ce3009472e74ebbe3a700f
2,0,7599,126295,Erster Regen Abend des 9. Ṣafar (16. Dez.)↵{#T...,DONE,{GrotzfeldQuoteId/494},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,d6e51acbec691662ab2073fae024d583
3,0,7374,121845,*Der Nachmittag und die Nacht des 22.4.1752 wa...,DONE,{GrotzfeldQuoteId/3400},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,84e560da507105cb23c11da0fb94676c
4,0,7374,118814,★Im Jahr 440 H. ［16.06.1048-04.06.1049］ grassi...,DONE,{GrotzfeldQuoteId/330},cc-by-sa,10.6094/tambora.org/2016/c156/csv.zip,,ebb2f3aa39d9dc085d0ccaa3a0505f41


## Mit Hilfe einer URL lesen

In [10]:
url_csv = 'https://vincentarelbundock.github.io/Rdatasets/csv/boot/amis.csv'
df = pd.read_csv(url_csv)
df.head()Files to

Unnamed: 0.1,Unnamed: 0,speed,period,warning,pair
0,1,26,1,1,1
1,2,26,1,1,1
2,3,26,1,1,1
3,4,26,1,1,1
4,5,27,1,1,1


## Aus einer (lokalen) Datenbank lesen

In [None]:
import psycopg2 as pg
import pandas as pd

conn = pg.connect("host=localhost dbname=tambora user=postgres password=qCB9pob2")
df = pd.read_sql_query('SELECT * FROM tambora.grouping.quote WHERE project_id = 3;',con=conn)
df.head(10)

## Mehrere Dateien zu einem Dataframe verknüpfen

In [24]:
df1 = pd.read_csv('data/quotes.csv', usecols=['source_id', 'quote_id', 'text', 'page'], index_col='quote_id' )
df2 = pd.read_csv('data/hisklid2_quotes.csv', usecols=[0,1,5,6], names=['quote_id', 'source_id', 'text', 'page'])
frames = [df1, df2]
result = pd.concat(frames, sort=False)
result

Unnamed: 0,source_id,text,page,quote_id
118647,7374,*In der Nacht zum 5. Oktober 944 gab es eine t...,DONE,
122295,7374,*Im Jahre 1214 H [5.6.1799-24.5.1800] drangen ...,DONE,
126295,7599,Erster Regen Abend des 9. Ṣafar (16. Dez.)↵{#T...,DONE,
121845,7374,*Der Nachmittag und die Nacht des 22.4.1752 wa...,DONE,
118814,7374,★Im Jahr 440 H. ［16.06.1048-04.06.1049］ grassi...,DONE,
...,...,...,...,...
51830,209,"* C.C. Eidem, mit den Bürgern zu reden, daß si...",,1749.0
51831,254,* War ein unerhörte erschrecklich anzusehende ...,,24412.0
51832,620,* Den 6. dito [November] hat es zu früe von ta...,,45032.0
51833,208,* Am 28 soll es zu Cracau und daherumb Bluth g...,,48885.0


## Daten als Text exportieren 

In [26]:
data = pd.read_csv('data/ex5.csv')
data.to_csv('data/out.csv')

In [30]:
import sys

# Andere Begrenzungszeichen
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


## Übung 1
Lese die Datei yob1880.txt als DataFrame ein.

## Übung 2
Lese die Dateien yob1880.txt und yob1881.txt ein und verbinde beide zu einem DataFrame. Und schreibe das Ergebnis in eine Datei yob1880-1881.txt.