# Wie komme ich an die externen Daten?

* Daten aus Textdateien
* Strukturierte Daten aus Web
* Web-Scraping
* Datenbanken

### Textdateien vs. Binärdateien

Textdateien bestehen aus Textzeilen, durch Line-Separatoren getrennt

Line-Separatoren
* Unix: 0xD
* Windows: 0xD 0xA

# Dateien lesen und schreiben

## Textdateien lesen

Einfaches Beispiel

In [None]:
f = open('sample.txt')
for s in f:
    print(s)
f.close()

Suchen in einer Datei

In [None]:
f = open('sample.txt')
if 'world\n' in f:
    print("World is here")
f.close()

Die ganze Textdatei in RAM auslesen und Lines intern trennen

In [None]:
with open('sample.txt', 'r') as f:
    cnt = 0
    for line in f.readlines():
        line = str(line).rstrip()
        print ("Line: " + line)
        cnt += 1
        if 'world' in line:
            print ("Gefunden, line " + str(cnt))
            


Große Datei Line-nach-Line lesen

In [None]:
with open('sample.txt', 'r') as f:
    while True:
        line = f.readline()
        if line == '':
            break
        print (line, end='')
        
    
            


## Binäre Dateien lesen

In [None]:
with open('sample.txt', 'rb') as f:
    for chr in f.read(10):
        print (chr)

## Dateien schreieben

Textdatei nur schreiben

In [None]:
with open('sample_write.txt', 'w') as f:
    f.write('Hello!\n')
    f.write('This is my first file!\n')

Textdatei Lesen und Schreieben

In [None]:
with open('sample_read_write.txt', 'w+') as f:
    f.write('Hallo wieder!\n')
    f.write('This is my first file!\n')
    f.seek(0)
    print (f.read())

## Falls kein 'with' statement: close() nicht vergessen!

In [None]:
f = open('sample_write.txt', 'w')
f.write('Hello!\n')
f.write('This is my first file!\n')
f.close()

# Achtung, Gefahr: utf-8 Dateien

## Lesen von Dateien, die Unicode Chars enthalten im Textmodus kann zu Fehlern führen

In [None]:
f = open('sample_utf.txt')
for s in f:
    print(s)
f.close()

## utf-8 Dateien richtig lesen

In [None]:
import codecs
f = codecs.open("sample_utf.txt", "r", "utf-8")
for s in f:
    print(s)
f.close()

## utf-8 Dateien richtig schreiben

In [None]:
import codecs
f = codecs.open("sample_utf_w.txt", "w", "utf-8")
f.write('Привет! γεια!')
f.close()

# Strukturierte Daten aus Web lesen

Beispiel: einfache Daten lesen

In [None]:
import requests

r = requests.get('http://ip.jsontest.com/')

print('Encoding: ', r.encoding)

print ('Content: ', r.content)

## Beispiel: JSON zu Dict umwandeln

## c:> conda install ujson

In [None]:
import ujson
content = r.content
content

In [None]:
dict = ujson.loads(content)
dict

### UTF-8 Daten 

In [None]:
print('Encoding: ', r.encoding)

In [None]:
utf = r.content.decode('utf-8')

dict = ujson.loads(utf)

dict['ip']

# Unstrukturierte Daten aus Web lesen (Web-Scraping)

In [None]:
from lxml import html
import requests

page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')

tree = html.fromstring(page.content)

buyers = tree.xpath('//div[@title="buyer-name"]/text()')

prices = tree.xpath('//span[@class="item-price"]/text()')

data = zip(buyers, prices)

list(data)

Hinweis: mehr info über xPath kann man bei W3Schools bekommen: https://www.w3schools.com/xml/xpath_intro.asp