# Arbeiten mit Dateien

Fast immer kommt der Input für ein Programm aus Dateien.

Python unterstützt die Arbeit mit Dateien und Ordnern mit einer Reihe von Modulen in der Standard Library, darunter [`os`](https://docs.python.org/3/library/os.html), [`shutil`](https://docs.python.org/3/library/shutil.html), [`tempfile`](https://docs.python.org/3/library/tempfile.html), und [`pathlib`](/https://docs.python.org/3/library/pathlib.html).  

Die Funktionalität überschneidet sich dabei teilweise. Hier folgen Empfehlungen für einige übliche Operationen.

## Aktuelles Verzeichnis sehen und ändern

In [None]:
import os

os.getcwd()

In [None]:
os.chdir('..')
os.getcwd()

## Dateipfade 

Das `os` Modul speichert Pfade als Strings. Das ist fehleranfällig und etwas umständlich.

Als Lösung wurde mit Python 3.4 das `pathlib` Modul eingeführt. Es bietet ein `Path` Objekt, um Pfade zu repräsentieren. 


In [None]:
from pathlib import Path

Path(os.getcwd())

`Path` Objekte passen sich automatisch an das Betriebssystem an und bieten nützliche Funktionalität.

In [None]:
readme = Path('README.md').resolve() # resolve löst den ganzen Pfad auf
readme

In [None]:
# Beinhaltendes Verzeichnis
readme.parent

In [None]:
# Dateiname
readme.name

In [None]:
# Dateiendung
readme.suffix

In [None]:
# Größe des Files in Bytes
readme.stat().st_size

## Inhalte im Verzeichnis auflisten

In [None]:
notebooks = Path('python')

list(notebooks.iterdir())


## Dateien nach Filenamen finden


In [None]:
# Finde alle Notebooks
list(notebooks.glob('*.ipynb'))

## Verzeichnisse anlegen

Neue Pfade können mit `pathlib` über den `/` Operator konstruiert werden. Wenn der Code auf Windows läuft, wird trotzdem ein Backslash erzeugt.


In [None]:
# Pfad zu Unterverzeichnis des Arbeitsverzeichnisses, das noch nicht existiert
subdir = Path() / 'unter'
# Verzeichnis anlegen
subdir.mkdir()


## Dateien kopieren und verschieben

Das `shutil` Modul (Shell Utilities) bietet Funktionen für das Kopieren, Verschieben, und Löschen von Daten.

In [None]:
import shutil

old_path = Path('README.md')
new_path = subdir / 'README2.md'

# File kopieren
shutil.copy(old_path, new_path)

# Analog File verschieben
# shutil.move(old_path, new_path)


Achtung: Wenn das Zielfile schon existiert, wird es dabei überschrieben!

## Textdateien lesen und schreiben

Auch um Textdateien zu lesen und zu schreiben, ist `pathlib` die einfachste Option. 

In [None]:
# String in neues File schreiben
new_file = Path('.') / 'hello.txt'
new_file.write_text('Hello World!')

In [None]:
# README.md als String einlesen
readme.read_text()

Das sieht nicht ganz richtig aus - Umlaute werden falsch angezeigt.


### Encodings

Alle Files bestehen aus Bytes. Um Text zu speichern, muss er also in Bytes verwandelt werden. Dafür gibt es (leider) verschiedene Möglichkeiten - sogenannte *Encodings*.

Historisch war ASCII mit 8 Bits (1 Byte) pro Zeichen lange der Standard, damit lässt sich aber nur englischer Text verlustfrei codieren - Umlaute sind z.B. nicht vorgesehen.

Mittlerweile hat sich UTF-8 als Standard etabliert. Mit einer variablen Anzahl Bytes können Zeichen für alle Sprachen der Welt, inklusive Emojis, kodiert werden.

Wenn wir wissen, dass unser File in UTF-8 kodiert wurde, können wir das angeben:


In [None]:
readme.read_text(encoding='utf-8')

Immer noch recht unübersichtlich - der gesamte Text wird in einem langen String angezeigt.



Das `\n` zeigt einen Zeilenumbruch an - daran lässt sich der Text aufteilen:

In [None]:
text = readme.read_text(encoding='utf-8')
lines = text.splitlines()
lines[0]

## Was ist mit CSV-Dateien?

Da CSV-Dateien auch Textdateien sind, ist es einfach sie so einzulesen:

In [None]:
data = Path('python/data.csv').read_text()
# Über alle Zeilen iterieren...
lines = data.splitlines()
# ...aber den Header überspringen.
for line in lines[1:]:
# Das File hat zwei Spalten, getrennt durch Komma.
# Wir wollen nur den Datenwert.
    _, data = line.split(',')
    print('Wert: ', float(data))


In der Praxis ist dieser Ansatz aber mühsam und fehleranfällig. Wir werden sehen, dass das `pandas` Paket dafür eine elegante fertige Lösung bietet.

`pandas` unterstützt außerdem auch viele binäre Formate, insbesondere Excelfiles.