# Arbeiten mit Dateien

Fast immer kommt der Input f√ºr ein Programm aus Dateien.

Python unterst√ºtzt die Arbeit mit Dateien und Ordnern mit einer Reihe von Modulen in der Standard Library, darunter [`os`](https://docs.python.org/3/library/os.html), [`shutil`](https://docs.python.org/3/library/shutil.html), [`tempfile`](https://docs.python.org/3/library/tempfile.html), und [`pathlib`](/https://docs.python.org/3/library/pathlib.html).  

Die Funktionalit√§t √ºberschneidet sich dabei teilweise. Hier folgen Empfehlungen f√ºr einige √ºbliche Operationen.

## Aktuelles Verzeichnis sehen und √§ndern

In [None]:
import os

os.getcwd()

In [None]:
os.chdir('..')
os.getcwd()

## Dateipfade 

Das `os` Modul speichert Pfade als Strings. Das ist fehleranf√§llig und etwas umst√§ndlich.

Als L√∂sung wurde mit Python 3.4 das `pathlib` Modul eingef√ºhrt. Es bietet ein `Path` Objekt, um Pfade zu repr√§sentieren. 


In [None]:
from pathlib import Path

Path(os.getcwd())

`Path` Objekte passen sich automatisch an das Betriebssystem an und bieten n√ºtzliche Funktionalit√§t.

In [None]:
readme = Path('README.md').resolve() # resolve l√∂st den ganzen Pfad auf
readme

In [None]:
# Beinhaltendes Verzeichnis
readme.parent

In [None]:
# Dateiname
readme.name

In [None]:
# Dateiendung
readme.suffix

In [None]:
# Gr√∂√üe des Files in Bytes
readme.stat().st_size

## Inhalte im Verzeichnis auflisten

In [None]:
notebooks = Path('python') 


list(notebooks.iterdir())


## Dateien nach Filenamen finden


In [None]:
# Finde alle Notebooks im Verzeichnis, die mit 0 beginnen.
list(notebooks.glob('0*.ipynb'))

## Verzeichnisse anlegen

Neue Pfade k√∂nnen mit `pathlib` √ºber den `/` Operator konstruiert werden. Wenn der Code auf Windows l√§uft, wird trotzdem ein Backslash erzeugt.


In [None]:
# Pfad zu Unterverzeichnis des Arbeitsverzeichnisses, das noch nicht existiert
subdir = Path() / 'unter'
# Verzeichnis anlegen
subdir.mkdir()


## Dateien kopieren und verschieben

Das `shutil` Modul (Shell Utilities) bietet Funktionen f√ºr das Kopieren, Verschieben, und L√∂schen von Daten.

In [None]:
import shutil

old_path = Path('README.md')
new_path = subdir / 'README2.md'

# File kopieren
shutil.copy(old_path, new_path)

# Analog File verschieben
# shutil.move(old_path, new_path)


Achtung: Wenn das Zielfile schon existiert, wird es dabei √ºberschrieben!

## Textdateien lesen und schreiben

Auch um Textdateien zu lesen und zu schreiben, ist `pathlib` die einfachste Option. 

In [None]:
# String in neues File schreiben
new_file = Path('.') / 'hello.txt'
new_file.write_text('Hello World!')

In [None]:
# README.md als String einlesen
readme.read_text()

Das sieht nicht ganz richtig aus - Umlaute werden falsch angezeigt.


### Encodings

Alle Files bestehen aus Bytes. Um Text zu speichern, muss er also in Bytes verwandelt werden. Daf√ºr gibt es (leider) verschiedene M√∂glichkeiten - sogenannte *Encodings*.

Historisch war ASCII mit 8 Bits (1 Byte) pro Zeichen lange der Standard, damit l√§sst sich aber nur englischer Text verlustfrei codieren - Umlaute sind z.B. nicht vorgesehen.

Mittlerweile hat sich UTF-8 als Standard etabliert. Mit einer variablen Anzahl Bytes kann Unicode, also Zeichen f√ºr alle Sprachen der Welt (inklusive Emojis üëå), kodiert werden.

Wenn wir wissen, dass unser File in UTF-8 kodiert wurde, k√∂nnen wir das angeben:


In [None]:
readme.read_text(encoding='utf-8')

Immer noch recht un√ºbersichtlich - der gesamte Text wird in einem langen String angezeigt.



Das `\n` zeigt einen Zeilenumbruch an - daran l√§sst sich der Text aufteilen:

In [None]:
text = readme.read_text(encoding='utf-8')
lines = text.splitlines()
lines[0]

## Was ist mit CSV-Dateien?

Da CSV-Dateien auch Textdateien sind, ist es einfach sie so einzulesen.

# √úbung

Lese die Daten im CSV-File data/simple.csv ein und geben sie mit `print` aus.

<details>

<summary>Tipps</summary>

- Zeilenweise arbeiten
- `.split(',')` nutzen, um Zeilen aufzuteilen
</details>

Bonus: Speichere die Zeit- und die Datenwerte jeweils in eine Liste.


In der Praxis ist dieser Ansatz m√ºhsam und fehleranf√§llig. Das `pandas` Paket bietet daf√ºr eine elegante fertige L√∂sung bietet.

`pandas` unterst√ºtzt au√üerdem auch viele bin√§re Formate, insbesondere Excelfiles.