# File Input/Output

Um mit Textdatein zu Arbeiten gibt es Befehle zum Öffnen und Schliessen einer Datei sowie zum Lesen und Schreiben von Daten. Die folgenden Beispiele zeigen die wichtigsten Befehle.

Hinweise & Best Practices
- Bei Textdateien immer `encoding='utf-8'` angeben.
- Bei CSV unter Windows beim Schreiben `newline=''` nutzen.
- Für große Dateien: iteratives Lesen (z. B. `for line in f:`) statt `read()`.
- Sicherheit: Lade Pickle-Dateien nur aus vertrauenswürdigen Quellen.

## open, close

Mit `open(pfad, modus)` wird eine Datei geöffnet. Der Modus gibt an für welchen Zweck:
- `"r"` für Read (Daten lesen)
- `"w"` für Write (Daten schreiben)
- `"a"` für append (Daten an bestehende Daten anhängen/schreiben). 

Ein wichtiger Parameter ist auch das `encoding`, mit welchem angegeben welcher Zeichensatz verwendet wird. Der Parameter ist zwar optinal, aber es ist eine gute Praxis das Encoding explizit zu setzen.

```python
f = open('hello.txt', 'w', encoding='utf-8')
f.write('Hello World\n')
f.close()
```

Mit `close` wird der Datei-Handle wieder geschlossen. Es ist wichtig, `close` auch im Fehlerfall auszuführen, damit der Datei-Handle wieder freigegeben wird. Eine Möglichkeit ist die Verarbeitung in einem **try-except-finally** Block auszuführen:  

```python
try:
    f = open('hello.txt', 'w', encoding='utf-8')
    f.write('Hello World\n')
except:
    ... Fehlerbehandlung
finally:
    f.close()
```

Noch eleganter ist die Verwendung des **Context Manager** von Python mit dem `with` Befehl. Eine innerhalb von einem **with** Block geöffnete Datei wird von Python automatisch geschlossen, unabhängig davon, ob eine Exception aufgetreten ist oder nicht.

```python
with open('hello.txt', 'w', encoding='utf-8') as f:
    f.write('Hello World\n')
```


## read, readLine, readLines

Mit den read Befehlen kann der Inhalt einer Datei gelesen werden.


In [1]:
file = "lesson40_files_hello.txt"

In [2]:
with open(file, 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)

Hello
Word


In [3]:
with open(file, 'r', encoding='utf-8') as f:
    line1 = f.readline()
    print('Zeile 1:', line1)

Zeile 1: Hello



In [4]:
with open(file, 'r', encoding='utf-8') as f:
    lines = f.readlines()
    print('Anzahl Zeilen:', len(lines))


Anzahl Zeilen: 2


## write, writeLines

Schreibe Strings mit write() und mehrere Zeilen mit writelines().

In [5]:
city_file = "lesson40_files_cities.txt"

cities = ['Bern', 'Zürich', 'Basel']

with open(city_file, 'w', encoding='utf-8') as f:
    f.write('Städte:\n')


with open(city_file, 'a', encoding='utf-8') as f:
    f.writelines([city + '\n' for city in cities])


with open(city_file, 'r', encoding='utf-8') as f:
    print(f.read())

Städte:
Bern
Zürich
Basel



## read/write csv

**Python csv Modul**

Zum Lesen und Schreiben von CSV Dateien stellt **Python das Modul `csv`** zur Verfügung. Ein Beispiel dazu findet man unter [File Beispiele](https://github.com/iten-engineering/python/blob/main/example/04-file/file.py). 

**Pandas Framework**

Noch einfacher ist die Verwendung des **Pandas Framework**. Mit diesem kann eine CSV Datei direkt in ein Pandas DataFrame eingelesen werden. Die DataFrame Klasse von Pandas ist ähnlich wie das DataFrame von R und bietet viele verscheidene Funktionen zum arbeiten mit 2-dimensionalen Daten. 

In [6]:
import pandas as pd # Verwenden Sie den "Python Pyodide" Kernel

books_file = "lesson40_files_books.csv"

df = pd.read_csv(books_file, encoding='utf-8')
print(df)

                ISBN                        Title           Author  \
0  978-0-316-45742-2   The Coast-To-Coast Murders  James Patterson   
1  978-0-525-95498-9  The Evening and the Morning      Ken Follett   
2  978-1-250-14523-9      All the Devils Are Here     Louise Penny   

          Publisher  
0  Little Brown USA  
1    Penguin LCC US  
2     Macmillan USA  


> Pandas unterstützt **viele weitere Dateiformate**, so zum Beispiel Excel, Json, Parquet, etc. Mehr von Pandas lernen wir im Kapitel **Data Science Libraries** kennen.


## read/write objects 

Neben Text basierten Formaten kennt Python auch einen Binärmodus für Bytes. Dazu wird der Modus beim open Befehl mit einem `b` für binary ergänzt:
- `"rb"` read binary
- `"wb"` write binary
- `"ab"` append binary


**Pickle**

Mit dem `pickle` Modul von Python können Objekte binär serialisiert und gespeichert werden. Ein so abgespeichertes Objekt kann dann wieder gelesen und deserialisiert werden. 

Beachte: Das Format wird u.a. auch verwendet um **trainierte Machine Learning Modelle** zu speichern.


In [7]:
import pickle

object_file = "lesson40_files_object.pkl"

d = {1:2, "k":[1,2,3], "fun":print}
print(d)

with open(object_file, "wb") as fout:       # open file for write-binary
    pickle.dump(d, fout)                    # dump pickle file

with open(object_file, "rb") as fin:        # open file for read-binary
    d2 = pickle.load(fin)                   # load pickle file

print(d2)

{1: 2, 'k': [1, 2, 3], 'fun': <built-in function print>}
{1: 2, 'k': [1, 2, 3], 'fun': <built-in function print>}


# Aufgaben

## Names

1. Lesen Sie die Textdatei `lesson40_files_names.txt` ein.
   Diese enthält Vornamen in der folgenden Form:
   ```
   Elias
   Theo
   ...
   Ida
   Anna
   ```

2. Sortieren Sie die Vornamen alphabetisch.

3. Speichern Sie die sortierten Namen in der Datei `lab41-files-names-sorted.txt` ab.
   ```
   Anna
   Anton
   ...
   Sarah
   Theo
   ```

In [8]:
names_file = "lesson40_files_names.txt"
sorted_names_file = "lesson40_files_names_sorted.txt"


## Footprint 

Bei dieser Überung soll der globale Fussabdruck (Number of earth) der Schweiz eingelesen und visualisiert werden. Öffnen sie dazu das Notebook **lesson41_lab_footprint.ipynb** und folgen sie den Anweisungen.