# Mit CSV-Dateien arbeiten

## Mit dem `csv`-Modul CSV-Dateien einlesen

In [None]:
import csv

with open('data/2011_circ.csv', 'r') as f: # Datei öffnen im 'read'-Modus
    reader = csv.reader(f) # CSV-Reader-Objekt instanziieren
    for row in reader: # Das Reader-Objekt ist ein Iterator (iterierbar)
        print(row)

Die erste Zeile enthält die Spaltenüberschriften. Mit `next()` wird im Iterator das aktuelle Element zurückgegeben und dann ein Element weitergesprungen. Die Spaltenüberschriften lassen sich also in eine Variable einlesen.

In [None]:
with open('data/2011_circ.csv', 'r') as f: # Datei öffnen im 'read'-Modus
    reader = csv.reader(f) # CSV-Reader-Objekt instanziieren
    fieldnames = next(reader)
    print("Spaltenüberschriften: ", fieldnames)
    print("Weitere Zeilen")
    for row in reader: # Das Reader-Objekt ist ein Iterator (iterierbar)
        print(row)

Jetzt sollen die jährlichen Gesamtausleihzahlen (`ytd`) in eine Liste gepackt werden.

In [None]:
maximalwerte = []
with open('data/2011_circ.csv', 'r') as f: # Datei öffnen im 'read'-Modus
    reader = csv.reader(f) # CSV-Reader-Objekt instanziieren
    fieldnames = next(reader)
    for row in reader: # Das Reader-Objekt ist ein Iterator (iterierbar)
        maximalwerte.append(row[-1])

print(maximalwerte)

Die bessere Datenstruktur für derartige Aufgaben ist das Dictionary. Der Name der Bibliothek kann als Schlüssel verwendet werden, weitere Informationen können als Wert ergänzt werden.

In [None]:
maximalwerte = {}
with open('data/2011_circ.csv', 'r') as f: # Datei öffnen im 'read'-Modus
    reader = csv.reader(f) # CSV-Reader-Objekt instanziieren
    fieldnames = next(reader)
    for row in reader: # Das Reader-Objekt ist ein Iterator (iterierbar)
        maximalwerte[row[0]] = row[-1]

print(maximalwerte)

Das `csv`-Modul erlaubt auch das Einlesen der einzelnen Datenreihen als Dictionary anstelle einer Liste.
Keys sind die Spaltentitel.

In [None]:
with open('data/2011_circ.csv', 'r') as f: # Datei öffnen im 'read'-Modus
    reader = csv.DictReader(f) # CSV-Reader-Objekt instanziieren
    for row in reader: # Das Reader-Objekt ist ein Iterator (iterierbar)
        print(row)

Damit lassen sich Elemente gezielt adressieren. So lassen sich die Gesamtausleihzahlen der Bibliotheken ausgeben:

In [None]:
with open('data/2011_circ.csv', 'r') as f: # Datei öffnen im 'read'-Modus
    reader = csv.DictReader(f) # CSV-Reader-Objekt instanziieren
    for row in reader:
        print(row['branch'], row['ytd'])

## Mehrere Dateien einlesen mit `glob()`

Mit dem `glob()`-Modul werden Dateinamen in einem bestimmten Verzeichnis als Liste ausgegeben.

In [None]:
from glob import glob
files = glob('data/*.csv')
print(files)