# Datenformate
## CSV (Comma-Separated Values)
Das CSV-Format ist ein einfaches, textbasiertes Dateiformat, das zur Speicherung tabellarischer Daten verwendet wird. In CSV-Dateien sind die Daten in Zeilen und Spalten organisiert, wobei jede Zeile einer Datenreihe entspricht und Spalten durch ein Trennzeichen (in der Regel ein Komma, ,) getrennt werden. CSV-Dateien enthalten normalerweise keine Formatierungen, nur reine Daten, und sind weit verbreitet aufgrund ihrer Einfachheit und Kompatibilität mit vielen Programmen, insbesondere für den Datenaustausch zwischen Tabellenkalkulationen und Datenbanken.

Fogendes ist zu beachten:
- welches Zeichen wird für den Zeilenumbruch verwendet
- welches Zeichen trennt die Spaltenwerte (neben , häufig auch \t oder ;), ist es mit einer Escape Sequenz markiert wenn es im Spaltenwert vorkommt ?
- sind Spaltenwerte mit " oder ' umgeben, wenn ja alle oder nur einzelne (enthalten die das Trennzeichen für Spaltenwerte ?)
- enthält die Datei einen Header mit Spaltenbezeichnungen (in welcher Zeile ?)

In [1]:
import pandas as pd

# CSV-Datei einlesen
df1 = pd.read_csv('iris.csv')

In [4]:
df1.head()

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


Die Datei enthält keine Spaltennamen/Header, daher nochmal importieren:

In [5]:
df1 = pd.read_csv('iris.csv', header=None)
df1.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [6]:
df1_name = df1.copy().rename({0: "Petal lenght",1: "Petal width",2: "Sepal length",3: "Sepal width",4: "Species"})
df1_name.head()

Unnamed: 0,0,1,2,3,4
Petal lenght,5.1,3.5,1.4,0.2,Iris-setosa
Petal width,4.9,3.0,1.4,0.2,Iris-setosa
Sepal length,4.7,3.2,1.3,0.2,Iris-setosa
Sepal width,4.6,3.1,1.5,0.2,Iris-setosa
Species,5.0,3.6,1.4,0.2,Iris-setosa


Das stimmt wohl nicht, nochmal:

In [7]:
df1_name = df1.copy().rename({0: "Petal lenght",1: "Petal width",2: "Sepal length",3: "Sepal width",4: "Species"}, axis=1)
df1_name.head()

Unnamed: 0,Petal lenght,Petal width,Sepal length,Sepal width,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Besser gleich so:

In [8]:
df1 = pd.read_csv('iris.csv', header=None, names=["Petal lenght","Petal width","Sepal length","Sepal width","Species"])
df1.head()

Unnamed: 0,Petal lenght,Petal width,Sepal length,Sepal width,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Neue Datei laden:

In [9]:
df2 = pd.read_csv("iris-tabs.csv")
df2.head()

Unnamed: 0,"Petal length\t""Petal width""\t""Sepal length""\t""Sepal width""\t""Classification"""
0,"5.1\t3.5\t1.4\t0.2\t""Iris-setosa"""
1,"4.9\t3.0\t1.4\t0.2\t""Iris-setosa"""
2,"4.7\t3.2\t1.3\t0.2\t""Iris-setosa"""
3,"4.6\t3.1\t1.5\t0.2\t""Iris-setosa"""
4,"5.0\t3.6\t1.4\t0.2\t""Iris-setosa"""


Sieht komisch aus, Datei checken:

In [10]:
content = []
with open("iris-tabs.csv") as f:
    content = f.read()
print(len(content))
print(content[:195])

4925
"Petal length"	"Petal width"	"Sepal length"	"Sepal width"	"Classification"
5.1	3.5	1.4	0.2	"Iris-setosa"
4.9	3.0	1.4	0.2	"Iris-setosa"
4.7	3.2	1.3	0.2	"Iris-setosa"
4.6	3.1	1.5	0.2	"Iris-setosa"



Neuer Versuch:

In [16]:
df2 = pd.read_csv("iris-tabs.csv", sep="\t")
df2.head()

Unnamed: 0,Petal length,Petal width,Sepal length,Sepal width,Classification
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Pandas hat beim import die `"` automatisch entfernt !

In [12]:
df2.iloc[0, 0] = "5,2"
df2.head()

  df2.iloc[0, 0] = "5,2"


Unnamed: 0,Petal length,Petal width,Sepal length,Sepal width,Classification
0,52.0,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [17]:
df2.to_csv("my_iris.csv")

df3 = pd.read_csv("my_iris.csv")
df3.head()

Unnamed: 0.1,Unnamed: 0,Petal length,Petal width,Sepal length,Sepal width,Classification
0,0,5.1,3.5,1.4,0.2,Iris-setosa
1,1,4.9,3.0,1.4,0.2,Iris-setosa
2,2,4.7,3.2,1.3,0.2,Iris-setosa
3,3,4.6,3.1,1.5,0.2,Iris-setosa
4,4,5.0,3.6,1.4,0.2,Iris-setosa


In [18]:
df3 = df3.drop("Unnamed: 0", axis=1)
df3.head()

Unnamed: 0,Petal length,Petal width,Sepal length,Sepal width,Classification
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [21]:
import csv
df3.to_csv("my_irsis2.csv", index=None, quoting=csv.QUOTE_NONE)
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Petal length    150 non-null    float64
 1   Petal width     150 non-null    float64
 2   Sepal length    150 non-null    float64
 3   Sepal width     150 non-null    float64
 4   Classification  150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [36]:
df3.to_csv("my_irsis2.csv", index=None, quoting=csv.QUOTE_MINIMAL)
df4 = pd.read_csv("my_irsis2.csv")
df4.head()

Unnamed: 0,Petal length,Petal width,Sepal length,Sepal width,Classification
0,52.0,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [39]:
df4.iloc[0, 0] = 5.2
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Petal length    150 non-null    object 
 1   Petal width     150 non-null    float64
 2   Sepal length    150 non-null    float64
 3   Sepal width     150 non-null    float64
 4   Classification  150 non-null    object 
dtypes: float64(3), object(2)
memory usage: 6.0+ KB


In [40]:
df4["Petal length"] = df4["Petal length"].astype(float)
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Petal length    150 non-null    float64
 1   Petal width     150 non-null    float64
 2   Sepal length    150 non-null    float64
 3   Sepal width     150 non-null    float64
 4   Classification  150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [42]:
df4.set_index("Classification", inplace=True)
df4.head()

Unnamed: 0_level_0,Petal length,Petal width,Sepal length,Sepal width
Classification,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.2,3.5,1.4,0.2
Iris-setosa,4.9,3.0,1.4,0.2
Iris-setosa,4.7,3.2,1.3,0.2
Iris-setosa,4.6,3.1,1.5,0.2
Iris-setosa,5.0,3.6,1.4,0.2


In [43]:
df4.to_csv("my_irsis3.csv", quoting=csv.QUOTE_ALL)
df5 = pd.read_csv("my_irsis3.csv", index_col=0)
df5.head()

Unnamed: 0_level_0,Petal length,Petal width,Sepal length,Sepal width
Classification,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.2,3.5,1.4,0.2
Iris-setosa,4.9,3.0,1.4,0.2
Iris-setosa,4.7,3.2,1.3,0.2
Iris-setosa,4.6,3.1,1.5,0.2
Iris-setosa,5.0,3.6,1.4,0.2


In [44]:
df5.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150 entries, Iris-setosa to Iris-virginica
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Petal length  150 non-null    float64
 1   Petal width   150 non-null    float64
 2   Sepal length  150 non-null    float64
 3   Sepal width   150 non-null    float64
dtypes: float64(4)
memory usage: 5.9+ KB


# Pandas: CSV-Dateien einlesen und speichern mit Quoting-Optionen

Pandas bietet eine Vielzahl von Möglichkeiten, CSV-Dateien zu lesen und zu speichern, die spezielle Handhabung von Anführungszeichen erfordern. Beim Einlesen und Speichern von CSV-Dateien können wir steuern, wie Anführungszeichen behandelt werden, indem wir den Parameter `quoting` verwenden. Dies ist besonders nützlich, wenn Felder in der CSV-Kommas oder andere Trennzeichen enthalten oder die Felder selbst Anführungszeichen beinhalten.

## Einlesen von CSV-Dateien

Beim Einlesen von CSV-Dateien in Pandas kannst du den Parameter `quoting` verwenden, um zu steuern, wie Anführungszeichen behandelt werden. Es gibt verschiedene Optionen, um das Quoting-Verhalten zu beeinflussen.

### Parameter `quoting`
- **`csv.QUOTE_MINIMAL`**: Setzt nur Anführungszeichen um Felder, die das Trennzeichen oder das Escape-Zeichen enthalten. Dies ist die Standardeinstellung.
- **`csv.QUOTE_ALL`**: Alle Felder werden in Anführungszeichen gesetzt, auch wenn sie keine Trennzeichen oder Sonderzeichen enthalten.
- **`csv.QUOTE_NONNUMERIC`**: Nur Felder, die nicht numerisch sind, werden in Anführungszeichen gesetzt.
- **`csv.QUOTE_NONE`**: Es werden keine Anführungszeichen verwendet.

### Beispiel zum Einlesen einer CSV-Datei:

```python
import pandas as pd
import csv

# CSV-Datei mit Quoting-Option einlesen
df = pd.read_csv('file.csv', quoting=csv.QUOTE_MINIMAL)

# Ausgabe des DataFrames
print(df)
```

### Erklärung der Optionen:
- **`csv.QUOTE_MINIMAL`** (Standardoption): Anführungszeichen werden nur verwendet, wenn das Feld Trennzeichen (z. B. Kommas) enthält. Ein Beispiel: 
    - Ein Wert wie `Hello, World` wird als `"Hello, World"` gespeichert.
    - Ein Wert wie `Hello` wird ohne Anführungszeichen gespeichert.
- **`csv.QUOTE_ALL`**: Alle Felder, auch wenn sie keine Trennzeichen oder Sonderzeichen enthalten, werden in Anführungszeichen gesetzt.
    - Beispiel: `Hello` wird als `"Hello"` gespeichert.
- **`csv.QUOTE_NONNUMERIC`**: Nur Felder, die keine numerischen Werte sind, werden in Anführungszeichen gesetzt.
    - Beispiel: Der Wert `25` bleibt als `25`, aber der Wert `Hello` wird als `"Hello"` gespeichert.
- **`csv.QUOTE_NONE`**: Es werden keine Anführungszeichen verwendet, unabhängig vom Inhalt des Feldes.

## Speichern von CSV-Dateien mit Quoting

Beim Speichern von CSV-Dateien kannst du auch den Parameter `quoting` angeben, um zu steuern, wie Anführungszeichen verwendet werden. Dies ist besonders nützlich, wenn du sicherstellen möchtest, dass bestimmte Felder immer oder nie in Anführungszeichen gesetzt werden.

### Beispiel zum Speichern einer CSV-Datei mit Quoting-Option:

```python
import pandas as pd
import csv

# Beispiel DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 30, 22],
    'City': ['New York', 'Los Angeles', 'Chicago']
})

# Speichern mit QUOTE_MINIMAL (Standardoption)
df.to_csv('minimal_quotes.csv', index=False, quoting=csv.QUOTE_MINIMAL)

# Speichern mit QUOTE_NONNUMERIC (nur nicht-numerische Felder in Anführungszeichen)
df.to_csv('non_numeric_quotes.csv', index=False, quoting=csv.QUOTE_NONNUMERIC)

# Speichern mit QUOTE_ALL (alle Felder in Anführungszeichen setzen)
df.to_csv('all_quotes.csv', index=False, quoting=csv.QUOTE_ALL)

# Speichern mit QUOTE_NONE (keine Anführungszeichen)
df.to_csv('no_quotes.csv', index=False, quoting=csv.QUOTE_NONE)
```

### Erklärung der Optionen beim Speichern:
- **`csv.QUOTE_MINIMAL`**: Anführungszeichen werden nur gesetzt, wenn es nötig ist (z. B. bei Trennzeichen im Text). Dies ist die Standardoption, wenn `quoting` nicht angegeben wird.
- **`csv.QUOTE_NONNUMERIC`**: Nur nicht-numerische Felder (also Textfelder) werden in Anführungszeichen gesetzt.
- **`csv.QUOTE_ALL`**: Alle Felder, auch wenn sie keine Trennzeichen enthalten, werden in Anführungszeichen gesetzt.
- **`csv.QUOTE_NONE`**: Es werden keine Anführungszeichen gesetzt, auch wenn das Feld Trennzeichen oder Sonderzeichen enthält.


Hier sind zusätzliche Optionen und erweiterte Methoden, die du beim Arbeiten mit **CSV-Dateien** in **Pandas** verwenden kannst, um mehr Kontrolle über den Lese- und Schreibvorgang zu erhalten.

### 1. **CSV-Datei einlesen (`read_csv`)**

Pandas bietet eine Vielzahl von Parametern in der Funktion `read_csv()`, mit denen du das Einlesen von CSV-Dateien optimieren kannst.

#### **Optionen beim Einlesen von CSV-Dateien:**

```python
import pandas as pd

# CSV-Datei einlesen mit verschiedenen Optionen
df = pd.read_csv(
    'datei.csv',             # Pfad zur Datei
    sep=',',                 # Trenner (Standard: , für CSV, aber auch andere Trennzeichen möglich, z.B. ; für semikolongetrennte Daten)
    header=0,                # Welche Zeile als Header verwenden (Standard: 0 für die erste Zeile)
    names=['col1', 'col2'],  # Wenn keine Kopfzeile vorhanden ist oder du benutzerdefinierte Namen verwenden möchtest
    index_col=0,             # Spalte, die als Index verwendet werden soll
    usecols=['col1', 'col2'],# Bestimmte Spalten auswählen, um nur die gewünschten zu laden
    dtype={'col1': float},   # Datentypen für bestimmte Spalten festlegen
    skiprows=1,              # Bestimmte Zeilen überspringen (hier: erste Zeile)
    nrows=100,               # Nur eine bestimmte Anzahl von Zeilen einlesen
    encoding='utf-8',        # Zeichencodierung angeben (z.B. 'utf-8', 'latin1')
    parse_dates=['date'],    # Bestimmte Spalten als Datetime interpretieren
    date_parser=pd.to_datetime,  # Benutzerdefinierte Funktion für die Umwandlung von Datumswerten
    thousands=',',           # Tausendertrennzeichen angeben (z.B. 1,000 wird als 1000 interpretiert)
    skip_blank_lines=True,   # Leere Zeilen überspringen
    error_bad_lines=False    # Zeilen mit fehlerhaften Daten überspringen
)

# Ausgabe der ersten 5 Zeilen
print(df.head())
```

### **Erklärung der wichtigsten Optionen:**

| Parameter               | Beschreibung                                                                 |
|-------------------------|-----------------------------------------------------------------------------|
| `sep`                   | Das Trennzeichen in der CSV-Datei (Standard: `,`). Kann auch `;`, `\t`, etc. sein. |
| `header`                | Zeile(n), die als Kopfzeile verwendet werden (Standard: 0). Ein Wert von `None` bedeutet, dass keine Kopfzeile vorhanden ist. |
| `names`                 | Listet benutzerdefinierte Spaltennamen auf, falls keine Kopfzeile vorhanden ist oder du die Standardnamen überschreiben möchtest. |
| `index_col`             | Die Spalte(n), die als Index des DataFrames verwendet werden sollen (Standard: `None`). |
| `usecols`               | Eine Liste von Spaltennamen oder -indizes, um nur bestimmte Spalten zu laden. |
| `dtype`                 | Ein Dictionary, das angibt, welcher Datentyp für jede Spalte verwendet werden soll. |
| `skiprows`              | Die Anzahl der Zeilen am Anfang, die übersprungen werden sollen (kann auch eine Liste sein). |
| `nrows`                 | Gibt an, wie viele Zeilen aus der Datei gelesen werden sollen. |
| `encoding`              | Zeichencodierung der Datei (z.B. 'utf-8', 'latin1'). |
| `parse_dates`           | Liste von Spalten, die als Datumswerte interpretiert werden sollen. |
| `date_parser`           | Eine benutzerdefinierte Funktion für die Umwandlung von Datumswerten. |
| `thousands`             | Tausendertrennzeichen (z.B. `,` für US oder `.` für viele europäische Länder). |
| `skip_blank_lines`      | Ob leere Zeilen übersprungen werden sollen (Standard: `True`). |
| `error_bad_lines`       | Wenn `False`, werden fehlerhafte Zeilen ignoriert und nicht geladen. |

### 2. **CSV-Datei speichern (`to_csv`)**

Die Funktion `to_csv()` ermöglicht das Speichern eines Pandas DataFrames als CSV-Datei. Hier sind erweiterte Optionen, um das Speichern anzupassen.

#### **Optionen beim Speichern von CSV-Dateien:**

```python
# DataFrame als CSV-Datei speichern mit verschiedenen Optionen
df.to_csv(
    'neue_datei.csv',          # Pfad zur Ziel-Datei
    sep=',',                   # Trennzeichen (Standard: ,)
    index=False,               # Verhindert das Speichern des Index (Standard: True)
    header=True,               # Fügt die Spaltennamen als Header hinzu (Standard: True)
    columns=['col1', 'col2'],  # Bestimmte Spalten speichern (falls nur einige gespeichert werden sollen)
    mode='w',                  # Dateimodus (Standard: 'w' für überschreiben, 'a' für anhängen)
    encoding='utf-8',          # Zeichencodierung (Standard: 'utf-8')
    line_terminator='\n',      # Zeilenumbruchzeichen (Standard: '\n')
    compression='gzip',        # Komprimierung der Datei (z.B. 'gzip', 'zip', 'bz2', 'xz')
    quoting=1,                 # Steuerung der Anführungszeichen (Standard: 0 für keine Anführungszeichen)
    quotechar='"',             # Zeichen für Anführungszeichen (Standard: '"')
    date_format='%Y-%m-%d',     # Datumsformat für Datumsangaben
    doublequote=True           # Doppelte Anführungszeichen für Felder, die Anführungszeichen enthalten
)
```

### **Erklärung der wichtigsten Optionen:**

| Parameter              | Beschreibung                                                                 |
|------------------------|-----------------------------------------------------------------------------|
| `sep`                  | Das Trennzeichen, das beim Speichern verwendet wird (Standard: `,`). |
| `index`                | Wenn `False`, wird der Index nicht in die CSV-Datei geschrieben (Standard: `True`). |
| `header`               | Wenn `False`, wird die Kopfzeile nicht gespeichert (Standard: `True`). |
| `columns`              | Liste von Spaltennamen, die gespeichert werden sollen (Standard: alle Spalten). |
| `mode`                 | Dateimodus für das Öffnen der Datei. `w` zum Überschreiben, `a` zum Anhängen. |
| `encoding`             | Zeichencodierung (z.B. 'utf-8'). |
| `line_terminator`      | Gibt das Zeichen an, das als Zeilenumbruch verwendet wird. |
| `compression`          | Komprimierung der Datei (z.B. 'gzip', 'zip'). |
| `quoting`              | Steuerung der Anführungszeichen: `0` (keine), `1` (nur bei speziellen Zeichen), `2` (alle Felder). |
| `quotechar`            | Das Zeichen, das verwendet wird, um Text in Anführungszeichen zu setzen. |
| `date_format`          | Format für Datumswerte. |
| `doublequote`          | Wenn `True`, werden Anführungszeichen innerhalb von Feldern durch doppelte Anführungszeichen ersetzt. |

### **Beispiel für das Speichern einer CSV-Datei mit zusätzlichen Optionen:**

```python
df.to_csv(
    'neue_datei.csv',
    sep=',',
    index=False,
    header=True,
    columns=['Name', 'Age', 'Fare'],
    encoding='utf-8',
    line_terminator='\n',
    compression='gzip'
)
```

### 3. **Weitere nützliche Funktionen für den Umgang mit CSV-Dateien**

- **CSV-Datei schrittweise einlesen (bei großen Dateien)**:
  Wenn eine CSV-Datei sehr groß ist und du nur einen Teil der Datei gleichzeitig laden möchtest, kannst du `chunksize` verwenden.

  ```python
  # Datei in kleinen Teilen einlesen
  chunk_size = 1000  # Größe des Chunks
  for chunk in pd.read_csv('datei.csv', chunksize=chunk_size):
      print(chunk.head())  # Bearbeite den Chunk hier
  ```

- **Anpassen von Datentypen beim Einlesen**:
  Du kannst den Datentyp für bestimmte Spalten beim Einlesen angeben, um Speicher zu sparen und die Performance zu verbessern.

  ```python
  df = pd.read_csv('datei.csv', dtype={'col1': float, 'col2': str})
  ```

- **CSV-Dateien mit Komprimierung**:
  Pandas unterstützt das Einlesen und Speichern von komprimierten CSV-Dateien.

  ```python
  # Einlesen einer komprimierten CSV-Datei
  df = pd.read_csv('datei.csv.gz', compression='gzip')

  # Speichern als komprimierte CSV-Datei
  df.to_csv('neue_datei.csv.gz', compression='gzip', index=False)
  ```

### Exkurs: Zeichenkodierung
Zeichencodierung beschreibt, wie Zeichen (z. B. Buchstaben, Zahlen, Symbole) in eine Folge von Bits übersetzt werden, die ein Computer speichern und verarbeiten kann. Da Computer nur mit Zahlen arbeiten, ordnet eine Codierung jedem Zeichen eine eindeutige Zahl zu, die dann als Bitmuster gespeichert wird. Verschiedene Codierungsschemata wie ASCII, UTF-8 und UTF-16 definieren diese Zuordnung und beeinflussen, welche Zeichen dargestellt und wie sie gespeichert werden.

**ASCII (American Standard Code for Information Interchange)** ist eine frühe Zeichencodierung, die 7 Bits pro Zeichen verwendet und 128 Zeichen umfasst (einschließlich lateinischer Buchstaben, Zahlen und einiger Sonderzeichen). Sie reicht jedoch nicht aus, um alle Zeichen vieler Sprachen und Symbole darzustellen.

**Unicode** ist ein internationaler **Standard**, der ein universelles Zeichensystem bereitstellt. Sein Ziel ist es, jedem Zeichen, das in einer beliebigen Sprache verwendet wird, eine eindeutige Nummer zuzuweisen, unabhängig von der Plattform, dem Programm oder der Sprache. Unicode umfasst mehr als 143.000 Zeichen und unterstützt verschiedene Schriftarten, Symbole, Emoji und Sonderzeichen.

**UTF-8** ist die gängigste **Codierung** von Unicode und ein sogenanntes variable-length encoding: Zeichen können aus 1 bis 4 Bytes bestehen. Dies bedeutet, dass UTF-8 für englischen Text sehr platzsparend ist (weil es ASCII-kompatibel ist), während es gleichzeitig genug Kapazität hat, um komplexere Zeichen darzustellen.

In der Informatik bezeichnet "Standard" eine Sammlung von Regeln und Richtlinien, die gewährleisten sollen, dass Systeme und Technologien zusammenarbeiten können. Ein Standard beschreibt also, was und wie etwas funktioniert, ohne die konkrete Implementierung festzulegen.

Eine "Codierung" dagegen ist eine spezifische Art und Weise, Daten digital darzustellen. Sie beschreibt, wie Zeichen, Symbole oder Zahlen in ein binäres Format umgewandelt werden, damit sie von Computern verarbeitet und gespeichert werden können.

Beispiel:
- Unicode-Standard: Definiert die vollständige Liste der Zeichen und Symbole sowie deren eindeutige Nummerierung.
- UTF-8-Codierung: Gibt vor, wie jedes Zeichen des Unicode-Standards im binären Format gespeichert wird (1 bis 4 Bytes pro Zeichen).