# CSV-Datei in einen DataFrame einlesen
Pandas bietet mit der Methode `read_csv()` eine einfache Methode, eine CSV-Datei einzulesen. Die Methode bietet unzählige Parameter. Mehr dazu in der Doku: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [2]:
import numpy as np
import pandas as pd
np.random.seed(42)

## Beispiel: Firmenmitarbeiter
Unsere Beispiel-Datei ist eine fiktive Mitarbeiter-Datei mit 500 Mitarbeitern und 11 Spalten.
Wir wollen die Datei einlesen und untersuchen.

### 1. Datei mit read_csv einlesen

In [1]:
# csv datei öffnen und DataFrame erstellen

### 2. die ersten 5 Zeilen ausgeben lassen

In [2]:
df.head(5)

NameError: name 'df' is not defined

### 3. die letzte Zeile ausgeben lassen

In [9]:
df.tail(1)

Unnamed: 0,first_name,last_name,company_name,address,city,county,postal,phone1,phone2,email,web
499,Mi,Richan,Nelson Wright Haworth Golf Crs,6 Norwood Grove,Tanworth-in-Arden,Warwickshire,B94 5RZ,01451-785624,01202-738406,mi@hotmail.com,http://www.nelsonwrighthaworthgolfcrs.co.uk


### die Spaltennamen ausgeben lassen

In [6]:
df.columns

Index(['first_name', 'last_name', 'company_name', 'address', 'city', 'county',
       'postal', 'phone1', 'phone2', 'email', 'web'],
      dtype='object')

### Shape und Dimensionen
Anhand des shapes kann man sehen, wie groß die Datei ist. Der erste Wert bildet die Zeilen des Dataframes ab, der zweite Wert repräsentiert die Spalten. Die Dimension ist 2, wie das bei einem Dataframe immer der Fall ist, da es sich ja um eine Tabelle handelt.

In [7]:
df.shape, df.ndim

((500, 11), 2)

### eindeutige Werte einer Spalte (unique)
Oft ist es von Interesse, wieviele eindeutige Werte eine Spalte hat. Wir interessieren uns für die eindeutigen Werte in der Spalte `county`. Dafür können wir die Methode `unique()` auf eine Series (Spalte) anwenden.

In [13]:
unique_counties = df.county.unique()
unique_counties.shape

(102,)

## Spalten beim Einlesen der Datei auslassen
Falls wir nicht an allen Spalten interessiert sind, können wir sie auch gleich beim Einlesen auslassen. Wir interessieren uns jetzt nur für die Spalten `first_name`, `last_name` und `company_name`. Diese Technik verringert maßgeblich den Speicherverbrauch im RAM und sollte bei sehr großen Dateien durchgeführt werden.

In [3]:
file_name = "data/uk-500.csv"

In [18]:
df_employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   first_name    500 non-null    object
 1   last_name     500 non-null    object
 2   company_name  500 non-null    object
dtypes: object(3)
memory usage: 11.8+ KB


## Datentyp beim Auslesen angeben

Eine weitere Methoden, den Speicherverbrauch zu reduzieren, ist es, die Datentypen der Spalten beim Laden der CSV-Datei anzugeben. Somit kann der Speicherverbrauch vor allem bei vorrangig numerischen Daten maßgeblich reduziert werden. 

In [4]:
file_name = "data/penguin_size.csv"

## Daten in Teilen einlesen

Bei sehr großen CSV-Dateien kann es sinnvoll sein, die Daten in Teilen zu lesen, um den Arbeitsspeicher zu schonen. Dies ist besonders nützlich, wenn die Datei zu groß ist, um sie komplett in den Speicher zu laden. Eine empfohlene maximale Größe für die Arbeit mit Pandas liegt bei 5 bis 10 Millionen Zeilen oder etwa 1 bis 5 GB Daten, je nach Komplexität der Operationen und verfügbaren Arbeitsspeicher des Systems. Alternativ zum Batch-Prozess kann auch eine andere Libary gewählt werden: siehe Dask, Pyspark, Vaex und andere.

In [5]:
# Daten stückweise einlesen um sehr große Datei einzulesen und zu filtern. 

# Create an empty DataFrame to store the filtered results
filtered_df = pd.DataFrame()

# Read the CSV file in chunks
chunk_size = 1000  # Adjust the chunk size as needed

...


NameError: name 'pd' is not defined

## Ergebnis als Pickle speichern

Du kannst das gefilterte DataFrame als komprimierte Pickle-Datei speichern, um Speicherplatz zu sparen und die Ladezeiten zu verbessern. Hinweis: Pickle-Dateien sind nur im Python-Kosmus gebräuchlich (siehe parquet-Format für Alternative)

In [6]:
output_file = "data/filtered_penguins.pkl.gz"

## Pickle laden

In [7]:
# Pickle Datei laden und in DataFrame umforen

## Parquet-Format

Eine sprachagnostische Alternative zu Pickle ist das Parquet-Format, das von vielen Programmiersprachen und Datenverarbeitungstools unterstützt wird, wie z.B. Python, R, Java, Apache Spark, etc. Parquet ist ein spaltenbasiertes Speicherformat, das effizient in der Speicherung und Abfrage von großen Datenmengen ist.


In [9]:
import pandas as pd

# Angenommen, du hast ein gefiltertes DataFrame 'filtered_df'
# Speichere das DataFrame im Parquet-Format mit Kompression

# Lade die gespeicherte Parquet-Datei

