# CSV-Datei in einen DataFrame einlesen
Pandas bietet mit der Methode `read_csv()` eine einfache Methode, eine CSV-Datei einzulesen. Die Methode bietet unzählige Parameter. Mehr dazu in der Doku: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [2]:
import numpy as np
import pandas as pd
np.random.seed(42)

## Beispiel: Firmenmitarbeiter
Unsere Beispiel-Datei ist eine fiktive Mitarbeiter-Datei mit 500 Mitarbeitern und 11 Spalten.
Wir wollen die Datei einlesen und untersuchen.

### 1. Datei mit read_csv einlesen

In [22]:
file_name = "data/uk-500.csv"
df = pd.read_csv(file_name)

### 2. die ersten 5 Zeilen ausgeben lassen

In [5]:
df.head(5)

Unnamed: 0,first_name,last_name,company_name,address,city,county,postal,phone1,phone2,email,web
0,Aleshia,Tomkiewicz,Alan D Rosenburg Cpa Pc,14 Taylor St,St. Stephens Ward,Kent,CT2 7PP,01835-703597,01944-369967,atomkiewicz@hotmail.com,http://www.alandrosenburgcpapc.co.uk
1,Evan,Zigomalas,Cap Gemini America,5 Binney St,Abbey Ward,Buckinghamshire,HP11 2AX,01937-864715,01714-737668,evan.zigomalas@gmail.com,http://www.capgeminiamerica.co.uk
2,France,Andrade,"Elliott, John W Esq",8 Moor Place,East Southbourne and Tuckton W,Bournemouth,BH6 3BE,01347-368222,01935-821636,france.andrade@hotmail.com,http://www.elliottjohnwesq.co.uk
3,Ulysses,Mcwalters,"Mcmahan, Ben L",505 Exeter Rd,Hawerby cum Beesby,Lincolnshire,DN36 5RP,01912-771311,01302-601380,ulysses@hotmail.com,http://www.mcmahanbenl.co.uk
4,Tyisha,Veness,Champagne Room,5396 Forth Street,Greets Green and Lyng Ward,West Midlands,B70 9DT,01547-429341,01290-367248,tyisha.veness@hotmail.com,http://www.champagneroom.co.uk


### 3. die letzte Zeile ausgeben lassen

In [9]:
df.tail(1)

Unnamed: 0,first_name,last_name,company_name,address,city,county,postal,phone1,phone2,email,web
499,Mi,Richan,Nelson Wright Haworth Golf Crs,6 Norwood Grove,Tanworth-in-Arden,Warwickshire,B94 5RZ,01451-785624,01202-738406,mi@hotmail.com,http://www.nelsonwrighthaworthgolfcrs.co.uk


### die Spaltennamen ausgeben lassen

In [6]:
df.columns

Index(['first_name', 'last_name', 'company_name', 'address', 'city', 'county',
       'postal', 'phone1', 'phone2', 'email', 'web'],
      dtype='object')

### Shape und Dimensionen
Anhand des shapes kann man sehen, wie groß die Datei ist. Der erste Wert bildet die Zeilen des Dataframes ab, der zweite Wert repräsentiert die Spalten. Die Dimension ist 2, wie das bei einem Dataframe immer der Fall ist, da es sich ja um eine Tabelle handelt.

In [7]:
df.shape, df.ndim

((500, 11), 2)

### eindeutige Werte einer Spalte (unique)
Oft ist es von Interesse, wieviele eindeutige Werte eine Spalte hat. Wir interessieren uns für die eindeutigen Werte in der Spalte `county`. Dafür können wir die Methode `unique()` auf eine Series (Spalte) anwenden.

In [13]:
unique_counties = df.county.unique()
unique_counties.shape

(102,)

## Spalten beim Einlesen der Datei auslassen
Falls wir nicht an allen Spalten interessiert sind, können wir sie auch gleich beim Einlesen auslassen. Wir interessieren uns jetzt nur für die Spalten `first_name`, `last_name` und `company_name`. Diese Technik verringert maßgeblich den Speicherverbrauch im RAM und sollte bei sehr großen Dateien durchgeführt werden.

In [7]:
file_name = "data/uk-500.csv"
df_employees = pd.read_csv(file_name, usecols=["first_name", "last_name", "company_name"])
df_employees.head()

Unnamed: 0,first_name,last_name,company_name
0,Aleshia,Tomkiewicz,Alan D Rosenburg Cpa Pc
1,Evan,Zigomalas,Cap Gemini America
2,France,Andrade,"Elliott, John W Esq"
3,Ulysses,Mcwalters,"Mcmahan, Ben L"
4,Tyisha,Veness,Champagne Room


In [18]:
df_employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   first_name    500 non-null    object
 1   last_name     500 non-null    object
 2   company_name  500 non-null    object
dtypes: object(3)
memory usage: 11.8+ KB


## Datentyp beim Auslesen angeben

Eine weitere Methoden, den Speicherverbrauch zu reduzieren, ist es, die Datentypen der Spalten beim Laden der CSV-Datei anzugeben. Somit kann der Speicherverbrauch vor allem bei vorrangig numerischen Daten maßgeblich reduziert werden. 

In [12]:
file_name = "data/penguin_size.csv"
df = pd.read_csv(file_name, dtype={"culmen_length_mm": "float32", "culmen_depth_mm": "float32"})
df.tail(2)

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
342,Gentoo,Biscoe,45.200001,14.8,212.0,5200.0,FEMALE
343,Gentoo,Biscoe,49.900002,16.1,213.0,5400.0,MALE


## Daten in Teilen einlesen

Bei sehr großen CSV-Dateien kann es sinnvoll sein, die Daten in Teilen zu lesen, um den Arbeitsspeicher zu schonen. Dies ist besonders nützlich, wenn die Datei zu groß ist, um sie komplett in den Speicher zu laden. Eine empfohlene maximale Größe für die Arbeit mit Pandas liegt bei 5 bis 10 Millionen Zeilen oder etwa 1 bis 5 GB Daten, je nach Komplexität der Operationen und verfügbaren Arbeitsspeicher des Systems. Alternativ zum Batch-Prozess kann auch eine andere Libary gewählt werden: siehe Dask, Pyspark, Vaex und andere.

In [14]:
# Daten stückweise einlesen um sehr große Datei einzulesen und zu filtern. 

# Create an empty DataFrame to store the filtered results
filtered_df = pd.DataFrame()

# Read the CSV file in chunks
chunk_size = 1000  # Adjust the chunk size as needed
for chunk in pd.read_csv(file_name, chunksize=chunk_size):
    # Apply the filter condition on the chunk
    filtered_chunk = chunk[chunk['culmen_length_mm'] < 40]
    
    # Append the filtered chunk to the filtered_df
    filtered_df = pd.concat([filtered_df, filtered_chunk], ignore_index=True)

# Display the final filtered DataFrame
filtered_df.head(3)


Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE


## Ergebnis als Pickle speichern

Du kannst das gefilterte DataFrame als komprimierte Pickle-Datei speichern, um Speicherplatz zu sparen und die Ladezeiten zu verbessern. Hinweis: Pickle-Dateien sind nur im Python-Kosmus gebräuchlich (siehe parquet-Format für Alternative)

In [16]:
output_file = "data/filtered_penguins.pkl.gz"
filtered_df.to_pickle(output_file, compression="gzip")

print(f"Filtered DataFrame saved to {output_file}")

Filtered DataFrame saved to data/filtered_penguins.pkl.gz


## Pickle laden

In [17]:
loaded_df = pd.read_pickle(output_file)
print(loaded_df)

   species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0   Adelie  Torgersen              39.1             18.7              181.0   
1   Adelie  Torgersen              39.5             17.4              186.0   
2   Adelie  Torgersen              36.7             19.3              193.0   
3   Adelie  Torgersen              39.3             20.6              190.0   
4   Adelie  Torgersen              38.9             17.8              181.0   
..     ...        ...               ...              ...                ...   
95  Adelie      Dream              39.2             18.6              190.0   
96  Adelie      Dream              36.6             18.4              184.0   
97  Adelie      Dream              36.0             17.8              195.0   
98  Adelie      Dream              37.8             18.1              193.0   
99  Adelie      Dream              36.0             17.1              187.0   

    body_mass_g     sex  
0        3750.0    MALE  

## Parquet-Format

Eine sprachagnostische Alternative zu Pickle ist das Parquet-Format, das von vielen Programmiersprachen und Datenverarbeitungstools unterstützt wird, wie z.B. Python, R, Java, Apache Spark, etc. Parquet ist ein spaltenbasiertes Speicherformat, das effizient in der Speicherung und Abfrage von großen Datenmengen ist.


In [20]:
import pandas as pd

# Angenommen, du hast ein gefiltertes DataFrame 'filtered_df'
output_file = "data/filtered_penguins.parquet"

# Speichere das DataFrame im Parquet-Format mit Kompression
filtered_df.to_parquet(output_file, compression='gzip')

print(f"Gefiltertes DataFrame wurde als {output_file} gespeichert.")

# Lade die gespeicherte Parquet-Datei
loaded_df = pd.read_parquet(output_file)
print(loaded_df)


Gefiltertes DataFrame wurde als data/filtered_penguins.parquet gespeichert.
   species     island  culmen_length_mm  culmen_depth_mm  flipper_length_mm  \
0   Adelie  Torgersen              39.1             18.7              181.0   
1   Adelie  Torgersen              39.5             17.4              186.0   
2   Adelie  Torgersen              36.7             19.3              193.0   
3   Adelie  Torgersen              39.3             20.6              190.0   
4   Adelie  Torgersen              38.9             17.8              181.0   
..     ...        ...               ...              ...                ...   
95  Adelie      Dream              39.2             18.6              190.0   
96  Adelie      Dream              36.6             18.4              184.0   
97  Adelie      Dream              36.0             17.8              195.0   
98  Adelie      Dream              37.8             18.1              193.0   
99  Adelie      Dream              36.0             17.