# Pandas-Bibliothek

[<img src="pandas_animal.jpg"  width="800" height="600"  title="Pandas Library">](https://pandas.pydata.org/)

**Pandas** ist eine leistungsstarke Python-Bibliothek, die hauptsächlich für die Datenmanipulation und -analyse verwendet wird. Ihre Verwendungsfälle und Stärken umfassen:

- **Datenmanipulation**: Pandas bietet umfangreiche Funktionen zur Manipulation von Daten, einschließlich <ins>Auswahl</ins>, <ins>Filterung</ins>, <ins>Gruppierung</ins> und <ins>Transformation</ins> von Datenstrukturen wie **DataFrames** und Series.

- **Datenanalyse**: Mit Pandas können Daten schnell und effizient analysiert werden. Es ermöglicht das Berechnen von <ins>Statistiken</ins>, das Erstellen von <ins>Zusammenfassungen</ins>, das <ins>Visualisieren</ins> von Daten und das Durchführen von <ins>Zeitreihenanalysen</ins>.

- **Arbeiten mit strukturierten Daten**: Pandas ist besonders gut geeignet für den Umgang mit <ins>strukturierten Daten</ins> wie Tabellen oder CSV-Dateien. Es erleichtert das Einlesen, Speichern und Verarbeiten großer Datensätze.

- **Integration mit anderen Bibliotheken**: Pandas lässt sich nahtlos mit anderen Python-Bibliotheken wie NumPy, Matplotlib und Scikit-Learn integrieren, wodurch komplexe Analyse- und Modellierungsaufgaben vereinfacht werden.

- **Flexibilität und Benutzerfreundlichkeit**: Pandas bietet eine intuitive und benutzerfreundliche API, die es einfach macht, komplexe Datenoperationen durchzuführen. Es ist sowohl für Anfänger als auch für fortgeschrittene Benutzer geeignet.

Insgesamt ist Pandas eine unverzichtbare Bibliothek für Datenanalysten, Wissenschaftler und Entwickler, die Daten in Python verarbeiten und analysieren möchten. Es vereinfacht die Datenmanipulation und -analyse erheblich und ermöglicht es, umfangreiche Datenmengen effizient zu verarbeiten und zu verstehen.

In [1]:
# pandas library importieren
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


## 1 - Series (Reihenfolgen)

- Eindimensional Array Objekt
- Index <ins>musst</ins> hashable aber nicht eindeutig sein
- Kann verschiedene und gemischte Data Types enthalten

In [2]:
# eine einfache Serie definieren
ser = pd.Series(data = [1,2,'three'], index= ['id1','id2','id3'])

In [3]:
ser

id1        1
id2        2
id3    three
dtype: object

In [4]:
type(ser)

pandas.core.series.Series

## 2 - Daten Importieren

Daten können aus <ins>verschiedenen Quellen</ins> importiert werden. Während Webverbindungen zu Datenbanken für Produktionsumgebungen üblich sind, werden während der Entwicklung (wie in diesem Kurs) viele Daten in <ins>CSV- oder Excel-Dateien</ins> zur Verfügung gestellt. Pandas bietet <ins>spezifische Methoden</ins>, die das Lesen aus und Schreiben in diese Dateien sehr einfach ermöglichen.

[```pd.read_excel``` help](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)
<br>
<br>

Wir werden einen Datensatz verwenden, um zu erkunden, welche Variablen die Armuts-Wahrscheinlichkeit (```poverty_probability```) besser erklären. Er wurde auf einer Website namens [Kaggle](https://www.kaggle.com/datasets/johnnyyiu/predicting-poverty?select=test_values.csv) erhalten.




In [5]:
# Daten in Excel lesen
# read_excel nimmt der Inhalt von einem Datei und macht es zu ein DataFrame
df = pd.read_excel('../train_values.xlsx')

In [6]:
type(df)

pandas.core.frame.DataFrame

## 3 - DataFrame

- **Zweidimensionale Datenstruktur**: Sie ähnelt einer Excel-Tabelle und besteht aus Zeilen und Spalten.
- **effiziente Verarbeitung und Analyse von strukturierten Daten** : jede Spalte einen bestimmten Datentyp haben kann.
- **Vielzahl von Methoden** : Datenmanipulation, -analyse und -visualisierung und sind besonders nützlich für die Arbeit mit großen Datensätzen in Datenanalyseprojekten.
- **Dictionary** : von verschiedene Serien

### Einfache Infos über den DataFrame (df)

In [7]:
# Dimensionen vom DataFrame
df.shape

(12600, 59)

In [8]:
# grundlegende Informationen über das DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12600 entries, 0 to 12599
Data columns (total 59 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   row_id                                 12591 non-null  float64
 1   country                                12600 non-null  object 
 2   is_urban                               12600 non-null  bool   
 3   age                                    12600 non-null  int64  
 4   female                                 12600 non-null  bool   
 5   married                                12600 non-null  bool   
 6   religion                               12600 non-null  object 
 7   relationship_to_hh_head                12600 non-null  object 
 8   education_level                        12364 non-null  float64
 9   literacy                               12600 non-null  bool   
 10  can_add                                12600 non-null  bool   
 11  ca

In [9]:
# Anfang der df sehen
df.head(10)

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
0,0.0,C,False,18,True,True,P,Other,1.0,True,...,False,True,True,False,False,False,False,1,0,1
1,1.0,C,True,30,True,True,P,Other,1.0,True,...,False,True,True,False,False,False,False,1,0,0
2,2.0,A,False,20,True,True,Q,Spouse,1.0,True,...,False,False,False,False,False,False,False,0,0,0
3,3.0,A,False,61,False,True,Q,Head,0.0,False,...,False,False,False,False,False,False,False,0,0,0
4,,D,False,26,True,True,X,Spouse,1.0,True,...,False,False,False,False,False,False,False,1,0,3
5,,A,True,36,True,True,Q,Spouse,1.0,False,...,True,True,False,False,True,False,False,1,0,0
6,,C,False,35,False,True,P,Head,1.0,False,...,False,True,True,False,False,False,False,1,0,1
7,,D,True,33,True,True,Q,Spouse,1.0,True,...,False,True,False,False,False,False,False,0,0,0
8,,G,False,42,False,False,X,Head,2.0,True,...,True,True,True,True,True,False,False,3,0,7
9,,C,False,32,True,True,P,Spouse,1.0,True,...,False,True,True,False,False,False,False,1,0,1


In [10]:
# grundlegende Statistiken vom DataFrame
df.describe()

Unnamed: 0,row_id,age,education_level,share_hh_income_provided,num_times_borrowed_last_year,borrowing_recency,bank_interest_rate,mm_interest_rate,mfi_interest_rate,other_fsp_interest_rate,num_shocks_last_year,avg_shock_strength_last_year,phone_technology,phone_ownership,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
count,12591.0,12600.0,12364.0,12295.0,12600.0,12600.0,289.0,151.0,201.0,239.0,12600.0,12600.0,12600.0,12600.0,12600.0,12600.0,12600.0
mean,6303.997141,36.280714,1.316241,2.888166,0.657698,0.866429,9.84308,9.021026,10.909204,8.216736,1.100159,2.112765,1.20873,1.468254,0.714127,0.188968,1.559683
std,3634.857909,15.145945,0.905442,1.564284,0.924598,0.960866,15.033089,13.620161,10.353298,10.649538,1.190072,2.019239,1.09306,0.776638,0.805878,0.473696,2.043831
min,0.0,15.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,3156.5,25.0,1.0,1.0,0.0,0.0,1.0,2.75,5.0,2.25,0.0,0.0,0.0,1.0,0.0,0.0,0.0
50%,6304.0,33.0,1.0,2.0,0.0,0.0,7.0,7.0,10.0,6.0,1.0,2.0,1.0,2.0,1.0,0.0,1.0
75%,9451.5,45.0,2.0,5.0,1.0,2.0,14.0,10.0,15.0,10.0,2.0,4.0,2.0,2.0,1.0,0.0,3.0
max,12599.0,115.0,3.0,5.0,3.0,2.0,100.0,100.0,100.0,100.0,5.0,5.0,3.0,2.0,6.0,4.0,10.0


In [11]:
# Zufällig Teil vom DataFrame sehen
df.sample(n=5)

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
7960,7960.0,A,True,18,False,False,Q,Son/Daughter,3.0,True,...,False,False,False,False,False,False,True,1,0,1
12560,12560.0,F,True,40,False,True,X,Head,2.0,True,...,False,False,False,False,False,False,False,0,0,0
8584,8584.0,C,True,32,True,True,Q,Spouse,1.0,True,...,True,True,False,False,True,False,False,2,1,3
9795,9795.0,J,True,22,False,False,X,Head,2.0,True,...,False,True,False,True,False,False,False,1,0,3
10413,10413.0,F,False,40,False,True,Q,Head,,False,...,False,False,False,False,False,False,False,0,0,0


### Methoden für die Auswahl im DataFrame

In [None]:
# Bestimmte Spalte auswählen
df['row_id']

In [None]:
# Bestimmte Zelle auswählen
df.loc[3,'row_id']
# df.loc[3:20,'row_id']

<h4>⚙️</h4>
Was sind die Merkmale der 20. Person in unserem Datensatz?<br>
Was ist der Datyp von den  Antwort?

In [15]:
# dein Code hier

Und was wenn wir eine komplexere Auswahl machen möchten?<br>
Wir können [masken](https://pandas.pydata.org/docs/user_guide/indexing.html#the-where-method-and-masking) nutzen.

In [17]:
# Werte Masken
df['age'] >= 30

0        False
1         True
2        False
3         True
4        False
         ...  
12595     True
12596     True
12597     True
12598     True
12599    False
Name: age, Length: 12600, dtype: bool

In [18]:
# Werte filtrieren
df[df['age'] >= 30]

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
1,1.0,C,True,30,True,True,P,Other,1.0,True,...,False,True,True,False,False,False,False,1,0,0
3,3.0,A,False,61,False,True,Q,Head,0.0,False,...,False,False,False,False,False,False,False,0,0,0
5,,A,True,36,True,True,Q,Spouse,1.0,False,...,True,True,False,False,True,False,False,1,0,0
6,,C,False,35,False,True,P,Head,1.0,False,...,False,True,True,False,False,False,False,1,0,1
7,,D,True,33,True,True,Q,Spouse,1.0,True,...,False,True,False,False,False,False,False,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12594,12594.0,A,False,35,True,True,P,Spouse,1.0,True,...,False,False,False,False,False,False,False,0,0,0
12595,12595.0,C,True,50,False,True,P,Head,1.0,True,...,False,True,False,False,False,False,False,2,0,1
12596,12596.0,D,False,90,False,False,O,Head,0.0,True,...,False,False,False,False,False,False,False,0,0,0
12597,12597.0,J,False,52,True,False,X,Head,1.0,False,...,False,True,False,False,False,True,False,0,1,0


<h4>⚙️</h4>
Die Tabelle für die 30-Jährigen anzeigen.<br>
Die Tabelle für Menschen mit der Religion N anzeigen.<br>
Die Tabelle für die 30-Jährigen anzeigen mit der Religion N anzeigen.<br>
Die Tabelle für die 30-Jährigen anzeigen mit der Religion N oder O anzeigen.<br>


In [19]:
df[df['age'] == 30]

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
1,1.0,C,True,30,True,True,P,Other,1.0,True,...,False,True,True,False,False,False,False,1,0,0
12,,F,False,30,True,True,Q,Spouse,0.0,False,...,False,False,False,False,False,False,False,0,0,0
35,35.0,D,False,30,False,True,X,Head,1.0,True,...,False,True,False,False,False,False,False,0,0,0
42,42.0,F,False,30,False,True,Q,Head,2.0,False,...,False,False,False,False,False,False,False,0,0,0
65,65.0,I,False,30,True,True,Q,Spouse,0.0,False,...,False,False,False,False,False,False,False,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12456,12456.0,G,False,30,True,True,X,Father/Mother,2.0,True,...,False,False,False,False,False,False,True,1,0,1
12503,12503.0,F,False,30,True,True,X,Spouse,1.0,False,...,False,False,False,False,False,False,False,0,0,0
12507,12507.0,G,True,30,True,False,X,Head,3.0,True,...,False,True,True,True,False,True,False,2,1,10
12515,12515.0,F,True,30,True,True,Q,Spouse,2.0,False,...,False,False,False,False,False,False,False,1,0,0


In [25]:
df[df['religion'] == 'N']

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
743,743.0,D,False,45,False,True,N,Head,1.0,True,...,True,True,False,False,True,True,True,4,1,3
945,945.0,G,False,23,False,False,N,Head,2.0,True,...,False,False,False,False,False,True,True,1,1,6
1003,1003.0,D,False,24,True,False,N,Head,2.0,True,...,False,True,False,True,False,True,False,1,1,3
1430,1430.0,G,False,19,False,False,N,Son/Daughter,0.0,False,...,False,False,False,False,False,False,False,0,0,0
1645,1645.0,G,False,79,False,True,N,Head,1.0,False,...,False,False,False,False,False,False,False,0,0,0
2240,2240.0,D,True,22,False,True,N,Son/Daughter,0.0,True,...,False,True,False,False,False,False,False,0,0,0
2303,2303.0,D,False,21,True,False,N,Son/Daughter,1.0,False,...,False,False,False,False,False,False,False,0,0,0
2404,2404.0,D,False,23,False,False,N,Head,0.0,False,...,False,True,False,True,False,False,False,1,0,2
2458,2458.0,G,True,69,False,True,N,Head,1.0,True,...,False,True,False,True,False,False,False,1,0,3
2498,2498.0,G,False,21,True,True,N,Spouse,1.0,True,...,False,True,False,False,False,True,False,0,1,0


In [26]:
df[(df['religion'] == 'N') & (df['age'] == 30)]

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
5481,5481.0,G,False,30,True,False,N,Spouse,0.0,False,...,False,False,False,False,False,False,False,0,0,0


In [29]:
df[((df['religion'] == 'O') | (df['religion'] == 'N')) & (df['age'] == 30)]

Unnamed: 0,row_id,country,is_urban,age,female,married,religion,relationship_to_hh_head,education_level,literacy,...,reg_formal_nbfi_account,financially_included,active_bank_user,active_mm_user,active_formal_nbfi_user,active_informal_nbfi_user,nonreg_active_mm_user,num_formal_institutions_last_year,num_informal_institutions_last_year,num_financial_activities_last_year
2439,2439.0,C,False,30,False,True,O,Head,1.0,False,...,False,False,False,False,False,False,False,0,0,0
5425,5425.0,J,False,30,False,True,O,Head,1.0,True,...,False,False,False,False,False,False,False,0,0,0
5481,5481.0,G,False,30,True,False,N,Spouse,0.0,False,...,False,False,False,False,False,False,False,0,0,0


### Die "female" Spalte sieht ein bisschen komisch aus, oder?
Wir könnten ein neue Spalte "gender" hinfügen, und "female" und "male" in der Spalte schreiben.

In [None]:
# um eine neue Spalte hinzufügen, mussen wir einfach df[neue_Spalte] = neue_Werte schreiben
# hier nutzen wir auch eine "map" Methode, die die Booleans zu 'female' und 'male' übersetzt
df['gender'] = df['female'].map({True: 'female', False: 'male'})

## 4 - Datenvorarbeitung

Der Index hat offensichtliche Probleme, da er NaN-Werte anzeigt.

In [None]:
df.head(10)

### Wir könnten eine Standardmethode von Pandas verwenden. <br>
- **Vorteile**: sofort einsatzbereit und effizient, <br>
- **Unflexible**: lässt uns weniger Wahl, über wie die fehlenden Werte gefüllt werden sollen, <br>
- **Stumpfes Werkzeug**: wird auf alle Spalten angewendet

In [None]:
# DataFrame mit einer groben Regel füllen (backward fill)
df_fill_rough=df.bfill()
df_fill_rough.head(15)

### Eine lineare Interpolation mit der folgenden Formel wäre besser:

$X_{t} = X_{1992}+ (t-1992)*(\frac{X_{1999}-X_{1992}}{{Num_{NaN}}+1}) $

Dafür mussen wir die <em>apply </em> Function anwenden. Die erlaubt uns eine bestimmte Function in jede DataFrame Spalte unabhängig einzusetzen.
<br>
<br>
In diesem Fall, unsere Function sollte kontrollieren, ob eine Spalte NaN hat. Die interpolierte Werte sind dann kalkuliert und zu die Spalte reingetragen.

In [None]:
# DataFrame mit einer feinere Regel füllen
# APPLY FUNCTION
def app_func(row):
    """
    Lineare Interpolation von NaN zwischen 2 vorhanden Werte 
    """

    # kontrollieren ob NaN in der Spalte sind
    if row.isnull().sum() > 0:
        _row = row # temporär Kopie von der Spalte
        null_indices = _row[_row.isna()].index # Indexe von NaN

        first_index = null_indices[0]-1 # Index vom letzten Wert vor NaNs
        last_index = null_indices[-1]+1 # Index vom ertsten Wert nach NaNs

        # Series mit den interpolierten Daten sowie die Indexe von NaNs
        null_substitution = pd.Series(data  = [_row[first_index] + i*(_row[last_index]-_row[first_index])/(len(null_indices)+1) for i in range(1,len(null_indices)+1)],
                                   index = null_indices) 

        # Überschreiben von NaN in der temporär Kopie der Spalte mit den interpolierten Werte
        _row[null_indices] = null_substitution

        # Rückgabe vom gefüllte temporär Kopie der Spalte
        return _row
    # falls keine NaN, geben wir die gleiche Spalte zurück 
    else:
        return row

‼️ **erst jetzt werden wir den df ändern** ‼️<br>
Die größe Mehrheit der Methoden für die DataFrame, ändern den DatFrame nicht, sondern es gibt einen neuen df (oder Series) zurück (return).<br>
Falls wir die Änderung speichern wollen, wir mussen es **explizit zuweisen** (oder inplace=True als Parameter geben).

In [None]:
df['row_id'] = app_func(df['row_id'])

In [None]:
# wenn wir dieselbe Funktion in jeder Spalte verwenden möchten, sollten wir die Methode apply verwenden
# df['row_id'].apply(app_func, axis = 0);

In [None]:
# row_id als Index zuweisen
df = df.set_index('row_id')
df.head(10)

### Wir können nun die Werten (values) mit den Ergebnisse (labels) zusammenführen

In [None]:
# Daten in Excel lesen
# read_excel nimmt der Inhalt von einem Datei und macht es zu ein DataFrame
df2 = pd.read_excel('../train_labels.xlsx',
                    index_col= 0)

In [None]:
# Merge (zusammenführen) ist eine SQL-ähnliche Methode
# Wir müssen explizit sagen auf welchen Spalten oder Index es gemacht wird
# Wir können verschiedene Arten von merge machen
df = df.merge(df2, 
              how='inner',
              left_index=True, 
              right_index=True)

[<img src="sql_joins.png"  width="200" height="200"  title="Pandas Library">](https://gist.github.com/smarteist/dc19be1101c0041e5963eba3772c3f67)

In [None]:
df.info()

Die Spalten 'bank_interest_rate', 'mm_interest_rate', 'mfi_interest_rate', 'other_fsp_interest_rate'  alle haben weniger als 300 Beobachtungen. Sie können einfach gelöscht werden

In [None]:
df = df.drop(columns=['bank_interest_rate', 'mm_interest_rate', 'mfi_interest_rate', 'other_fsp_interest_rate'])

236 Beobachtungen haben kein Werte für 'education_level', der sicherlich sehr wichtig für die 'poverty_probability' ist. Wir werden die Beobachtungen ohne 'education_level' löschen

In [None]:
# Auch hier können wir eine native Methode verwenden. Es ist wichtig, den Parameter "subset" zu verwenden, damit nur diese Spalte berücksichtigt wird.

df = df.dropna(subset = 'education_level')

In [None]:
df.info()

## 5 - Aggregation und Gruppierung

Es ist sehr einfach, die Informationen im DataFrame basierend auf den Variablen jeder Tabelle zu gruppieren und deskriptive Aggregationen/Statistiken zu erhalten.

In [None]:
# Die Ergebnis von einem Groupby ist ein neuen Objekt, der keine standard Visualisierung hat
df.groupby('country')

In [None]:
# Um etwas zu sehen, wir mussen eine zusätzliche Methode geben
df.groupby('country').count()

In [None]:
# wir können einfach bestimmte Spalten wählen
df.groupby('country')[['is_urban', 	'married']].sum()

In [None]:
# und direkt Operationen machen
df.groupby('country')[['is_urban', 	'married']].sum()/df.groupby('country')[['is_urban', 	'married']].count()

In [None]:
# obwohl der Durchnitt schon vorprogrammiert ist...
df.groupby('country')[['is_urban', 	'married']].mean()

In [None]:
# Gruppierungen von Unterabschnitten sind auch einfach
df[df['country'].isin(['A','C'])].groupby('country')[['is_urban', 	'married']].mean()

In [None]:
# falls eine aggregation nicht vorprogrammiert ist, wir können "agg" nutzen, und nutzerdefinierte Funktionen verwenden
df.groupby('country')[['age']].agg(['min', 'max'])

### DataFrame speichern

In [None]:
# wir können einfach unseren berabeiteten df als Excel speichern
df.to_excel('df.xlsx')


Aber in Python verwenden wir normalerweise Pickles. Dies ist das eigene Dateiformat von Python zum Speichern. Es handelt sich um eine Binärdatei, in der wir jedes Python-Objekt ablegen können, von einer einfachen ```float``` bis hin zu ```DataFrames``` oder sogar kompletten Modellen. Es gibt eine [Funktion in Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_pickle.html#pandas.DataFrame.to_pickle), um dies einfach zu tun, aber lassen wir uns den allgemeinen Fall verwenden, den wir überall in Python verwenden können.


In [None]:
import pickle

with open('df.pkl', 'wb') as file:
    pickle.dump(df, file)