## pandas

In [1]:
import pandas as pd
import numpy as np

## create dataframe from numpy ndarray

In [2]:
a = np.array([[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4]])

In [3]:
df_a = pd.DataFrame(data=a, columns=['uid', 'wetter', 'c', 'd', 'e'])

In [4]:
df_a

Unnamed: 0,uid,wetter,c,d,e
0,0,1,2,3,4
1,0,1,2,3,4
2,0,1,2,3,4
3,0,1,2,3,4
4,0,1,2,3,4


### Describe content of DataFrame

In [5]:
df_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
uid       5 non-null int64
wetter    5 non-null int64
c         5 non-null int64
d         5 non-null int64
e         5 non-null int64
dtypes: int64(5)
memory usage: 280.0 bytes


In [6]:
df_a.describe()

Unnamed: 0,uid,wetter,c,d,e
count,5.0,5.0,5.0,5.0,5.0
mean,0.0,1.0,2.0,3.0,4.0
std,0.0,0.0,0.0,0.0,0.0
min,0.0,1.0,2.0,3.0,4.0
25%,0.0,1.0,2.0,3.0,4.0
50%,0.0,1.0,2.0,3.0,4.0
75%,0.0,1.0,2.0,3.0,4.0
max,0.0,1.0,2.0,3.0,4.0


## Aneinanderfügen von zwei Datensätzen

In [7]:
a = np.array([[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4]])
b = np.array([[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4]])

df_a = pd.DataFrame(data=a, columns=['uid', 'wetter', 'c', 'd', 'e'])
df_b = pd.DataFrame(data=b, columns=['noch', 'mehr', 'spalten', 'daten', 'anfuegen'])

In [8]:
pd.concat((df_a,df_b), axis=1)

Unnamed: 0,uid,wetter,c,d,e,noch,mehr,spalten,daten,anfuegen
0,0,1,2,3,4,0,1,2,3,4
1,0,1,2,3,4,0,1,2,3,4
2,0,1,2,3,4,0,1,2,3,4
3,0,1,2,3,4,0,1,2,3,4
4,0,1,2,3,4,0,1,2,3,4


### Probleme mit dem Index

Angenommen ich Teile meinen Datensatz in numerische und kategorische Feature.

In [9]:
# feature set categorical
cat = np.array([[0,1,2,3,4],[0,0,2,3,4],[0,1,2,3,4],[0,1,"NaN",3,4],[0,0,2,3,4]])
df_cat = pd.DataFrame(data=cat, columns=['uid', 'wetter', 'c', 'd', 'e'])
df_cat['c'] = pd.to_numeric(df_cat['c'],errors="coerce")

# feature set numerical
num = np.array([[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,4],[0,1,2,3,"NaN"]])
df_num = pd.DataFrame(data=num, columns=['noch', 'mehr', 'spalten', 'daten', 'anfuegen'])
df_num['anfuegen'] = pd.to_numeric(df_num['anfuegen'], errors="coerce")

In beiden Datensätzen befinden sich ein NaN value. Wenn ich jetzt den die Zeilen mit NaN Werten aus den Daten entferne:

In [10]:
df_cat_wo_nan = df_cat.dropna()
df_cat_wo_nan

Unnamed: 0,uid,wetter,c,d,e
0,0,1,2.0,3,4
1,0,0,2.0,3,4
2,0,1,2.0,3,4
4,0,0,2.0,3,4


ist zu erkennen, dass die Zeile mit dem Index 3 fehlt. In meinem numerischen Features fehlt die Zeile mit dem Index 4:

In [11]:
df_num_wo_nan = df_num.dropna()
df_num_wo_nan

Unnamed: 0,noch,mehr,spalten,daten,anfuegen
0,0,1,2,3,4.0
1,0,1,2,3,4.0
2,0,1,2,3,4.0
3,0,1,2,3,4.0


Beim Zusammenfügen der beiden DataFrames mittels concat ergibt sich folgendes Bild:

In [12]:
pd.concat((df_cat_wo_nan,df_num), axis=1)

Unnamed: 0,uid,wetter,c,d,e,noch,mehr,spalten,daten,anfuegen
0,0.0,1.0,2.0,3.0,4.0,0,1,2,3,4.0
1,0.0,0.0,2.0,3.0,4.0,0,1,2,3,4.0
2,0.0,1.0,2.0,3.0,4.0,0,1,2,3,4.0
3,,,,,,0,1,2,3,4.0
4,0.0,0.0,2.0,3.0,4.0,0,1,2,3,


Die Zeile mit dem Index 3 in meinem kategorischen DataFrame, sowie die Zeile mit Index 4 aus meinem numerischen DataFrame sind korrekter Weise wieder eingefügt. **Die Daten gehören Zeilenweise zusammen!** Win Aneinandersetzen ohne Beachtung des Index würde technisch funktionieren, wäre aber inhaltlich falsch. Die Werte von verschiedenen Datenpunkten würden dann vermischt:

In [13]:
pd.concat((df_cat_wo_nan.reset_index(),df_num_wo_nan.reset_index()), axis=1)

Unnamed: 0,index,uid,wetter,c,d,e,index.1,noch,mehr,spalten,daten,anfuegen
0,0,0,1,2.0,3,4,0,0,1,2,3,4.0
1,1,0,0,2.0,3,4,1,0,1,2,3,4.0
2,2,0,1,2.0,3,4,2,0,1,2,3,4.0
3,4,0,0,2.0,3,4,3,0,1,2,3,4.0


*Die Vermischung ist and den zwei 'index' spalten zu erkennen'*

In manchen fällen ist das Resetten des Index redoch trotzdem **notwendig**:

In [15]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, FunctionTransformer, PolynomialFeatures, MinMaxScaler

In [16]:
# ONE-HOT-ENCODE ocean proximity
wetter = df_cat_wo_nan['wetter'].values

# transform to numerical
wetter_num = LabelEncoder().fit_transform(wetter.ravel()).reshape(*wetter.shape)

# transform to binary
wetter_bin = OneHotEncoder().fit_transform(wetter_num.reshape(-1, 1)).toarray()

In [22]:
pd_wetter_bin = pd.DataFrame(wetter_bin, columns=['wetter_false', 'wetter_true'])
pd_wetter_bin

Unnamed: 0,wetter_false,wetter_true
0,0.0,1.0
1,1.0,0.0
2,0.0,1.0
3,1.0,0.0


Das Anfügen der mit einem One-Hot-Encoder kodierten Spalten führt hier zu einem **falschen** Ergebnis! Auf dem Weg ist der korrekte Index verloren gegangen:

In [24]:
pd.concat((df_cat_wo_nan, pd_wetter_bin), axis=1)

Unnamed: 0,uid,wetter,c,d,e,wetter_false,wetter_true
0,0.0,1.0,2.0,3.0,4.0,0.0,1.0
1,0.0,0.0,2.0,3.0,4.0,1.0,0.0
2,0.0,1.0,2.0,3.0,4.0,0.0,1.0
3,,,,,,1.0,0.0
4,0.0,0.0,2.0,3.0,4.0,,


Das **richtige** Verhalten erreicht man indem der Index zurückgesetzt wird:

In [25]:
pd.concat((df_cat_wo_nan.reset_index(),df_num_wo_nan.reset_index()), axis=1)

Unnamed: 0,index,uid,wetter,c,d,e,index.1,noch,mehr,spalten,daten,anfuegen
0,0,0,1,2.0,3,4,0,0,1,2,3,4.0
1,1,0,0,2.0,3,4,1,0,1,2,3,4.0
2,2,0,1,2.0,3,4,2,0,1,2,3,4.0
3,4,0,0,2.0,3,4,3,0,1,2,3,4.0


Um die zusätzlich hinzugefügten Spalten "index" loszuwerden, kann ich bei 'reset_index()' den Parameter 'drop=True'