___

<p style="text-align: center;"><img src="https://docs.google.com/uc?id=1lY0Uj5R04yMY3-ZppPWxqCr5pvBLYPnV" class="img-fluid" alt="CLRSWY"></p>

___

<head>
    <center><title>~ Pandas Datenrahmen | Lektion-1 ~</title></center>
</head>
    

# Datenrahmen

``DataFrames`` sind das Arbeitspferd der Pandas und direkt von der Programmiersprache R inspiriert. Wir können uns einen DataFrame als eine Ansammlung von Series-Objekten vorstellen, die zusammengestellt wurden, um denselben Index zu verwenden. Lassen Sie uns Pandas verwenden, um dieses Thema zu erkunden!
https://daten_setcience.eu/de/programmierung/python-pandas-datenrahmen/

In [107]:
import pandas as pd
import numpy as np

## Erstellen eines Datenrahmen 

### Erstellen eines Datenrahmen unter Verwendung der ``list`` von Daten und Spalten

In [108]:
daten_set = [1, 3, 5, 7, 9, 18]
columns = ['alter']
daten_set, columns

([1, 3, 5, 7, 9, 18], ['alter'])

In [109]:
pd.DataFrame(daten_set, columns=columns)

Unnamed: 0,alter
0,1
1,3
2,5
3,7
4,9
5,18


### Erstellen eines Datenrahmen mit einem ``NumPy Array``

In [110]:
daten_set = np.arange(1, 24, 2).reshape(3, 4)
daten_set

array([[ 1,  3,  5,  7],
       [ 9, 11, 13, 15],
       [17, 19, 21, 23]])

In [111]:
pd.DataFrame(daten_set, columns=['var1','var2','var3','var4'])

Unnamed: 0,var1,var2,var3,var4
0,1,3,5,7
1,9,11,13,15
2,17,19,21,23


In [112]:
df = pd.DataFrame(data=daten_set, columns=['var1','var2','var3','var4'])
df

Unnamed: 0,var1,var2,var3,var4
0,1,3,5,7
1,9,11,13,15
2,17,19,21,23


In [113]:
df.head(2)

Unnamed: 0,var1,var2,var3,var4
0,1,3,5,7
1,9,11,13,15


In [114]:
df.tail(2)

Unnamed: 0,var1,var2,var3,var4
1,9,11,13,15
2,17,19,21,23


In [115]:
df.sample(2)

Unnamed: 0,var1,var2,var3,var4
0,1,3,5,7
1,9,11,13,15


In [116]:
df.columns

Index(['var1', 'var2', 'var3', 'var4'], dtype='object')

In [117]:
[i for i in df.columns]

['var1', 'var2', 'var3', 'var4']

In [118]:
df.columns=['new1','new2','new3','new4']
df

Unnamed: 0,new1,new2,new3,new4
0,1,3,5,7
1,9,11,13,15
2,17,19,21,23


In [119]:
type(df)

pandas.core.frame.DataFrame

In [120]:
print("Zeil-Spalte:", df.shape, "Spalte:", df.shape[1], "Dimention:",  df.ndim, "Größe:", df.size, "len:", len(df))

Zeil-Spalte: (3, 4) Spalte: 4 Dimention: 2 Größe: 12 len: 3


In [121]:
df

Unnamed: 0,new1,new2,new3,new4
0,1,3,5,7
1,9,11,13,15
2,17,19,21,23


In [122]:
df.values

array([[ 1,  3,  5,  7],
       [ 9, 11, 13, 15],
       [17, 19, 21, 23]])

In [123]:
df.index.values

array([0, 1, 2], dtype=int64)

In [124]:
print("Index:", df.index.values, "Index[1]:", df.index[1])

Index: [0 1 2] Index[1]: 1


### Erstellen eines Datenrahmen mit einem ``dict``

In [125]:
s1 = np.random.randint(2, 10, size = 4)
s2 = np.random.randint(3, 10, size = 4)
s3 = np.random.randint(4, 15, size = 4)

In [126]:
s1, s2, s3

(array([8, 6, 7, 8]), array([8, 9, 8, 5]), array([ 9,  5, 11,  8]))

In [127]:
dict_= {'var1':s1,'var2':s2,'var3':s3}

In [128]:
df_ = pd.DataFrame(dict_)
df_

Unnamed: 0,var1,var2,var3
0,8,8,9
1,6,9,5
2,7,8,11
3,8,5,8


In [129]:
df_.index

RangeIndex(start=0, stop=4, step=1)

In [130]:
[i for i in df_.index]

[0, 1, 2, 3]

In [131]:
df_.index = ["a", "b", "c", "d"]

In [132]:
df_

Unnamed: 0,var1,var2,var3
a,8,8,9
b,6,9,5
c,7,8,11
d,8,5,8


In [133]:
# Wir können jeden Spaltennamen überprüfen, ob er zum DataFrame gehört oder nicht
"var2" in df_, 'var5' in df_

(True, False)

## Indizierung, Auswahl und Schneiden von Datenrahmen
Betrachten wir nun noch einmal die Methoden ``(Indizierung)indexing`` ``Auswahl(selection)`` und ``Schneiden(slicing)`` und verschiedene ``Attribute(attribute)`` mit einem anderen DataFrame

In [134]:
from numpy.random import randn
np.random.seed(101)

In [135]:
df = pd.DataFrame(randn(5, 4),
                    index='A B C D E'.split(),
                    columns='W X Y Z'.split())

In [136]:
'A B C D E'.split()

['A', 'B', 'C', 'D', 'E']

In [137]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [138]:
# Erstellen eines Datenrahmen durch 'positionale Argumente'
pd.DataFrame(randn(5, 4), 'a b c d e'.split(), 'w x y z'.split())

Unnamed: 0,w,x,y,z
a,0.302665,1.693723,-1.706086,-1.159119
b,-0.134841,0.390528,0.166905,0.184502
c,0.807706,0.07296,0.638787,0.329646
d,-0.497104,-0.75407,-0.943406,0.484752
e,-0.116773,1.901755,0.238127,1.996652


In [139]:
# Erstellen eines Datenrahmendurch 'Schlüsselwortargumente'
pd.DataFrame(randn(5, 4), columns='w x y z'.split(), index='a b c d e'.split())

Unnamed: 0,w,x,y,z
a,-0.993263,0.1968,-1.136645,0.000366
b,1.025984,-0.156598,-0.031579,0.649826
c,2.154846,-0.610259,-0.755325,-0.346419
d,0.147027,-0.479448,0.558769,1.02481
e,-0.925874,1.862864,-1.133817,0.610478


### Auswahl und Indizierung

Lernen wir die verschiedenen Methoden kennen, um Daten aus einem Datenrahmen zu holen.

In [140]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [141]:
df['Y']

A    0.907969
B   -0.848077
C    0.528813
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [142]:
# SQL-Syntax (NICHT EMPFOHLEN!)
df.Y

A    0.907969
B   -0.848077
C    0.528813
D   -0.933237
E    2.605967
Name: Y, dtype: float64

Datenrahmen-Spalten sind nur Serien

In [143]:
df['Y'], type(df['Y'])

(A    0.907969
 B   -0.848077
 C    0.528813
 D   -0.933237
 E    2.605967
 Name: Y, dtype: float64,
 pandas.core.series.Series)

In [144]:
df[['Y']], type(df[['Y']])

(          Y
 A  0.907969
 B -0.848077
 C  0.528813
 D -0.933237
 E  2.605967,
 pandas.core.frame.DataFrame)

In [145]:
# Übergeben Sie eine Liste mit Spaltennamen
# df['Z','X'] gibt Fehler
df[['Z','X']]

Unnamed: 0,Z,X
A,0.503826,0.628133
B,0.605965,-0.319318
C,-0.589001,0.740122
D,0.955057,-0.758872
E,0.683509,1.978757


In [146]:
df["X":"Z"]

Unnamed: 0,W,X,Y,Z


In [147]:
df['B':'C']

Unnamed: 0,W,X,Y,Z
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001


In [148]:
df3["B":"C"][["Y", "Z"]]

NameError: name 'df3' is not defined

**Neue Spalte erstellen:**

In [None]:
df

In [None]:
df['X*Y'] = df['X'] * df['Y']
df

In [None]:
df["T"] = [1, 2, 3, 4, 5]
df.T 

### Spalten & Zeilen entfernen
http://localhost:8888/notebooks/pythonic/DAwPythonSessions/w3resource-pandas-dataframe-drop.ipynb

#### Spalten entfernen

In [None]:
df.drop('X*Y', axis=1)

In [None]:
df

In [None]:
df.drop(["X*Y", "T"], axis=1)

In [None]:
df

In [None]:
# Nicht vorhanden, sofern ``inplace`` nict gibt an!
df.drop(["X*Y", "T"], axis=1, inplace=True)

In [None]:
df

#### Zeilen entfernen

In [None]:
df.drop('C', axis=0)

In [None]:
df

In [None]:
# der Standardwert der Achse ist 0 (axis= 0)
df = df.drop('C', axis=0)
df

In [None]:
df

In [None]:
df.drop(["D","E"], axis=0, inplace=True)

In [None]:
df

### Zeilen auswählen

Werfen wir zunächst einen kurzen Blick auf ``.loc[]`` und ``.iloc[]``

#### ``.loc[] ``
Ermöglicht es uns, Daten mit Labels(Namen) von Zeilen (Index) und Spalten auszuwählen

#### `.iloc[]` 
Ermöglicht es uns, Daten mit **Indexnummern** von Zeilen (Index) und Spalten auszuwählen. es ist wie eine klassische Indizierungslogik

In [152]:
daten_set = np.random.randint(1, 40, size=(8, 4))
df = pd.DataFrame(daten_set, columns = ["var1","var2","var3",'var4'])
df

Unnamed: 0,var1,var2,var3,var4
0,4,38,30,23
1,22,22,18,24
2,31,37,8,21
3,28,12,6,23
4,26,19,14,39
5,4,15,24,14
6,25,21,1,30
7,12,28,34,25


In [None]:
df.loc[4]

In [None]:
df.loc[[4]]

In [None]:
# Slicing erzeugt den gleichen Datentyp. Hier, Datenrahmen
df.loc[2:5]

In [None]:
df.iloc[2:5]

In [None]:
df

In [None]:
df.index='a b c d e f g h'.split()
df

In [None]:
df.loc[df.index.isin(['c','g'])]

In [None]:
df.iloc[1:4]

In [None]:
# df.loc[1:4] gibt Fehler, weil die Indizes/die Indexe sind markiert wurden

In [None]:
df.loc['c':'g']


In [None]:
df

In [None]:
df.iloc[4, 1]



In [None]:
df.iloc[:, 1]

In [None]:
df.loc['d':'g', 'var3']

In [None]:
df.loc[:, 'var3']

In [None]:
df.loc['d':'g'][['var3']]

In [None]:
# Wie können wir diese Daten als Datenframe und nicht als Serie auswählen?
df.loc['d':'g'][['var3']]

In [None]:
df.loc['d':'g', ["var3"]]

In [None]:
df.iloc[2:5, 2]

In [None]:
df.iloc[2:5][['var2']]

Let' s continue to examine ``.loc[]`` and ``.iloc[]`` 

In [153]:
df = pd.DataFrame(randn(5, 4),
                    index='A B C D E'.split(),
                    columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,-0.758436,-0.454696,1.297617,-0.825378
B,0.251915,0.518763,0.587968,-0.148194
C,-0.876702,0.79275,0.539118,0.669774
D,-1.270484,-0.446181,0.779475,0.4799
E,-0.960697,-2.002399,-1.263599,-0.696232


In [None]:
df.loc['C']

Oder wählen Sie basierend auf der Position anstelle des Labels

In [None]:
df.iloc[2]

In [None]:
type(df.iloc[2])

In [None]:
df.iloc[2].values

In [None]:
df.iloc[[2]]

In [None]:
type(df.iloc[[2]])

In [None]:
df.iloc[[2]].values

In [None]:
# gibt als Datenrahmen zurück
df.loc[['C']]

In [None]:
# gibt als Datenrahmen zurück
df.iloc[[2]]

In [None]:
# Nun, wie können wir die gesamte Spalte 'Y' mit '.iloc[]' auswählen
df.iloc[:, 2]

In [None]:
df.iloc[:,[2]]

In [None]:
df.columns

In [154]:
df[['Y','X']]

Unnamed: 0,Y,X
A,1.297617,-0.454696
B,0.587968,0.518763
C,0.539118,0.79275
D,0.779475,-0.446181
E,-1.263599,-2.002399


In [None]:
df[['X','Y']]

#### Auswahl einer Teilmenge(subset) von Zeilen und Spalten

 `.loc[[row labels|names], [column labels|names]]`

`.iloc[[row index numbers], [column index numbers]]`

In [None]:
df

In [155]:
df.loc[['A','C']]

Unnamed: 0,W,X,Y,Z
A,-0.758436,-0.454696,1.297617,-0.825378
C,-0.876702,0.79275,0.539118,0.669774


In [None]:
df.loc['C','Z']

In [149]:
# Wählen wir dieselben Daten wie einen Datenrahmen
df.loc[['C'],['Z']]

Unnamed: 0,Z
C,-0.589001


In [150]:
df.loc[['C']][['Z']]

Unnamed: 0,Z
C,-0.589001


In [None]:
df.loc[['A','C'],['W','Z']]

In [None]:
df.loc[['A','C']][['W','Z']]

In [None]:
df.iloc[[0,  2], [0, 3]]

#### Bedingte Auswahl
Ein wichtiges Merkmal von Pandas ist die bedingte Auswahl mit Klammernotation, die der numpy sehr ähnlich ist:

In [None]:
df

In [None]:
# gibt einen Datenrahmen zurück, der aus dem Typ bool besteh
df > 0.5

In [None]:
df[df > 0.5]

In [None]:
# Es gibt basierend auf Zeilen zurück.
df[df['Z'] > 0.5]

In [None]:
df[['Z']]

In [None]:
df

In [None]:
df[df['X'] < 1][['W']]

In [None]:
# Wie können wir die Daten als Datenrahmen auswählen

In [None]:
df[df['Y'] > 0][['Z', 'W', 'Y']]

Hinweis: Für zwei Bedingungen können Sie 

**|** → `or`, 

**&** → `and` mit Klammern verwenden.

In [None]:
df

In [None]:
df[(df['W'] > 0) & (df['Y'] < 1)]

In [None]:
df[(df['W'] > 0) & (df['Y'] < 1)] = 0
df

#### Bedingte Auswahl mit ``.loc[]`` und ``.iloc[]``

In [None]:
df

In [None]:
df.loc[(df.X > 0), ['X','Z']]

In [None]:
df.loc[(df.X > 0)][['X','Z']]

In [None]:
df.loc[((df.W > 1) | (df.Y < 1)), ['Y','Z']]

## Weitere Indexdetails

Lassen Sie uns noch einige weitere Funktionen der Indizierung besprechen, einschließlich des Zurücksetzens des Index oder eines anderen Festlegens. Wir werden auch über die Indexhierarchie sprechen!

In [None]:
df

In [None]:
# Zurücksetzen auf Standard 0,1...n Index
df.reset_index()

In [None]:
df

In [None]:
df.reset_index(drop=True)

In [None]:
neueindx = 'CA NY WY OR CO'.split()
neueindx

In [None]:
df['neueidx'] = neueindx
df

In [None]:
df.set_index('neueidx')

In [None]:
df

In [None]:
df.set_index('neueidx',inplace=True)

In [None]:
df

## Multi-Index und Index-Hierarchie

Lassen Sie uns die Arbeit mit Multi-Index durchgehen. Zuerst erstellen wir ein kurzes Beispiel dafür, wie ein Multi-Indexed Datenrahmen aussehen würde:

In [None]:
# Indexstufen
stufe1 = [1, 2, 3, 1, 2, 3, 5, 6, 7]
stufe2 = ['M1', 'M1', 'M1', 'M2', 'M2', 'M2','M3', 'M3', 'M3']
multi_index = list(zip(stufe2 , stufe1))
multi_index

In [None]:
index_ = pd.MultiIndex.from_tuples(multi_index)

In [None]:
index_

In [None]:
df = pd.DataFrame(np.random.randn(9, 4), 
                  index=index_, 
                  columns=['A','B','C','D'])
df

Lassen Sie uns nun zeigen, wie man dies indiziert! Für die Indexhierarchie verwenden wir ``df.loc[]``, wenn dies auf der Spaltenachse wäre, würden Sie einfach die normale Klammernotation ``df[]`` verwenden. Der Aufruf einer Ebene des Indexes gibt den Unterdatenrahmen zurück:

In [None]:
df.loc['M1']

In [None]:
df.loc['M1'].loc[2]

In [None]:
df.loc['M1'].loc[[2]]

In [None]:
df.index.names

In [None]:
df.index.names = ['Group','Num']

In [None]:
df

let's take a quick look at the ``.xs()``
http://localhost:8888/notebooks/pythonic/DAwPythonSessions/w3resource-pandas-dataframe-xs.ipynb

In [None]:
# Diese Methode benötigt ein `key`-Argument, um Daten auf einer bestimmten Ebene eines MultiIndex auszuwählen.
df.xs('M1')

In [None]:
df.loc['M1']

In [None]:
df

In [None]:
df.xs(['M1', 2])

In [None]:
df.xs(('M3',6))

In [None]:
df.xs(('M3',6), level=[0,1])

In [None]:
df.xs(5, level='Num')

In [None]:
df.xs(3, level=1)

In [None]:
df.xs('C', axis=1)

## Lernen wir neue Funktionen/Attribute/Methoden zu "iris daten_set" kennen

In [None]:
from sklearn import datasets
import seaborn as sns

In [None]:
df = sns.load_dataset("iris")
df

In [None]:
df.shape

In [None]:
df.ndim

In [None]:
df.size

In [None]:
df.head()

In [None]:
df.sample(4)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.species.value_counts()

In [None]:
df.mean()

In [None]:
df.sum(axis=0)

In [None]:
df.sum(axis=1)

In [None]:
df.sepal_length.sum()

In [None]:
df.species.unique()

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
len(df)

In [None]:
df.head(9)

In [None]:
df.iloc[0:6 ,0:]

In [None]:
df.loc[0:6, :]

In [None]:
df.drop('species', axis=1)

In [None]:
df[(df.sepal_length > 5) & (df.sepal_width > 3)].head()

In [None]:
df[(df.sepal_length > 5) | (df.sepal_width > 3)].tail()

In [None]:
df.sort_values(by='species', ascending=True)

<head>
    <center><title>~ Ende der Pandas Datenrahmen | Lektion-1 ~</title></center>
</head>