## 01 Pandas

#### 01 Series
- Pandas Series ist 1-dimensional
- jeder Datentyp möglich

In [3]:
import pandas as pd

#1: pandas
print(pd.Series([1, 2, 3], index=['a', 'b', 'c'])) # with index

#alt1: über numpy
import numpy as np
import pandas as pd

print(pd.Series(np.array([1, 2, 3]), index=['a', 'b', 'c'])) # from a 1darray

#alt2: dictionary
import pandas as pd

print(pd.Series({'a': 1, 'b': 2, 'c':3})) # from a dict

a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int32
a    1
b    2
c    3
dtype: int64


In [4]:
#zugriff auf index
series = pd.Series({'a':1, 'b':2, 'c':3})
print(series['a'])

1


## 02 Pandas DataFrames

#### Allgemein

In [9]:
import pandas as pd

wine_dict = {
    'red_wine': [3, 6, 5],
    'white_wine':[5, 0, 10]
}

#erstellt ein dictionary aus den indices, das den werten von wine_dict zugewiesen wird
sales = pd.DataFrame(wine_dict, index=["adam", "bob", "charles"])
print(sales)
print('\nNur Weißwein:')
print(sales['white_wine'])

         red_wine  white_wine
adam            3           5
bob             6           0
charles         5          10

Nur Weißwein:
adam        5
bob         0
charles    10
Name: white_wine, dtype: int64


#### Shape and Size

In [10]:
import pandas as pd

presidents_df = pd.read_csv('https://sololearn.com/uploads/files/president_heights_party.csv', index_col='name')
                                  
print(presidents_df.shape) #.shape gibt reihen und spalten aus

(45, 4)


In [11]:
#0 gibt anzahl der reihen aus, 1 würde anzahl der spalten ausgeben
presidents_df.shape[0]

45

In [12]:
#anzahl der elemente über size
presidents_df.size

180

#### Head und Tail

In [3]:
#head mit anzahl als (n=zahl), ohne zahlenangabe wird default=5 ausgegeben
presidents_df.head(n=3)

Unnamed: 0_level_0,order,age,height,party
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
George Washington,1,57,189,none
John Adams,2,61,170,federalist
Thomas Jefferson,3,57,189,democratic-republican


In [16]:
#tail gibt die letzten zeilen aus
presidents_df.tail()

Unnamed: 0_level_0,order,age,height,party
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
George H. W. Bush,41,64,188,republican
Bill Clinton,42,46,188,democratic
George W. Bush,43,54,182,republican
Barack Obama,44,47,185,democratic
Donald J. Trump,45,70,191,republican


#### Overview über .info()

In [17]:
presidents_df.info() #man sieht, ob werte fehlen (non-null), datentypen werden angezeigt

<class 'pandas.core.frame.DataFrame'>
Index: 45 entries, George Washington to Donald J. Trump
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   order   45 non-null     int64 
 1   age     45 non-null     int64 
 2   height  45 non-null     int64 
 3   party   45 non-null     object
dtypes: int64(3), object(1)
memory usage: 1.8+ KB


## 03 Indexing Pandas

#### Die .loc[]-Funktion
- greift auf bestimmten Eintrag zu
- Zugriff auf Daten über deren Bezeichnung oder bedingte Anweisung

In [9]:
import pandas as pd

presidents_df = pd.read_csv('https://sololearn.com/uploads/files/president_heights_party.csv', index_col='name')
                                  
print(presidents_df.loc['Abraham Lincoln'])
print(presidents_df.loc['Abraham Lincoln'].shape)

order             16
age               52
height           193
party     republican
Name: Abraham Lincoln, dtype: object
(4,)


In [10]:
#alle präsidenten von lincoln bis grant
presidents_df.loc['Abraham Lincoln':'Ulysses S. Grant']

Unnamed: 0_level_0,order,age,height,party
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abraham Lincoln,16,52,193,republican
Andrew Johnson,17,56,178,national union
Ulysses S. Grant,18,46,173,republican


#### .iloc: Zugriff auf die Reihen

In [13]:
#.iloc, wenn integer-position bekannt ist
import pandas as pd

presidents_df = pd.read_csv('https://sololearn.com/uploads/files/president_heights_party.csv', index_col='name')
                                  
print(presidents_df.iloc[15])

order             16
age               52
height           193
party     republican
Name: Abraham Lincoln, dtype: object


In [14]:
#slicing vom 16. zum 18. präsidenten
presidents_df.iloc[15:18]

Unnamed: 0_level_0,order,age,height,party
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abraham Lincoln,16,52,193,republican
Andrew Johnson,17,56,178,national union
Ulysses S. Grant,18,46,173,republican


#### Auswahl der Spalten

In [16]:
#ausgabe der spalten-namen
print(presidents_df.columns)

Index(['order', 'age', 'height', 'party'], dtype='object')


In [19]:
#zugriff auf die spalten
print(presidents_df['height'].head())
presidents_df['height'].shape

name
George Washington    189
John Adams           170
Thomas Jefferson     189
James Madison        163
James Monroe         183
Name: height, dtype: int64


(45,)

In [23]:
#mehrere (bestimmte) spalten auswählen
print(presidents_df[['height', 'age']].head(n=3)) #achtung: [[]] wichtig, da DataFrame

                   height  age
name                          
George Washington     189   57
John Adams            170   61
Thomas Jefferson      189   57


#### Weitere Anwendungen von .loc

In [34]:
#spalten von order über height der ersten 3 präsidenten
print(presidents_df.loc[:, 'order':'height'].head(n=3)) #order bis height

                   order  age  height
name                                 
George Washington      1   57     189
John Adams             2   61     170
Thomas Jefferson       3   57     189


## 04 Statistik

#### min(), max(), mean()

In [36]:
#jeweils kleinster wert pro spalte
print(presidents_df.min())

order              1
age               42
height           163
party     democratic
dtype: object


In [37]:
#jeweils größter wert pro spalte
print(presidents_df.max())

order       45
age         70
height     193
party     whig
dtype: object


In [38]:
#durchschnittswert pro spalte
print(presidents_df.mean())

order      23.022222
age        55.000000
height    180.000000
dtype: float64


  print(presidents_df.mean())


#### Quantile
- Grenzbereiche in einem Range von 4er-Quantilen (25%, 50%, 75%, 100%)

In [40]:
print(presidents_df['age'].quantile([0.25, 0.5, 0.75, 1]))

0.25    51.0
0.50    55.0
0.75    58.0
1.00    70.0
Name: age, dtype: float64


#### Median

In [44]:
print(presidents_df['age'].mean())
print(presidents_df['age'].median())

55.0
55.0


#### Varianz und Standardabweichung
- Varianz: E((wert-mean)²)/anzahl_daten
- Standardabweichung: root(Varianz) -> ist der Wert hoch, sind die Werte stark gestreut, ist der Wert klein, sind die Werte nah am Mittelwert

In [47]:
#minimal-beispiel: mittelwert und varianz
dat = pd.Series([2, 3, 4])
print(dat.mean())
print(dat.var())

#standardabweichung
print(dat.std())

3.0
1.0
1.0


In [50]:
#varianz und standardabweiung beim alter der präsidenten
print(presidents_df['age'].var())
print(presidents_df['age'].std())

43.5
6.59545297913646


In [51]:
#gesamtes daten-set
presidents_df.std()

  presidents_df.std()


order     13.136502
age        6.595453
height     6.977236
dtype: float64

#### Gesamte Statistik ausgeben: describe()
- bezieht nur Nicht-Nullwerte mit ein

In [55]:
print('Nur nach Alter:')
print(presidents_df['age'].describe())
print('\nGesamt:')
print(presidents_df.describe())
#ergebnis max-min: alter(70-42=28) und größe(193-163) 
#haben ähnliche standardabweiungen und zeigen dadurch
#eine ähnliche streuung der daten

Nur nach Alter:
count    45.000000
mean     55.000000
std       6.595453
min      42.000000
25%      51.000000
50%      55.000000
75%      58.000000
max      70.000000
Name: age, dtype: float64

Gesamt:
           order        age      height
count  45.000000  45.000000   45.000000
mean   23.022222  55.000000  180.000000
std    13.136502   6.595453    6.977236
min     1.000000  42.000000  163.000000
25%    12.000000  51.000000  175.000000
50%    23.000000  55.000000  182.000000
75%    34.000000  58.000000  183.000000
max    45.000000  70.000000  193.000000


#### Kategorische Variable
- für Nicht-Zahlen-Werte

In [57]:
#häufigkeit des auftretens von werten
print(presidents_df['party'].value_counts())

republican               19
democratic               15
democratic-republican     4
whig                      4
none                      1
federalist                1
national union            1
Name: party, dtype: int64


In [59]:
#describe() hier auch verwendbar bezüglich anzahl, 
#anzahl einzigartiger werte (solo-parteien),
#häufigster wert und anzahl der werte zum max (repulican)
print(presidents_df['party'].describe())

count             45
unique             7
top       republican
freq              19
Name: party, dtype: object


## Groupby und Aggregations

#### Groupby
- Wert nach Bedingung sortieren lassen

In [62]:
#durchschnittswerte sortiert nach partei
print(presidents_df.groupby('party').mean())

                           order        age      height
party                                                  
democratic             26.066667  52.600000  181.066667
democratic-republican   4.500000  57.250000  176.500000
federalist              2.000000  61.000000  170.000000
national union         17.000000  56.000000  178.000000
none                    1.000000  57.000000  189.000000
republican             29.631579  55.263158  180.894737
whig                   11.000000  58.250000  176.000000


#### Aggregation
- führt zusätzliche Operationen auf ein Groupby-Objekt aus

In [64]:
import numpy as np

print(presidents_df.groupby('party')['height'].agg(['min', np.median, max]))

                       min  median  max
party                                  
democratic             168   180.0  193
democratic-republican  163   177.0  189
federalist             170   170.0  170
national union         178   178.0  178
none                   189   189.0  189
republican             168   182.0  193
whig                   173   174.0  183


In [65]:
#verschiedene statistiken anzeigen lassen
print(presidents_df.groupby('party')\
    .agg({'height': [np.median, np.mean],
        'age':    [min, max]}))

                      height             age    
                      median        mean min max
party                                           
democratic             180.0  181.066667  43  65
democratic-republican  177.0  176.500000  57  58
federalist             170.0  170.000000  61  61
national union         178.0  178.000000  56  56
none                   189.0  189.000000  57  57
republican             182.0  180.894737  42  70
whig                   174.0  176.000000  50  68


In [68]:
#weiteres beispiel zu versch. statistiken
print(presidents_df.groupby('party')['age'].agg([np.median, max]))

                       median  max
party                             
democratic               52.0   65
democratic-republican    57.0   58
federalist               61.0   61
national union           56.0   56
none                     57.0   57
republican               54.0   70
whig                     57.5   68
