# Pandas - Übung

In diesem Notebook üben wir die elementaren Fertigkeiten die du für das Data Preprocessing benötigst.

Welche Fertigkeiten benötigst du grundsätzlich?

   - Teilbereiche in einem DataFrame anschauen
   - Werte zuordnen
   - An Elemente "herankommen"
   - Datentyp kennen
   - Spaltennamen kennen


Übersicht: 

            - Übung 1: Mit dem DataFrame vertraut machen
            - Übung 2: Auf Elemente zugreifen
            - Übung 3: Kenntnisse an einem neuen Datensatz üben


In [202]:
#bib importieren

import pandas as pd 
import seaborn as sns # wird nachher benötigt, um einen in seaborn enthaltenen Datensatz zu bearbeiten

## Übung 1: Mit dem DataFrame vertraut machen

Nach dem Einlesen eines Datensatzes ist es zunächst wichtig zu wissen wie die Spalten heißen und welche Datentypen in den Spalten stecken.

Warum ist das wichtig?

Damit du weißt wie du Spalten aufrufen und bei Bedingungen die Bedinung übergeben musst.

In [236]:
# Beispieldatensatz: df1 

df1 = pd.DataFrame({'A ': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
df1 

Unnamed: 0,A,B,C
0,1,10,1
1,2,9,2
2,3,8,2
3,4,8,2
4,5,3,2
5,4,8,4
6,7,4,4
7,4,3,4
8,9,2,4
9,4,1,4


In [204]:
# wie lauten die Spaltennamen?
df1.columns


Index(['A ', 'B', 'C'], dtype='object')

In [237]:
# musst du etwas an den Spaltennamen ändern? Wenn ja, dann ändern
df1 = df1.rename(columns={'A ': 'A'})


In [206]:
# check, ob Änderung erfolgt ist

df1.columns

Index(['A', 'B', 'C'], dtype='object')

In [207]:
# welche Datentypen haben die Spalten?
df1.dtypes

A    int64
B    int64
C    int64
dtype: object

## Übung 2: Auf Elemente zugreifen

#### eine ganze Spalte anzeigen lassen

Wie kommst du auf nachfolgendes Ergebnis?

                               B
                          ---|---
                           0 | 10
                           1 |  9
                           2 |  8
                           3 |  8
                           4 |  3
                           5 |  8
                           6 |  4
                           7 |  3
                           8 |  2
                           9 |  1 

In [231]:
# Platz für deinen Code
#df1['B']
df1.loc[:,'B']

0    10
1     9
2     8
3     8
4     3
5     8
6     4
7     3
8     2
9     1
Name: B, dtype: int64

#### ganze Zeile anzeigen lassen
       
Wie kommst du auf nachfolgendes Ergebnis?

                    | A | B | C
                 ---|---|---|---
                  5 | 4 | 8 | 4

In [209]:
# Platz für deinen Code
#df1.iloc[5]
df1.iloc[5:6,:]

Unnamed: 0,A,B,C
5,4,8,4


#### einzelne Elemente anzeigen lassen

Wie kommst du auf nachfolgendes Ergebnis?

                             B
                        ---|---
                         1 | 9

In [233]:
# Platz für deinen Code

#df1.iloc[1:2,1]
df1.loc[1,["B"]]

B    9
Name: 1, dtype: int64

#### Mehrere Elemente anzeigen lassen über mehrere Spalten

Wie kommst du auf nachfolgendes Ergebnis?

                                A   B
                           ---|---|---
                            4 | 5 | 3

In [235]:
# Platz für deinen Code

df1.iloc[4:5,0:2]

Unnamed: 0,A,B
4,5,3


#### Mehrere Elemente in einer Spalte anzeigen lassen - Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?

                                 C
                            ---|---
                             5 | 4
                             6 | 4
                             7 | 4
                             8 | 4
                             9 | 4

In [238]:
# Platz für deinen Code

df1.iloc[5:10,2]

5    4
6    4
7    4
8    4
9    4
Name: C, dtype: int64

#### Werte zuweisen und arbeiten mit Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?


            vorher      -->  nachher
            
                 C                C
            ---|---          ---|---
             0 | 1            0 | 1
             1 | 2            1 | 8
             2 | 2            2 | 8
             3 | 2            3 | 8
             4 | 2            4 | 8
             5 | 4            5 | 4
             6 | 4            6 | 4
             7 | 4            7 | 4
             8 | 4            8 | 4
             9 | 4            9 | 4
             

In [239]:
# Platz für deinen Code
df1.iloc[1:5,2] = 8

In [240]:
df1.iloc[:,2]

0    1
1    8
2    8
3    8
4    8
5    4
6    4
7    4
8    4
9    4
Name: C, dtype: int64

#### mehrere Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?

                             vorher      --->    nachher
                             
                            A   B   C                A   B   C
                       ---|---|---|---          ---|---|---|---
                         ............            .............
                        3 | 4 | 8 | 8            3 | 4 | 8 | 10
                         ............            .............
                        5 | 4 | 8 | 4            5 | 4 | 8 | 10
                         ............             .............

In [241]:
# Platz für deinen Code

df1.iloc[[3,5],:]

Unnamed: 0,A,B,C
3,4,8,8
5,4,8,4


In [242]:
df1.iloc[[3,5],2] = 10

In [243]:
df1.iloc[[3,5],:]

Unnamed: 0,A,B,C
3,4,8,10
5,4,8,10


## Übung 3: Kenntnisse an einem neuen Datensatz üben

wir importieren aus seaborn den mpg Datensatz und werden mit diesem weiter üben 

In [218]:
# mpg datensatz aus seaborn importieren

df_mpg = sns.load_dataset('mpg')
df_mpg 

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


In [219]:
# Wie greifst du auf die Spalten später zu?

df_mpg.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'model_year', 'origin', 'name'],
      dtype='object')

In [220]:
# Wie musst du später Bedingungen übergeben?
df_mpg.loc[df_mpg.horsepower==190,:]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
9,15.0,8,390.0,190.0,3850,8.5,70,usa,amc ambassador dpl
70,13.0,8,400.0,190.0,4422,12.5,72,usa,chrysler newport royal
231,15.5,8,400.0,190.0,4325,12.2,77,usa,chrysler cordoba


In [245]:
# welche Herukunftsländer gibt es ?

df_mpg['origin'].unique()

array(['america', 'japan', 'europe'], dtype=object)

In [246]:
# ändere usa in america um
#df_mpg.loc[:,'origin'].where(df_mpg['origin']!='usa','america', inplace=True)
df_mpg.replace({'origin':'usa'},'america', inplace = True)


In [247]:
# check, ob Änderung erfolgt ist
df_mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,america,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,america,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,america,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,america,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,america,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,america,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,america,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,america,ford ranger


In [224]:
# welche Autos kommen aus america und haben cylinders größer gleich 8?
df_mpg.loc[(df_mpg.origin =='america') & (df_mpg.cylinders >= 8)]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,america,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,america,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,america,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,america,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,america,ford torino
...,...,...,...,...,...,...,...,...,...
291,19.2,8,267.0,125.0,3605,15.0,79,america,chevrolet malibu classic (sw)
292,18.5,8,360.0,150.0,3940,13.0,79,america,chrysler lebaron town @ country (sw)
298,23.0,8,350.0,125.0,3900,17.4,79,america,cadillac eldorado
300,23.9,8,260.0,90.0,3420,22.2,79,america,oldsmobile cutlass salon brougham


In [225]:
# welche autos kommen aus japan oder europa, haben eine horspower größer gleich 120 und wiegen über 3500?
df_mpg[
    (df_mpg['origin'].isin(['japan', 'europe'])) & 
    (df_mpg['horsepower'] >= 120) & 
    (df_mpg['weight'] > 3500)]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
211,16.5,6,168.0,120.0,3820,16.7,76,europe,mercedes-benz 280s


In [226]:
df_mpg[
    (df_mpg['origin']!='america') & 
    (df_mpg['horsepower'] >= 120) & 
    (df_mpg['weight'] > 3500)]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
211,16.5,6,168.0,120.0,3820,16.7,76,europe,mercedes-benz 280s


In [227]:
# wandle den Datentyp vom herstellungsjahr in einen string um

df_mpg["model_year"] = df_mpg["model_year"].astype(str)

In [228]:
# check, ob Umwandlung funktioniert hat
df_mpg.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight            int64
acceleration    float64
model_year       object
origin           object
name             object
dtype: object

In [229]:
# welche Autos wurden im Jahr 1980 gebaut?
df_mpg.loc[df_mpg.model_year=='80']

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
309,41.5,4,98.0,76.0,2144,14.7,80,europe,vw rabbit
310,38.1,4,89.0,60.0,1968,18.8,80,japan,toyota corolla tercel
311,32.1,4,98.0,70.0,2120,15.5,80,america,chevrolet chevette
312,37.2,4,86.0,65.0,2019,16.4,80,japan,datsun 310
313,28.0,4,151.0,90.0,2678,16.5,80,america,chevrolet citation
314,26.4,4,140.0,88.0,2870,18.1,80,america,ford fairmont
315,24.3,4,151.0,90.0,3003,20.1,80,america,amc concord
316,19.1,6,225.0,90.0,3381,18.7,80,america,dodge aspen
317,34.3,4,97.0,78.0,2188,15.8,80,europe,audi 4000
318,29.8,4,134.0,90.0,2711,15.5,80,japan,toyota corona liftback


In [230]:
# welche autos wurden in den Jahren 70,75,79 und 82 gebaut?
df_mpg.loc[df_mpg['model_year'].isin(['70','75','79','82'])]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,america,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,america,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,america,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,america,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,america,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,america,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,america,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,america,ford ranger
