# Pandas - Übung

In diesem Notebook üben wir die elementaren Fertigkeiten die du für das Data Preprocessing benötigst.

Welche Fertigkeiten benötigst du grundsätzlich?

   - Teilbereiche in einem DataFrame anschauen
   - Werte zuordnen
   - An Elemente "herankommen"
   - Datentyp kennen
   - Spaltennamen kennen


Übersicht: 

            - Übung 1: Mit dem DataFrame vertraut machen
            - Übung 2: Auf Elemente zugreifen
            - Übung 3: Kenntnisse an einem neuen Datensatz üben

In [2]:
# bib importieren

import pandas as pd 
import seaborn as sns # wird nachher benötigt, um einen in seaborn enthaltenen Datensatz zu bearbeiten

## Übung 1: Mit dem DataFrame vertraut machen

Nach dem Einlesen eines Datensatzes ist es zunächst wichtig zu wissen wie die Spalten heißen und welche Datentypen in den Spalten stecken.

Warum ist das wichtig?

Damit du weißt wie du Spalten aufrufen und bei Bedingungen die Bedinung übergeben musst.

In [3]:
# Beispieldatensatz: df1 

df1 = pd.DataFrame({'A ': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
print(df1) 

   A    B  C
0   1  10  1
1   2   9  2
2   3   8  2
3   4   8  2
4   5   3  2
5   4   8  4
6   7   4  4
7   4   3  4
8   9   2  4
9   4   1  4


In [4]:
# wie lauten die Spaltennamen?
print(df1.columns)

Index(['A ', 'B', 'C'], dtype='object')


In [6]:
# musst du etwas an den Spaltennamen ändern? Wenn ja, dann ändern
df1.columns = df1.columns.str.strip()
df1.rename(columns = {"A ":"A"},inplace = True)
print(df1.columns)

Index(['A', 'B', 'C'], dtype='object')


In [7]:
# check, ob Änderung erfolgt ist
print(df1.columns)

Index(['A', 'B', 'C'], dtype='object')


In [15]:
# welche Datentypen haben die Spalten?

print(df1.dtypes)

A    int64
B    int64
C    int64
dtype: object


In [None]:
# Was ist, wenn ich nur von EINER Spalte den Datentyp haben möchte?
print(df1['A'].dtype)

In [19]:
# alternativ:
print(type(df1['A'][0]))
print(df1.dtypes['B'])

<class 'numpy.int64'>
int64


## Übung 2: Auf Elemente zugreifen

#### eine ganze Spalte anzeigen lassen

Wie kommst du auf nachfolgendes Ergebnis?

                               B
                          ---|---
                           0 | 10
                           1 |  9
                           2 |  8
                           3 |  8
                           4 |  3
                           5 |  8
                           6 |  4
                           7 |  3
                           8 |  2
                           9 |  1 

In [20]:
# Platz für deinen Code 1
print(df1[['B']])

    B
0  10
1   9
2   8
3   8
4   3
5   8
6   4
7   3
8   2
9   1


In [29]:
# alternativ:
print(df1.loc[:, 'B'])
#print(df1.loc[:,["B"]])
#print(df1.iloc[:,1:2])
#print(df1.B)
#print(df1['B'])


0    10
1     9
2     8
3     8
4     3
5     8
6     4
7     3
8     2
9     1
Name: B, dtype: int64


#### ganze Zeile anzeigen lassen
       
Wie kommst du auf nachfolgendes Ergebnis?

                    | A | B | C
                 ---|---|---|---
                  5 | 4 | 8 | 4

In [48]:
# Platz für deinen Code
print(df1.iloc[5:6])
print(df1.iloc[5:6,:])
print(df1.iloc[[5],:])


   A  B  C
5  4  8  4
   A  B  C
5  4  8  4
   A  B  C
5  4  8  4


In [34]:
# alternativ:
df1[df1.index == 5]

Unnamed: 0,A,B,C
5,4,8,4


In [50]:
# alternativ:
print(df1.loc[5:5:,['A','B','C']])
print(df1.loc[5:5,:])
print(df1.loc[5:5])
print(df1.loc[[5,]])

   A  B  C
5  4  8  4
   A  B  C
5  4  8  4
   A  B  C
5  4  8  4
   A  B  C
5  4  8  4


#### einzelne Elemente anzeigen lassen

Wie kommst du auf nachfolgendes Ergebnis?

                             B
                        ---|---
                         1 | 9

In [66]:
# Platz für deinen Code (mehrere Versionen angeben)
print(df1.loc[[1], ['B']])
# print(df1.loc[1:1,["B"]])
# print(df1.loc['1':'1', ['B']])
# print(df1.iloc[df1[df1['B'] == 9].index][['B']])
# print(df1.iloc[1:2, 1:2])
# print(df1.iloc[1:2, [1]])
# print(df1['B'][1:2])
df1[df1.index==1]['B']

   B
1  9


1    9
Name: B, dtype: int64

#### Mehrere Elemente anzeigen lassen über mehrere Spalten

Wie kommst du auf nachfolgendes Ergebnis?

                                A   B
                           ---|---|---
                            4 | 5 | 3

In [82]:
# Platz für deinen Code
#print(df1.loc[4:4, ['A', 'B']])
print(df1.loc[[4], ['A', 'B']])
#print(df1.iloc[4, [0, 1]])
#print(df1.iloc[4:5, 0:2])

   A  B
4  5  3


#### Mehrere Elemente in einer Spalte anzeigen lassen - Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?

                                 C
                            ---|---
                             5 | 4
                             6 | 4
                             7 | 4
                             8 | 4
                             9 | 4

In [87]:
# Platz für deinen Code
#print(df1[df1['C'] == 4]['C'])
#print(df1[df1['C'] == 4][['C']])
print(df1.loc[df1['C']==4,['C']])

   C
5  4
6  4
7  4
8  4
9  4


#### Werte zuweisen und arbeiten mit Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?


            vorher      -->  nachher
            
                 C                C
            ---|---          ---|---
             0 | 1            0 | 1
             1 | 2            1 | 8
             2 | 2            2 | 8
             3 | 2            3 | 8
             4 | 2            4 | 8
             5 | 4            5 | 4
             6 | 4            6 | 4
             7 | 4            7 | 4
             8 | 4            8 | 4
             9 | 4            9 | 4
             

In [100]:
# Platz für deinen Code
# df11 für Tests
import numpy as np
df11 = pd.DataFrame({'A ': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
df11.loc[df11['C'] == 2, 'C'] = 8

# pandas loc und python attribute
#df11.loc[df11.C==2, ['C']] = 8

# pandas loc und numPy
#df11.loc[df11['C']==2,['C']] = 8

# pandas loc und pandas loc
#df11.loc[df11.loc[:,'C']==2, ['C']] = 8

#pandas loc und Bedingung in numPy danach
#df11.loc[:,'C'][df11['C']==2] = 8

print(df11)


   A    B  C
0   1  10  1
1   2   9  8
2   3   8  8
3   4   8  8
4   5   3  8
5   4   8  4
6   7   4  4
7   4   3  4
8   9   2  4
9   4   1  4


In [104]:
# alternativ: mit where()
import numpy as np
df11 = pd.DataFrame({'A ': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})

#df11['C'] = np.where(df11['C'] == 2, 8, df11['C'])
df11['C'] = df11['C'].where(df11['C'] != 2, 8)
#df11['C'] = df11.C.where(df11.C != 2, 8)
print(df11)

   A    B  C
0   1  10  1
1   2   9  8
2   3   8  8
3   4   8  8
4   5   3  8
5   4   8  4
6   7   4  4
7   4   3  4
8   9   2  4
9   4   1  4


#### mehrere Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?

                             vorher      --->    nachher
                             
                            A   B   C                A   B   C
                       ---|---|---|---          ---|---|---|---
                         ............            .............
                        3 | 4 | 8 | 8            3 | 4 | 8 | 10
                         ............            .............
                        5 | 4 | 8 | 4            5 | 4 | 8 | 10
                         ............             .............

In [None]:
# Platz für deinen Code
# df11 für Tests
df11 = pd.DataFrame({'A': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})

In [145]:
df11 = pd.DataFrame({'A': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
#df11.loc[((df11.iloc[:,0]==4) & (df11.iloc[:,1]==8)), 'C'] = 10
#df11.iloc[(df11.iloc[:,0]==4) & (df11.iloc[:,1]==8), 2] = 10
#df11.loc[(df11['A'] == 4) & (df11['B'] == 8), 'C'] = 10
df11.loc[(df11.loc[:,'A'] == 4) & (df11.loc[:,'B'] == 8), 'C'] = 10
print(df11)


   A   B   C
0  1  10   1
1  2   9   2
2  3   8   2
3  4   8  10
4  5   3   2
5  4   8  10
6  7   4   4
7  4   3   4
8  9   2   4
9  4   1   4


In [142]:
df11.loc[:,'A']

0    1
1    2
2    3
3    4
4    5
5    4
6    7
7    4
8    9
9    4
Name: A, dtype: int64

## Übung 3: Kenntnisse an einem neuen Datensatz üben

wir importieren aus seaborn den mpg Datensatz und werden mit diesem weiter üben 

In [169]:
# mpg datensatz aus seaborn importieren

df_mpg = sns.load_dataset('mpg')
df_mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


In [157]:
# Wie greifst du auf die Spalten später zu?
print(df_mpg.columns)
# for i in df_mpg.columns:
#     print(i,' :')
#     print(df_mpg[i])
print(df_mpg['origin'])
#print(df_mpg.acceleration)

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'model_year', 'origin', 'name'],
      dtype='object')
0         usa
1         usa
2         usa
3         usa
4         usa
        ...  
393       usa
394    europe
395       usa
396       usa
397       usa
Name: origin, Length: 398, dtype: object
0      12.0
1      11.5
2      11.0
3      12.0
4      10.5
       ... 
393    15.6
394    24.6
395    11.6
396    18.6
397    19.4
Name: acceleration, Length: 398, dtype: float64


In [158]:
# Wie musst du später Bedingungen übergeben? (welcher Datentyp?)
df_mpg.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight            int64
acceleration    float64
model_year        int64
origin           object
name             object
dtype: object

In [172]:
# welche Herkunftsländer gibt es ? Tip: unique()
print(df_mpg['origin'].unique())
# unique_origins = df_mpg['origin'].unique()
# print(unique_origins)
print(df_mpg.origin.unique())

['america' 'japan' 'europe']
['america' 'japan' 'europe']


In [170]:
# ändere usa in america um  Tip: replace()
df_mpg = sns.load_dataset('mpg')
df_mpg['origin'] = df_mpg['origin'].replace('usa', 'america')
df_mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,america,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,america,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,america,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,america,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,america,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,america,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,america,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,america,ford ranger


In [174]:
# alternativ: durch Wertzuweisung
df_mpg = sns.load_dataset('mpg')
df_mpg.loc[df_mpg['origin'] == 'usa', 'origin'] = 'america'
df_mpg

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,america,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,america,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,america,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,america,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,america,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,america,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,america,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,america,ford ranger


In [176]:
# welche Autos kommen aus america und haben cylinders größer gleich 8?
result_amikarre = df_mpg[(df_mpg['origin'] == 'america') & (df_mpg['cylinders'] >= 8)]
print(result_amikarre)
df_mpg.loc[(df_mpg['origin']=='america') & (df_mpg['cylinders']>=8)]

      mpg  cylinders  displacement  horsepower  weight  acceleration  \
0    18.0          8         307.0       130.0    3504          12.0   
1    15.0          8         350.0       165.0    3693          11.5   
2    18.0          8         318.0       150.0    3436          11.0   
3    16.0          8         304.0       150.0    3433          12.0   
4    17.0          8         302.0       140.0    3449          10.5   
..    ...        ...           ...         ...     ...           ...   
291  19.2          8         267.0       125.0    3605          15.0   
292  18.5          8         360.0       150.0    3940          13.0   
298  23.0          8         350.0       125.0    3900          17.4   
300  23.9          8         260.0        90.0    3420          22.2   
364  26.6          8         350.0       105.0    3725          19.0   

     model_year   origin                                  name  
0            70  america             chevrolet chevelle malibu  
1    

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,america,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,america,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,america,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,america,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,america,ford torino
...,...,...,...,...,...,...,...,...,...
291,19.2,8,267.0,125.0,3605,15.0,79,america,chevrolet malibu classic (sw)
292,18.5,8,360.0,150.0,3940,13.0,79,america,chrysler lebaron town @ country (sw)
298,23.0,8,350.0,125.0,3900,17.4,79,america,cadillac eldorado
300,23.9,8,260.0,90.0,3420,22.2,79,america,oldsmobile cutlass salon brougham


In [181]:
# welche autos kommen aus japan oder europa, haben eine horspower größer gleich 120 und wiegen über 3500?

# idee: da es nur 3 herkunftsländer gibt und 2 gesucht werden, ist die idee zu sagen, dass das 3.te herukunftsland nicht in der lösung ist

# df_mpg[(df_mpg['origin'].isin(['japan', 'europe'])) &
#        (df_mpg['horsepower'] >= 120) &
#        (df_mpg['weight'] > 3500)]
japan_europe_cars = df_mpg.loc[(df_mpg['origin'] != 'america') & (df_mpg['horsepower'] >= 120) & (df_mpg['weight'] > 3500)]
print(japan_europe_cars)

      mpg  cylinders  displacement  horsepower  weight  acceleration  \
211  16.5          6         168.0       120.0    3820          16.7   

     model_year  origin                name  
211          76  europe  mercedes-benz 280s  


In [None]:
# alternativ:
df_mpg.loc[((df_mpg["origin"]=='japan') | (df_mpg["origin"]=='europe')) & (df_mpg["weight"]>3500) & (df_mpg["horsepower"]>=120),:]

In [195]:
# wandle den Datentyp vom herstellungsjahr in einen string um
df_mpg['model_year']=df_mpg['model_year'].astype(str)
print(df_mpg['model_year'].dtype)
print(df_mpg.dtypes)


object
mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight            int64
acceleration    float64
model_year       object
origin           object
name             object
dtype: object


In [196]:
# check, ob Umwandlung funktioniert hat
print(df_mpg['model_year'].dtype)
print(df_mpg.dtypes)

object
mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight            int64
acceleration    float64
model_year       object
origin           object
name             object
dtype: object


In [205]:
# welche Autos wurden im Jahr 1980 gebaut?
#df_mpg[df_mpg['model_year'] == '80']
#df_mpg.loc[df_mpg['model_year']=='80',['name', 'mpg']]
df_mpg.loc[df_mpg['model_year']=='80',:]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
309,41.5,4,98.0,76.0,2144,14.7,80,europe,vw rabbit
310,38.1,4,89.0,60.0,1968,18.8,80,japan,toyota corolla tercel
311,32.1,4,98.0,70.0,2120,15.5,80,america,chevrolet chevette
312,37.2,4,86.0,65.0,2019,16.4,80,japan,datsun 310
313,28.0,4,151.0,90.0,2678,16.5,80,america,chevrolet citation
314,26.4,4,140.0,88.0,2870,18.1,80,america,ford fairmont
315,24.3,4,151.0,90.0,3003,20.1,80,america,amc concord
316,19.1,6,225.0,90.0,3381,18.7,80,america,dodge aspen
317,34.3,4,97.0,78.0,2188,15.8,80,europe,audi 4000
318,29.8,4,134.0,90.0,2711,15.5,80,japan,toyota corona liftback


In [211]:
# welche autos wurden in den Jahren 70,75,79 und 82 gebaut?
df_mpg[df_mpg['model_year'].isin(['70', '75', '79', '82'])]

df_mpg.loc[df_mpg['model_year'].isin(['70','75','79','82']),['name', 'model_year']]

Unnamed: 0,name,model_year
0,chevrolet chevelle malibu,70
1,buick skylark 320,70
2,plymouth satellite,70
3,amc rebel sst,70
4,ford torino,70
...,...,...
393,ford mustang gl,82
394,vw pickup,82
395,dodge rampage,82
396,ford ranger,82


In [215]:
# alternativ: mit query()
years = ['70','75','79','82']
df_mpg.query("model_year in ['70','75', '79','82']")
df_mpg.query('model_year in @years')[['name', 'model_year']]

Unnamed: 0,name,model_year
0,chevrolet chevelle malibu,70
1,buick skylark 320,70
2,plymouth satellite,70
3,amc rebel sst,70
4,ford torino,70
...,...,...
393,ford mustang gl,82
394,vw pickup,82
395,dodge rampage,82
396,ford ranger,82


## Zusatz: Performance - Was dauert länger?

In [3]:
import pandas as pd
df1= pd.DataFrame({'A' : [1, 2, 3, 4],
                   'B' : [4, 3, 2, 8],
                   'C' : [9, 8, 7, 6]}, 
                  index=['Zeile1', 'Zeile2', 'Zeile3', 'Zeile4'])

print(df1)
df1

        A  B  C
Zeile1  1  4  9
Zeile2  2  3  8
Zeile3  3  2  7
Zeile4  4  8  6


Unnamed: 0,A,B,C
Zeile1,1,4,9
Zeile2,2,3,8
Zeile3,3,2,7
Zeile4,4,8,6


In [6]:
%%timeit

df1.loc[(df1["A"]==4) & (df1["B"]==8), 'C'] = 10  
#df1 

# mikrosekunde 

427 μs ± 17.7 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [None]:
#%%timeit

my_query_index = df1.query('B == 8 & A == 4').index

df1.loc[my_query_index,'C'] = 5000
df1 

# millisekunde

In [None]:
#%%timeit

df1['C'][(df1["A"]==4) & (df1["B"]==8)] = 3000
df1 
 
# millisekunde

In [None]:
#%%timeit

df1.loc[:,'C'][(df1["A"]==4) & (df1["B"]==8)] = 4000
df1