# Pandas - Übung

In diesem Notebook üben wir die elementaren Fertigkeiten die du für das Data Preprocessing benötigst.

Welche Fertigkeiten benötigst du grundsätzlich?

   - Teilbereiche in einem DataFrame anschauen
   - Werte zuordnen
   - An Elemente "herankommen"
   - Datentyp kennen
   - Spaltennamen kennen


Übersicht: 

            - Übung 1: Mit dem DataFrame vertraut machen
            - Übung 2: Auf Elemente zugreifen
            - Übung 3: Kenntnisse an einem neuen Datensatz üben

In [1]:
# bib importieren

import pandas as pd 
import seaborn as sns # wird nachher benötigt, um einen in seaborn enthaltenen Datensatz zu bearbeiten

## Übung 1: Mit dem DataFrame vertraut machen

Nach dem Einlesen eines Datensatzes ist es zunächst wichtig zu wissen wie die Spalten heißen und welche Datentypen in den Spalten stecken.

Warum ist das wichtig?

Damit du weißt wie du Spalten aufrufen und bei Bedingungen die Bedinung übergeben musst.

In [45]:
# Beispieldatensatz: df1 

df1 = pd.DataFrame({'A ': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
print(df1) 

   A    B  C
0   1  10  1
1   2   9  2
2   3   8  2
3   4   8  2
4   5   3  2
5   4   8  4
6   7   4  4
7   4   3  4
8   9   2  4
9   4   1  4


In [3]:
# wie lauten die Spaltennamen?
df1.columns

Index(['A ', 'B', 'C'], dtype='object')

In [None]:
# musst du etwas an den Spaltennamen ändern? Wenn ja, dann ändern
df1.rename(columns={"A ":"A"}, inplace=True)


Index(['A', 'B', 'C'], dtype='object')

In [9]:
# check, ob Änderung erfolgt ist
df1.columns

Index(['A', 'B', 'C'], dtype='object')

In [10]:
# welche Datentypen haben die Spalten?
df1.dtypes

A    int64
B    int64
C    int64
dtype: object

In [11]:
# Was ist, wenn ich nur von EINER Spalte den Datentyp haben möchte?
df1["A"].dtype

dtype('int64')

In [None]:
# alternativ:


## Übung 2: Auf Elemente zugreifen

#### eine ganze Spalte anzeigen lassen

Wie kommst du auf nachfolgendes Ergebnis?

                               B
                          ---|---
                           0 | 10
                           1 |  9
                           2 |  8
                           3 |  8
                           4 |  3
                           5 |  8
                           6 |  4
                           7 |  3
                           8 |  2
                           9 |  1 

In [14]:
# Platz für deinen Code
#df1["B"]
df1.loc[:, "B"]

0    10
1     9
2     8
3     8
4     3
5     8
6     4
7     3
8     2
9     1
Name: B, dtype: int64

#### ganze Zeile anzeigen lassen
       
Wie kommst du auf nachfolgendes Ergebnis?

                    | A | B | C
                 ---|---|---|---
                  5 | 4 | 8 | 4

In [17]:
# Platz für deinen Code
print(df1.iloc[5])

A    4
B    8
C    4
Name: 5, dtype: int64


In [18]:
#alternativ:
df1.iloc[5, :]

A    4
B    8
C    4
Name: 5, dtype: int64

In [22]:
# alternativ:


In [None]:
# alternativ:


#### einzelne Elemente anzeigen lassen

Wie kommst du auf nachfolgendes Ergebnis?

                             B
                        ---|---
                         1 | 9

In [24]:
# Platz für deinen Code
df1.iloc[1,1]

np.int64(9)

#### Mehrere Elemente anzeigen lassen über mehrere Spalten

Wie kommst du auf nachfolgendes Ergebnis?

                                A   B
                           ---|---|---
                            4 | 5 | 3

In [26]:
# Platz für deinen Code
df1.iloc[4,0:2]

A    5
B    3
Name: 4, dtype: int64

#### Mehrere Elemente in einer Spalte anzeigen lassen - Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?

                                 C
                            ---|---
                             5 | 4
                             6 | 4
                             7 | 4
                             8 | 4
                             9 | 4

In [46]:
# Platz für deinen Code
df1.iloc[5:,2]

5    4
6    4
7    4
8    4
9    4
Name: C, dtype: int64

In [30]:
df1.loc[5:,"C"]

5    4
6    4
7    4
8    4
9    4
Name: C, dtype: int64

#### Werte zuweisen und arbeiten mit Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?


            vorher      -->  nachher
            
                 C                C
            ---|---          ---|---
             0 | 1            0 | 1
             1 | 2            1 | 8
             2 | 2            2 | 8
             3 | 2            3 | 8
             4 | 2            4 | 8
             5 | 4            5 | 4
             6 | 4            6 | 4
             7 | 4            7 | 4
             8 | 4            8 | 4
             9 | 4            9 | 4
             

In [53]:
# Platz für deinen Code
#df1.iloc[1:5,2] = 8
df1

Unnamed: 0,A,B,C
0,1,10,1
1,2,9,2
2,3,8,2
3,4,8,2
4,5,3,2
5,4,8,4
6,7,4,4
7,4,3,4
8,9,2,4
9,4,1,4


In [None]:
# alternativ: mit where()
#df2 = df1.where(df1['C']==2, 8, inplace = False)
#df3 = df1.where(df1.iloc[1:5,2]==2, 8, inplace = False)
#df3

Unnamed: 0,A,B,C
0,8,8,8
1,2,9,2
2,3,8,2
3,4,8,2
4,5,3,2
5,8,8,8
6,8,8,8
7,8,8,8
8,8,8,8
9,8,8,8


#### mehrere Bedingungen

Wie kommst du auf nachfolgendes Ergebnis?

                             vorher      --->    nachher
                             
                            A   B   C                A   B   C
                       ---|---|---|---          ---|---|---|---
                         ............            .............
                        3 | 4 | 8 | 8            3 | 4 | 8 | 10
                         ............            .............
                        5 | 4 | 8 | 4            5 | 4 | 8 | 10
                         ............             .............

In [54]:
df11 = pd.DataFrame({'A': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})


In [59]:
df11.iloc[df11.iloc[[3,5],'C']==2,["C"]]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

## Übung 3: Kenntnisse an einem neuen Datensatz üben

wir importieren aus seaborn den mpg Datensatz und werden mit diesem weiter üben 

In [None]:
# mpg datensatz aus seaborn importieren

df_mpg = sns.load_dataset('mpg')
df_mpg

In [None]:
# Wie greifst du auf die Spalten später zu?


In [None]:
# Wie musst du später Bedingungen übergeben?


In [None]:
# welche Herukunftsländer gibt es ? Tip: unique()


In [None]:
# ändere usa in america um  Tip: replace()


In [None]:
# alternativ: durch Wertzuweisung


In [None]:
# Hersteller aus Europa finden und in eine Liste darstellen
# keine doppelten Namen anzeigen


In [None]:
# welche Autos kommen aus america und haben cylinders größer gleich 8?


In [None]:
# welche autos kommen aus japan oder europa, haben eine horspower größer gleich 120 und wiegen über 3500?
# idee: da es nur 3 herkunftsländer gibt und 2 gesucht werden, ist die idee zu sagen, dass das 3.te herukunftsland nicht in der lösung ist


In [None]:
# alternativ:


In [None]:
# wandle den Datentyp vom herstellungsjahr in einen string um


In [None]:
# check, ob Umwandlung funktioniert hat


In [None]:
# welche Autos wurden im Jahr 1980 gebaut?


In [None]:
# welche autos wurden in den Jahren 70,75,79 und 82 gebaut?


In [None]:
# alternativ: mit query()


## Zusatz: Performance - Was dauert länger?

In [None]:
import pandas as pd 
df1= pd.DataFrame({'A' : [1, 2, 3, 4],
                   'B' : [4, 3, 2, 1],
                   'C' : [9, 8, 7, 6]}, 
                  index=['Zeile1', 'Zeile2', 'Zeile3', 'Zeile4'])

print(df1)
df1

In [None]:
df1['B']

In [None]:
df1

In [None]:
%%timeit

df1.loc[(df1.A==4) & (df1["B"]==1), 'C'] = 10  
df1 

# mikrosekunde 

In [None]:
%%timeit

my_query_index = df1.query('B == 1 & A == 4').index

df1.loc[my_query_index,'C'] = 5000
df1 

# millisekunde

In [None]:
# nicht optimal und ab Pandas 3 nicht mehr verfügbar!!
%%timeit

df1['C'][(df1["A"]==4) & (df1["B"]==1)] = 3000
df1 
 
# millisekunde

In [None]:
%%timeit


df1[(df1.loc[:,["A"]] == 4) & (df1.loc[:,["B"]] == 1)]['C'] = 8

In [None]:
# nicht optimal und ab Pandas 3 nicht mehr verfügbar!!
%%timeit

df1.loc[:,'C'][(df1["A"]==4) & (df1["B"]==1)] = 3000
df1