# Hello Pandas

#### Pandas für Data Science ist ein wenig wie Mehl fürs Backen: Allein mit Mehl werden Sie keinen Teig produzieren, aber Sie werden wohl kaum jemals ohne Mehl backen.

## Zum Aufbau dieses Notebooks

In diesem Notebook wird die Python Bibliothek *Pandas* vorgestellt. Im ersten Teil des Notebooks gibt es Erklärungen und bereits ausgefüllte Codezellen. Diese sollen Sie ausführen, wenn Sie dort angekommen sind. Es gibt einige Stellen, an denen leere Zellen auftauchen. Dort sollen Sie selbst den passenden Code einfügen. An den Stellen, die mit *Spoiler* markiert sind, ist es empfehlenswert, erst nach der Bearbeitung der Zwischenaufgabe weiter zu lesen. Am Ende des Notebooks gibt es einen Abschnitt mit Übungsaufgaben. Dort können Sie das Erlernte selbst anwenden. Die Aufgaben enthalten Anforderungen gemischt aus allen Abschnitten und sind teilweise etwas schwieriger als die dort vorgestellten Beispiele. Das gesamte Notebook sollte mit minimalen Vorkenntnissen verständlich und zu bearbeiten sein. 

## Erste Schritte


Zunächst wollen wir die Pandas Bibliothek importieren. Die allgemein anerkannte Namenskonvention ist `pd`.

In [1]:
import pandas as pd

# diese Zeile sorgt lediglich für eine übersichtlichere Darstellung
pd.set_option('display.max_rows', 6)

Schauen wir uns zunächst den wichtigsten Objekttyp in Pandas an: *DataFrames*

Ein DataFrame sieht zum Beispiel so aus:

 |      | Apfel  | Banane |
 |:-----|-------:|-------:|
 |**0** | grün   | gelb   |
 |**1** | fest   | weich  |
 |**2** | sauer  | süß    |

Ein DataFrame ist eine Tabelle. Die Vielfältigkeit und Einfachheit der Möglichkeiten mit dieser Tabelle zu arbeiten, ist es, was Pandas so nützlich macht.

Ein DataFrame kann wie folgt erstellt werden:

In [2]:
df = pd.DataFrame({'Anna': [3, 10], 'Bob': [5, 7]})

# Diese Zeile dient der Ausgabe des Ergebnisses
df

Unnamed: 0,Anna,Bob
0,3,5
1,10,7


Erstellen Sie das DataFrame zum obigen Beispiel.

In [4]:
# Lösung
df = pd.DataFrame({'Apfel': ['grün', 'fest', 'sauer'], 'Banane': ['gelb', 'weich', 'süß']})
df

Unnamed: 0,Apfel,Banane
0,grün,gelb
1,fest,weich
2,sauer,süß


Natürlich möchte man große Datensätze nicht per Hand eingeben, sondern direkt einlesen lassen. Liegen die Daten bspw. in einer CSV Datei vor, lassen sie sich mit der Methode `read_csv` einlesen:

In [5]:
# Wichtig ist der Dateipfad, das Argument index_col können Sie ignorieren
reviews = pd.read_csv('/Users/louisborchert/Downloads/winemag-data-130k-v2.csv', index_col=0)

Der Datensatz ist unter folgender Lizenz

https://creativecommons.org/licenses/by-nc-sa/4.0/
    
auf Kaggle von dem Nutzer "zackthoutt" veröffentlicht. Der Datensatz kann unter folgendem Link gefunden werden (zuletzt geprüft am 22.11.2022):
    
https://www.kaggle.com/datasets/zynicide/wine-reviews

## Einen Überblick über den Datensatz gewinnen

Wir wollen uns einen ersten Überblick über den Datensatz verschaffen. Zuerst fragen wir die Dimensionen des DataFrames ab.

In [6]:
reviews.shape

(129971, 13)

Die Spaltennamen und der Zeilenindex sind ebenfalls Attribute des DataFrames, die wir uns zurückgeben lassen können:

In [7]:
reviews.columns

Index(['country', 'description', 'designation', 'points', 'price', 'province',
       'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title',
       'variety', 'winery'],
      dtype='object')

In [8]:
reviews.index

Int64Index([     0,      1,      2,      3,      4,      5,      6,      7,
                 8,      9,
            ...
            129961, 129962, 129963, 129964, 129965, 129966, 129967, 129968,
            129969, 129970],
           dtype='int64', length=129971)

Als nächstes schauen wir uns die obersten Zeilen an. Dazu gibt es die eingebaute Methode `head`.

In [9]:
reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


Wie wir sehen, wird der Herkunftsort des Weins sehr detailiert beschrieben (Land, Provinz, Regionen). Die Beschreibung jedes Weins ist ein Text, der wahrscheinlich nie für zwei Weine gleich sein wird. Es gibt mit der Punktzahl und dem Preis zwei Spalten mit numerischen Werten. Der Twittername eines Testers wird für eine Datenanalyse wohl kaum nützlich sein, da wir die Tester schon aufgrund ihres Namens unterscheiden können. Die Spalte region_2 enthält bisher auch keine neuen Informationen. Es gibt einige fehlende Werte (NaNs, dazu später mehr). All dies sind Erkenntnisse (zum Teil Mutmaßungen, die es noch zu überprüfen gilt), die man in dieser einfache Darstellung bereits gewinnen kann.

Wir sind nicht auf die ersten fünf Zeilen beschränkt. Wollen wir uns z.B. die Zeilen 601 bis 603 ansehen, können wir dafür die Methode iloc verwenden:

In [10]:
reviews.iloc[601:604]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
601,Mexico,"Sauvignon Blanc is, in general, one of Baja's ...",Viña Kristel,87,15.0,Valle de Guadalupe,,,Michael Schachner,@wineschach,Monte Xanic 2012 Viña Kristel Sauvignon Blanc ...,Sauvignon Blanc,Monte Xanic
602,US,"There's plenty of ripe berry-cherry fruit, fin...",,87,69.0,California,Oak Knoll District,Napa,,,Paoletti 2010 Cabernet Sauvignon (Oak Knoll Di...,Cabernet Sauvignon,Paoletti
603,US,"Ripe and luscious, this decadent Cabernet Fran...",,87,36.0,New York,North Fork of Long Island,Long Island,Anna Lee C. Iijima,,Peconic Bay Winery 2010 Cabernet Franc (North ...,Cabernet Franc,Peconic Bay Winery


Hier sehen wir, dass die Spalte `region_2` doch neue Informationen enthält, z.B. in Zeile 602. Man beachte, dass `iloc` das Ende des Bereichs ausschließt, so wie es beim Indizieren gängig ist.

Bauen Sie nun `head` mit Hilfe von `iloc` in der folgenden Zelle nach.

In [11]:
# Lösung
reviews.iloc[0:5]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


#### Zusatzaufgabe: ####

Es gibt auch eine Methode zum Auslesen der letzten fünf Zeilen. Finden Sie heraus wie dieses heißt. Vielleicht können Sie den Namen sogar erraten...

In [12]:
# Lösung
reviews.tail()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


## Selektion

Eine Methode zur Selektion von Einträgen haben wir bereits kennen gelernt: `iloc`. In diesem Abschnitt wollen wir das Wissen zum Auswählen von Einträgen vertiefen. Sie werden lernen, wie Sie Spalten selektieren, labelbasiert selektieren, nach Bedingungen selektieren und diese miteinander kombinieren können.

Eine der simpelsten Aufgaben besteht im Zurückgeben einer einzelnen Spalte. Jede Spalte ist ein Attribut eines DataFrames, d.h. wir können sie folgt abrufen:

In [13]:
reviews.price

0          NaN
1         15.0
2         14.0
          ... 
129968    30.0
129969    32.0
129970    21.0
Name: price, Length: 129971, dtype: float64

Die Rückgabe hat den Datentyp `pd.Series`, der zweite wichtige Typ der Pandas Bibliothek. Eine Series ist im Wesentlichen das Pandas Pendant einer Liste. Definieren Sie selbst eine Liste und erstellen mit Hilfe dieser eine Series.

In [14]:
# Lösung z.B.
numbers = [0, 2, 4, 6]
pd.Series(numbers)

0    0
1    2
2    4
3    6
dtype: int64

Eine Series hat wie ein DataFrame einen Index, der standandmäßig auf 0 bis Länge minus 1 gesetzt wird, aber ebenfalls angepasst werden kann. Im Gegensatz zu DataFrames besitzt eine Series keinen Spaltennamen sondern einen allgemeinen Namen. Man kann sich eine Series als Spalte eines DataFrames vorstellen und ein DataFrame als die Aneinanderreihung von Series ansehen.

Zurück zum Selektieren. Die Preisspalte kann ebenfalls wie folgt zurückgegeben werden:

In [15]:
reviews.loc[:, 'price']

0          NaN
1         15.0
2         14.0
          ... 
129968    30.0
129969    32.0
129970    21.0
Name: price, Length: 129971, dtype: float64

Diese Methode erinnert an die `iloc` Methode weiter oben. Worin unterscheiden sich diese beiden Methoden?
- `iloc` ist *indexbasiert*, d.h. die Einträge werden mittels ihrer Position im DataFrame ausgewählt
- `loc` ist *labelbasiert*, d.h. die Einträge werden mittels ihres Spaltennamens und Zeilenindex ausgewählt

Beide Methode arbeiten Zeile first, Spalte second. Das erste Argument bestimmt also den Zeilenbereich und das zweite Argument den Spaltenbereich. Wird nur ein Argument übergeben, werden alle Spalten ausgewählt.

#### Warnung:
Es gibt ein Detail, in dem sich `iloc` und `loc` unterscheiden. Führen Sie die folgende Zeile aus. Was fällt Ihnen auf?

In [16]:
reviews.loc[601:604]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
601,Mexico,"Sauvignon Blanc is, in general, one of Baja's ...",Viña Kristel,87,15.0,Valle de Guadalupe,,,Michael Schachner,@wineschach,Monte Xanic 2012 Viña Kristel Sauvignon Blanc ...,Sauvignon Blanc,Monte Xanic
602,US,"There's plenty of ripe berry-cherry fruit, fin...",,87,69.0,California,Oak Knoll District,Napa,,,Paoletti 2010 Cabernet Sauvignon (Oak Knoll Di...,Cabernet Sauvignon,Paoletti
603,US,"Ripe and luscious, this decadent Cabernet Fran...",,87,36.0,New York,North Fork of Long Island,Long Island,Anna Lee C. Iijima,,Peconic Bay Winery 2010 Cabernet Franc (North ...,Cabernet Franc,Peconic Bay Winery
604,Spain,Bright red-fruit aromas are matched by dry spi...,Reserva 1423,87,35.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Príncipe de Viana 2008 Reserva 1423 Red (Navarra),Red Blend,Príncipe de Viana


<br>

<br>

<br>

<br>

## ---------- *Spoiler* ---------- 

<br>

<br>

<br>

<br>

<br>

<br>

<br>

<br>

Bei der Methode `loc` wird das Ende des Bereichs inkludiert. Wieso? Das hängt damit zusammen, dass `loc` labelbasiert arbeitet. Stellen Sie sich vor, Sie betrachten ein DataFrame `df`, das mit alphabetisch geordneten Vornamen indiziert ist. Wollen Sie alle Namen von Adam bis Jonas zurückgeben, ist es intuitiver `df.loc['Adam':'Jonas']` zu schreiben als `df.loc['Adam':'Jonat']`.

Bei beiden Methoden ist es möglich, in jedem Argument einen einzelnen Wert, eine Liste oder einen Bereich anzugeben. Hier sind einige Beispiele:

In [17]:
reviews.iloc[1:3, 2:9]

Unnamed: 0,designation,points,price,province,region_1,region_2,taster_name
1,Avidagos,87,15.0,Douro,,,Roger Voss
2,,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt


In [18]:
reviews.loc[[0, 1, 3, 100], 'taster_name']

0           Kerin O’Keefe
1              Roger Voss
3      Alexander Peartree
100    Anna Lee C. Iijima
Name: taster_name, dtype: object

In [19]:
reviews.loc[9000:9002, ['description', 'points', 'price']]

Unnamed: 0,description,points,price
9000,"Oak stands out, making smoky caramel and butte...",88,50.0
9001,"Ripe and oaky, with luscious flavors of pineap...",88,24.0
9002,"This Verdicchio, from the best grapes of the e...",88,25.0


Nun zu einem weiteren starken Werkzeug in Pandas:
Stellen Sie sich vor, Sie wollen alle Weine betrachten, deren Preis höchstens 25 beträgt. Dies ist mit ein bisschen Überlegen sicherlich in ein paar Zeilen Code möglich. Aber es geht sogar in einer Zeile, kurz und übersichtlich:

In [20]:
reviews.loc[reviews.price <= 25]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129957,Spain,Lightly baked berry aromas vie for attention w...,Crianza,90,17.0,Northern Spain,Rioja,,Michael Schachner,@wineschach,Viñedos Real Rubio 2010 Crianza (Rioja),Tempranillo Blend,Viñedos Real Rubio
129963,Israel,"A bouquet of black cherry, tart cranberry and ...",Oak Aged,90,20.0,Galilee,,,Mike DeSimone,@worldwineguys,Dalton 2012 Oak Aged Cabernet Sauvignon (Galilee),Cabernet Sauvignon,Dalton
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Welche Logik steckt dahinter? Der Methode `loc` kann als Argument eine Liste mit Wahrheitswerten übergeben werden, die die gleiche Länge wie das DataFrame hat.

Es können mehrere Bedingungen mit "und" ( `&` ) sowie mit "oder" ( `|` ) verknüpft werden:

In [21]:
reviews.loc[(reviews.region_1 == 'Etna') & (reviews.price <= 25)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
844,Italy,"Aromas of citrus, white stone fruit and a vege...",Bianco,90,24.0,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Cottanera 2015 Bianco (Etna),Carricante,Cottanera
862,Italy,"Alluring scents of Spanish broom, iris, berry ...",,90,19.0,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Tornatore 2015 Rosato (Etna),Rosato,Tornatore
1972,Italy,Made from Nerello Mascalese and Nerello Cappuc...,Barbazzale,88,14.0,Sicily & Sardinia,Etna,,,,Cottanera 2011 Barbazzale (Etna),Red Blend,Cottanera
...,...,...,...,...,...,...,...,...,...,...,...,...,...
122596,Italy,"Made with 80% Carricante and 20% Catarratto, t...",Rampante Contrada Crasà Bianco,89,20.0,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Cantine Russo 2013 Rampante Contrada Crasà Bia...,White Blend,Cantine Russo
125389,Italy,"Aromas of hay, orchard fruit and a whiff of ha...",Erse Bianco,88,25.0,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Tenuta di Fessina 2014 Erse Bianco (Etna),White Blend,Tenuta di Fessina
129735,Italy,"Dark-skinned berry, Mediterranean herb and for...",Rosso Villagrande,90,21.0,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Barone di Villagrande 2012 Rosso Villagrande ...,Red Blend,Barone di Villagrande


## Zuweisung

Hat man die Selektion verstanden, ist die Zuweisung von Daten eine leichte Aufgabe. Man wählt einen Eintrag oder eine Menge von Einträge (z.B. eine Spalte) aus und weist ihnen neue Werte zu.

In [22]:
# um das ursprüngliche DataFrame nicht zu verändern, erstellen wir eine Kopie
temp = reviews.copy()
temp.loc[0, 'region_2'] = 'Beispiel Region'
temp

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,Beispiel Region,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Man kann dabei auch eine neue Spalte erzeugen.

In [23]:
temp['shifted_index'] = range(10, len(temp)+10)
temp

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,shifted_index
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,Beispiel Region,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,10
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,11
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser,129978
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,129979
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,129980


## Zusammenfassung der Daten

Um schnell an eine Zusammenfassung der Daten gelangen, steht Ihnen die äußerst nützliche Methode `describe` zur Verfügung:

In [24]:
pd.set_option('display.max_rows', 8)

reviews.points.describe()

count    129971.000000
mean         88.447138
std           3.039730
min          80.000000
25%          86.000000
50%          88.000000
75%          91.000000
max         100.000000
Name: points, dtype: float64

Für kategorische Daten sind einige der obigen Auswertungen nicht möglich. Pandas erkennt automatisch, um welche Datentypen es sich handelt. Rufen Sie die Methode für eine Spalte mit Strings auf und vergleichen Sie die Ergebnisse:

In [25]:
# Lösung z.B.
reviews.country.describe()

count     129908
unique        43
top           US
freq       54504
Name: country, dtype: object

Es ist natürlich auch möglich einzelne statistische Auswertungen vorzunehmen, zum Beispiel:

In [26]:
reviews.points.mean()

88.44713820775404

Oder um die Zeile zu finden, die die maximale Punktzahl enthält:

In [27]:
reviews.points.idxmax()

345

Wir wollen das nutzen, um unsere These zu überprüfen, dass alle Beschreibungen unterschiedlich sind.

In [28]:
reviews.description.value_counts()

Seductively tart in lemon pith, cranberry and pomegranate, this refreshing, light-bodied quaff is infinitely enjoyable, both on its own or at the table. It continues to expand on the palate into an increasing array of fresh flavors, finishing in cherry and orange.                                                                                                                                     3
Cigar box, café au lait, and dried tobacco aromas are followed by coffee and cherry flavors, with barrel spices lingering on the finish. The wood gets a bit out front but it still delivers enjoyment.                                                                                                                                                                                                      3
This zesty red has pretty aromas that suggest small red berry, blue flower and a whiff of moist soil. The vibrant palate offers sour cherry, pomegranate and a hint of anise alongside zesty acidity and r

Unerwarteterweise gibt es Beschreibungen, dreimal im Datensatz auftauchen. Die Methode value_counts sortiert die Einträge automatisch, d.h. 3 ist auch die maximale Häufigkeit, die in der Spalte descritpion auftaucht. Alternativ können Sie dies mit der folgenden Zeile herausfinden:

In [29]:
reviews.description.value_counts().max()

3

Sie werden diese Mehrfachnennungen in den Übungsaufgaben weiter untersuchen.

## Arithmetische Operationen und Maps

Als nächstes beschäftigen wir uns mit Möglichkeiten, alle Daten einer Spalte simultan anzupassen. Schauen Sie sich die nächste Zeile und ihr Ergebnis an:

In [30]:
reviews.price + 100

0           NaN
1         115.0
2         114.0
3         113.0
          ...  
129967    175.0
129968    130.0
129969    132.0
129970    121.0
Name: price, Length: 129971, dtype: float64

Hier wird eine Series auf der linken Seite mit einem einzelnem Wert auf der rechten Seite addiert. Pandas interpretiert das so, dass wir wohl zu jedem Eintrag der Series die Zahl 100 addieren wollen. Natürlich können Operationen auch zwischen Series der gleichen Länge ausgeführt werden. Im Summe kann damit sehr eleganter Code geschrieben werden:

In [31]:
reviews.province + " in " + reviews.country

0         Sicily & Sardinia in Italy
1                  Douro in Portugal
2                       Oregon in US
3                     Michigan in US
                     ...            
129967                  Oregon in US
129968              Alsace in France
129969              Alsace in France
129970              Alsace in France
Length: 129971, dtype: object

Um flexibler in der Funktionalität zu sein, können "maps" genutzt werden. Wollen wir von jedem Land nur die ersten drei Buchstaben haben, können wir folgende Syntax nutzen:

In [32]:
reviews.country.map(lambda p: str(p)[0:3])

0         Ita
1         Por
2          US
3          US
         ... 
129967     US
129968    Fra
129969    Fra
129970    Fra
Name: country, Length: 129971, dtype: object

## GroupBy

Die `groupby` Methode ist eine sehr mächtiges Werkzeug, um Einsichten in die Daten zu bekommen und diese zu strukturieren. Als Motivation: Was ist der Durchschnittspreis jeder Weinsorte? Nutzen Sie die nächste Zelle, um sich die Antwort auf diese Frage zurück geben zu lassen.

In [None]:
# hierzu gibt es keine Musterlösung

<br>

<br>

<br>

<br>

## ---------- *Spoiler* ---------- 

<br>

<br>

<br>

<br>

<br>

<br>

<br>

<br>

Durchaus machbar aber einige Zeilen Code werden schon benötigt, oder? Mit der `groupby` Methode lässt sich das Resultat wie folgt erreichen.

In [33]:
reviews.groupby('variety')['price'].mean()

variety
Abouriou       35.000000
Agiorgitiko    23.571429
Aglianico      38.887755
Aidani         27.000000
                 ...    
Zlahtina       14.500000
Zweigelt       21.516484
Çalkarası      19.000000
Žilavka        15.000000
Name: price, Length: 707, dtype: float64

Die `groupby` Methode macht uns das Leben also deutlich einfacher. Wie sieht das Datenobjekt eigentlich aus, das bei dieser Methode zurückgegeben wird? Finden Sie es heraus! Nutzen Sie die nächste Zelle dazu:

In [34]:
# Lösung
reviews.groupby('variety')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc2a46ba0d0>

Nicht besonders hilfreich, oder? Das liegt daran, dass die Methode primär für einen mehrstufigen Prozess genutzt wird, wie das weiter oben der Fall ist. Sie können aber dennoch einige Attribute des erzeugten GroupBy Objekts abfragen. Beispielsweise die Anzahl der Gruppen:

In [35]:
reviews.groupby('variety').ngroups

707

Sie können auch eigene Funktionen definieren und auf das GroupBy Objekt anwenden:

In [36]:
def group_middle(x):
    return (x.max() + x.min()) / 2

middle = reviews.groupby('variety')['price'].apply(group_middle)
middle

variety
Abouriou       45.0
Agiorgitiko    38.0
Aglianico      93.0
Aidani         27.0
               ... 
Zlahtina       14.5
Zweigelt       39.5
Çalkarası      19.0
Žilavka        15.0
Name: price, Length: 707, dtype: float64

Es ist auch möglich, nach mehreren Kriterien zu gruppieren:

In [37]:
min_points = reviews.groupby(['country', 'variety'])['points'].min()
min_points

country    variety                   
Argentina  Barbera                       85
           Bonarda                       80
           Bordeaux-style Red Blend      81
           Bordeaux-style White Blend    83
                                         ..
Uruguay    Tannat-Merlot                 85
           Tannat-Syrah                  84
           Tempranillo-Tannat            88
           White Blend                   87
Name: points, Length: 1612, dtype: int64

## Mit fehlenden Daten umgehen

In der Data Science Praxis werden Daten immer unvollständig sein. Dafür kann es viele Gründe geben: Eine Person hat bewusst oder unbewusst bei einem Fragebogen das Alter ausgelassen, ein Sensor arbeitet nicht hundertprozentig zuverlässig und nimmt gelegentlich zum vorgesehen Zeitpunkt keine Messung vor, zu einem erst vor kurzem gegründetem Start-up reichen die Geschäftsdaten weniger weit in die Vergangenheit als bei älteren Unternehmen...
Fehlende Werte werden immer auftreten und es gibt keinen mustergültigen Weg mit Ihnen umzugehen.

Zunächst gilt es, die fehlenden Werte ausfindig zu machen. Hierzu nutzt man die Methode `isna`:

In [38]:
reviews.isna()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,False,False,False,False,True,False,False,True,False,False,False,False,False
1,False,False,False,False,False,False,True,True,False,False,False,False,False
2,False,False,True,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,True,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129967,False,False,True,False,False,False,False,False,False,False,False,False,False
129968,False,False,False,False,False,False,False,True,False,False,False,False,False
129969,False,False,True,False,False,False,False,True,False,False,False,False,False
129970,False,False,False,False,False,False,False,True,False,False,False,False,False


Die Methode gibt ein DataFrame mit Wahrheitswerten zurück. An jeder Stelle, an der in dem ursprünglichen DataFrame ein Wert fehlt, wird `True` eingetragen, andernfall `False`. Die umgekehrte Funktionalität erreicht man mit `notna`. Die Angaben über fehlenden Daten lassen sich mit der Methoden `sum` zusammenfassen. (Hierbei wird `True` als 1 gewertet und `False` als 0.)

In [39]:
pd.set_option('display.max_rows', 13)
reviews.isna().sum()

country                     63
description                  0
designation              37465
points                       0
price                     8996
province                    63
region_1                 21247
region_2                 79460
taster_name              26244
taster_twitter_handle    31213
title                        0
variety                      1
winery                       0
dtype: int64

In [40]:
pd.set_option('display.max_rows', 8)

Nun stellt sich die Frage, wie mit diesen fehlenden Daten umgehen. Es gibt zwei Ansätze:
- Fehlende Daten ersetzen
- Fehlende Daten verwerfen

### Fehlende Daten ersetzen

Bei diesem Ansatz versucht man, so gut es geht, die Lücken mit sinnvollen Daten zu füllen, ohne den Datensatz zu sehr zu verzerren. Dazu gibt es verschiedene Möglichkeiten, die je nach Kontext eingesetzt werden.

Die erste Möglichkeit besteht darin, alle fehlenden Werte durch einen festen Wert (z.B. den Mittelwert der vorhanden Werte) zu ersetzen:

In [41]:
mean_price = reviews.price.mean()
reviews.price.fillna(mean_price)

0         35.363389
1         15.000000
2         14.000000
3         13.000000
            ...    
129967    75.000000
129968    30.000000
129969    32.000000
129970    21.000000
Name: price, Length: 129971, dtype: float64

Eine andere Möglichkeit, die oft bei Zeitreihen verwendet wird, besteht darin, einen fehlenden Wert durch den Wert des Vorgänger zu ersetzen.

In [42]:
reviews.price.fillna(method='ffill')

0          NaN
1         15.0
2         14.0
3         13.0
          ... 
129967    75.0
129968    30.0
129969    32.0
129970    21.0
Name: price, Length: 129971, dtype: float64

Das Argument `'ffill'` steht dabei für "forward fill". Alternativ kann man mit `'bfill'` für "backward fill" den Wert des Nachfolgers nutzen.

Des weiteren kann man die Daten mittels der Methode `interpolate` interpolieren. Standardmäßig wird linear interpoliert. Wir werden uns hier auf diesen Fall beschränken, es sei aber gesagt, dass noch etliche weitere Möglichkeiten gibt.

In [46]:
reviews.price.interpolate()

0          NaN
1         15.0
2         14.0
3         13.0
          ... 
129967    75.0
129968    30.0
129969    32.0
129970    21.0
Name: price, Length: 129971, dtype: float64

Man beachte, dass der erste Wert nicht interpoliert wird, da nur innere Werte interpoliert werden können.

### Fehlende Daten verwerfen

Bei diesem Ansatz werden die Zeilen oder Spalten, die fehlende Werte enthalten, entfernt. Der Datensatz wird dadurch von fehlenden Werten bereinigt. Umgesetzt wird dies mit der Methode `dropna`. Mit dem Parameter `axis` legen wir fest, ob Zeilen (`0 `oder `'index'`) oder Spalten (`1` oder `'columns'`) gelöscht werden.

In [47]:
reviews.dropna(axis=1)

Unnamed: 0,description,points,title,winery
0,"Aromas include tropical fruit, broom, brimston...",87,Nicosia 2013 Vulkà Bianco (Etna),Nicosia
1,"This is ripe and fruity, a wine that is smooth...",87,Quinta dos Avidagos 2011 Avidagos Red (Douro),Quinta dos Avidagos
2,"Tart and snappy, the flavors of lime flesh and...",87,Rainstorm 2013 Pinot Gris (Willamette Valley),Rainstorm
3,"Pineapple rind, lemon pith and orange blossom ...",87,St. Julian 2013 Reserve Late Harvest Riesling ...,St. Julian
...,...,...,...,...
129967,Citation is given as much as a decade of bottl...,90,Citation 2004 Pinot Noir (Oregon),Citation
129968,Well-drained gravel soil gives this wine its c...,90,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Domaine Gresser
129969,"A dry style of Pinot Gris, this is crisp with ...",90,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Domaine Marcel Deiss
129970,"Big, rich and off-dry, this is powered by inte...",90,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Domaine Schoffit


Standardmäßig werden alle Zeilen bzw. Spalten gelöscht, die mindestens einen fehlenden Wert enthalten. Wir können hier gezielter vorgehen und einen Mindestwert an fehlenden Daten vorgeben, die in einer Zeile bzw. Spalte vorhanden sein müssen, damit diese entfernt wird. Alternativ können wir mit `how='all'` festlegen, dass nur Zeilen bzw. Spalten gelöscht werden, in denen alle Einträge fehlen. Der Parameter `thresh`legt fest, wie viele Einträge *vorhanden* sein müssen, damit die Zeile bzw. Spalte *nicht* gelöscht wird.

In [48]:
reviews.dropna(axis=1, thresh=100000)

Unnamed: 0,country,description,points,price,province,region_1,taster_name,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",87,,Sicily & Sardinia,Etna,Kerin O’Keefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",87,15.0,Douro,,Roger Voss,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",87,14.0,Oregon,Willamette Valley,Paul Gregutt,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",87,13.0,Michigan,Lake Michigan Shore,Alexander Peartree,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
...,...,...,...,...,...,...,...,...,...,...
129967,US,Citation is given as much as a decade of bottl...,90,75.0,Oregon,Oregon,Paul Gregutt,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,90,30.0,Alsace,Alsace,Roger Voss,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",90,32.0,Alsace,Alsace,Roger Voss,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",90,21.0,Alsace,Alsace,Roger Voss,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Es können auch (unabhängig von fehlenden Werten) ausgewählte Zeilen bzw. Spalten mit der Methode `drop`gelöscht werden:

In [49]:
reviews.drop([0, 2, 4], axis=0)

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
5,Spain,Blackberry and raspberry aromas show a typical...,Ars In Vitro,87,15.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Tandem 2011 Ars In Vitro Tempranillo-Merlot (N...,Tempranillo-Merlot,Tandem
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Das Ersetzen hat den Vorteil, dass keine Informationen verloren gehen. Allerdings kann der Datensatz durch das Hinzufügen künstlicher Daten verfälscht werden. Ein Verzerrung der Daten findet beim Löschen nicht statt. Man verliert dadurch jedoch potentiell wertvolle Informationen.

**Generell gilt:** Je weniger Daten in der gleichen Zeile oder Spalte fehlen, desto eher greift man zur Methode der Ersetzung. Je mehr Daten in der gleichen Zeile oder Spalte fehlen, desto eher greift man zur Methode der Entfernung von Daten.

#### Na gut, wie Sie gesehen haben, kann man mit Pandas allein doch ein bisschen mehr anfangen, als nur mit Mehl beim Backen. In der Praxis wollen Sie aber fast immer zusätzlich weitere Bibliotheken nutzen. Dazu mehr in den anderen Notebooks.

## Anmerkung

Es gibt ein wichtiges Detail, auf das bisher noch nicht eingegangen wurde. Bei der Bearbeitung von Objekten gibt es grundsätzlich zwei Vorgehensweisen: Das Objekt selbst bearbeiten oder eine bearbeitete Kopie zurückgeben. Die meisten der hier verwendeten Methoden geben eine bearbeite Kopie zurück. Damit Sie auf dem Objekt selbst arbeiten können, besitzen viele Methoden den Parameter `inplace`, den Sie auf `True`setzen können. Natürlich können Sie auch folgende Syntax verwenden: `reviews = reviews.dropna(axis=1)`.

Wichtig ist vor allem, sich bewusst darüber zu sein, mit welche der beiden Möglichkeiten eine Methode arbeitet, um Fehler zu vermeiden.

## Übungsaufgaben

Es wird dazu geraten, die Übungsabschnitte in der vorgegebenen Reihenfolge zu bearbeiten und mit dem im Abschnitt *Fehlende Daten behandeln* erstellten DataFrame `df` weiter zu arbeiten. Andernfalls kann es zu unerwartetem Verhalten bei den Lösungen kommen.

### Fehlende Daten behandeln

Erstellen Sie eine Kopie des DataFrame `reviews` und nennen Sie es `df`. Es ist eine gute Praxis, die Originaldaten unberührt zu lassen und stattdessen auf einer Kopie zu arbeiten. Lassen sie sich anschließend eine Übersicht über die Anzahl der fehlenden Werte pro Spalte ausgeben.

In [50]:
pd.set_option('display.max_rows', 13)

# fügen Sie hier Ihren Code ein:
df = reviews.copy()
df.isna().sum()

country                     63
description                  0
designation              37465
points                       0
price                     8996
province                    63
region_1                 21247
region_2                 79460
taster_name              26244
taster_twitter_handle    31213
title                        0
variety                      1
winery                       0
dtype: int64

Beim Land und der Provinz handelt es sich um Informationen, zwischen denen ein logischer Zusammenhang besteht. Außerdem fehlen bei beiden genau gleich viele Einträge. Die Vermutung liegt daher nahe, es handelt sich um die gleichen Zeilen, in denen die jeweiligen Einträge fehlen. Überprüfen Sie diese Vermutung.

In [51]:
len(df.loc[reviews.country.isna() | df.province.isna()]) == len(df.loc[reviews.country.isna()])

True

Entfernen Sie alle Zeilen, bei denen das Land, die Provinz oder die Weinsorte fehlt.

In [52]:
# bei country und province fehlen die gleichen Zeilen, daher können wir uns df.province.isna() sparen
to_drop = df.loc[df.country.isna() | df.variety.isna()]
df = df.drop(to_drop.index)

Entfernen Sie nun alle Spalten, die mindestens 30000 fehlende Einträge enthalten.

In [53]:
thresh = len(df) - 30000
df = df.dropna(axis=1, thresh=thresh)

Schauen Sie sich erneut die Übersicht der fehlenden Werte an.

In [54]:
df.isna().sum()

country            0
description        0
points             0
price           8992
province           0
region_1       21183
taster_name    26243
title              0
variety            0
winery             0
dtype: int64

Ersetzen Sie fehlende Einträge in der Preisspalte durch den durchschnittlichen Preis.

In [55]:
mean_price = df.price.mean()
df.price = df.price.fillna(mean_price)

Ersetzen Sie alle anderen fehlenden Werte durch den String `'keine Angabe'`.

In [56]:
df = df.fillna('keine Angabe')

Überprüfen Sie, ob es nun noch fehlenden Werte im DataFrame gibt.

In [57]:
df.isna().sum()

country        0
description    0
points         0
price          0
province       0
region_1       0
taster_name    0
title          0
variety        0
winery         0
dtype: int64

In [58]:
# alternativ:
df.isna().sum().sum()

0

### Die Mehrfachnennungen der Beschreibungen

Es ist doch etwas verwunderlich, dass verschiedene Weine die auf den Wortlaut gleiche Beschreibung bekommen sollen. Schauen Sie sich die Zeilen mit der folgenden Beschreibung an:

`'Seductively tart in lemon pith, cranberry and pomegranate, this refreshing, light-bodied quaff is infinitely enjoyable, both on its own or at the table. It continues to expand on the palate into an increasing array of fresh flavors, finishing in cherry and orange.'`

In [59]:
df.loc[df.description == 'Seductively tart in lemon pith, cranberry and pomegranate, this refreshing, light-bodied quaff is infinitely enjoyable, both on its own or at the table. It continues to expand on the palate into an increasing array of fresh flavors, finishing in cherry and orange.']

Unnamed: 0,country,description,points,price,province,region_1,taster_name,title,variety,winery
12141,US,"Seductively tart in lemon pith, cranberry and ...",91,29.0,California,Russian River Valley,Virginie Boone,Ousterhout 2014 Woods Vineyard Rosé of Pinot N...,Pinot Noir,Ousterhout
51822,US,"Seductively tart in lemon pith, cranberry and ...",89,25.0,California,Russian River Valley,Virginie Boone,Ousterhout 2014 800 Vines Jenna's Vineyard Ros...,Pinot Noir,Ousterhout
119866,US,"Seductively tart in lemon pith, cranberry and ...",89,25.0,California,Russian River Valley,Virginie Boone,Ousterhout 2014 800 Vines Jenna's Vineyard Ros...,Pinot Noir,Ousterhout


Was fällt Ihnen auf? Überprüfen Sie, ob die letzten beiden Zeilen wirklich identisch sind und in welchen Spalten sich die ersten beiden Zeilen unterscheiden.

In [60]:
df.loc[51822] == df.loc[119866]

country        True
description    True
points         True
price          True
province       True
region_1       True
taster_name    True
title          True
variety        True
winery         True
dtype: bool

In [61]:
df.loc[51822] == df.loc[12141]

country         True
description     True
points         False
price          False
province        True
region_1        True
taster_name     True
title          False
variety         True
winery          True
dtype: bool

Pandas bringt die Methode drop_duplicates mit, die es erlaubt mehrfach auftretende Zeilen zu löschen.

In [62]:
df = df.drop_duplicates()
# stehen lassen!!

Wir schauen uns die Bezeichnungen der beiden Weine genauer an:

In [63]:
multi_descr = df.loc[df.description == 'Seductively tart in lemon pith, cranberry and pomegranate, this refreshing, light-bodied quaff is infinitely enjoyable, both on its own or at the table. It continues to expand on the palate into an increasing array of fresh flavors, finishing in cherry and orange.']
for title in multi_descr.title:
    print(title)
# stehen lassen!!

Ousterhout 2014 Woods Vineyard Rosé of Pinot Noir (Russian River Valley)
Ousterhout 2014 800 Vines Jenna's Vineyard Rosé of Pinot Noir (Russian River Valley)


Aufgrund der ähnlichen Bezeichnungen und der exakt gleichen Beschreibungen lässt sich vermuten, dass es sich etwa um zwei verschiedene Editionen des gleichen Weins handelt. Neben dem Preis ist auch die Punktbewertung unterschiedlich. Um dieses Phänomen besser zu verstehen, müsste man sich mit dem Thema Wein besser auskennen oder den Autor der Daten fragen.

Für uns hat es sich aber schon deshalb gelohnt, sich die Wiederholung der Beschreibungen anzuschauen, da wir dadurch bemerkt haben, dass es doppelte Zeilen gab. Dies kann man natürlich unabhängig vom einem konkreten Verdacht überprüfen.

### Das Preisleistungsverhältnis

Fügen Sie dem DataFrame eine Spalte hinzu, in der das Preisleistungsverhältnis (Punkte durch Preis) abgebildet wird.

In [64]:
pd.set_option('display.max_rows', 8)

# fügen Sie hier Ihren Code ein:
df.loc[:, 'cost_performance_ratio'] = (df.points / df.price)
df.head()

Unnamed: 0,country,description,points,price,province,region_1,taster_name,title,variety,winery,cost_performance_ratio
0,Italy,"Aromas include tropical fruit, broom, brimston...",87,35.368796,Sicily & Sardinia,Etna,Kerin O’Keefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,2.459795
1,Portugal,"This is ripe and fruity, a wine that is smooth...",87,15.0,Douro,keine Angabe,Roger Voss,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,5.8
2,US,"Tart and snappy, the flavors of lime flesh and...",87,14.0,Oregon,Willamette Valley,Paul Gregutt,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm,6.214286
3,US,"Pineapple rind, lemon pith and orange blossom ...",87,13.0,Michigan,Lake Michigan Shore,Alexander Peartree,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian,6.692308
4,US,"Much like the regular bottling from 2012, this...",87,65.0,Oregon,Willamette Valley,Paul Gregutt,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks,1.338462


Erstellen Sie eine Übersicht über das Preisleistungsverhältnis, die Minimum, Maximum, Durchschnitt, Median und Standardabweichung enthält.

In [65]:
df.cost_performance_ratio.describe()

count    119928.000000
mean          3.747257
std           2.177169
min           0.026667
25%           2.200000
50%           3.178571
75%           4.944444
max          21.500000
Name: cost_performance_ratio, dtype: float64

Welche Weine haben das beste Preisleistungsverhältnis?

In [66]:
best = df.loc[df.cost_performance_ratio == df.cost_performance_ratio.max()]
for wine in best.title:
    print(wine)

Bandit NV Merlot (California)
Cramele Recas 2011 UnWineD Pinot Grigio (Viile Timisului)


Welche Weinsorte bietet durchschnittlich das beste Preisleistungsverhältnis und wie hoch ist dieses?

In [67]:
print(df.groupby('variety')['cost_performance_ratio'].mean().idxmax())
print(df.groupby('variety')['cost_performance_ratio'].mean().max())

Trajadura
12.285714285714286


### Weitere Übungsaufgaben

Wie viele unterschiedliche Tester gibt es? Wer hat die meisten Weine bewertet und wer die wenigsten? ('keine Angabe' sollte nicht berücksichtigt werden)

In [68]:
taster = df.taster_name.loc[df.taster_name != 'keine Angabe']
print(len(taster.unique()))
print(taster.value_counts().idxmin())
print(taster.value_counts().idxmax())

19
Christina Pickard
Roger Voss


Erstellen Sie eine Series, die ein Kürzel aus je drei Buchstaben für Land, Provinz und Region_1 enthält. Für den ersten Eintrag würde es so aussehen: Ita_Sic_Etn. Fügen Sie diese Series als Spalte zum DataFrame df hinzu und schauen sie sich ein paar Zeilen des neue DataFrames an.

In [69]:
acronym = df.country.map(lambda p: str(p)[0:3]) + '_' + df.province.map(lambda p: str(p)[0:3]) + '_' + df.region_1.map(lambda p: str(p)[0:3])
df.loc[:, 'acronym'] = acronym
df.head()

Unnamed: 0,country,description,points,price,province,region_1,taster_name,title,variety,winery,cost_performance_ratio,acronym
0,Italy,"Aromas include tropical fruit, broom, brimston...",87,35.368796,Sicily & Sardinia,Etna,Kerin O’Keefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,2.459795,Ita_Sic_Etn
1,Portugal,"This is ripe and fruity, a wine that is smooth...",87,15.0,Douro,keine Angabe,Roger Voss,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,5.8,Por_Dou_kei
2,US,"Tart and snappy, the flavors of lime flesh and...",87,14.0,Oregon,Willamette Valley,Paul Gregutt,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm,6.214286,US_Ore_Wil
3,US,"Pineapple rind, lemon pith and orange blossom ...",87,13.0,Michigan,Lake Michigan Shore,Alexander Peartree,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian,6.692308,US_Mic_Lak
4,US,"Much like the regular bottling from 2012, this...",87,65.0,Oregon,Willamette Valley,Paul Gregutt,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks,1.338462,US_Ore_Wil


Finden Sie alle Weine, deren Punktzahl außerhalb der einfachen Standardabweichung des Durchschnitts liegen. (Also alle Weine, deren Punktzahl nicht im Bereich von mean-std bis mean+std liegen.)

In [70]:
std = df.points.std()
mean = df.points.mean()
df.loc[(df.points < mean - std) | (df.points > mean + std)]

Unnamed: 0,country,description,points,price,province,region_1,taster_name,title,variety,winery,cost_performance_ratio,acronym
51,Chile,This is much different than Casa Silva's 2009 ...,85,22.000000,Colchagua Valley,keine Angabe,Michael Schachner,Casa Silva 2008 Gran Reserva Petit Verdot (Col...,Petit Verdot,Casa Silva,3.863636,Chi_Col_kei
52,Italy,The Monica grape often shows a rustic or raw q...,85,14.000000,Sicily & Sardinia,Monica di Sardegna,keine Angabe,Cantine di Dolianova 2010 Dolia (Monica di Sa...,Monica,Cantine di Dolianova,6.071429,Ita_Sic_Mon
53,France,"Fruity and lightly herbaceous, this has fine t...",85,15.000000,Bordeaux,Bordeaux Blanc,Roger Voss,Château de Sours 2011 La Fleur d'Amélie (Bord...,Bordeaux-style White Blend,Château de Sours,5.666667,Fra_Bor_Bor
54,Italy,"A blend of Nero d'Avola and Nerello Mascalese,...",85,35.368796,Sicily & Sardinia,Sicilia,keine Angabe,Corvo 2010 Rosso Red (Sicilia),Red Blend,Corvo,2.403248,Ita_Sic_Sic
...,...,...,...,...,...,...,...,...,...,...,...,...
129679,US,From a ranch planted originally in 1926 this i...,93,47.000000,California,Russian River Valley,Virginie Boone,Carlisle 2014 Montafi Ranch Zinfandel (Russian...,Zinfandel,Carlisle,1.978723,US_Cal_Rus
129680,Portugal,Old vines in a field blend give a rich structu...,93,39.000000,Douro,keine Angabe,Roger Voss,Casca Wines 2011 Monte Cascas Grande Reserva R...,Portuguese Red,Casca Wines,2.384615,Por_Dou_kei
129681,Italy,"Ripe black-skinned berry, violet, leather and ...",93,60.000000,Piedmont,Barbaresco,Kerin O’Keefe,Cascina delle Rose 2013 Tre Stelle (Barbaresco),Nebbiolo,Cascina delle Rose,1.550000,Ita_Pie_Bar
129682,US,After helping Liquid Farm launch to Chardonnay...,93,60.000000,California,Santa Barbara County,Matt Kettmann,Dragonette 2014 Duvarita Vineyard Chardonnay (...,Chardonnay,Dragonette,1.550000,US_Cal_San
