# Palmer Archipelago (Antarctica) penguin data

Data were collected and made available by Dr. Kristen Gorman and the Palmer Station, Antarctica LTER, a member of the Long Term Ecological Research Network. The goal of palmerpenguins is to provide a great dataset for data exploration & visualization, as an alternative to `Iris`.

Summary:

The data folder contains two CSV files. For intro courses/examples, you probably want to use the first one (penguins_size.csv).

    penguins_size.csv: Simplified data from original penguin data sets. Contains variables:
        species: penguin species (Chinstrap, Adélie, or Gentoo)
        culmen_length_mm: culmen length (mm)
        culmen_depth_mm: culmen depth (mm)
        flipper_length_mm: flipper length (mm)
        body_mass_g: body mass (g)
        island: island name (Dream, Torgersen, or Biscoe) in the Palmer Archipelago (Antarctica)
        sex: penguin sex

![Meet the Penguins](../penguins.png)

![Meet the Penguins](../penguins2.png)

Artwork: @allison_horst

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing

## Datensatz aus CSV laden

In [4]:
file = "../data/penguin_size.csv"

## Datensatz untersuchen

In [5]:
# info

In [28]:
# shape

(344, 7)

In [29]:
# ndim

2

In [6]:
# describe

## Kovarianz und Korrelationskoeffizienten
Wenn wir einen Zusammenhang zwischen Features erkennen wollen, müssen wir die Kovarianzen bzw. den Korrealtionskoeffizienten bestimmen. 

#### Kovarianz zwischen zwei Features

Sie gibt die Richtung des Zusammenhangs zwischen zwei quantitativen Merkmalen an. Nimmt die Kovarianz einen postiven Wert an, korrelieren die beiden Werte positiv. Bei negativer Kovarianz korrelieren sie negativ. Ist die Koviaranz (Nahe) 0, korrelieren die Werte überhaupt nicht.

In [7]:
# cov

#### Korrelationskoeffizient
Der Korrelationskoeffizient zeigt die Stärke des Zusammenhangs zwischen zwei quantitativen Merkmalen.
Wir teilen die Kovarianz durch das Produkt von Standardabweichung von X und Standardabweichung von Y.

$r_{XY} = \frac{c_{XY}}{s_X \cdot s_Y}$

In [8]:
# Korrelation

## Übersicht über fehlende Werte

In [9]:
# missing values

In [10]:
# Wir interpolieren die numerischen Spalten und löschen die Datensätze mit fehlendem Geschlecht


In [11]:
# shape

## Kategorie-Spalte sex umformen zu zwei numerischen Werten
Dazu nutzen wir aus sklearn den `preprocessing.LabelEncoder`. Im Maschine Learning können die Algorithmen mit Kategoriedaten meist nicht viel anfangen. Wir müssen Kategorien also für gewöhnlich in numerische Daten umformen. Daraus ergibt sich, dass die Spalte `sex` nun zwei numerische Werte angenommen hat, 1 und 2. Darum hat sich der LabelEncoder gekümmert.

Ideal ist das allerdings immer noch nicht. ML-Algorithmen arbeiten mit Gewichtungen und so könnte zum Beispiel ein neuronales Netzwerk "denken", dass es sich hier um ordinale Daten handelt. 2 ist größer als 1 und daher wichtiger. Besser wäre es, ein `One-Hot-Encoding` zu benutzen. Dann würden sich aus der Spalte `sex` zwei neue boolsche Spalten namens `male` und `female` ergeben.

Hier im Tutorial lassen wir das jetzt mal so.

In [12]:
# label encoder aus sklearn

## Anzahl der Pinguine pro Spezies
Wir wollen die anzahl der Pinguine pro Spezies visualisieren.

In [13]:
# value count pro spezies

In [14]:
# Barchart der Populationen nach Spezies

In [15]:
# Histogramm

## Merkmale mit Boxplot

In [16]:
# Boxplot ['culmen_length_mm', 'culmen_depth_mm','flipper_length_mm']

## Flipperlänge der Spezies Gentoo
Hier sehen wir die Daten im Histogramm mit 10 bins. Allerdings kennen wir die Verteilungsfunktion nicht. Um diese zu ermitteln, gibt es sogenannte `Kerndichteschätzer (KDE)`. Diese werden in diesem Tutorial nicht bearbeitet.

In [17]:
# Histogramm der Flipperlänger der Spezies Gentoo

## Flipperlänge der Spezies Adelie

In [18]:
# Histgoramm der Flipperlänge der Spezies Gentoo

## Scatterplot
mit dem Seaborn Scatterplot können wir die Verteilung der einzelnen Features gut sehen

In [19]:
# Seaborn Scatterplot