# LEKCE 3

# Spojování, agregace a řazení tučňáků

In [9]:
import pandas as pd

## Praktické spojování

| **Column Name**   | **Description**                                                                                               |
|-------------------|---------------------------------------------------------------------------------------------------------------|
| **studyName**      | Sampling expedition from which data were collected, generated, etc.                                           |
| **Sample Number**  | Continuous numbering sequence for each sample                                                                |
| **Species**        | A string representing the species of an organism                                                             |
| **Region**         | Nominal region of Palmer LTER sampling grid                                                                  |
| **Island**         | Island near Palmer Station where samples were collected                                                      |
| **Stage**          | Reproductive stage at sampling                                                                               |
| **Individual ID**  | A unique ID for each individual in the dataset                                                               |
| **Clutch Completion** | Whether the study nest was observed with a full clutch (i.e., 2 eggs)                                      |
| **Date Egg**       | Date the study nest was observed with 1 egg (sampled)                                                        |
| **Culmen Length**  | Length of the dorsal ridge of a bird's bill                                                                  |
| **Culmen Depth**   | Depth of the dorsal ridge of a bird's bill                                                                   |
| **Flipper Length** | Length of the flipper                                                                                        |
| **Body Mass**      | Mass of the body                                                                                             |
| **Sex**            | Code for the sex of an animal                                                                                |
| **Delta 15 N**     | A measure of the ratio of stable isotopes 15N:14N                                                            |
| **Delta 13 C**     | A measure of the ratio of stable isotopes 13C:12C                                                            |
| **Comments**       | Text field to provide additional relevant information for the data                                            |


<br>

> ### Methods and protocols used in the collection of this data package
>
> Each season, study nests, where pairs of adults were present, were individually marked and chosen before the onset of egg-laying, and consistently monitored. When study nests were found at the one-egg stage, both adults were captured to obtain blood samples used for molecular sexing and stable isotope analyses, and measurements of structural size and body mass. 
>
> At the time of capture, each adult penguin was quickly blood sampled (~1 ml) from the brachial vein using a sterile 3 ml syringe and heparinized infusion needle. Collected blood was stored in 1.5 ml micro-centrifuge tubes that were kept cool. In the field, a small amount of whole blood was smeared on clean filter paper stored in a 1.5 ml micro-centrifuge tube for molecular sexing. 
>
> Measurements of culmen length and depth (using dial calipers ± 0.1 mm), right flipper (using a ruler ± 1 mm), and body mass (using 5 kg ± 25 g or 10 kg ± 50 g Pesola spring scales and a weigh bag) were obtained to quantify body size variation. After handling, individuals at study nests were further monitored to ensure the pair reached clutch completion, i.e., two eggs. 
>
> Molecular analyses were conducted at Simon Fraser University following standard PCR protocols, and stable isotope analyses were conducted at the Stable Isotope Facility at the University of California, Davis using an elemental analyzer interfaced with an isotope ratio mass spectrometer.
>


In [26]:
penguins_adelie = pd.read_csv("penguins_adelie.csv")
penguins_chinstrap = pd.read_csv("penguins_chinstrap.csv")
penguins_gentoo = pd.read_csv("penguins_gentoo.csv")

# Print the number of rows and columns for each DataFrame before concatenation
print("Adelie Penguins: ", penguins_adelie.shape)
print("Chinstrap Penguins: ", penguins_chinstrap.shape)
print("Gentoo Penguins: ", penguins_gentoo.shape)


Adelie Penguins:  (152, 17)
Chinstrap Penguins:  (68, 17)
Gentoo Penguins:  (124, 17)


### Spoj všechny druhy tučňáků

In [27]:
penguins_all = pd.concat([penguins_adelie, penguins_chinstrap, penguins_gentoo])

penguins_all.reset_index(drop=True, inplace=True)
print("All Penguins (after concat): ", penguins_all.shape)

All Penguins (after concat):  (344, 17)


Pomocí kódu níže vytvoř slovník se souřadnicemi a následně dataframe `penguin_islands_df`.


In [12]:
island_data = { 'Island': ['Torgersen', 'Biscoe', 'Dream'], 
               'Latitude': [-64.7667, -66.0000, -64.7333], 
               'Longitude': [-64.0667, -66.0000, -64.2333], 
               'Location': [ 'Torgersen Island, near Palmer Station on the Antarctic Peninsula, close to Anvers Island', 
                            'Biscoe Islands, an archipelago off the west coast of the Antarctic Peninsula, south of the Palmer Archipelago', 
                            'Dream Island, part of the Argentine Islands, located near the western side of the Antarctic Peninsula' ] } 

penguin_islands_df = pd.DataFrame(island_data) 

In [13]:
penguins_with_location = pd.merge(penguins_all, penguin_islands_df, on='Island', how='left')

In [14]:
penguins_with_location['Latitude'].mean()

-65.35696976744185

## Agregace

In [28]:
data = pd.read_csv("https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins.csv")

### Jaké jsou průměrné hodnoty hmotnost tučňáků podle jejich druhu?

In [16]:
data.groupby("species")["body_mass_g"].mean()

species
Adelie       3700.662252
Chinstrap    3733.088235
Gentoo       5076.016260
Name: body_mass_g, dtype: float64

### Který druh tučňáka má největší maximální hmotnost a jaká je tato hmotnost?

Nejprve seskupte data podle druhu tučňáka pomocí `groupby()`, poté použijte agregaci `max()` na sloupec s hmotností.  
Nakonec použijte metodu `sort_values()` pro seřazení výsledků sestupně a získejte první řádek pro odpověď.

In [17]:
data.groupby("species")["body_mass_g"].max().sort_values(ascending=False).head(1)

species
Gentoo    6300.0
Name: body_mass_g, dtype: float64

### Jaký je počet tučňáků podle jejich pohlaví v každém druhu? 

In [18]:
data.groupby(["species", "sex"]).size()
# data.groupby(["species", "sex"])["sex"].size()

species    sex   
Adelie     female    73
           male      73
Chinstrap  female    34
           male      34
Gentoo     female    58
           male      61
dtype: int64

### Který druh má nejmenší rozdíl mezi minimální a maximální délkou křídel?

Seskupte data podle druhu tučňáka a použijte metody `min()` a `max()` pro zjištění minimálních a maximálních hodnot délky křídel.  
Výsledky můžete zobrazit pomocí metody `agg()`, kde specifikujete obě agregační funkce.

In [19]:
# data.groupby("species")["flipper_length_mm"].max()
# data.groupby("species")["flipper_length_mm"].min()

data.groupby("species").agg({'flipper_length_mm': ['min', 'max']})

Unnamed: 0_level_0,flipper_length_mm,flipper_length_mm
Unnamed: 0_level_1,min,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2
Adelie,172.0,210.0
Chinstrap,178.0,212.0
Gentoo,203.0,231.0


In [None]:
## MULTIINDEX

# Výhoda: Tento přístup je vhodný, pokud chceš provádět agregace nad více sloupci nebo pokud potřebuješ přístup ke sloupcům přes víceúrovňový index.
# Nevýhoda: Multiindex může být složitější na manipulaci a není vždy přehledný, pokud máš více agregovaných sloupců.
aggregated = data.groupby("species").agg({"flipper_length_mm": ["min", "max"]})

aggregated["diff"] = aggregated[("flipper_length_mm", "max")] - aggregated[("flipper_length_mm", "min")]
aggregated.sort_values(by="diff")


Unnamed: 0_level_0,flipper_length_mm,flipper_length_mm,diff
Unnamed: 0_level_1,min,max,Unnamed: 3_level_1
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Gentoo,203.0,231.0,28.0
Chinstrap,178.0,212.0,34.0
Adelie,172.0,210.0,38.0


In [21]:
# Výhoda: Tento přístup je přehlednější a lépe se s ním pracuje, zejména pokud potřebuješ přístup k agregovaným sloupcům s jednoduchými názvy.
# Výhoda: Názvy sloupců můžeš při agregaci rovnou definovat, což ti umožní přesně říct, jak se mají jednotlivé výsledky jmenovat.
# Nevýhoda: Méně flexibilní při agregaci více sloupců současně (na rozdíl od slovníkového přístupu v prvním přístupu).
aggregated = data.groupby("species").agg(
    min_flipper_length=("flipper_length_mm", "min"),
    max_flipper_length=("flipper_length_mm", "max"),
)

aggregated["diff"] = aggregated["max_flipper_length"] - aggregated["min_flipper_length"]
aggregated.sort_values(by="diff")

Unnamed: 0_level_0,min_flipper_length,max_flipper_length,diff
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Gentoo,203.0,231.0,28.0
Chinstrap,178.0,212.0,34.0
Adelie,172.0,210.0,38.0


### Na kterém ostrově je medián hmotnosti největší?

Data seskupte podle názvu ostrova a použijte agregační funkci `median()` pro výpočet mediánu hmotnosti tučňáků na každém ostrově.

In [22]:
data.groupby("island")["body_mass_g"].median()

island
Biscoe       4775.0
Dream        3687.5
Torgersen    3700.0
Name: body_mass_g, dtype: float64

### Existují v datasetu chybějící hodnoty? Pokud ano, ve kterých sloupcích?

In [23]:
data.isna().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

### Které druhy tučňáků mají průměrnou délku křídel větší než 200 mm?

In [24]:
agg_series = data.groupby(["species"])["flipper_length_mm"].mean()
agg_series[agg_series >= 200]

species
Gentoo    217.186992
Name: flipper_length_mm, dtype: float64