# LEKCE 1

# Základní analýza datové sady Palmer Penguins

## Načtěte dataset Palmer Penguins
Můžete jej stáhnout z GitHub [repozitáře](https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins.csv).

Použijte knihovnu pandas, metodu `read_csv()` a data uložte do dataframu nazváného data.

#### Dokumentace k datasetu “Penguins”

Tento dataset obsahuje údaje o třech druzích tučňáků, kteří se vyskytují v oblasti Palmerovy stanice na Antarktidě. Dataset je často využíván pro výukové účely a analýzy dat.

Dataset obsahuje měření různých fyzických charakteristik tučňáků ze tří různých ostrovů. Data zahrnují informace o délce zobáku, hloubce zobáku, délce ploutví, hmotnosti těla a dalších proměnných. Měření byla provedena na třech druzích tučňáků: Adélie, Gentoo, a Chinstrap.

**Sloupce datasetu:**

- species – Druh tučňáka (Adélie, Gentoo, Chinstrap)
- island – Ostrov, na kterém byl tučňák pozorován (Biscoe, Dream, Torgersen)
- bill_length_mm – Délka zobáku v milimetrech
- bill_depth_mm – Hloubka zobáku v milimetrech
- flipper_length_mm – Délka ploutve v milimetrech
- body_mass_g – Hmotnost těla tučňáka v gramech
- sex – Pohlaví tučňáka (Male nebo Female)
- year – Rok, kdy bylo měření provedeno

In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins.csv"

data = pd.read_csv(url)

### Kolik sloupců má načtený dataset?


In [2]:
# Získání počtu sloupců v datovém rámci (druhý prvek tuple)
pocet_sloupcu = data.shape[1]

print(pocet_sloupcu)

# Zobrazení informací o datovém rámci, včetně počtu ne-null hodnot, typů sloupců atd.
# data.info()

8


Alternativní způsoby


In [3]:
# Získání počtu sloupců pomocí len() na seznamu sloupců
pocet_sloupcu = len(data.columns)

# Získání počtu unikátních názvů sloupců pomocí .nunique() na seznamu sloupců
pocet_sloupcu = data.columns.nunique()

# Použití metody .columns.size, která vrací počet sloupců
pocet_sloupcu = data.columns.size

### Kolik řádků obsahuje dataset?

In [4]:
# Použití data.shape[0] (první prvek tuple ze shape)
pocet_radek = data.shape[0]

# Použití len() na samotný datový rámec (vrací délku indexu, tedy počet řádků)
pocet_radek = len(data)

# Použití len() na index datového rámce
pocet_radek = len(data.index)

# Použití pandasové metody .index.size (přímo vrací velikost indexu, což odpovídá počtu řádků)
pocet_radek = data.index.size

print(pocet_radek)

# Použití .info() k zobrazení počtu ne-null hodnot v každém sloupci (ale toto jen zobrazí, ne vrátí výsledek jako číslo)
# data.info()

344


### Kolik sloupců v datasetu obsahuje prázdné hodnoty?

In [5]:
# Zobrazení informace o sloupcích včetně počtu ne-null hodnot
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


**Něco navíc** 

Další pokročilejší způsoby pro inspiraci

In [6]:
# Zjištění, kolik sloupců obsahuje alespoň jednu prázdnou hodnotu
pocet_sloupcu_nan = data.isnull().any().sum()
pocet_sloupcu_nan = data.isna().any().sum()

print(pocet_sloupcu_nan)

5


### Co představuje index v pandas DataFrame a jakou roli hraje při práci s daty?

Index v pandas je sloupec, který slouží jako jedinečný identifikátor pro každý řádek a usnadňuje přístup k datům.

### Jaký je průměrný `body_mass_g` tučňáků v datasetu?

Použijte metodu `describe()` pro zobrazení základních statistik.

### Jaká je maximální délka křídel (`flipper_length_mm`) tučňáků v datasetu?

Použijte metodu `describe()` pro zobrazení základních statistik.

Výsledek zaokrouhli na celé číslo.

In [7]:
data.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
count,342.0,342.0,342.0,342.0,344.0
mean,43.92193,17.15117,200.915205,4201.754386,2008.02907
std,5.459584,1.974793,14.061714,801.954536,0.818356
min,32.1,13.1,172.0,2700.0,2007.0
25%,39.225,15.6,190.0,3550.0,2007.0
50%,44.45,17.3,197.0,4050.0,2008.0
75%,48.5,18.7,213.0,4750.0,2009.0
max,59.6,21.5,231.0,6300.0,2009.0


## Metoda `unique()`
Použijte metodu `unique()` pro zjištění různých druhů tučňáků (`species`) v datasetu.


Jak použít metodu `unique()` v Pandas:

Metoda `unique()` v knihovně Pandas se používá k získání unikátních hodnot ze sloupce v DataFrame. Tato metoda je velmi užitečná pro identifikaci různých hodnot v kategoriálních datech.

Krok za krokem:

- Vyberte sloupec, ve kterém chcete najít unikátní hodnoty. Příklad: Pokud chcete zjistit různé druhy tučňáků v sloupci species, vaše volba sloupce bude `data['species']`.
- Použijte metodu unique() na vybraném sloupci. To se provádí následovně: `data['species'].unique()`. Tento příkaz vrátí pole unikátních hodnot nalezených v daném sloupci.

Odkaz na dokumentaci:
Pro detailnější informace o metodě unique() se můžete podívat na [oficiální dokumentaci Pandas](https://pandas.pydata.org/docs/reference/api/pandas.unique.html).

### Které druhy tučňáků jsou zastoupeny v datasetu?


In [9]:
data["species"].unique()

array(['Adelie', 'Gentoo', 'Chinstrap'], dtype=object)