# Pandas

Pandas je výkonná a všestranná knihovna pro jazyk Python, která se specializuje na zpracování a analýzu dat. Je široce používaná v oblasti datové vědy, strojového učení a statistiky kvůli své schopnosti efektivně pracovat s daty ve formě tabulek.

Název pochází z termínu "Panel Data", což je ekonomický termín pro multidimenzionální struktury dat.

## Stručná úvodní ukázka

In [2]:
# import knihovny pandas a nastavení běžně používaného aliasu
import pandas as pd

In [3]:
# vytvoření jednoduchého ukázkového datasetu
# praktická pozn.: dataset se takto v praxi většinou nevytváří, k tomu slouží zdroje z csv a jiných souborů, zdroje dat z SQL, API apod.
data_ukazka = {
    'Jméno': ['Anna', 'Petr', 'Eva', 'Tomáš', 'Jiří', 'Karel', 'Ivan', 'Květa'],
    'Věk': [28, 35, 22, 30, 23, 45, 31, 43],
    'Plat': [50000, 52000, 48000, 51000, 38500, 23000, 53500, 59000]
}

In [4]:
# vytvoření DataFrame z ukázkového datasetu a uložení do proměnné
df_ukazka = pd.DataFrame(data_ukazka)

In [5]:
# zobrazení prvních záznamů z dataframu (pokud nezadáme číslo jako parametr, zobrazí se 5 prvních záznamů)
df_ukazka.head()

Unnamed: 0,Jméno,Věk,Plat
0,Anna,28,50000
1,Petr,35,52000
2,Eva,22,48000
3,Tomáš,30,51000
4,Jiří,23,38500


In [6]:
# získání informací o dataframu a jeho sloupcích
df_ukazka.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Jméno   8 non-null      object
 1   Věk     8 non-null      int64 
 2   Plat    8 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 320.0+ bytes


In [7]:
# filtrování zaměstnanců podle věku
df_ukazka[df_ukazka['Věk'] > 33]

Unnamed: 0,Jméno,Věk,Plat
1,Petr,35,52000
5,Karel,45,23000
7,Květa,43,59000


## Objekty a datové typy

### Objekty

- **Series**: Jednorozměrné pole podobné seznamu.
- **DataFrame**: Dvourozměrná tabulka (podobná Excelu) s řádky a sloupci.

### Datové typy

Pandas používá datové typy na základě knihovny NumPy, které rozšiřuje o některé specifické datové typy:

| Datový typ       | Popis                                                   |
|------------------|---------------------------------------------------------|
| `int64`          | celočíselné hodnoty (např. 1, 100, -5).                 |
| `float64`        | Desetinná čísla (např. 3.14, -0.01).                    |
| `bool`           | Logické hodnoty (True / False).                         |
| `object`         |  Obecný typ (obvykle pro řetězce nebo smíšená data).    |
| `string`         | Specifický typ pro textová data (od pandas 1.0).        |
| `datetime64[ns]` | Datum a čas (např. '2023-11-20 12:00:00').              |
| `timedelta[ns]`  | Rozdíl mezi dvěma datovými body (časový rozdíl).        |
| `category`       | Optimalizovaný typ pro opakující se kategorie.          |


## Načítání a ukládání dat

- Podpora formátů: CSV, Excel, SQL, JSON, HTML, HDF5, atd.
- Funkce:
 - pd.read_csv(), pd.to_csv()
 - pd.read_excel(), pd.to_excel()

In [8]:
import pandas as pd

df_people = pd.read_csv('zamestnanci.csv', sep=';')


 ## Prohlízení dat a informací

### Samotná data

 -  celé řádky dataframu od začátku

In [9]:
df_people.head() # Defaultně zobrazí prvních 5 řádků

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
0,1,Anna,28,Prague,50000.0,True
1,2,Petr,35,Brno,62000.0,True
2,3,Eva,22,Ostrava,45000.0,True
3,4,Tomáš,30,Plzeň,52000.0,True
4,5,Jana,27,Liberec,48000.0,True


In [10]:
df_people.head(10)  # Zobrazí prvních 10 řádků

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
0,1,Anna,28,Prague,50000.0,True
1,2,Petr,35,Brno,62000.0,True
2,3,Eva,22,Ostrava,45000.0,True
3,4,Tomáš,30,Plzeň,52000.0,True
4,5,Jana,27,Liberec,48000.0,True
5,6,Karel,33,Prague,55000.0,True
6,7,Markéta,26,Brno,49000.0,True
7,8,Lukáš,40,Ostrava,71000.0,
8,9,Michaela,24,Liberec,47000.0,True
9,10,Jiří,29,Prague,53000.0,True


- celé řádky dataframu od konce

In [11]:
df_people.tail()  # Defaultně zobrazí posledních 5 řádků

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
87,88,Ema,24,Ostrava,44000.0,True
88,89,Oleg,30,Brno,52000.0,True
89,90,Vanda,33,Prague,57000.0,True
90,91,Jindřich,41,Plzeň,71000.0,True
91,92,Pavla,37,Prague,54000.0,


In [12]:
df_people.tail(8)  # Zobrazí posledních 8 řádků

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
84,85,Patrik,36,Plzeň,63000.0,True
85,86,Erik,25,Prague,40000.0,True
86,87,Johana,28,Liberec,46000.0,True
87,88,Ema,24,Ostrava,44000.0,True
88,89,Oleg,30,Brno,52000.0,True
89,90,Vanda,33,Prague,57000.0,True
90,91,Jindřich,41,Plzeň,71000.0,True
91,92,Pavla,37,Prague,54000.0,


 - náhodné řádky z tabulky

In [60]:
df_people.sample() # Defaultně zobrazí 1 náhodný řádek

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
23,24,Dominik,26,Ostrava,44000.0,True


In [None]:
df_people.sample(10) # Zobrazí 10 náhodných řádků

 - výběr konkrétního sloupce

In [61]:
df_people['Name']

0         Anna
1         Petr
2          Eva
3        Tomáš
4         Jana
        ...   
87         Ema
88        Oleg
89       Vanda
90    Jindřich
91       Pavla
Name: Name, Length: 92, dtype: object

 - výběr více sloupců

In [62]:
df_people[['Name', 'Age']]

Unnamed: 0,Name,Age
0,Anna,28
1,Petr,35
2,Eva,22
3,Tomáš,30
4,Jana,27
...,...,...
87,Ema,24
88,Oleg,30
89,Vanda,33
90,Jindřich,41


 - výběr prvních nebo posledních několika řádků konkrétního sloupce

In [63]:
df_people['Salary'].head()  # Zobrazí mzdy prvních 5 řádků

0    50000.0
1    62000.0
2    45000.0
3    52000.0
4    48000.0
Name: Salary, dtype: float64

In [64]:
df_people['Salary'].tail()  # Zobrazí mzdy posledních 5 řádků

87    44000.0
88    52000.0
89    57000.0
90    71000.0
91    54000.0
Name: Salary, dtype: float64

 - Výběr konkrétní buňky (hodnoty)

In [68]:
df_people.iloc[0, 2]  # Hodnota 1. řádku a 3. sloupce

np.int64(28)

In [66]:
df_people.loc[0, 'City']  # Hodnota 1. řádku ve sloupci "City"

'Prague'

- jedinečné hodnoty

In [69]:
df_people['City'].unique()

array(['Prague', 'Brno', 'Ostrava', 'Plzeň', 'Liberec'], dtype=object)

 - rychlý pohled na strukturu a velikost dat

In [70]:
df_people.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   PersonalId  92 non-null     int64  
 1   Name        92 non-null     object 
 2   Age         92 non-null     int64  
 3   City        92 non-null     object 
 4   Salary      89 non-null     float64
 5   Active      71 non-null     object 
dtypes: float64(1), int64(2), object(3)
memory usage: 4.4+ KB


 - počet řádků a sloupců

In [71]:
df_people.shape

(92, 6)

 - názvy sloupců

In [72]:
df_people.columns

Index(['PersonalId', 'Name', 'Age', 'City', 'Salary', 'Active'], dtype='object')

 - základní statistika

In [73]:
df_people.describe() # Poskytne základní statistiky pro číselné sloupce

Unnamed: 0,PersonalId,Age,Salary
count,92.0,92.0,89.0
mean,46.5,31.282609,55056.179775
std,26.70206,5.312904,8752.090076
min,1.0,22.0,39000.0
25%,23.75,27.0,49000.0
50%,46.5,30.5,54000.0
75%,69.25,35.25,60000.0
max,92.0,41.0,74000.0


In [87]:
df_people.describe(include='all') # Poskytne základní statistiky pro všechny sloupce

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
count,92.0,92,92.0,92,89.0,71
unique,,87,,5,,1
top,,Hana,,Prague,,True
freq,,2,,21,,71
mean,46.5,,31.282609,,55056.179775,
std,26.70206,,5.312904,,8752.090076,
min,1.0,,22.0,,39000.0,
25%,23.75,,27.0,,49000.0,
50%,46.5,,30.5,,54000.0,
75%,69.25,,35.25,,60000.0,


 - počet jedinečných hodnot v každém sloupci

In [88]:
df_people.nunique()

PersonalId    92
Name          87
Age           20
City           5
Salary        30
Active         1
dtype: int64

 - četnost (počet výskytů) jedinečných hodnot

In [None]:
df_people['City'].value_counts()

City
Prague     21
Ostrava    20
Brno       18
Liberec    17
Plzeň      16
Name: count, dtype: int64

In [90]:
head_data = df_people.head(10)

In [91]:
print(head_data)

   PersonalId      Name  Age     City   Salary Active
0           1      Anna   28   Prague  50000.0   True
1           2      Petr   35     Brno  62000.0   True
2           3       Eva   22  Ostrava  45000.0   True
3           4     Tomáš   30    Plzeň  52000.0   True
4           5      Jana   27  Liberec  48000.0   True
5           6     Karel   33   Prague  55000.0   True
6           7   Markéta   26     Brno  49000.0   True
7           8     Lukáš   40  Ostrava  71000.0    NaN
8           9  Michaela   24  Liberec  47000.0   True
9          10      Jiří   29   Prague  53000.0   True


## Manipulace dat

### Úprava datových typů

 - v přechozí části jsme se dozvěděli, jaké datové typy Pandas používá
 - protože se může stát, že Pandas datový typ nerozpozná, případně jej chceme sami změnit, je to možné udělat následujícím způsobem:

In [92]:
df_people.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   PersonalId  92 non-null     int64  
 1   Name        92 non-null     object 
 2   Age         92 non-null     int64  
 3   City        92 non-null     object 
 4   Salary      89 non-null     float64
 5   Active      71 non-null     object 
dtypes: float64(1), int64(2), object(3)
memory usage: 4.4+ KB


In [93]:
df_people['City'] = df_people['City'].astype('category')

In [95]:
df_people.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   PersonalId  92 non-null     int64   
 1   Name        92 non-null     object  
 2   Age         92 non-null     int64   
 3   City        92 non-null     category
 4   Salary      89 non-null     float64 
 5   Active      71 non-null     object  
dtypes: category(1), float64(1), int64(2), object(2)
memory usage: 4.0+ KB


In [98]:
df_people['Age'] = df_people['Age'].astype('float')

In [99]:
df_people.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   PersonalId  92 non-null     int64   
 1   Name        92 non-null     object  
 2   Age         92 non-null     float64 
 3   City        92 non-null     category
 4   Salary      89 non-null     float64 
 5   Active      71 non-null     object  
dtypes: category(1), float64(2), int64(1), object(2)
memory usage: 4.0+ KB


### Filtrování a podmíněné výběry dat

#### Typy podmínek

| Operátor | Význam                          | Příklad použití                        |
|----------|----------------------------------|----------------------------------------|
| `==`     | Rovnost                         | df[df["Věk"] == 30]                   |
| `!=`     | Nerovnost                       | df[df["Město"] != "Praha"]            |
| `>`      | Větší než                       | df[df["Plat"] > 50000]                |
| `<`      | Menší než                       | df[df["Věk"] < 40]                    |
| `>=`     | Větší nebo rovno                | df[df["Věk"] >= 25]                   |
| `<=`     | Menší nebo rovno                | df[df["Plat"] <= 60000]               |
| `&`      | Logické A (AND)                 | df[(df["Věk"] > 25) & (df["Plat"] > 50000)] |
| `\|`      | Logické NEBO (OR)               | df[(df["Město"] == "Praha") \| (df["Město"] == "Brno")] |
| `~`      | Logická negace (NOT)            | df[~(df["Město"] == "Brno")]          |
| `.isin()`| Hodnota obsahuje v seznamu      | df[df["Město"].isin(["Praha", "Brno"])]|
| `.str.contains()` | Obsahuje podřetězec     | df[df["Jméno"].str.contains("ov")]    |

#### Ukázky

 - pro potřeby filtrování využijeme v Pandas podmínku

In [101]:
df_people[df_people["Salary"] > 58000]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
1,2,Petr,35.0,Brno,62000.0,True
7,8,Lukáš,40.0,Ostrava,71000.0,
13,14,Hana,38.0,Prague,67000.0,True
16,17,Zdeněk,41.0,Brno,74000.0,True
17,18,Daniel,34.0,Plzeň,60000.0,True
21,22,Pavel,39.0,Brno,70000.0,True
27,28,Veronika,31.0,Brno,60000.0,
30,31,Radek,40.0,Prague,63000.0,True
36,37,Štěpán,36.0,Liberec,65000.0,True
40,41,Rostislav,41.0,Plzeň,72000.0,True


 - podmínek může být víc a můžeme je sdružovat podobně jako v Pythonu
 - jen musíme využít `&` pro logické A, `|` pro logické NEBO, `~` pro logické NEGACE.

In [102]:
df_people[(df_people["Salary"] > 60000) & (df_people["City"] == "Prague")]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
13,14,Hana,38.0,Prague,67000.0,True
30,31,Radek,40.0,Prague,63000.0,True
44,45,Tomáš,38.0,Prague,68000.0,


In [103]:
df_people[(df_people["Name"] == 'Hana') | (df_people["Age"] == 33)]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
5,6,Karel,33.0,Prague,55000.0,True
13,14,Hana,38.0,Prague,67000.0,True
22,23,Gabriela,33.0,Prague,52000.0,True
39,40,Jitka,33.0,Prague,,True
56,57,Kristian,33.0,Ostrava,56000.0,
65,66,Hana,28.0,Liberec,51000.0,True
89,90,Vanda,33.0,Prague,57000.0,True


In [104]:
df_people[~(df_people["Name"] == 'Hana')]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
0,1,Anna,28.0,Prague,50000.0,True
1,2,Petr,35.0,Brno,62000.0,True
2,3,Eva,22.0,Ostrava,45000.0,True
3,4,Tomáš,30.0,Plzeň,52000.0,True
4,5,Jana,27.0,Liberec,48000.0,True
...,...,...,...,...,...,...
87,88,Ema,24.0,Ostrava,44000.0,True
88,89,Oleg,30.0,Brno,52000.0,True
89,90,Vanda,33.0,Prague,57000.0,True
90,91,Jindřich,41.0,Plzeň,71000.0,True


 - lze také filtrovat na základě zjištění, zda je hodnota obsažena ve výčtu jiných hodnot

In [105]:
vip_jmena = ['Jiří', 'Lenka', 'Martin']
df_people[df_people['Name'].isin(vip_jmena)]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
9,10,Jiří,29.0,Prague,53000.0,True
29,30,Lenka,23.0,Plzeň,45000.0,True
49,50,Martin,40.0,Ostrava,71000.0,
69,70,Lenka,34.0,Brno,54000.0,True


 - jako poslední si ukážeme způsob, jak zjistit, zda text obsahuje uvedenou část

In [107]:
df_people[df_people['Name'].str.contains('in')]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
23,24,Dominik,26.0,Ostrava,44000.0,True
33,34,Kateřina,32.0,Brno,52000.0,True
49,50,Martin,40.0,Ostrava,71000.0,
67,68,Nina,26.0,Prague,50000.0,True
90,91,Jindřich,41.0,Plzeň,71000.0,True


In [117]:
df_people[(df_people['Salary'] > 50000) & (df_people['Age'] > 40)]

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
16,17,Zdeněk,41.0,Brno,74000.0,True
40,41,Rostislav,41.0,Plzeň,72000.0,True
60,61,Stanislav,41.0,Ostrava,74000.0,
90,91,Jindřich,41.0,Plzeň,71000.0,True


In [119]:
df_people[(df_people['Salary'] > 50000) & (df_people['Age'] > 40)]['City'].value_counts()


City
Plzeň      2
Brno       1
Ostrava    1
Liberec    0
Prague     0
Name: count, dtype: int64

In [115]:
df_people.columns

Index(['PersonalId', 'Name', 'Age', 'City', 'Salary', 'Active'], dtype='object')

- Výběr řádků a sloupců (pomocí loc, iloc).
- Filtrování a podmíněné výběry.
- Přidávání, úprava a mazání sloupců.

### Práce s chybějícími hodnotami

| Operace                        | Příkaz                                                                |
|--------------------------------|-----------------------------------------------------------------------|
| Kontrola NaN                   | `df.isna()`                                                          |
| Počet NaN                      | `df.isna().sum()`                                                    |
| Odstranění řádků s NaN         | `df.dropna()`                                                        |
| Odstranění sloupců s NaN       | `df.dropna(axis=1)`                                                  |
| Nahrazení konkrétní hodnotou   | `df.fillna(hodnota)`                                                 |
| Nahrazení průměrnou hodnotou   | `df.fillna(df["sloupec"].mean())`                                    |
| Forward fill (nahradit dopředu)| `df.fillna(method="ffill")`                                          |
| Filtrování řádků s NaN         | `df[df.isna().any(axis=1)]`                                          |
| Filtrování řádků bez NaN       | `df[df.notna().all(axis=1)]`                                         |

 - chybějící hodnoty

In [120]:
df_people.sample(5).isna()

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
71,False,False,False,False,False,False
0,False,False,False,False,False,False
63,False,False,False,False,False,False
65,False,False,False,False,False,False
11,False,False,False,False,True,False


 - počet chybějících hodnot po sloupcích

In [121]:
df_people.isna().sum()

PersonalId     0
Name           0
Age            0
City           0
Salary         3
Active        21
dtype: int64

 - odstranění všech řádků s alespoň jednou chybějící hodnotou

In [122]:
df_people.dropna()

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
0,1,Anna,28.0,Prague,50000.0,True
1,2,Petr,35.0,Brno,62000.0,True
2,3,Eva,22.0,Ostrava,45000.0,True
3,4,Tomáš,30.0,Plzeň,52000.0,True
4,5,Jana,27.0,Liberec,48000.0,True
...,...,...,...,...,...,...
86,87,Johana,28.0,Liberec,46000.0,True
87,88,Ema,24.0,Ostrava,44000.0,True
88,89,Oleg,30.0,Brno,52000.0,True
89,90,Vanda,33.0,Prague,57000.0,True


 - odstranění sloupců s alespoň jednou chybějící hodnotou

In [123]:
df_people.dropna(axis=1)

Unnamed: 0,PersonalId,Name,Age,City
0,1,Anna,28.0,Prague
1,2,Petr,35.0,Brno
2,3,Eva,22.0,Ostrava
3,4,Tomáš,30.0,Plzeň
4,5,Jana,27.0,Liberec
...,...,...,...,...
87,88,Ema,24.0,Ostrava
88,89,Oleg,30.0,Brno
89,90,Vanda,33.0,Prague
90,91,Jindřich,41.0,Plzeň


 - nahrazení konkrétní hodnotou

In [124]:
mean_salary = df_people["Salary"].fillna(0)
df_people["Salary"].fillna(mean_salary)

0     50000.0
1     62000.0
2     45000.0
3     52000.0
4     48000.0
       ...   
87    44000.0
88    52000.0
89    57000.0
90    71000.0
91    54000.0
Name: Salary, Length: 92, dtype: float64

 - nahrazení vypočtenou hodnotou

In [125]:
df_people["Salary"].mean()

np.float64(55056.1797752809)

## Agregace a transformace dat

### Agregační funkce

| Funkce            | Popis                                  | Příklad použití                         |
|--------------------|----------------------------------------|-----------------------------------------|
| `.sum()`          | Součet hodnot                         | df["Plat"].sum()                       |
| `.mean()`         | Průměrná hodnota                      | df["Plat"].mean()                      |
| `.median()`       | Mediánová hodnota                     | df["Plat"].median()                    |
| `.min()`          | Nejmenší hodnota                      | df["Věk"].min()                        |
| `.max()`          | Největší hodnota                      | df["Věk"].max()                        |
| `.count()`        | Počet hodnot                          | df["Město"].count()                    |
| `.std()`          | Směrodatná odchylka                   | df["Plat"].std()                       |
| `.var()`          | Variance                              | df["Plat"].var()                       |
| `.prod()`         | Součin všech hodnot                   | df["Plat"].prod()                      |
| `.agg()`          | Aplikace více agregací najednou       | df["Plat"].agg(['sum', 'mean'])        |
| `.quantile()`     | Hodnota kvantilu                      | df["Plat"].quantile(0.75)              |

In [126]:
df_people["Salary"].mean()

np.float64(55056.1797752809)

In [127]:
df_people["Salary"].median()

np.float64(54000.0)

In [128]:
df_people["Age"].min()

np.float64(22.0)

In [129]:
df_people["Age"].max()

np.float64(41.0)

In [130]:
df_people['Active'].count()

np.int64(71)

- Funkce jako groupby(), pivot_table(), merge(), join().
- Převod a manipulace číselných, textových nebo časových dat.

### Seskupení dat

 - pomocí groupby můžeme data seskupit a využít agregační funkce

In [131]:
df_people.groupby("City", observed=True)["Salary"].mean() # Jednoduchá agregace

City
Brno       59058.823529
Liberec    52375.000000
Ostrava    56050.000000
Plzeň      55375.000000
Prague     52550.000000
Name: Salary, dtype: float64

In [132]:
df_people.groupby(["City", "Age"], observed=True)["Salary"].sum() # Víceklíčová agregace

City    Age 
Brno    26.0     49000.0
        27.0     48000.0
        29.0     54000.0
        30.0     52000.0
        31.0    112000.0
                  ...   
Prague  31.0     55000.0
        33.0    164000.0
        37.0     54000.0
        38.0    135000.0
        40.0     63000.0
Name: Salary, Length: 62, dtype: float64

In [133]:
df_people.groupby("City", observed=True).agg({"Age": "mean", "Salary": "sum"}) # Použití více agregací

Unnamed: 0_level_0,Age,Salary
City,Unnamed: 1_level_1,Unnamed: 2_level_1
Brno,33.277778,1004000.0
Liberec,29.823529,838000.0
Ostrava,31.65,1121000.0
Plzeň,31.25,886000.0
Prague,30.428571,1051000.0


In [134]:
df_people.groupby("City", observed=True).filter(lambda x: x["Age"].mean() > 32) # Filtrování skupin

Unnamed: 0,PersonalId,Name,Age,City,Salary,Active
1,2,Petr,35.0,Brno,62000.0,True
6,7,Markéta,26.0,Brno,49000.0,True
11,12,Filip,31.0,Brno,,True
16,17,Zdeněk,41.0,Brno,74000.0,True
21,22,Pavel,39.0,Brno,70000.0,True
27,28,Veronika,31.0,Brno,60000.0,
33,34,Kateřina,32.0,Brno,52000.0,True
38,39,Antonín,29.0,Brno,54000.0,True
43,44,Karol,27.0,Brno,48000.0,
50,51,Vojtěch,32.0,Brno,58000.0,True


In [135]:
df_people.groupby(["Age"]).size() # Počet záznamů ve skupinách

Age
22.0    1
23.0    4
24.0    5
25.0    5
26.0    4
27.0    7
28.0    7
29.0    5
30.0    8
31.0    4
32.0    5
33.0    5
34.0    5
35.0    4
36.0    5
37.0    3
38.0    3
39.0    3
40.0    5
41.0    4
dtype: int64

- Statistika: mean(), median(), sum(), count().
- Práce s chybějícími hodnotami: isnull(), fillna(), dropna().