## Pandas

Pandas je knihovna v jazyce Python, která poskytuje nástroje pro práci s daty. Je velmi populární v oblasti datové analýzy díky své jednoduchosti a efektivitě. Pandas umožňuje snadnou manipulaci s datovými strukturami a operacemi na těchto strukturách.

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


Nejprve musíme Pandas importovat do našeho Python skriptu nebo Jupyter Notebooku:

In [2]:
import pandas as pd

#### Základní datové struktury v Pandas

Pandas pracuje se dvěma hlavními datovými strukturami:

**Series**: Jednorozměrné pole podobné seznamu.

**DataFrame**: Dvourozměrná tabulka podobná tabulce v Excelu.

#### Vytvoření Series

Series je jednorozměrné pole s popisky (indexy).

In [1]:
import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


#### Vytvoření DataFrame

DataFrame je dvourozměrná tabulka dat s řadami a sloupci.

In [2]:
import pandas as pd

data = {
    "jméno": ["Domini", "Petr", "Aleš"],
    "příjmení": ["Šmída", "Osička", "Gottwald"],
    "věk": [35, 22, 18]
}

# Vytvoření dataframe
df = pd.DataFrame(data)

# Head = zobrazí prvních 5 řádků v tabulce
df.head()

Unnamed: 0,jméno,příjmení,věk
0,Domini,Šmída,35
1,Petr,Osička,22
2,Aleš,Gottwald,18


#### Načtení dat z CSV souboru

Pandas umožňuje snadno načíst data z CSV souboru.

In [7]:
import pandas as pd

df = pd.read_csv('firmy_brno.csv')

df.head() # Zobrazí prvních 5 řádků tabulky
df.tail() # Zobrazí posledních 5 řádků tabulky

Unnamed: 0,X,Y,objectid,match_addr,company_name,nace_rev_2_code,kod,interval,odvětví,industry
9928,16.665068,49.176559,9929,"Vlastimila Pecha 1282/12, 627 00, Černovice, B...",Thermo Fisher Scientific Brno s.r.o.,26,26,2000 - 2499,Výroba počítačů a elektronických a optických p...,"Manufacture of computer, electronic and optica..."
9929,16.598777,49.191325,9930,"Pekařská 664/53, 602 00, Staré Brno, Brno-stře...",Fakultnínemocnice u sv. Anny v Brne,8610,86,2500 - 2999,Zdravotní péče,Human health activities
9930,16.616698,49.189631,9931,"Přízova 526/5, 602 00, Trnitá, Brno-střed, Brn...","Kyndryl Client Center, s.r.o.",620,62,3000 - 3999,Těžba zemního plynu,Extraction of natural gas
9931,16.608167,49.194228,9932,"náměstí Svobody 86/17, 602 00, Brno-město, Brn...",RegioJet a.s.,4910,49,2500 - 2999,Pozemní a potrubní doprava,Land transport and transport via pipelines
9932,16.594028,49.208648,9933,"Kounicova 996/65a, 602 00, Veveří, Brno-střed,...",Moravská zemská knihovna v Brne,9101,91,250 - 499,Podpůrné činnosti pro těžbu ropy a zemního plynu,Support activities for petroleum and natural g...


In [11]:
# Zobrazit počet hodnot v tabulce (v dataframe) - atribut shape -> vrací tuple 2 hodnot (řádky, sloupce)
pocet_radku = df.shape[0]
pocet_sloupcu = df.shape[1]
print(f'Tabulka má {pocet_radku} řádků a {pocet_sloupcu} sloupců.')

Tabulka má 9933 řádků a 10 sloupců.


Zkontrolovat data v DF

In [12]:
# Metoda .info() -> pro získání základního přehledu nad daty
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9933 entries, 0 to 9932
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   X                9933 non-null   float64
 1   Y                9933 non-null   float64
 2   objectid         9933 non-null   int64  
 3   match_addr       9933 non-null   object 
 4   company_name     9933 non-null   object 
 5   nace_rev_2_code  9933 non-null   int64  
 6   kod              9933 non-null   int64  
 7   interval         9933 non-null   object 
 8   odvětví          9933 non-null   object 
 9   industry         9933 non-null   object 
dtypes: float64(2), int64(3), object(5)
memory usage: 776.1+ KB


In [13]:
# Metoda .describe() -> pro získání základního statistického přehledu nad daty
df.describe()

Unnamed: 0,X,Y,objectid,nace_rev_2_code,kod
count,9933.0,9933.0,9933.0,9933.0,9933.0
mean,16.608503,49.199702,4967.0,4071.446189,55.61794
std,0.033311,0.022086,2867.554446,3198.48674,21.989231
min,16.446872,49.126035,1.0,1.0,1.0
25%,16.592793,49.188892,2484.0,464.0,43.0
50%,16.607118,49.199726,4967.0,4391.0,56.0
75%,16.622616,49.211874,7450.0,6820.0,71.0
max,16.716432,49.289403,9933.0,9999.0,99.0


#### Základní operace s DataFrame

Zobrazení prvních/posledních řádků:

In [None]:
df.tail()  # Prvních 5 řádků

#### Získání informací o DataFrame:

In [None]:
df['Value'].mean()

In [25]:
df.columns

Index(['X', 'Y', 'objectid', 'match_addr', 'company_name', 'nace_rev_2_code',
       'kod', 'interval', 'odvětví', 'industry'],
      dtype='object')

#### Výběr sloupců:

In [30]:
# Vypíše všechny sloupce
df.columns

# Vypíše konkrétní sloupec -> company_name
df.get('company_name')
df['company_name'] # -> Vrací Series objekt

# Vytvoření DataFrame pouze s požadovanými sloupci
df_filtered = df[['company_name', 'odvětví', 'match_addr']] # -> Vrací DataFrame objekt (tabulku)

df_filtered.head()

Unnamed: 0,company_name,odvětví,match_addr
0,LAW and ORDER s.r.o.,Činnosti v oblasti nemovitostí,"Cyrilská 357/14, 602 00, Trnitá, Brno-střed, B..."
1,"REAL GROUP SDK, s.r.o.",Činnosti v oblasti nemovitostí,"Koliště 1965/13a, 602 00, Černá Pole, Brno-stř..."
2,Národníenergie a.s.,"Dodávání elektřiny, plynu, páry a klimatizovan...","Pražákova 1008/69, 639 00, Štýřice, Brno-střed..."
3,"Lokomoce, z.s.",Činnosti organizací sdružujících osoby za účel...,"Slovanské náměstí 1468/12, 612 00, Královo Pol..."
4,FIRST BUILDING s.r.o.,Sběr a získávání volně rostoucích plodů a mate...,"Vrchlického sad 1893/3, 602 00, Černá Pole, Br..."


In [4]:
import pandas as pd

# Import druhého souboru
df_nehody = pd.read_csv('cyklisticke_nehody_brno.csv')

df_nehody.head()

# Do nového df odklonit pouze chtěnou množinu sloupců
df_nehody.columns

df_nehody_filtered = df_nehody[['zuj', 'alkohol_vinik', 'hlavni_pricina', 'nasledky', 'mestska_cast', 'pohlavi', 'den_v_tydnu', 'smrt', 'situovani', 'hmotna_skoda_1', 'skoda_vozidlo']]

FileNotFoundError: [Errno 2] No such file or directory: 'cyklisticke_nehody_brno.csv'

In [None]:
df_nehody_filtered.head()

#### Analýza smrtících nehod muži x ženy

In [14]:
# Zobrazit pouze nehody, kde ve sloupci pohlaví je hodnota žena
df_nehody_zeny = df_nehody_filtered.loc[ df_nehody_filtered['pohlavi'] == 'žena' ]
# Zobrazit pouze nehody, kde ve sloupci pohlaví je hodnota muž
df_nehody_muzi = df_nehody_filtered.loc[ df_nehody_filtered['pohlavi'] == 'muž' ]

# Zobrazit počet smrťáků pro muže
df_muzi_smrtaky = df_nehody_muzi.loc[ df_nehody_muzi['smrt'] == 1 ].shape[0]

# Zobrazit počet smrťáků pro ženy
df_zeny_smrtaky = df_nehody_zeny.loc[ df_nehody_zeny['smrt'] == 1 ].shape[0]

print(f'Počet smrťáků u mužů je: {df_muzi_smrtaky}\nPočet smrťáků u žen je: {df_zeny_smrtaky}')

Počet smrťáků u mužů je: 4
Počet smrťáků u žen je: 0


In [15]:
df_nehody_muzi.loc[ df_nehody_muzi['smrt'] == 1 ]

Unnamed: 0,zuj,alkohol_vinik,hlavni_pricina,nasledky,mestska_cast,pohlavi,den_v_tydnu,smrt,situovani,hmotna_skoda_1,skoda_vozidlo
678,Brno-sever,ne,nedání přenosti v jízdě,nehoda s následky na životě nebo zdraví,Brno-sever,muž,úterý,1,na jízdním pruhu,15000,5000
856,Brno-Bystrc,ano,nesprávný způsob jízdy,nehoda s následky na životě nebo zdraví,Brno-Bystrc,muž,neděle,1,na jízdním pruhu,1000,500
1103,Brno-Žabovřesky,ne,nedání přenosti v jízdě,nehoda s následky na životě nebo zdraví,Brno-Žabovřesky,muž,neděle,1,na jízdním pruhu,93000,90000
1617,Brno-střed,ne,nedání přenosti v jízdě,nehoda s následky na životě nebo zdraví,Brno-střed,muž,pátek,1,na stezce pro cyklisty,10000,5000


In [16]:
# Počet nehod u žen
df_nehody_zeny.shape[0]

print(f'Celkový počet nehod:\nMuži: {df_nehody_muzi.shape[0]}\nŽeny: {df_nehody_zeny.shape[0]}')

Celkový počet nehod:
Muži: 1215
Ženy: 298


In [17]:
# Jaký počet nehod připadá na právě jeden smrťák
pomer_smrtaku_muzi = df_nehody_muzi.shape[0] / df_muzi_smrtaky
print(f'U mužů připadá statisticky právě 1 smrtelná nehoda na {pomer_smrtaku_muzi} nehod.')

U mužů připadá statisticky právě 1 smrtelná nehoda na 303.75 nehod.


In [None]:
df_nehody_filtered

# Zjistit, jaké hodnoty se vyskytují ve sloupci mestska_cast
df_nehody_filtered['mestska_cast'].unique()

array(['Brno-střed', 'Brno-sever', 'Brno-jih', 'Brno-Líšeň', 'Brno-Komín',
       'Brno-Bohunice', 'Brno-Slatina', 'Brno-Tuřany',
       'Brno-Řečkovice a Mokrá Hora', 'Brno-Královo Pole',
       'Brno-Židenice', 'Brno-Žabovřesky', 'Brno-Kohoutovice',
       'Brno-Žebětín', 'Brno-Černovice', 'Brno-Starý Lískovec',
       'Brno-Bosonohy', 'Brno-Jehnice', 'Brno-Medlánky',
       'Brno-Maloměřice a Obřany', 'Brno-Bystrc', 'Brno-Chrlice',
       'Brno-Jundrov', 'Brno-Ivanovice', 'Brno-Nový Lískovec',
       'Brno-Kníničky', 'Brno-Vinohrady', 'Brno-Útěchov', 'Brno-Ořešín'],
      dtype=object)

Filtrování + metoda `.value_counts()`

In [None]:
# Zobraz pouze nehody, které se staly v Bystrci
nehody_bystrc = df_nehody_filtered.loc[ df_nehody_filtered['mestska_cast'] == 'Brno-Bystrc' ].shape[0]

# Zobraz pouze nehody, které se staly v neděli
df_nehody_filtered.loc[ df_nehody_filtered['den_v_tydnu'] == 'neděle' ]

# Zjistěte , kolik nehod se stalo v každém dni
df_nehody_filtered['den_v_tydnu'].value_counts()

# Zjistěte, kolik nehod se stalo v jednotlivých městských částích
df_nehody_filtered['mestska_cast'].value_counts()               # Sestupne
df_nehody_filtered['mestska_cast'].value_counts(ascending=True) # Vzestupne 

Filtrování pomocí několika podmínek (and / or)

In [None]:
# Zobraz pouze škody, které se staly v městské části Brno-střed a viník byl pod vlivem alkoholu
df_brno_stred_alkohol = df_nehody_filtered.loc[ (df_nehody_filtered['mestska_cast'] == 'Brno-střed') & (df_nehody_filtered['alkohol_vinik'] == 'ano') ]

# Kolik nehod v brno-střed, kde byl viník pod vlivem se stalo v jednotlivých dnech
df_brno_stred_alkohol['den_v_tydnu'].value_counts()

In [None]:
# ZObrazit nehody, které se staly na stezce pro cyklisty
df_nehody_cyklostezka = df_nehody_filtered.loc[ df_nehody_filtered['situovani'] == 'na stezce pro cyklisty' ]

# Zobrazit nejčastější příčiny nehod na cyklostezce
df_nehody_cyklostezka['hlavni_pricina'].value_counts()

# Zobrazit městkou část, kde se stává nejvíce nehod na cyklostezce (počty nehod v jednotlivých městkých částích seřazeno)
df_nehody_cyklostezka['mestska_cast'].value_counts()

In [None]:
# 2. způsob pro filtrování - bez atributu .loc
df_nehody_filtered[df_nehody_filtered['situovani'] == 'na stezce pro cyklisty']

In [None]:
# Lze vyuzit pouze pro psani vyrazu
df_nehody_filtered.query('smrt == 1')

In [63]:
# Vyfiltrujte pouze nehody, kde škoda na vozidle (skoda_vozidlo) přesáhla 10000,-
df_nehody_filtered.loc[ df_nehody_filtered['skoda_vozidlo'] > 10000 ]

# Vyfiltrujte pouze nehody, které se staly v pátek
df_nehody_filtered.loc[ df_nehody_filtered['den_v_tydnu'] == 'pátek' ]

# Vyfiltrujte pouze nehody, kde byl viník pod vlivem alkoholu a jednalo se o smrtící nehodu
df_nehody_filtered.loc[ (df_nehody_filtered['alkohol_vinik'] == 'ano') & (df_nehody_filtered['smrt'] == 1) ]

Unnamed: 0,zuj,alkohol_vinik,hlavni_pricina,nasledky,mestska_cast,pohlavi,den_v_tydnu,smrt,situovani,hmotna_skoda_1,skoda_vozidlo
856,Brno-Bystrc,ano,nesprávný způsob jízdy,nehoda s následky na životě nebo zdraví,Brno-Bystrc,muž,neděle,1,na jízdním pruhu,1000,500


#### Agregace, seskupování

`median()` - medián

`mean()` - průměr

`min()` - minimální hodnota

`max()` - maximální hodnota

`sum()` - suma hodnot

In [102]:
# Zjistit průměrnou cenu škody na vozidle u nehod
df_nehody_filtered['skoda_vozidlo'].mean()
# print(f'Průměrná škoda na vozidle u nehod je: {prumerna_skoda_na_vozidle},-')

# Zjistit maximální cenu škody na vozidle u nehod
df_nehody_filtered['skoda_vozidlo'].max()

# Zobrazit nehodu, kde byla způsobená nejvyšší škoda na vozidle
df_nehody_filtered.loc[ df_nehody_filtered['skoda_vozidlo'] == df_nehody_filtered['skoda_vozidlo'].max() ]
# 2. možnost -> metoda nlargest vrací N řádků s nejvyšší hodnotou v daném sloupci
df_nehody_filtered.nlargest(n=2, columns='skoda_vozidlo')

# metoda .sort_values() umožňuje řazení sloupce
df_nehody_filtered['skoda_vozidlo'].sort_values(ascending=False)
# řazení a zobrazení celé tabulky
df_nehody_filtered.sort_values(by='skoda_vozidlo', ascending=False)

# Zjistit medián ceny škody na vozidle u nehod
df_nehody_filtered['skoda_vozidlo'].median()

# Zjistit celkovou sumu ceny škod na vozidlech u nehod
df_nehody_filtered['skoda_vozidlo'].sum()

11338700

Seskupování - (v SQL klauzule GROUP BY)

In [112]:
# Zjistěte průměrnou výši škody vozidla pro každou příčinu
df_nehody_filtered.groupby(by='hlavni_pricina')['skoda_vozidlo'].mean().sort_values(ascending=False)

# Zjistit nejčastěji se vyskytující následky (zobrazit počet nehod pro každý typ následku)
df_nehody_filtered['nasledky'].value_counts()
df_nehody_filtered.groupby(by='nasledky')['nasledky'].count()

nasledky
nehoda pouze s hmotnou škodou               110
nehoda s následky na životě nebo zdraví    1510
Name: nasledky, dtype: int64

In [116]:
# Naimportovat data o brněnských firmách
df_firmy = pd.read_csv('firmy_brno.csv')

# Zobrazit počet firem, které působí v daném odvětví
df_firmy.groupby(by='odvětví')['odvětví'].count().sort_values(ascending=False)
df_firmy['odvětví'].value_counts()

odvětví
Velkoobchod                                                                                         1005
Činnosti v oblasti nemovitostí                                                                       928
Poskytování stravování a podávání nápojů                                                             543
Výstavba bytových a nebytových budov                                                                 492
Vzdělávání                                                                                           474
                                                                                                    ... 
Poštovní a kurýrní činnosti                                                                            2
Pojišťovací a zajišťovací činnosti, penzijní financování, kromě povinného sociálního zabezpečení       2
Vodní doprava                                                                                          1
Výroba koksu a rafinovaných ropných produktů   

In [None]:
# Zobrazit firmy, které mají ve sloupci kod hodnotu 68 nebo 69
# metoda `isin()` umožňuje ve sloupci hledat více než jednu hodnotu
df_firmy.loc[ df_firmy['kod'].isin([68, 69]) ]

# Filtrování přes textový sloupec
# Hledám firmu. která má v názvu dotace
df_firmy.loc[ df_firmy['company_name'].str.lower().str.contains('dotace') ]

Unnamed: 0,X,Y,objectid,match_addr,company_name,nace_rev_2_code,kod,interval,odvětví,industry
4914,16.679486,49.206269,4915,"Koutného 2269/3, 628 00, Líšeň, Brno-Líšeň, Br...","Deregio Dotace, s.r.o.",74,74,10 - 19,"Ostatní odborné, vědecké a technické činnosti","Other professional, scientific and technical a..."
9121,16.679486,49.206269,9122,"Koutného 2269/3, 628 00, Líšeň, Brno-Líšeň, Br...","RPA Dotace, s.r.o.",7490,74,50 - 99,"Ostatní odborné, vědecké a technické činnosti","Other professional, scientific and technical a..."


In [None]:
df_deti = pd.read_csv('brno_narozene_deti.csv')

df_deti.columns

df_deti = df_deti[['NAZ_LAU1', 'Obec', 'F2010', 'F2011', 'F2012', 'F2013', 'F2014', 'F2015', 'F2016', 'F2017', 'F2018', 'F2019', 'F2020', 'F2021', 'F2022', 'F2023']]
df_deti.head()

# Vytvoření nového sloupce
df_deti['celkovy_pocet'] = df_deti['F2010'] + df_deti['F2011'] + df_deti['F2012'] + df_deti['F2013'] + df_deti['F2014'] + df_deti['F2015'] + df_deti['F2016'] + df_deti['F2017'] + df_deti['F2018'] + df_deti['F2019'] + df_deti['F2020'] + df_deti['F2021'] + df_deti['F2022'] + df_deti['F2023']

df_deti.head()

In [155]:
df_deti.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184 entries, 0 to 183
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   NAZ_LAU1  184 non-null    object 
 1   Obec      184 non-null    object 
 2   F2010     182 non-null    float64
 3   F2011     184 non-null    object 
 4   F2012     182 non-null    float64
 5   F2013     183 non-null    float64
 6   F2014     181 non-null    float64
 7   F2015     182 non-null    float64
 8   F2016     184 non-null    object 
 9   F2017     182 non-null    float64
 10  F2018     184 non-null    int64  
 11  F2019     183 non-null    float64
 12  F2020     182 non-null    float64
 13  F2021     182 non-null    float64
 14  F2022     182 non-null    float64
 15  F2023     183 non-null    float64
dtypes: float64(11), int64(1), object(4)
memory usage: 23.1+ KB


In [None]:
df_deti['F2011'].sort_values()
# Analýza řádků s textovým znakem - mají tam být pouze čísla
df_deti.loc[ df_deti['F2016'] == '-' ]

Unnamed: 0,NAZ_LAU1,Obec,F2010,F2011,F2012,F2013,F2014,F2015,F2016,F2017,F2018,F2019,F2020,F2021,F2022,F2023
7,Brno-venkov,Říčky,5.0,2,4.0,2.0,6.0,6.0,-,4.0,5,7.0,12.0,5.0,3.0,3.0


In [None]:
# ,Přepisuju' daný sloupec - pomlčky v F2016, F2011 za nulu
df_deti['F2016'] = df_deti['F2016'].replace('-', 0)
df_deti['F2011'] = df_deti['F2011'].replace('-', 0)

In [None]:
# Kontrolujeme výskyt
df_deti.loc[ df_deti['F2011'] == '-' ]

Unnamed: 0,NAZ_LAU1,Obec,F2010,F2011,F2012,F2013,F2014,F2015,F2016,F2017,F2018,F2019,F2020,F2021,F2022,F2023


In [172]:
# Provádíme přetypování na float
df_deti['F2016'] = df_deti['F2016'].astype(float)

In [170]:
# Provádíme přetypování na float
df_deti['F2011'] = df_deti['F2011'].astype(float)

In [None]:
df_deti

In [173]:
# Vytvoření nového sloupce
df_deti['celkovy_pocet'] = df_deti['F2010'] + df_deti['F2011'] + df_deti['F2012'] + df_deti['F2013'] + df_deti['F2014'] + df_deti['F2015'] + df_deti['F2016'] + df_deti['F2017'] + df_deti['F2018'] + df_deti['F2019'] + df_deti['F2020'] + df_deti['F2021'] + df_deti['F2022'] + df_deti['F2023']

df_deti.head()

Unnamed: 0,NAZ_LAU1,Obec,F2010,F2011,F2012,F2013,F2014,F2015,F2016,F2017,F2018,F2019,F2020,F2021,F2022,F2023,celkovy_pocet
0,Brno-venkov,Zbýšov,45.0,46.0,50.0,36.0,41.0,47.0,37.0,45.0,41,37.0,34.0,48.0,53.0,29.0,589.0
1,Brno-venkov,Otmarov,6.0,1.0,6.0,5.0,5.0,8.0,2.0,7.0,6,3.0,6.0,4.0,4.0,2.0,65.0
2,Brno-venkov,Řícmanice,16.0,7.0,7.0,5.0,7.0,10.0,10.0,8.0,11,8.0,4.0,9.0,5.0,5.0,112.0
3,Brno-venkov,Zastávka,34.0,30.0,43.0,39.0,25.0,23.0,47.0,24.0,30,38.0,22.0,32.0,34.0,17.0,438.0
4,Brno-venkov,Ponětovice,9.0,0.0,8.0,7.0,1.0,5.0,4.0,5.0,2,8.0,4.0,6.0,5.0,2.0,66.0


In [174]:
### Seřaďte obce dle počtu narozených dětí za posledních 13 let
df_deti.sort_values(by='celkovy_pocet', ascending=False)

Unnamed: 0,NAZ_LAU1,Obec,F2010,F2011,F2012,F2013,F2014,F2015,F2016,F2017,F2018,F2019,F2020,F2021,F2022,F2023,celkovy_pocet
183,Brno-město,Brno,4511.0,4401.0,4365.0,4308.0,4427.0,4405.0,4563.0,4634.0,4749,4642.0,4501.0,4413.0,4120.0,3828.0,61867.0
180,Blansko,Blansko,265.0,208.0,224.0,232.0,222.0,209.0,239.0,242.0,219,210.0,176.0,224.0,186.0,152.0,3008.0
182,Vyškov,Vyškov,211.0,223.0,222.0,206.0,239.0,222.0,238.0,226.0,239,219.0,177.0,213.0,198.0,150.0,2983.0
170,Brno-venkov,Kuřim,148.0,134.0,149.0,133.0,133.0,140.0,130.0,118.0,116,108.0,103.0,110.0,105.0,89.0,1716.0
179,Brno-venkov,Tišnov,111.0,122.0,110.0,112.0,118.0,124.0,119.0,156.0,124,110.0,102.0,118.0,87.0,92.0,1605.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
37,Brno-venkov,Braníškov,2.0,2.0,2.0,3.0,,3.0,5.0,,1,2.0,2.0,6.0,1.0,4.0,
40,Brno-venkov,Lesní Hluboké,4.0,1.0,2.0,1.0,3.0,3.0,5.0,,5,6.0,3.0,2.0,2.0,2.0,
45,Brno-venkov,Kupařovice,2.0,2.0,,4.0,4.0,2.0,2.0,5.0,3,8.0,5.0,9.0,7.0,4.0,
46,Brno-venkov,Ledce,5.0,2.0,1.0,1.0,1.0,,3.0,5.0,4,3.0,6.0,1.0,3.0,4.0,


In [None]:
# Zobrazit obce, kde se za rok 2023 narodilo více, než 100 dětí

df_deti.loc[ df_deti['F2023'] > 100 ]['Obec']

df_nad_sto = df_deti.loc[ df_deti['F2023'] > 100 ]
df_nad_sto['Obec']

180    Blansko
182     Vyškov
183     Brno  
Name: Obec, dtype: object

In [None]:
# Pro každý okres vypočítat průměrný počet narozeních dětí od r. 2010-2023
df_deti.groupby(by='NAZ_LAU1')['celkovy_pocet'].mean().sort_values(ascending=False)

Unnamed: 0,NAZ_LAU1,Obec,F2010,F2011,F2012,F2013,F2014,F2015,F2016,F2017,F2018,F2019,F2020,F2021,F2022,F2023,celkovy_pocet
0,Brno-venkov,Zbýšov,45.0,46.0,50.0,36.0,41.0,47.0,37.0,45.0,41,37.0,34.0,48.0,53.0,29.0,589.0
1,Brno-venkov,Otmarov,6.0,1.0,6.0,5.0,5.0,8.0,2.0,7.0,6,3.0,6.0,4.0,4.0,2.0,65.0


In [186]:
# Zobrazte obce, kde se v roce 2023 narodilo méně dětí, než v roce 2010
df_deti.loc[ df_deti['F2010'] > df_deti['F2023'] ].sort_values(by='celkovy_pocet', ascending=False)

Unnamed: 0,NAZ_LAU1,Obec,F2010,F2011,F2012,F2013,F2014,F2015,F2016,F2017,F2018,F2019,F2020,F2021,F2022,F2023,celkovy_pocet
183,Brno-město,Brno,4511.0,4401.0,4365.0,4308.0,4427.0,4405.0,4563.0,4634.0,4749,4642.0,4501.0,4413.0,4120.0,3828.0,61867.0
180,Blansko,Blansko,265.0,208.0,224.0,232.0,222.0,209.0,239.0,242.0,219,210.0,176.0,224.0,186.0,152.0,3008.0
182,Vyškov,Vyškov,211.0,223.0,222.0,206.0,239.0,222.0,238.0,226.0,239,219.0,177.0,213.0,198.0,150.0,2983.0
170,Brno-venkov,Kuřim,148.0,134.0,149.0,133.0,133.0,140.0,130.0,118.0,116,108.0,103.0,110.0,105.0,89.0,1716.0
179,Brno-venkov,Tišnov,111.0,122.0,110.0,112.0,118.0,124.0,119.0,156.0,124,110.0,102.0,118.0,87.0,92.0,1605.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
42,Brno-venkov,Hvozdec,3.0,3.0,1.0,2.0,4.0,5.0,3.0,1.0,7,6.0,2.0,3.0,3.0,2.0,45.0
6,Brno-venkov,Nesvačilka,5.0,1.0,4.0,5.0,4.0,4.0,8.0,9.0,3,4.0,3.0,,8.0,2.0,
11,Brno-venkov,Vohančice,2.0,0.0,2.0,3.0,3.0,2.0,2.0,2.0,3,3.0,,2.0,1.0,1.0,
40,Brno-venkov,Lesní Hluboké,4.0,1.0,2.0,1.0,3.0,3.0,5.0,,5,6.0,3.0,2.0,2.0,2.0,


In [188]:
df_nehody_filtered.head(2)

Unnamed: 0,zuj,alkohol_vinik,hlavni_pricina,nasledky,mestska_cast,pohlavi,den_v_tydnu,smrt,situovani,hmotna_skoda_1,skoda_vozidlo
0,Brno-střed,ne,nesprávný způsob jízdy,nehoda s následky na životě nebo zdraví,Brno-střed,muž,neděle,0,na jízdním pruhu,32000,2000
1,Brno-střed,ne,nesprávný způsob jízdy,nehoda s následky na životě nebo zdraví,Brno-střed,muž,sobota,0,na jízdním pruhu,0,0


#### Filtrace řádků:

`.loc` v pandas je atribut DataFrame nebo Series, který slouží k indexování a výběru dat na základě štítků. Tato metoda umožňuje přístup k řádkům a sloupcům podle jejich jmen (label) nebo logických podmínek, a to jak pro čtení, tak pro zápis.

Přístup pro zobrazení řádků pomocí podmínky uvnitř atributu `.loc` 

In [3]:
# 1. způsob 
df[df['Value'] > 30]

NameError: name 'df' is not defined

In [None]:
# 2. způsob .- počet produktů, které stojí víc než 30 PLN
df.loc[ (df['Value'] > 30) & (df['Group ID'] == 2) ]

Výběr více řádků/sloupců

Pandas umožňuje v atributu `.loc` filtrovat jak řádky, tak i sloupce. Většinou se využívá přístup přes sloupce, ale ukážeme si i přístup přes N řádků.

`.loc[řádky, sloupce]` 

In [None]:
# Zobraz mi sloupce Year a Věk
df.loc[['Year', 'Věk']]

V Pandas se `.loc` běžně používá také k podmíněné aktualizaci hodnot ve vybraných buňkách DataFrame. Pomocí této syntaxe můžete změnit hodnoty v určitém sloupci na základě splnění dané podmínky.


`DataFrame.loc[podmínka, sloupec] = nová_hodnota`

**podmínka**: Logická maska nebo výraz, který určuje, které řádky chcete upravit.

**sloupec**: Název sloupce, ve kterém chcete změnit hodnoty.

**nová_hodnota**: Hodnota nebo výraz, který se má přiřadit buňkám odpovídajícím podmínce.


In [None]:
# Aktualizace hodnot -> .loc[podminka, sloupec] = nova_hodnota
df.loc[ df['Value'] > 30, 'Novy' ] = 'Drahé'

# Výpis hodnot
df.loc[ df['Value'] < 30 ]

In [None]:
import pandas as pd

# Vytvoříme DataFrame
df = pd.DataFrame({ 
    'jméno': ['Anna', 'Petr', 'Eva', 'Jan'],
    'věk': [23, 34, 29, 40],
    'město': ['Praha', 'Brno', 'Ostrava', 'Praha']}
)

# Změníme 'město' na 'Plzeň' pro všechny, kteří mají věk větší než 30
df.loc[df['věk'] > 30, 'město'] = 'Plzeň'

print(df)

**Změna na základě více podmínek**

Pro složitější podmínky lze použít operátory jako & (a), | (nebo), nebo ~ (negace).

In [None]:
# Změníme 'město' na 'Brno' pro ty, kteří jsou mladší než 30 a mají jméno 'Anna'
df.loc[ (df['věk'] < 30) & (df['jméno'] == 'Anna') , 'město'] = 'Brno'

**Použití výrazů jako nové hodnoty**

Hodnotu můžete nastavit na základě výpočtu nebo jiného sloupce.

In [None]:
df.head()

In [None]:
# Změníme 'věk' na jeho dvojnásobek pro ty, kteří mají 'město' jako 'Plzeň'
df.loc[ df['město'] == 'Plzeň', 'věk' ] = df['věk'] * 2
df.head()

In [None]:
data = {
    "id_objednavky": [1, 2, 3, 4, 5],
    "rozdil": [-5, 10, -2, 3, 20]
}

df_objednavky = pd.DataFrame(data)

df_objednavky.head()

In [None]:
df_objednavky.loc[ df_objednavky['rozdil'] < 0, 'zpozdeno' ] = True
df_objednavky.loc[ df_objednavky['rozdil'] > 0, 'zpozdeno' ] = False

df_objednavky.head()

df_objednavky['zpozdeno'].sum()

In [None]:
# Vytvářím nový sloupec zpožděno, kam se uloží pouze objednávky, které mají hodnotu ve sloupci rozdíl < 0
df_objednavky['zpozdeno'] = df_objednavky['rozdil'] < 0

df_objednavky.head()

In [None]:
# Vytvářím nový sloupec zpožděno, kam se uloží pouze objednávky, které mají hodnotu ve sloupci rozdíl < 0
# ideální zápis, pokud máme velké množství dat
df_objednavky.loc[:, 'zpozdeno'] = df_objednavky['rozdil'] < 0

# Spočítám počet zpožděných objednávek (suma True = suma jedniček)
zpozdene_objednavky_pocet = df_objednavky['zpozdeno'].sum()

print(f'Počet zpožděných objednávek je: {zpozdene_objednavky_pocet}')

In [None]:
# Vytvářím nový DataFrame, do kterého se mi ukládají pouze řádky, které mají ve sloupci zpozdeno hodnotu True
zpozdene_objednavky = df_objednavky.loc[ df_objednavky['zpozdeno'] ]
zpozdene_objednavky

In [None]:
df_objednavky.loc[ df_objednavky['zpozdeno'] ]['rozdil'].mean()

In [None]:
# Vytvářím novou proměnnou Průměrná doba zpoždění a počítám průměrnou hodnotu ze sloupce rozdíl
prumerna_doba_zpozdeni = zpozdene_objednavky['rozdil'].mean()
# Vytvářím novou proměnnou Počet zpožděných objednávek a počítám počet pomocí agregační funkce .count()
pocet_zpozdenych_objednavek = zpozdene_objednavky['id_objednavky'].count()

print(f'Počet zpožděných objednávek je: {pocet_zpozdenych_objednavek}, \n průměrná doba zpoždění je: {prumerna_doba_zpozdeni} min')

In [None]:
df.head()

In [None]:
# Zjistit nejvyšší hodnotu ve sloupci Value (nejvyšší cenu) a pak najít řádky s touto cenou
df['Value'].max()

# Zobrazí pouze řádky s nejvyšší cenou
df.loc[ df['Value'] == df['Value'].max() ]


## Cvičení: Zjistit nejnižší hodnotu ve sloupci Value a najít řádky s touto nejnižší cenou
df.loc[ df['Value'] == df['Value'].min() ]

## Zobrazte všechny produkty, které mají měnu v PLN
df.loc[ df['Measurement unit'] == 'PLN' ]
## Zobrazte všechny produkty, které nemají měnu v PLN
df.loc[ df['Measurement unit'] != 'PLN' ]

In [None]:
# Name = oblast
# 1. Vypsat všechny produkty z oblasti LOWER SILESIA
df_silesia = df.loc[ df['Name'] == 'LOWER SILESIA' ]

# 2. Zjistit průměrnou cenu produktů v oblasti LOWER SILESIA
prum_hodnota = df_silesia['Value'].mean()

# 3. Zjistit, kolik produktů v LOWER SILESIA je evidováno v PLN
silesia_pln_pocet = df_silesia.loc[ df_silesia['Measurement unit'] == 'PLN' ].count()
silesia_pln_pocet = df_silesia.loc[ df_silesia['Measurement unit'] == 'PLN' ].shape[0]
silesia_pln_pocet = len(df_silesia.loc[ df_silesia['Measurement unit'] == 'PLN' ])
# 4. Zjistit, kolik produktů v LOWER SILESIA je evidováno v EUR
silesia_eur_pocet = df_silesia.loc[ df_silesia['Measurement unit'] == 'EUR' ].shape[0]

In [None]:
# 1: Zjistěte průměrnou cenu produktů, které jsou evidovány v PLN a poté to stejné pro EUR
avg_pln = df.loc[ df['Measurement unit'] == 'PLN' ]['Value'].mean()
avg_eur = df.loc[ df['Measurement unit'] == 'EUR' ]['Value'].mean()
# 2: Zjistěte minimální cenu produktu s názvem pork ham cooked - per 1kg
min_cena_sunka = df.loc[ df['Product types'] == 'pork ham cooked - per 1kg' ]['Value'].min()
# 3: Zjistěte, kolik evidujeme produktů s názvem bread - per 1kg
celkem_chleba = df.loc[ df['Product types'] == 'bread - per 1kg' ].shape[0]

**Tipy a upozornění**

**Logická maska musí odpovídat indexu**: Podmínka musí vracet hodnoty `True/False` pro všechny řádky v DataFrame.

**Změny se aplikují přímo (in-place)**: Změny provedené pomocí .loc upravují DataFrame bez nutnosti přiřazení zpět.

**Chybějící hodnoty (NaN)**: Pokud použijete podmínku na sloupec obsahující NaN, porovnávání může vést k nečekaným výsledkům, protože NaN není rovno žádné hodnotě (ani sobě samému). Použijte například pd.isnull() nebo pd.notnull() pro kontrolu.

#### Přidání nového sloupce:

In [None]:
df['Dvojnásobný_věk'] = df['věk'] * 2
df

#### Odstranění sloupce:

In [None]:
df = df.drop(['Dvojnásobný_věk', 'Město'], axis=1)
#df = df.drop('Nový_sloupec', axis=1)

In [None]:
df

#### Uložení DataFrame do CSV:

In [None]:
df.to_excel('export_test.xlsx', index=False)
#df.to_csv('novy_data.csv', index=False)

#### Praktický příklad

In [None]:
import pandas as pd

# Načtení dat
df = pd.read_csv('export_test.csv')

# Zobrazení prvních 5 řádků
print(df.head())

# Získání informací o DataFrame
print(df.info())

# Výběr sloupce 'Jméno'
print(df['Jméno'])

# Filtrace řádků, kde je věk větší než 30
print(df[df['Věk'] > 30])

# Přidání nového sloupce 'Dvojnásobný věk'
df['Dvojnásobný věk'] = df['Věk'] * 2
print(df)

# Uložení upraveného DataFrame do nového CSV souboru
df.to_csv('upraveny_data.csv', index=False)

#### Práce s chybějícími hodnotami

Chybějící hodnoty mohou být v datech běžným problémem. Pandas nabízí několik metod, jak s nimi pracovat.

1. Kontrola chybějících hodnot:

In [None]:
import pandas as pd

df = pd.DataFrame({
    'Jméno': ['Anna', 'Boris', 'Cyril'],
    'Věk': [23, None, 45],
    'Město': ['Praha', 'Brno', None]
})

df.isnull()

#print(df.isnull())  # Zjistí, které hodnoty jsou chybějící
#print(df.isnull().sum())  # Spočítá chybějící hodnoty v každém sloupci

2. Odstranění chybějících hodnot:

In [None]:
import pandas as pd

df = pd.DataFrame({
    'Jméno': ['Anna', 'Boris', 'Cyril'],
    'Věk': [23, None, 45],
    'Město': ['Praha', 'Brno', None]
})

df.dropna(how='any', inplace=True)
#df_cleaned = df.dropna()  # Odstraní všechny řádky s chybějícími hodnotami
#print(df_cleaned)


In [None]:
df

Náhrada chybějících hodnot:

In [None]:
import pandas as pd

df = pd.DataFrame({
    'Jméno': ['Anna', 'Boris', 'Cyril'],
    'Věk': [23, None, 45],
    'Město': ['Praha', 'Brno', None]
})

df_filled = df.fillna({
    'Věk': df['Věk'].mean(), # Nahradí chybějící hodnoty ve sloupci Věk průměrem
    'Město': 'Neznám město'  # Nahradí chybějící hodnoty ve sloupci Město řetězcem 'Neznámé'
})

df_filled

#### Skupinové operace

Pandas umožňuje snadné skupinování dat a aplikaci agregačních funkcí.

1. Skupinování a agregace:

In [None]:
# Spočítat počet produktů pro každou oblast
df.groupby('Name')['Value'].count()
# Count lze nahradit a použít bez seskupení
df['Name'].value_counts()

# Spočítat průměrnou cenu produktů pro každou oblast
df.groupby('Name')['Value'].mean()

# Spočítat minimální cenu produktu v každé oblasti
df.groupby('Name')['Value'].min()

# Spočítat maximální cenu produktu v každé oblasti
df.groupby('Name')['Value'].max()

# Metoda .agg() -> umožňuje mi psát/zobrazit vícero agregačních funkcí naráz
df.groupby('Name')['Value'].agg(['mean', 'min', 'max', 'count'])

In [None]:
# Počet produktů pro EUR a PLN
df['Measurement unit'].value_counts()

In [None]:
# Zjisti průměrnou cenu pro každou oblast a seřaď jí od nejvyšší po nejmenší
df.groupby('Name')['Value'].mean().sort_values(ascending=False)

In [None]:
# Zjisti nejvyšší průměrnou cenu pro každou oblast
df.groupby('Name')['Value'].mean().nlargest(n=3)

In [None]:
# Pouze pro produkty evidované v PLN zjisti pro každou oblast průměrnou cenu produktů
# Filtr dat pouze pro produkty v PLN
df_pln = df.loc[ df['Measurement unit'] == 'PLN' ]

# Seskupení a výpočet prům. hodnoty pro každou oblast
df_pln.groupby('Name')['Value'].mean().sort_values(ascending=False).reset_index()

In [None]:
# Zjisti, který produkt má nejvyšší průměrnou cenu
df.groupby('Product types')['Value'].mean().nlargest(n=1).reset_index()

# Zjisti, jaká je nejmenší cena každého produktu (POZOR - ceny 0.00 ignoruj!)
df_filtered = df.loc[ df['Value'] > 0 ]
(df_filtered
        .groupby('Product types')['Value']
        .min()
        .reset_index(name='Average value')
        .sort_values(ascending=False, by='Average value')
 )
# Vypiš 3 nejdražší produkty (resp. zjisti maximální cenu každého a vyber ty nejdražší)
df.groupby('Product types')['Value'].max().nlargest(n=3).reset_index()
df.groupby('Product types')['Value'].max().sort_values(ascending=False).head(3).reset_index()

In [None]:
df_obj = pd.read_csv('objednavky.csv')
df_obj.head()

In [None]:
# Zjistěte, kolik objednávek bylo celkem zpožděno
df_obj.loc[ df_obj['zpozdeno'] ]

# Zjistěte, ve kterém městě bylo zpožděno nejvíce objednávek
df_obj.groupby('mesto')['zpozdeno'].sum().nlargest().reset_index()

# Zjistěte průměrnou váhu zpožděných i nezpožděných objednávek a řekněte, 
# zda-li je tam korelace mezi zpožděnými objednávkami a váhou objednávky
df_obj.groupby('zpozdeno')['vaha_kg'].agg(['mean', 'count', 'median'])

In [None]:
# Přetypování sloupců na datetime

# Přetypujeme na datový typ datetime
df_obj['realny_cas'] = pd.to_datetime(df_obj['realny_cas'])
df_obj['pozadovany_cas'] = pd.to_datetime(df_obj['pozadovany_cas'], format='any')

# Získáme rozdíl dvou timespanů (datum+čas)
df_obj['rozdil'] = df_obj['realny_cas'] - df_obj['pozadovany_cas']

# Z formátu delta (0 dní 20 hodin) převádíme na celkový počet minut
df_obj['rozdil'] = df_obj['rozdil'].dt.total_seconds() / 60.0

df_obj.head()

In [None]:
# 1: Jaká je průměrná doba zpoždění u zpožděných objednávek
df_zpozdene = df_obj.loc[ df_obj['zpozdeno'] ]
avg_zpozdeni = df_zpozdene['rozdil'].mean()

# 2: Kolik objednávek bylo zpožděno o více než 30 minut
zpozdeno_30_vice = df_zpozdene.loc[ df_zpozdene['rozdil'] > 30 ].shape[0]

# 3: Kolik kg vážila objednávka, která byla nejvíce zpožděna -> 32.96kg
df_zpozdene.loc[ df_zpozdene['rozdil'] == df_zpozdene['rozdil'].max() ]

# 4: Objednávky doručené včas - v jakém předstihu (v průměru) byly tyhle objednávky doručeny
prumerne_doruceni_vcas = df_obj.loc[ df_obj['zpozdeno'] == False ]['rozdil'].mean()
prumerne_doruceni_vcas

In [None]:
df_obj.loc[ df_obj['zpozdeno'] == False ]

In [None]:
df_obj.drop(columns='rozdil', inplace=True)

2. Použití více agregačních funkcí:

In [None]:
import pandas as pd

data = {
    'Jméno': ['Anna', 'Boris', 'Cyril', 'Anna', 'Boris', 'Cyril'],
    'Město': ['Praha', 'Brno', 'Ostrava', 'Praha', 'Brno', 'Ostrava'],
    'Věk': [23, 35, 45, 24, 36, 46]
}

df = pd.DataFrame(data)

grouped = df.groupby('Město')
print(grouped['Věk'].agg(['mean', 'sum', 'count']))  # Použije více agregačních funkcí najednou

In [None]:
import pandas as pd

df = pd.read_csv('product_prices.csv', delimiter=';')

# Vypočti průměrnou cenu pro každou oblast (Oblast = sloupec Name)
df.groupby('Name')['Value'].mean().reset_index(name='Average value')

# Zjisti mi maximální cenu pro každý produkt (Product types)
df_produkty_ceny = df.groupby('Product types')['Value'].max().reset_index(name='Max price')

# Řazení
df_produkty_ceny.sort_values(by='Max price', ascending=False)

# Kratší zformátovaný zápis - pomocí zpětných lomítek - každá metoda na novém řádku, čitelnější
df.groupby('Product types') \
    ['Value'].max() \
    .reset_index(name='Max price') \
    .sort_values(by='Max price', ascending=False)

# Kratší zformátovaný zápis - pomocí závorky na začátku a na konci - každá metoda na novém řádku, čitelnější
(df.groupby('Product types') 
    ['Value'].max() 
    .reset_index(name='Max price') 
    .sort_values(by='Max price', ascending=False))

In [None]:
import pandas as pd

df = pd.read_csv('product_prices_renamed.csv', delimiter=';')

Příklad: What was the average monthly price (date) of each product_line?

In [None]:
df.head()

df.groupby(['product_line', 'date'])['value'].mean()

Which product had the highest price volatility over the years?

Který produkt měl nejvyšší volatilitu ceny v čase?

In [None]:
df.head()

df_volatilita = df.groupby('product_line')['value'].std().reset_index(name='Směrodatná odchylka')
# Získat největší hodnotu ze sloupce směrodatná odchylka pomocí řazení
df_volatilita.sort_values(by='Směrodatná odchylka', ascending=False).head(1)

# Optimálnější
df_volatilita.nlargest(columns='Směrodatná odchylka', n=1)

In [None]:
df.head(1)

In [None]:
df.info()

df.loc[ df['date'] > 1999 ]


#### Práce s daty a časem

Pandas má silnou podporu pro práci s daty a časem.

Konverze na datetime:
Sloupce s datumem se většinou do Pandas natáhnou jako string. Pokud s nimi chceme pracovat, jako s datumy, musíme je náležitě přetypovat na datový typ `datetime`. To provádíme pomocí metody `.to_datetime(sloupec)`.

In [None]:
import pandas as pd

data = {
    'Datum': ['2023-01-01', '2023-02-01', '2024-03-01', '2024-06-01', '2024-07-01']
}

df = pd.DataFrame(data)
df.head()

#data['Rok'] = data['Datum'].dt.year

df['Datum'] = pd.to_datetime(df['Datum'])

# Extrakce roku do nového sloupce
df['Rok'] = df['Datum'].dt.year
df.head()

# Extrakce měsíce do nového sloupce
df['Měsíc'] = df['Datum'].dt.month

df.head()

In [None]:
df.head(1)

product_prices_renamed.csv

In [None]:
#df['date'] = pd.to_datetime(df['date'], format='mixed')

# Najít řádky s datumem 2099-13 a 1888-0 a uložit si jejich index
radky_ke_smazani = df.loc[ (df['date'] == '2099-13') | (df['date'] == '1888-0') ].index

# Smazat tyhle řádky - do parametru index předávám čísla(indexy) řádků, které chceme mazat
df.drop(index=radky_ke_smazani, inplace=True)

In [None]:
df.loc[ df['date'] == '1888-0' ]

In [None]:
# Přetypování na datetime pomocí mixed formatu, jelikož nemáme standardní formát datumu
df['date'] = pd.to_datetime(df['date'], format='mixed')

In [None]:
# Vytvoření nového sloupce s rokem
df['year'] = df['date'].dt.year
df.head()

# Vytvoření nového sloupce s měsícem
df['month'] = df['date'].dt.month
df.head(20)

### 1. příklad: Zjisti, kolik produktů s cenou je v každém roce evidováno 

### 2. příklad: Zjistěte maximální cenu produktů (pouze ty s cenou) v každém roce

### 3. příklad: Zjistěte průměrnou cenu produktů v provincii `LOWER SILESIA` v roce `2018`

## SPOTIFY DATASET

In [None]:
df = pd.read_csv('Most Streamed Spotify Songs 2024.csv', encoding='unicode_escape', thousands=',')

# Zjistit strukturu dat
df.info()

In [None]:
df.describe()

In [None]:
# Zobrazíme názvy všech sloupců
df.columns

In [None]:
# Smazání nepotřebných sloupců
sloupce_smazat = ['Deezer Playlist Count', 'Deezer Playlist Reach', 
                  'SiriusXM Spins', 'Soundcloud Streams', 'Amazon Playlist Count', 
                  'Pandora Streams', 'Pandora Track Stations', 'Apple Music Playlist Count', 'AirPlay Spins', 'Explicit Track', 'TIDAL Popularity']

df.drop(axis=1, labels=sloupce_smazat, inplace=True)

In [None]:
df.head(2)

In [None]:
# Ošetřit datové typy - views jsou jako string -> při použití thousands v metodě .read_csv není třeba! 
# Pouze, pokud potřebuji sloupec upravit a přetypovat

df['Spotify Streams'] = pd.to_numeric(df['Spotify Streams'].str.replace(',', ''), errors='coerce')
df['Spotify Playlist Count'] = pd.to_numeric(df['Spotify Playlist Count'].str.replace(',', ''), errors='coerce').astype('Int64')
df.head()

In [None]:
df.head()

## Získat TOP 5 nejhranějších songů na Spotify (nejvíce přehrání) za rok 2024

In [None]:
df[['Track', 'Spotify Streams']]

# Řešení se řazením
df[['Track', 'Artist', 'Spotify Streams']].sort_values(by='Spotify Streams', ascending=False).head(5)

# Řešení s metodou .nlargest()
df[['Track', 'Artist', 'Spotify Streams']].nlargest(columns='Spotify Streams', n=5)

In [None]:
# Přetypování datumu na datový typ datetime
df['Release Date'] = pd.to_datetime(df['Release Date'])

In [None]:
# Vytvoření nového sloupce Month
df['Month'] = df['Release Date'].dt.month

### Jaký song vydaný v červenci byl nejposlouchanějším songem?
1. hint: Vyfiltrovat si pouze songy v červenci

### Zjistit TOP 5 zpěváků (artistů), kteří v roce 2024 vydali nejvíce songů
1. Vytvořit sloupec s rokem vydání
2. Získat pouze songy vydané v r. 2024
3. Získat počet vydaných songů pro každého zpěváka
4. Získat 5 zpěváků s nejvyšším počtem vydaných songů v r. 2024

### Příklad: Ve kterém měsíci bylo vydáno nejvíce songů?
1. Seskupit data podle měsíce
2. Aplikovat agregační funkci na příslušný sloupec
3. Zobrazit měsíc s nejvyšším počtem

### Příklad: Ve kterém dni v měsíci bylo vydáno nejvíce songů?
1. Seskupit data podle dne
2. Aplikovat agregační funkci na příslušný sloupec
3. Zobrazit den s nejvyšším počtem

Výběr dat na základě času:

In [None]:
import pandas as pd

data = {
    'Datum': ['2023-01-01', '2023-02-01', '2023-03-01'],
    'Hodnota': [10, 20, 30]
}

df = pd.DataFrame(data)
df['Datum'] = pd.to_datetime(df['Datum'])

# Výběr řádků s datem po 1. únoru 2023 přes .loc
filtered_df = df.loc[df['Datum'] > '2023-02-01']
print(filtered_df)

# Výběr řádků s datem po 1. únoru 2023 přes .query
filtered_df_query = df.query("Datum > '2023-02-01'")
filtered_df_query

In [None]:
df

In [None]:
df.loc[df['Hodnota'].isin([10,20])]

### Optimalizace paměti pomocí typů dat:


In [None]:
import pandas as pd

data = {
    'ID': [1, 2, 3, 4],
    'Hodnota': [100.1, 200.2, 300.3, 400.4],
    'Kategorie': ['A', 'B', 'A', 'B']
}

df = pd.DataFrame(data)
#df['ID'] = df['ID'].astype('int32')
df['Hodnota'] = df['Hodnota'].astype('float32')
df['Kategorie'] = df['Kategorie'].astype('category')
print(df.dtypes)

In [None]:
df['Kategorie'] = df['Kategorie'].astype(str) # CAT -> STR
df['ID'] = df['ID'].astype('int64') # INT -> STR

df.info()

df['ID'] = df['ID'].astype('int32') # STR -> INT32
df['Kategorie'] = df['Kategorie'].astype('category') # CAT -> STR
df.info()

#### Vizualizace dat

Pandas nabízí základní nástroje pro vizualizaci dat pomocí knihovny Matplotlib.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

data = {
    'Měsíc': ['Leden', 'Únor', 'Březen', 'Duben'],
    'Hodnota': [2, 4, 10, 15]
}

df = pd.DataFrame(data)

# Sloupcový graf
df.plot(kind='bar', x='Měsíc', y='Hodnota')
plt.show()

# Čarový graf
df.plot(kind='line', x='Měsíc', y='Hodnota')
plt.show()

Pokročilé grafy

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

data = {
    'Měsíc': ['Leden', 'Únor', 'Březen', 'Duben'],
    'Hodnota': [100, 200, 300, 400]
}

df = pd.DataFrame(data)

# Histogram
df['Hodnota'].plot(kind='hist')
plt.show()

# Box plot
df.boxplot(column='Hodnota')
plt.show()

# Příklady

### Načíst do proměnné df soubor **product_prices_renamed.csv**

In [None]:
import pandas as pd

#### 1. Najít všechny řádky ve sloupci date s hodnotou 1888-0

 Najít všechny řádky ve sloupci date s datumem v budoucnu ( větší než 2024-07 )

### Najít všechny řádky, které mají ve sloupci value hodnotu 3000

### Zobrazit pouze unikátní hodnoty pro sloupec product_types

### Zobrazit všechny řádky, které mají ve sloupci product_types hodnotu **fresh chichen egges - per 666pcs.**

Přepsat všechny špatné názvy na **fresh chichen eggs - per 666pcs.**

**Př: Jaká je nejvyšší cena v historii v provincii POLAND?**

 1. krok: Získat data pouze pro provincii POLAND

 2. krok: Seřadit pomocí .sort_values od nejvyšší k nejnižšímu a získat produkt s nejvyšší cenou (první řádek po seřazení)



**Všechny záznamy s rokem 2099-12 změnit na 2019-1**

### Seskupit data podle sloupce product_line a vypočítat průměrnou cenu (sloupec value)

### Sloupec datum převést na datový typ datetime

### Vytvořte nový sloupec **rok**, jehož hodnota bude extrahovaný rok ze sloupce datum .

In [None]:
class Clovek:
    def __init__(self, jmeno, prijmeni, vek, bydliste):
        self.jmeno = jmeno
        self.prijmeni = prijmeni
        self.vek = vek
        self.bydliste = bydliste

    def ziskejJmeno(self):
        return self.jmeno
    
    def zmenVek(self, vek):
        self.vek = vek