## Knihovna Pandas
pro analýzu dat a manipulaci s nimi 

Panel Data" - multidimenzionální struktury dat (reprezentovány jako tabulky)

DataFrame
- hlavní datová struktura
- reprezentuje dvourozměrnou tabulku s daty

Series
- základní datový typ
- jednorozměrný indexovaný datový řetězec
- jako pole nebo seznam, ale s dalšími funkcemi
    - každý prvek má svůj vlastní index k identifikaci a přístupu
    - může obsahovat různé typy dat
    - mnoho vestavěných funkcí a metod, včetně agregačních funkcí, filtrování dat, transformací ...

Čtení a zápis dat
- CSV, Excel, JSON, SQL, ...
- snadné čtení a zápis z/do těchto formátů

In [3]:
import pandas as pd
import numpy as np

arr = np.array([51, 65, 48, 59, 68])    # Create NumPy array
series = pd.Series(arr)                 # Create Pandas Series
series

0    51
1    65
2    48
3    59
4    68
dtype: int32

In [2]:
series = pd.Series(10, index=[0, 1, 2, 3, 4, 5])
series

0    10
1    10
2    10
3    10
4    10
5    10
dtype: int64

In [3]:
import pandas as pd 
df = pd.DataFrame()     # prázdný DataFrame
print(df)
print(df.head())        # header (prvních n řádků)

Empty DataFrame
Columns: []
Index: []
Empty DataFrame
Columns: []
Index: []


In [4]:
# slovník seznamů
data = {'Jméno': ['Franta', 'Jiří', 'Jana', 'Honza'], 'Věk': [23, 45, 21, 19 ]}
df = pd.DataFrame(data)
df

Unnamed: 0,Jméno,Věk
0,Franta,23
1,Jiří,45
2,Jana,21
3,Honza,19


In [5]:
# seznam slovníků
data =[ {'Jméno': 'Franta',  'Věk': 23},{'Jméno': 'Jiří',  'Věk': 45},{'Jméno': 'Jana',  'Věk': 21}]
df = pd.DataFrame(data,columns=['Jméno','Věk'])
df

Unnamed: 0,Jméno,Věk
0,Franta,23
1,Jiří,45
2,Jana,21


In [6]:
# seznam n-tic
data = [('Franta', 23),( 'Jiří', 45), ('Jana', 21), ('Honza',19)]
df = pd.DataFrame(data, columns=['Jméno','Věk'])
df

Unnamed: 0,Jméno,Věk
0,Franta,23
1,Jiří,45
2,Jana,21
3,Honza,19


## Načtení tabulky

In [46]:
# Pozor, může trvat několik minut!!!
import pandas as pd

# Název Excelového souboru
excel_file = "data/GHED_data.XLSX"

# Načtení Excelového souboru
df = pd.read_excel(excel_file)

# Vybrané sloupce podle názvů
selected_columns = ['country', 'code', 'region', 'year', 'gdp_pc_usd', 'che_pc_usd']

# Vytvoření nového DataFrameu obsahujícího pouze vybrané sloupce
sel_col_df = df[selected_columns]

# Výběr záznamů s nejvyšší hodnotou v sloupci 'value' pro každý klíč 'key'
max_year = sel_col_df.groupby('country')['year'].idxmax()
selected_df = sel_col_df.loc[max_year]

print(selected_df)
# Uložení do formátu XLSX
xlsx_output_file = "data/selected_data.xlsx"
selected_df.to_excel(xlsx_output_file, index=False)

# Uložení do formátu CSV
csv_output_file = "data/selected_data.csv"
selected_df.to_csv(csv_output_file, index=False)

print("Data byla úspěšně uložena do formátů XLSX a CSV.")

                                 country code region  year    gdp_pc_usd  \
1828                         Afghanistan  AFG    EMR  2021    372.548784   
2268                             Albania  ALB    EUR  2021   6394.970737   
21                               Algeria  DZA    AFR  2021   3700.324153   
2290                             Andorra  AND    EUR  2021  42066.041514   
43                                Angola  AGO    AFR  2021   2167.605349   
...                                  ...  ...    ...   ...           ...   
1806  Venezuela (Bolivarian Republic of)  VEN    AMR  2021   3965.034402   
4242                            Viet Nam  VNM    WPR  2021   3756.488821   
2246                               Yemen  YEM    EMR  2021           NaN   
1011                              Zambia  ZMB    AFR  2021   1137.343302   
1033                            Zimbabwe  ZWE    AFR  2021   2248.847671   

       che_pc_usd  
1828    81.319763  
2268   464.742859  
21     204.566620  
2290  3

In [12]:
import pandas as pd
df = pd.read_csv("data/selected_data.csv")      # načtení souboru csv
df.head()                                       # prvních 5 řádků (posledních: tail)

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,372.55,81.32
1,Albania,ALB,EUR,2021,6394.97,464.74
2,Algeria,DZA,AFR,2021,3700.32,204.57
3,Andorra,AND,EUR,2021,42066.04,3505.99
4,Angola,AGO,AFR,2021,2167.61,64.16


In [13]:
import locale
# Nastavení národního prostředí na českou lokalizaci
locale.setlocale(locale.LC_ALL, 'cs_CZ.UTF-8')

# Nastavení defaultního formátu čísel s čárkou mezi tisíci
pd.options.display.float_format = '{:,.2f}'.format

# Funkce pro formátování čísel s mezerou mezi tisíci
def format_number(num):
    if isinstance(num, float):
        return locale.format_string('%.2f', num, grouping=True)
        #return '{:,.2f}'.format(num).replace(',', ' ').replace('.', ',')
    else:
        return str(num)

# Aplikace formátování na všechny číselné hodnoty v datovém rámci
for col in df.select_dtypes(include=['number']):
    df[col] = df[col].apply(format_number)

df.head()

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,37255,8132
1,Albania,ALB,EUR,2021,"6 394,97",46474
2,Algeria,DZA,AFR,2021,"3 700,32",20457
3,Andorra,AND,EUR,2021,"42 066,04","3 505,99"
4,Angola,AGO,AFR,2021,"2 167,61",6416


In [24]:
df.sort_values(by='gdp_pc_usd', ascending=False).head()                                   # posledních 5 řádků

Unnamed: 0,country,code,region,year,gdp_pc_usd
111,Monaco,MCO,EUR,2021,234317.084511
99,Luxembourg,LUX,EUR,2022,127479.353197
81,Ireland,IRL,EUR,2022,104593.737999
166,Switzerland,CHE,EUR,2021,92342.826776
127,Norway,NOR,EUR,2021,90940.418995


### Dotazování

In [14]:
df[["country", "region"]]

Unnamed: 0,country,region
0,Afghanistan,EMR
1,Albania,EUR
2,Algeria,AFR
3,Andorra,EUR
4,Angola,AFR
...,...,...
187,Venezuela (Bolivarian Republic of),AMR
188,Viet Nam,WPR
189,Yemen,EMR
190,Zambia,AFR


In [15]:
df.query('region=="AFR"')

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
2,Algeria,DZA,AFR,2021,"3 700,32",20457
4,Angola,AGO,AFR,2021,"2 167,61",6416
18,Benin,BEN,AFR,2021,"1 360,91",3513
22,Botswana,BWA,AFR,2021,"7 250,62",45746
26,Burkina Faso,BFA,AFR,2021,89308,5695
27,Burundi,BDI,AFR,2021,26664,2427
28,Cabo Verde,CPV,AFR,2021,"3 590,90",24791
30,Cameroon,CMR,AFR,2021,"1 668,01",6379
32,Central African Republic,CAF,AFR,2021,47337,4293
33,Chad,TCD,AFR,2021,68651,3563


In [16]:
df.query('country.str.startswith("M")')

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
100,Madagascar,MDG,AFR,2021,50335,1764
101,Malawi,MWI,AFR,2021,62811,4656
102,Malaysia,MYS,WPR,2021,"11 109,27",48701
103,Maldives,MDV,SEAR,2021,"10 354,02","1 038,67"
104,Mali,MLI,AFR,2021,89686,4012
105,Malta,MLT,EUR,2021,"34 405,51","3 641,62"
106,Marshall Islands,MHL,WPR,2021,"6 111,77",76694
107,Mauritania,MRT,AFR,2021,"2 166,05",8929
108,Mauritius,MUS,AFR,2021,"8 836,81",56490
109,Mexico,MEX,AMR,2021,"10 045,68",61065


In [17]:
print("Tvar:", df.shape)
print("\nSloupce:", df.columns)
print("\nDatové typy:", df.dtypes)

Tvar: (192, 6)

Sloupce: Index(['country', 'code', 'region', 'year', 'gdp_pc_usd', 'che_pc_usd'], dtype='object')

Datové typy: country       object
code          object
region        object
year          object
gdp_pc_usd    object
che_pc_usd    object
dtype: object


In [18]:
country_series=df['country']
print(country_series.name, type(country_series))
print(country_series.index)
print()
print(country_series.values)    # příp. prvních 10 [:10]

country <class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=192, step=1)

['Afghanistan' 'Albania' 'Algeria' 'Andorra' 'Angola'
 'Antigua and Barbuda' 'Argentina' 'Armenia' 'Australia' 'Austria'
 'Azerbaijan' 'Bahamas' 'Bahrain' 'Bangladesh' 'Barbados' 'Belarus'
 'Belgium' 'Belize' 'Benin' 'Bhutan' 'Bolivia (Plurinational State of)'
 'Bosnia and Herzegovina' 'Botswana' 'Brazil' 'Brunei Darussalam'
 'Bulgaria' 'Burkina Faso' 'Burundi' 'Cabo Verde' 'Cambodia' 'Cameroon'
 'Canada' 'Central African Republic' 'Chad' 'Chile' 'China' 'Colombia'
 'Comoros' 'Congo' 'Cook Islands' 'Costa Rica' 'Croatia' 'Cuba' 'Cyprus'
 'Czechia' "Côte d'Ivoire" 'Democratic Republic of the Congo' 'Denmark'
 'Djibouti' 'Dominica' 'Dominican Republic' 'Ecuador' 'Egypt'
 'El Salvador' 'Equatorial Guinea' 'Eritrea' 'Estonia' 'Eswatini'
 'Ethiopia' 'Fiji' 'Finland' 'France' 'Gabon' 'Gambia' 'Georgia' 'Germany'
 'Ghana' 'Greece' 'Grenada' 'Guatemala' 'Guinea' 'Guinea-Bissau' 'Guyana'
 'Haiti' 'Honduras' 'Hung

In [19]:
country_series[-5:]

187    Venezuela (Bolivarian Republic of)
188                              Viet Nam
189                                 Yemen
190                                Zambia
191                              Zimbabwe
Name: country, dtype: object

In [20]:
# Vytvoření Pandas Series pomocí slovníku
dict1 = {0 : 'Franta', 1 : 'Jana', 2 : 'Honza'}
series = pd.Series(dict1)   # vytvoření Pandas Series
series

0    Franta
1      Jana
2     Honza
dtype: object

### Statistika

In [21]:
import pandas as pd

# Load data using read_csv() 
df = pd.read_csv("data/selected_data.csv")

# Show initial 5 records
df.head()

Unnamed: 0,country,code,region,year,gdp_pc_usd,che_pc_usd
0,Afghanistan,AFG,EMR,2021,372.55,81.32
1,Albania,ALB,EUR,2021,6394.97,464.74
2,Algeria,DZA,AFR,2021,3700.32,204.57
3,Andorra,AND,EUR,2021,42066.04,3505.99
4,Angola,AGO,AFR,2021,2167.61,64.16


In [31]:
print(df.shape)
df.describe()           # jednotlivé statistiky numerických polí

(192, 6)


Unnamed: 0,year,gdp_pc_usd,che_pc_usd
count,192.0,188.0,188.0
mean,2021.1,16675.0,1355.98
std,0.3,27024.43,2175.7
min,2021.0,266.64,17.64
25%,2021.0,2244.77,104.76
50%,2021.0,6311.62,441.64
75%,2021.0,18437.48,1404.14
max,2022.0,234317.08,12473.79


In [30]:
print("Počet výskytů:")
print(df.count())
print("\nPrůměr:")
print(df.mean(numeric_only=True))
print("\nMedián:")
print(df.median(numeric_only=True))


Počet výskytů:
country       192
code          192
region        192
year          192
gdp_pc_usd    188
che_pc_usd    188
dtype: int64

Průměr:
year          2,021.10
gdp_pc_usd   16,675.00
che_pc_usd    1,355.98
dtype: float64

Medián:
year         2,021.00
gdp_pc_usd   6,311.62
che_pc_usd     441.64
dtype: float64


In [35]:
print("Minima všech sloupců:")
print(df.min())
print("\nMaxima všech sloupců:")
print(df.max())
print("\nStandardní odchylky všech numerických sloupců")
print(df.std(numeric_only=True))

Minima všech sloupců:
country       Afghanistan
code                  AFG
region                AFR
year                 2021
gdp_pc_usd         266.64
che_pc_usd          17.64
dtype: object

Maxima všech sloupců:
country        Zimbabwe
code                ZWE
region              WPR
year               2022
gdp_pc_usd   234,317.08
che_pc_usd    12,473.79
dtype: object

Standardní odchylky všech numerických sloupců
year              0.30
gdp_pc_usd   27,024.43
che_pc_usd    2,175.70
dtype: float64


### Agregace dat

In [43]:
df.head()

Unnamed: 0,country,code,region,year,gdp_pc_usd
0,Afghanistan,AFG,EMR,2021,372.548784
1,Albania,ALB,EUR,2021,6394.970737
2,Algeria,DZA,AFR,2021,3700.324153
3,Andorra,AND,EUR,2021,42066.041514
4,Angola,AGO,AFR,2021,2167.605349


In [45]:
# Seskupování podle regionu a roku
print(df.groupby('region').mean())
df.groupby('year').count()

           year  gdp_pc_usd  che_pc_usd
region                                 
AFR    2,021.00    2,417.05      132.84
AMR    2,021.09   12,668.50    1,192.55
EMR    2,021.00   14,693.87      690.32
EUR    2,021.26   35,436.27    2,985.44
SEAR   2,021.00    3,721.73      224.78
WPR    2,021.07   15,756.81    1,330.42


Unnamed: 0_level_0,country,code,region,gdp_pc_usd,che_pc_usd
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021,173,173,173,169,169
2022,19,19,19,19,19


In [46]:
df.groupby('region').mean()['gdp_pc_usd']

region
AFR     2,417.05
AMR    12,668.50
EMR    14,693.87
EUR    35,436.27
SEAR    3,721.73
WPR    15,756.81
Name: gdp_pc_usd, dtype: float64

### Kontingenční tabulky

In [39]:
# Vytvoření DataFrame s jednoduchými daty o prodejích
data = {
    'Datum': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-03'],
    'Produkt': ['A', 'B', 'A', 'B', 'A'],
    'Město': ['Praha', 'Praha', 'Brno', 'Brno', 'Praha'],
    'Množství': [100, 150, 200, 100, 120],
    'Tržby': [1000, 2000, 1500, 2500, 1800]
}

df = pd.DataFrame(data)

print(df)

kontingencni_tabulka = pd.pivot_table(df, index='Produkt', columns='Město', values=['Množství', 'Tržby'], aggfunc='sum')
kontingencni_tabulka

        Datum Produkt  Město  Množství  Tržby
0  2022-01-01       A  Praha       100   1000
1  2022-01-01       B  Praha       150   2000
2  2022-01-02       A   Brno       200   1500
3  2022-01-02       B   Brno       100   2500
4  2022-01-03       A  Praha       120   1800


Unnamed: 0_level_0,Množství,Množství,Tržby,Tržby
Město,Brno,Praha,Brno,Praha
Produkt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,200,220,1500,2800
B,100,150,2500,2000
