 # Pandas - cvičení

## Příprava cvičení

 - pro potřeby cvičení si spusť následující kód:

In [None]:
%pip install faker

In [3]:
import pandas as pd
import random
from faker import Faker

fake = Faker("cs_CZ")  # Generátor náhodných dat v češtině
Faker.seed(42)

# Generování 1000 řádků dat
data = []
for i in range(1, 1001):
    jmeno = fake.name()
    vek = random.randint(22, 60)
    mesto = fake.city()
    plat = random.randint(40000, 80000)
    pozice = random.choice(
        ["Analytik", "Manažer", "Konzultant", "Specialista", "Asistent", "Ředitel", "Technik", "Koordinátor",
         "Projektový manažer"])
    oddeleni = random.choice(
        ["IT", "HR", "Prodej", "Marketing", "Podpora", "Stavba", "Administrativa", "Finanční", "Výroba", "Kvalita"])
    telefon = fake.random_number(digits=9, fix_len=True)
    email = fake.email()
    datum_nastupu = fake.date_between(start_date="-8y", end_date="today").strftime("%Y-%m-%d")
    data.append([i, jmeno, vek, mesto, plat, pozice, oddeleni, telefon, email, datum_nastupu])

# Vytvoření DataFrame
columns = ["Osobní číslo", "Jméno", "Věk", "Město", "Plat", "Pozice", "Oddělení", "Telefon", "Email", "Datum nástupu"]
df = pd.DataFrame(data, columns=columns)

# Uložení do CSV
df.to_csv("pracovnici.csv", index=False, encoding="utf-8")
display('Soubor připraven!')

'Soubor připraven!'

## Import Pandas

 - Pandas už sice bude importován, protože jsme ho využili k vytvoření souboru, ale opakování, matka moudrosti, takže ho naimportuj znovu :)

In [4]:
import pandas as pd

## Načtení souboru

 - pak je potřeba načíst data z CSV souboru, ať s nimi můžeme pracovat

In [8]:
df_workers = pd.read_csv('pracovnici.csv')

 - mrkni se na několik řádků z dat

In [9]:
df_workers.head()

Unnamed: 0,Osobní číslo,Jméno,Věk,Město,Plat,Pozice,Oddělení,Telefon,Email,Datum nástupu
0,1,Anastázie Vávrová,54,Hulín,69129,Ředitel,Podpora,339670711,vavradusan@example.net,2023-02-11
1,2,Renáta Beránková,50,Chotěboř,60898,Specialista,Podpora,334760738,pokornyantonin@example.net,2018-10-12
2,3,Žofie Matějková,52,Milevsko,47396,Ředitel,Marketing,732719211,agatavlckova@example.org,2022-10-09
3,4,Ivan Hrubý,58,Chyše,46124,Konzultant,HR,199585092,jozef55@example.net,2019-04-21
4,5,Vojtěch Prokop,49,České Budějovice,43752,Koordinátor,Administrativa,506448196,ruzickovalydie@example.net,2022-02-19


 - koukni na informace o sloupcích

In [16]:
df_workers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Osobní číslo   1000 non-null   int64 
 1   Jméno          1000 non-null   object
 2   Věk            1000 non-null   int64 
 3   Město          1000 non-null   object
 4   Plat           1000 non-null   int64 
 5   Pozice         1000 non-null   object
 6   Oddělení       1000 non-null   object
 7   Telefon        1000 non-null   int64 
 8   Email          1000 non-null   object
 9   Datum nástupu  1000 non-null   object
dtypes: int64(4), object(6)
memory usage: 78.2+ KB


 - koukni na základní statistické údaje

In [27]:
df_workers['Město'].describe()

count      1000
unique      425
top       Plzeň
freq          7
Name: Město, dtype: object

In [30]:
df_workers['Věk'].describe()

count    1000.000000
mean       41.527000
std        11.089556
min        22.000000
25%        32.000000
50%        42.000000
75%        51.000000
max        60.000000
Name: Věk, dtype: float64

- a dál už podle lektora :)

In [31]:
df_workers['Osobní číslo'] = df_workers['Osobní číslo'].astype('object')
df_workers['Telefon'] = df_workers['Telefon'].astype('object')

In [34]:
df_workers.describe(include='all')

Unnamed: 0,Osobní číslo,Jméno,Věk,Město,Plat,Pozice,Oddělení,Telefon,Email,Datum nástupu
count,1000.0,1000,1000.0,1000,1000.0,1000,1000,1000.0,1000,1000
unique,1000.0,978,,425,,9,10,1000.0,994,855
top,1.0,Jiřina Němečková,,Plzeň,,Ředitel,Podpora,339670711.0,dhorakova@example.com,2021-06-17
freq,1.0,2,,7,,134,109,1.0,2,4
mean,,,41.527,,59903.68,,,,,
std,,,11.089556,,11807.44812,,,,,
min,,,22.0,,40041.0,,,,,
25%,,,32.0,,49142.25,,,,,
50%,,,42.0,,60122.5,,,,,
75%,,,51.0,,70425.0,,,,,


In [36]:
df_workers.groupby('Pozice', observed=True)['Plat'].mean()

Pozice
Analytik              59267.603448
Asistent              60297.400000
Konzultant            62387.466667
Koordinátor           58241.406250
Manažer               61773.297030
Projektový manažer    57489.816514
Specialista           60885.508772
Technik               59964.190909
Ředitel               58796.455224
Name: Plat, dtype: float64

In [44]:
df_workers.groupby(['Pozice', 'Město'], observed=True).agg({"Plat": ['mean', 'max', 'min']})

Unnamed: 0_level_0,Unnamed: 1_level_0,Plat,Plat,Plat
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,min
Pozice,Město,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Analytik,Abertamy,59180.000000,59180,59180
Analytik,Bavorov,46451.000000,46451,46451
Analytik,Bor,46977.000000,46977,46977
Analytik,Boží Dar,61878.333333,74869,52509
Analytik,Brumov-Bylnice,58132.000000,58132,58132
...,...,...,...,...
Ředitel,Červený Kostelec,75724.000000,75724,75724
Ředitel,Šlapanice,70317.500000,74802,65833
Ředitel,Štětí,41060.000000,41060,41060
Ředitel,Švihov,41821.000000,41821,41821
