# Modul 1: Cvičení 01 - Zadání úkolu

Cílem tohoto úkolu je vytvořit program v Pythonu, který analyzuje velký datový soubor (CSV) s informacemi o osobách a jejich platech.

## Hlavní úkoly:

### 1. Načtení souboru
Program musí přijmout cestu k datovému souboru jako argument příkazové řádky (pomocí `sys.argv`).

### 2. Kontrola vstupů
Před zpracováním ověřit, že:
- Program dostal správný počet argumentů.
- Zadaný soubor existuje (použij `os.path.exists`).

### 3. Zpracování dat
- Vytvořit třídu (např. `Person`) pro reprezentaci jednoho záznamu (osoby).
- Napsat funkci (např. `load_data_file`), která soubor otevře (se správným kódováním `utf-8`), přečte ho řádek po řádku a přeskočí hlavičku.
- Během čtení ošetřit chyby v datech (např. špatný počet sloupců, nečíselné hodnoty pro rok nebo plat). Chybné řádky přeskočit a informovat o tom uživatele.
- Funkce pro načítání by měla přijímat parametr `wanted_year` a načíst do paměti pouze osoby z daného roku.

### 4. Výpočty
- Vytvořit funkci `count_average_salary`, která ze seznamu osob spočítá průměrný plat.
- **(Bonus)** Vytvořit funkci `count_median_salary` pro výpočet mediánu platu.

### 5. Výstup
- Nejprve spočítat a vypsat rozdíl v průměrné mzdě mezi lety 2014 a 2015.
- Poté spustit smyčku, která se uživatele opakovaně ptá na rok (`input()`), načte data pro tento rok a vypíše průměrný plat a medián.

In [None]:
import sys # Importujeme modul "sys"

# sys.argv je seznam (list) všech argumentů
# sys.argv[0] je vždy jméno samotného skriptu (např. "main.py")
# sys.argv[1] je první argument (např. "data.csv")
# atd.

print(f"Spouštíš skript: {sys.argv[0]}")

# Počet argumentů získáme funkcí len()
pocet_argumentu = len(sys.argv)
print(f"Počet argumentů (včetně jména skriptu): {pocet_argumentu}")

if pocet_argumentu == 2:
    vstupni_soubor = sys.argv[1]
    print(f"Bude se zpracovávat soubor: {vstupni_soubor}")
else:
    print("Chyba: Program očekává přesně jeden argument (cestu k souboru).")
    # Ukončíme program s chybovým kódem (cokoliv kromě 0 je chyba)
    # exit(1)

## B. Práce se soubory

Pro čtení souboru použijeme funkci `open()`. Nejlepší praxe je použít ji s `with`, což zajistí, že se soubor automaticky zavře, i kdyby nastala chyba.

**Důležité:** Specifikovat kódování, jak radí zadání: `encoding="utf-8"`.

In [None]:
import sys

# Předpokládejme, že cesta k souboru je v proměnné `filepath`
filepath = "nejaky_soubor.txt" # Tady bude cesta z sys.argv

try:
    # "r" znamená "read" (čtení)
    with open(filepath, mode="r", encoding="utf-8") as f:
        # Přečteme první řádek (např. hlavičku)
        header = f.readline()
        print(f"Hlavička souboru: {header.strip()}") # .strip() odstraní bílé znaky (jako \n)
        
        # Přečteme zbytek souboru řádek po řádku
        for line in f:
            # line je textový řetězec, např. "Tomas,30,50000\n"
            # .strip() odstraní \n na konci
            # .split(",") rozdělí řetězec podle čárky na seznam
            
            parts = line.strip().split(";") # V našem CSV jsou hodnoty oddělené středníkem!
            print(f"Načtené části: {parts}")
            
            # Tady budeme data zpracovávat...
            
except FileNotFoundError:
    print(f"Chyba: Soubor na cestě '{filepath}' neexistuje.")
    sys.exit(2) # Jiný chybový kód
except Exception as e:
    print(f"Nastala neočekávaná chyba: {e}")
    sys.exit(3)

## C. Zpracování dat a "Guard Clauses"

Při zpracování řádků ze souboru musíme být opatrní:
- Řádek nemusí mít správný počet sloupců.
- Hodnoty, které mají být čísla (rok, plat), nemusí být čísla.

K tomu použijeme `try-except` pro převod typů a `if` pro kontrolu počtu.

V souboru `README.md` je také skvělý tip, jak psát přehlednější kód pomocí tzv. **"Guard Clauses"** (časné ukončení).

### Špatný přístup (hluboké zanoření):

In [None]:
if len(arguments) == 2:
   input_path = arguments[1]
   if os.path.exists(input_path):
      data = load_data_file(input_path)
      # ... další kód ...
   else:
        print("Soubor neexistuje")
        exit(2)
else:
    print("Špatný počet argumentů")
    exit(1)

### Dobrý přístup (Guard Clauses):

In [None]:
if len(arguments) != 2:
    print("Špatný počet argumentů")
    exit(1) # Okamžitě ukončíme

input_path = arguments[1]
if not os.path.exists(input_path):
    print("Soubor neexistuje")
    exit(2) # Okamžitě ukončíme

# Tady už víme, že je vše v pořádku, a kód není zanořený
data = load_data_file(input_path)
# ... další kód ...

# Modul 1: Cvičení 01 - Zadání úkolu

Cílem tohoto úkolu je vytvořit program v Pythonu, který analyzuje velký datový soubor ([CSV](https://liks.fav.zcu.cz/adt/exam/service/download-data?filename=data-salaries-years-100Ksh.csv)) s informacemi o osobách a jejich platech.

## Hlavní úkoly:

### 1. Načtení souboru
Program musí přijmout cestu k datovému souboru jako argument příkazové řádky (pomocí `sys.argv`).

### 2. Kontrola vstupů
Před zpracováním ověřit, že:
- Program dostal správný počet argumentů.
- Zadaný soubor existuje (použij `os.path.exists`).

In [None]:
import sys  # Pro argumenty (sys.argv) a ukončení (sys.exit)
import os   # Pro kontrolu existence souboru (os.path.exists)
from typing import List, Optional # Pro typovou nápovědu (lepší čitelnost kódu)

# 1. TODO: Definuj třídu Person
# Bude mít atributy pro všechny sloupce v CSV.
# Např. id, first_name, last_name, email, gender, ... year, salary
# Můžeš se inspirovat "Modul 0 - Příklad 8"
# Nezapomeň, že year a salary budeme chtít jako čísla (int, float)
class Person:
    def __init__(self, year: int, salary: float): # Doplň všechny ostatní atributy!
        self.year = year
        self.salary = salary
        # ... doplň zbytek ...

    def __repr__(self) -> str:
        # Vypíše hezkou reprezentaci objektu
        return f"Person(year={self.year}, salary={self.salary})"


def load_data_file(filepath: str, wanted_year: Optional[int]) -> List[Person]:
    """
    Načte data ze souboru a vrátí seznam objektů Person.
    Pokud je 'wanted_year' zadáno, vrací jen záznamy z daného roku.
    """
    people: List[Person] = list()
    
    # 2. TODO: Otevři soubor pomocí with open(...)
    # Nezapomeň na encoding="utf-8"
    # Použij try-except FileNotFoundError
    
    try:
        with open(filepath, mode="r", encoding="utf-8") as f:
            
            # 3. TODO: Přečti a přeskoč hlavičku (první řádek)
            header = f.readline()

            # 4. TODO: Projdi soubor řádek po řádku (cyklus for)
            for line in f:
                # 5. TODO: Zpracuj řádek
                try:
                    parts = line.strip().split(';') # CSV používá středník
                    
                    # 6. TODO: Zkontroluj počet částí (sloupců)
                    # if len(parts) != OČEKÁVANÝ_POČET:
                    #   print(f"Varování: Přeskakuji řádek s chybným formátem: {line.strip()}")
                    #   continue # Pokračuj dalším řádkem
                    
                    # 7. TODO: Převeď potřebné části na čísla (year, salary)
                    # Použij int() a float()
                    # Např. year_val = int(parts[INDEX_ROKU])
                    # Např. salary_val = float(parts[INDEX_PLATU])
                    
                    # Toto celé zabal do bloku try-except ValueError:
                    #   print(f"Varování: Přeskakuji řádek s nečíselnými daty: {line.strip()}")
                    #   continue
                    
                    # Příklad (musíš doplnit správné indexy sloupců!)
                    year_val = int(parts[10]) 
                    salary_val = float(parts[11])
                    
                    # 8. TODO: Filtruj podle roku (pokud je 'wanted_year' zadáno)
                    if wanted_year is not None and year_val != wanted_year:
                        continue # Tento řádek nechceme, přeskočíme ho

                    # 9. TODO: Vytvoř objekt Person a přidej ho do seznamu 'people'
                    # person = Person(year=year_val, salary=salary_val, ... doplň zbytek ...)
                    # people.append(person)
                
                except ValueError:
                    # Chyba při převodu int() nebo float()
                    print(f"Varování: Přeskakuji řádek s nečíselnými daty: {line.strip()}")
                    continue
                except IndexError:
                    # Řádek měl méně sloupců, než jsme čekali
                    print(f"Varování: Přeskakuji řádek s chybným počtem sloupců: {line.strip()}")
                    continue

    except FileNotFoundError:
        print(f"Chyba: Soubor '{filepath}' nebyl nalezen.")
        sys.exit(2)
    
    return people


def count_average_salary(data: List[Person]) -> float:
    """Spočítá průměrný plat ze seznamu objektů Person."""
    
    # 10. TODO: Implementuj výpočet průměru
    # Pokud je seznam 'data' prázdný, vrať 0.0, aby nedošlo k dělení nulou
    if not data: # Elegantní způsob, jak zkontrolovat, zda je seznam prázdný
        return 0.0
        
    total_salary = 0.0
    for person in data:
        total_salary += person.salary
        
    average = total_salary / len(data)
    return average


def count_median_salary(data: List[Person]) -> float:
    """Spočítá medián platu ze seznamu objektů Person (bonusový úkol)."""
    
    # 11. TODO (Bonus): Implementuj výpočet mediánu
    # 1. Získej seznam všech platů
    # 2. Seřaď tento seznam (pomocí .sort())
    # 3. Najdi prostřední prvek
    #    - Pokud je počet prvků lichý, medián je prostřední prvek.
    #    - Pokud je sudý, medián je průměr dvou prostředních.
    
    if not data:
        return 0.0
        
    salaries = []
    for person in data:
        salaries.append(person.salary)
        
    salaries.sort() # Seřadíme platy
    
    n = len(salaries)
    if n % 2 == 1:
        # Lichý počet
        median = salaries[n // 2]
    else:
        # Sudý počet
        mid1 = salaries[n // 2 - 1]
        mid2 = salaries[n // 2]
        median = (mid1 + mid2) / 2
        
    return median


def main():
    """Hlavní funkce programu."""
    
    # 12. TODO: Zkontroluj argumenty příkazové řádky
    # Použij "Guard Clause" přístup
    # if len(sys.argv) ...
    #   print("Chyba: ...")
    #   sys.exit(1)
    
    if len(sys.argv) != 2:
        print("Chyba: Program očekává přesně jeden argument (cestu k datovému souboru).")
        print("Příklad spuštění: python main.py data.csv")
        sys.exit(1)

    input_path = sys.argv[1]
    
    # 13. TODO: Zkontroluj existenci souboru
    # if not os.path.exists(input_path):
    #   print(f"Chyba: Soubor '{input_path}' neexistuje.")
    #   sys.exit(2)
    
    if not os.path.exists(input_path):
        print(f"Chyba: Soubor '{input_path}' neexistuje.")
        sys.exit(2)
        
    # --- Bonus: Smyčka pro dotazování na rok ---
    while True:
        try:
            year_input = input("Zadej rok, který tě zajímá (nebo 'konec' pro ukončení): ")
            
            if year_input.lower() == 'konec':
                break # Ukončí smyčku while
                
            wanted_year = int(year_input)
            
            # Zkontrolujeme, jestli rok dává smysl (data jsou 2010-2020)
            if not (2010 <= wanted_year <= 2020):
                print("Varování: Data jsou pouze pro roky 2010-2020. Výsledek bude pravděpodobně 0.")
                
            # 14. TODO: Zavolej load_data_file
            print(f"Načítám data pro rok {wanted_year}...")
            data = load_data_file(input_path, wanted_year)
            
            if not data:
                print(f"Pro rok {wanted_year} nebyla nalezena žádná data.")
                continue # Pokračuj na další iteraci smyčky

            # 15. TODO: Zavolej count_average_salary a vypiš výsledek
            avg = count_average_salary(data)
            print(f"Průměrný plat v roce {wanted_year} je {avg:.2f} Kč") # :.2f zaokrouhlí na 2 des. místa

            # 16. TODO: Zavolej count_median_salary a vypiš výsledek
            median = count_median_salary(data)
            print(f"Medián platu v roce {wanted_year} je {median:.2f} Kč")
            print("-" * 20) # Oddělovač

        except ValueError:
            print("Chyba: Zadej prosím platné číslo roku (např. 2015).")
        except KeyboardInterrupt:
            print("\nUkončuji program.")
            break


# Tento speciální blok zajistí, že se funkce main() spustí,
# jen pokud tento soubor spouštíme přímo (ne pokud ho importujeme)
if __name__ == "__main__":
    main()

## K zamyšlení

Až budeš mít program hotový, zkus se zamyslet nad otázkami ze souboru `01-salary/README.md`:

### 1. Je nutné v našem případě načítat všechny informace o osobách do paměti (do objektů Person)?
**Odpověď:** Není. Pro výpočet průměru nám stačí jen plat a rok. Mohli bychom načítat jen tyto dvě hodnoty.

### 2. Je možné úkol splnit jedním průchodem, to znamená bez nutnosti načítat celá data do paměti?
**Odpověď:** Ano. Pro výpočet průměru stačí v cyklu sčítat platy a počítat lidi (`total_salary += plat`, `count += 1`). Pro výpočet mediánu je to složitější – ten vyžaduje seřazení, takže si musíme pamatovat alespoň všechny platy.

### 3. Co se stane, když jako rok zadáme 2000, který v datech není?
**Odpověď:** Naše funkce `load_data_file` vrátí prázdný seznam `[]`. Funkce `count_average_salary` pak správně vrátí `0.0` (díky naší kontrole `if not data:`).

# Modul 1: Referenční řešení (`main_ref.py`)

Tady je kód z `main_ref.py`, který slouží jako vzorové řešení tohoto úkolu.

In [None]:
import os
import sys

class Person:
    """
    Třída reprezentující osobu se jménem, příjmením a platem.
    """
    def __init__(self, first:str, last:str, salary:float):
        self.first: str = first
        self.last: str = last
        self.salary: float = salary

    def __str__(self) -> str:
        # Metoda pro textovou reprezentaci objektu (když dáme print(osoba))
        return f"{self.first} {self.last} {self.salary}"


def load_data_file(filepath: str, wanted_year: int) -> list[Person]:
    """
    Načte data ze souboru CSV, filtruje podle roku a vrací seznam objektů Person.
    """
    people : list[Person] = list()

    # 'with open' zajistí, že se soubor vždy správně zavře
    with open(filepath, encoding="utf8") as fd:

        # Procházíme soubor řádek po řádku
        for line_fd in fd:
            line = line_fd.replace("\n", "") # Odstranění znaku nového řádku
            fields = line.split(";") # Rozdělení řádku podle středníku

            # Kontrola, zda má řádek správný počet polí
            if len(fields) != 15:
                print(f"V řádku je nevalidní záznam -- špatný počet polí\n{line}\n", len(fields), file=sys.stderr)
                continue # Přeskočíme tento řádek a jdeme na další

            # Získání konkrétních polí (indexy jsou od 0)
            first_s = fields[2]
            last_s = fields[3]
            year_s = fields[12]
            salary_s = fields[14]

            # Kontrola, zda je rok číselná hodnota
            if not year_s.isnumeric():
                print(f"V řádku je nevalidní záznam -- Očekávám číselnou hodnotu\n{line}\n{year_s}", file=sys.stderr)
                continue # Přeskočíme

            # Převod textu na čísla
            year = int(year_s)
            salary = float(salary_s)
            
            # Hlavní filtr: pokud se rok shoduje, vytvoříme objekt a přidáme ho
            if year == wanted_year:
                s = Person(first_s, last_s, salary)
                people.append(s)

                # Průběžný výpis, abychom viděli, že program pracuje
                if len(people) % 10000 == 0:
                    print(f"loaded {len(people)}")

    return people


def count_average_salary(data: list[Person])-> float:
    """
    Spočítá průměrný plat ze seznamu objektů Person.
    """
    suma = 0.0
    for d in data:
        suma += d.salary
    
    # Ošetření dělení nulou, pokud by byl seznam prázdný
    if len(data) == 0:
        return 0.0
        
    return suma / len(data)


def salary_from_person(p: Person) -> float:
    """
    Pomocná funkce pro řazení - vrací atribut 'salary' z objektu Person.
    """
    return p.salary


def count_median_salary(data: list[Person]) -> float:
    """
    Spočítá medián platu ze seznamu objektů Person.
    """
    
    # Seřadíme data. 'key' říká funkci sorted, podle jaké hodnoty má řadit.
    # Použijeme naši pomocnou funkci 'salary_from_person'.
    sorted_data = sorted(data, key=salary_from_person)
    
    n = len(sorted_data)
    if n == 0:
        return 0.0

    # Lichý počet prvků: medián je prostřední prvek
    if n % 2 == 1:
        return sorted_data[n // 2].salary
    # Sudý počet prvků: medián je průměr dvou prostředních
    else:
        return (sorted_data[n // 2 - 1].salary + sorted_data[n // 2].salary) / 2


def main(input_path: str):
    """
    Hlavní funkce, která řídí logiku programu.
    """
    
    # Výpočet pro roky 2014 a 2015
    avg14 = count_average_salary(load_data_file(input_path, 2014))
    avg15 = count_average_salary(load_data_file(input_path, 2015))

    print(f"Prumerna mzda se pro rok 2014 a 2015 změnila z {avg14} na {avg15} to je o {avg15-avg14} Kč" )

    # Smyčka pro dotazování uživatele
    while True:
        year_s = input("Zadejte rok (year):")
        if not year_s.isnumeric():
            print("Zadejte numerickou hodnotu")
            continue

        year = int(year_s)
        print(f"Načítám data pro rok {year}...")
        data = load_data_file(input_path, year)
        
        if len(data) == 0:
            print("Pro tento rok nebyly nalezeny žádné osoby.")
            continue
        
        print(f"Načteno datovych vzorků: {len(data)}\n")
        break # Ukončíme smyčku, jen když je vstup validní a data byla nalezena

    # Výpočet a tisk průměru
    avg = count_average_salary(data)
    print(f"Průměrný plat v roce {year}  je  {avg}")

    # Výpočet a tisk mediánu
    median = count_median_salary(data)
    print(f"Medián v roce {year}  je  {median}")


# Tento blok kódu se spustí pouze tehdy, 
# když je soubor spuštěn přímo (ne když je importován)
if __name__ == "__main__":

    print("Program počítá průměrný příjem a medián.")

    # Načtení argumentů z příkazové řádky
    arguments = sys.argv
    print(f"nacteno parametrů: {len(arguments)} -- {arguments}")

    # Kontrola (Guard Clause) - správný počet argumentů
    if len(arguments) != 2:
        print("Program nebyl spuštěn správně. Očekávám jméno souboru\n ")
        sys.exit(1) # Ukončí program s chybovým kódem 1

    data_path = arguments[1] # Cesta k souboru je druhý argument
    
    # Kontrola (Guard Clause) - existence souboru
    if not os.path.exists(data_path):
        print(f"Soubor {data_path} neexistuje")
        sys.exit(2) # Ukončí program s chybovým kódem 2

    # Pokud jsou kontroly v pořádku, spustí se hlavní logika
    main(data_path)