# **Porozumění problému (Business Understanding)**
### 1. Odvětví, do kterého dataset spadá
- primární oblastí je vzdělávání, konkrétně analýza úspěšnosti studentů,

### 2. Komu tyto informace slouží
- Univerzita a fakulty
  - plánování a zlepšování vzdělávacích programů
- Studijní oddělení, rektoři, děkani
  - intervence a řízení kvality
- Ministerstvo školství a jiné státní instituce
  - financování
- Poradenská centra pro studenty
  - predikce rizikových studentů
- Akademičtí výzkumníci
  - studie vzdělávacích trendů
  
### 3. Jaké problémy řeší
- Jak snížit míru odchodů ze studia a zvýšit úspěšnost dokončení?
- Kteří studenti mají největší riziko neúspěchu?
- Jaké faktory nejvíce ovlivňují úspěšnost dokončení studia?
- Jak brzy lze identifikovat rizikového studenta?
- Jaké vlastnosti mají studenti, kteří dokončí studium včas, ukončí studium nebo prodlouží dobu studia?

# **Porozumění datům (Data Understanding)**
| Atribut | Typ | Význam atributu |
|--------|-----|------------------|
| Marital status | Kategorický | Rodinný stav studenta (svobodný, ženatý/vdaná, ovdovělý/á, rozvedený/á apod.). |
| Application mode | Kategorický | Způsob podání přihlášky (např. online, přes školu, speciální režim). |
| Application order | Číselný | Pořadí zvoleného programu (např. první volba, druhá volba). |
| Course | Kategorický | Studovaný obor, do kterého byl student přijat. |
| Daytime/evening attendance | Kategorický | Jestli student studuje denní nebo večerní formu. |
| Previous qualification | Kategorický/číselný | Nejvyšší dosažené vzdělání před nástupem na školu. |
| Previous qualification (grade) | Číselný | Známky dosažené na předchozím stupni vzdělání. |
| Nacionality | Kategorický | Národnost studenta. |
| Mother's qualification | Kategorický | Nejvyšší dosažené vzdělání matky. |
| Father's qualification | Kategorický | Nejvyšší dosažené vzdělání otce. |
| Mother's occupation | Kategorický | Povolání matky. |
| Father's occupation | Kategorický | Povolání otce. |
| Admission grade | Číselný | Skóre pro přijetí ke studiu. |
| Displaced | Kategorický | Informace, jestli je student vysídlený (např. změna bydliště z důvodu okolností). |
| Educational special needs | Kategorický | Jestli má student speciální vzdělávací potřeby. |
| Debtor | Kategorický | Jestli má student studentskou půjčku. |
| Tuition fees up to date | Kategorický | Informace, jestli má student zaplacené školné. |
| Gender | Kategorický | Pohlaví studenta. |
| Scholarship holder | Kategorický | Jestli student pobírá stipendium. |
| Age at enrollment | Číselný | Věk studenta při zápisu do studijního programu. |
| International | Kategorický | Informace, jestli je student zahraniční student. |
| Curricular units 1st sem (credited) | Číselný | Počet uznaných kreditů v 1. semestru (např. přenesené předměty). |
| Curricular units 1st sem (enrolled) | Číselný | Počet zapsaných předmětů v 1. semestru. |
| Curricular units 1st sem (evaluations) | Číselný | Počet předmětů, které student hodnotil nebo dokončil v 1. semestru. |
| Curricular units 1st sem (approved) | Číselný | Počet úspěšně absolvovaných předmětů v 1. semestru. |
| Curricular units 1st sem (grade) | Číselný | Průměrná známka nebo skóre za 1. semestr. |
| Curricular units 1st sem (without evaluations) | Číselný | Počet nezakončených nebo nehodnocených předmětů v 1. semestru. |
| Curricular units 2nd sem (credited) | Číselný | Počet uznaných kreditů v 2. semestru. |
| Curricular units 2nd sem (enrolled) | Číselný | Počet zapsaných předmětů v 2. semestru. |
| Curricular units 2nd sem (evaluations) | Číselný | Počet dokončených nebo hodnocených předmětů v 2. semestru. |
| Curricular units 2nd sem (approved) | Číselný | Počet úspěšně dokončených předmětů v 2. semestru. |
| Curricular units 2nd sem (grade) | Číselný | Průměrná známka nebo skóre za 2. semestr. |
| Curricular units 2nd sem (without evaluations) | Číselný | Počet nezakončených nebo nehodnocených předmětů ve 2. semestru. |
| Unemployment rate | Číselný | Míra nezaměstnanosti v období, kdy student nastoupil. |
| Inflation rate | Číselný | Inflace v období studia nebo přijetí. |
| GDP | Číselný | Hodnota HDP země v daném období. |
| Target | Kategorický | Výsledek studia (např. dropout, enrolled, graduate). |

In [None]:
# Načtení datasetu
import pandas as pd

# Oddělovač je středník
df = pd.read_csv(
    "data.csv",
    sep=';',
    engine='python'
)

# Základní průzkum dat
# Zobrazení prvních několika řádků
# Zjištění rozměrů datasetu
print("Hlavička:\n", df.head(), "\n")
print("Rozměry datasetu:\n", df.shape, "\n")
print("Informace o datech:\n", df.info(), "\n")
print("Sloupce:\n", df.columns, "\n")

# Analýza datových typů
print("Počet výskytů jednotlivých datových typů:\n", df.dtypes.value_counts(), "\n")
print("Datové typy sloupců:\n", df.dtypes, "\n")

# Kontrola chybějících hodnot
print("Počet chybějících hodnot:\n", df.isnull().sum(), "\n")
print("Podíl chybějících hodnot:\n", df.isna().mean().sort_values(ascending = False), "\n")

Hlavička:
    Marital status  Application mode  Application order  Course  \
0               1                17                  5     171   
1               1                15                  1    9254   
2               1                 1                  5    9070   
3               1                17                  2    9773   
4               2                39                  1    8014   

   Daytime/evening attendance\t  Previous qualification  \
0                             1                       1   
1                             1                       1   
2                             1                       1   
3                             1                       1   
4                             0                       1   

   Previous qualification (grade)  Nacionality  Mother's qualification  \
0                           122.0            1                      19   
1                           160.0            1                       1   
2              