# **Porozumění problému (Business Understanding)**
### 1. Odvětví, do kterého dataset spadá
- primární oblastí je vzdělávání, konkrétně analýza úspěšnosti studentů,

### 2. Komu tyto informace slouží
- Univerzita a fakulty
  - plánování a zlepšování vzdělávacích programů
- Studijní oddělení, rektoři, děkani
  - intervence a řízení kvality
- Ministerstvo školství a jiné státní instituce
  - financování
- Poradenská centra pro studenty
  - predikce rizikových studentů
- Akademičtí výzkumníci
  - studie vzdělávacích trendů
  
### 3. Jaké problémy řeší
- Jak snížit míru odchodů ze studia a zvýšit úspěšnost dokončení?
- Kteří studenti mají největší riziko neúspěchu?
- Jaké faktory nejvíce ovlivňují úspěšnost dokončení studia?
- Jak brzy lze identifikovat rizikového studenta?
- Jaké vlastnosti mají studenti, kteří dokončí studium včas, ukončí studium nebo prodlouží dobu studia?

# **Porozumění datům (Data Understanding)**
| Atribut | Typ | Význam atributu |
|--------|-----|------------------|
| Marital status | Kategorický | Rodinný stav studenta (svobodný, ženatý/vdaná, ovdovělý/á, rozvedený/á apod.). |
| Application mode | Kategorický | Způsob podání přihlášky (např. online, přes školu, speciální režim). |
| Application order | Číselný | Pořadí zvoleného programu (např. první volba, druhá volba). |
| Course | Kategorický | Studovaný obor, do kterého byl student přijat. |
| Daytime/evening attendance | Kategorický | Jestli student studuje denní nebo večerní formu. |
| Previous qualification | Kategorický/číselný | Nejvyšší dosažené vzdělání před nástupem na školu. |
| Previous qualification (grade) | Číselný | Známky dosažené na předchozím stupni vzdělání. |
| Nacionality | Kategorický | Národnost studenta. |
| Mother's qualification | Kategorický | Nejvyšší dosažené vzdělání matky. |
| Father's qualification | Kategorický | Nejvyšší dosažené vzdělání otce. |
| Mother's occupation | Kategorický | Povolání matky. |
| Father's occupation | Kategorický | Povolání otce. |
| Admission grade | Číselný | Skóre pro přijetí ke studiu. |
| Displaced | Kategorický | Informace, jestli je student vysídlený (např. změna bydliště z důvodu okolností). |
| Educational special needs | Kategorický | Jestli má student speciální vzdělávací potřeby. |
| Debtor | Kategorický | Jestli má student studentskou půjčku. |
| Tuition fees up to date | Kategorický | Informace, jestli má student zaplacené školné. |
| Gender | Kategorický | Pohlaví studenta. |
| Scholarship holder | Kategorický | Jestli student pobírá stipendium. |
| Age at enrollment | Číselný | Věk studenta při zápisu do studijního programu. |
| International | Kategorický | Informace, jestli je student zahraniční student. |
| Curricular units 1st sem (credited) | Číselný | Počet uznaných kreditů v 1. semestru (např. přenesené předměty). |
| Curricular units 1st sem (enrolled) | Číselný | Počet zapsaných předmětů v 1. semestru. |
| Curricular units 1st sem (evaluations) | Číselný | Počet předmětů, které student hodnotil nebo dokončil v 1. semestru. |
| Curricular units 1st sem (approved) | Číselný | Počet úspěšně absolvovaných předmětů v 1. semestru. |
| Curricular units 1st sem (grade) | Číselný | Průměrná známka nebo skóre za 1. semestr. |
| Curricular units 1st sem (without evaluations) | Číselný | Počet nezakončených nebo nehodnocených předmětů v 1. semestru. |
| Curricular units 2nd sem (credited) | Číselný | Počet uznaných kreditů v 2. semestru. |
| Curricular units 2nd sem (enrolled) | Číselný | Počet zapsaných předmětů v 2. semestru. |
| Curricular units 2nd sem (evaluations) | Číselný | Počet dokončených nebo hodnocených předmětů v 2. semestru. |
| Curricular units 2nd sem (approved) | Číselný | Počet úspěšně dokončených předmětů v 2. semestru. |
| Curricular units 2nd sem (grade) | Číselný | Průměrná známka nebo skóre za 2. semestr. |
| Curricular units 2nd sem (without evaluations) | Číselný | Počet nezakončených nebo nehodnocených předmětů ve 2. semestru. |
| Unemployment rate | Číselný | Míra nezaměstnanosti v období, kdy student nastoupil. |
| Inflation rate | Číselný | Inflace v období studia nebo přijetí. |
| GDP | Číselný | Hodnota HDP země v daném období. |
| Target | Kategorický | Výsledek studia (např. dropout, enrolled, graduate). |

In [4]:
# Načtení datasetu
import pandas as pd

# Oddělovač je středník
df = pd.read_csv(
    "data.csv",
    sep=';',
    engine='python'
)

# Základní průzkum dat
# - Zobrazení prvních několika řádků
# - Zjištění rozměrů datasetu
# - Získání informací o datových typech a nevyplněných hodnotách
df.head()
df.shape
df.info()
df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4424 entries, 0 to 4423
Data columns (total 37 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Marital status                                  4424 non-null   int64  
 1   Application mode                                4424 non-null   int64  
 2   Application order                               4424 non-null   int64  
 3   Course                                          4424 non-null   int64  
 4   Daytime/evening attendance	                     4424 non-null   int64  
 5   Previous qualification                          4424 non-null   int64  
 6   Previous qualification (grade)                  4424 non-null   float64
 7   Nacionality                                     4424 non-null   int64  
 8   Mother's qualification                          4424 non-null   int64  
 9   Father's qualification                   

Index(['Marital status', 'Application mode', 'Application order', 'Course',
       'Daytime/evening attendance\t', 'Previous qualification',
       'Previous qualification (grade)', 'Nacionality',
       'Mother's qualification', 'Father's qualification',
       'Mother's occupation', 'Father's occupation', 'Admission grade',
       'Displaced', 'Educational special needs', 'Debtor',
       'Tuition fees up to date', 'Gender', 'Scholarship holder',
       'Age at enrollment', 'International',
       'Curricular units 1st sem (credited)',
       'Curricular units 1st sem (enrolled)',
       'Curricular units 1st sem (evaluations)',
       'Curricular units 1st sem (approved)',
       'Curricular units 1st sem (grade)',
       'Curricular units 1st sem (without evaluations)',
       'Curricular units 2nd sem (credited)',
       'Curricular units 2nd sem (enrolled)',
       'Curricular units 2nd sem (evaluations)',
       'Curricular units 2nd sem (approved)',
       'Curricular units 2nd