# Predikcia kvality vína
V tomto cvičení preskúmame, ako použiť strojové učenie na predikciu kvality vína na základe jeho chemických vlastností. Prejdeme si základné kroky pracovného postupu strojového učenia vrátane načítania dát, predspracovania, trénovania modelu a hodnotenia.

## Časť 1: Načítanie dát
Najprv musíme načítať náš dataset. Použijeme dataset kvality vína, ktorý obsahuje chemické vlastnosti vína a hodnotenie kvality.

<details>
  <summary>Hint (click to expand)</summary>
  Pri načítaní dát použite knižnicu Pandas. Funkcia `read_csv` je užitočná na načítanie dát z CSV súborov.
</details>

In [1]:
import pandas as pd

# Načítanie datasetu
wine_data = pd.read_csv('data/winequality-red.csv', sep=';')

Úloha: Zobrazte prvých 5 riadkov datasetu, aby ste pochopili jeho štruktúru. Použite `wine_data.head()`.

Reflexná otázka: Prečo je dôležité preskúmať dáta pred ich ďalším spracovaním? Ako môže formát dát ovplyvniť ich načítanie?

## Časť 2: Prieskum dát
Predtým, než pokračujeme s predspracovaním, trochu preskúmajme náš dataset.

<details>
  <summary>Hint (click to expand)</summary>
  Vizualizácia distribúcie cieľovej premennej môže poskytnúť užitočné informácie o jej rozložení. Použite knižnicu Seaborn na vykreslenie grafu.
</details>

In [2]:
# Zobrazenie základných informácií o datasete
wine_data.info()

Úloha: Vykreslite distribúciu premennej 'quality', aby ste videli, ako je distribuovaná kvalita vína. Použite knižnice ako `matplotlib` alebo `seaborn` pre vizualizáciu.

Reflexná otázka: Aké zistenia ste urobili z vizualizácie distribúcie kvality vína? Ako by tieto informácie mohli ovplyvniť výber a trénovanie modelu strojového učenia?

## Časť 3: Predspracovanie dát
### Riešenie chýbajúcich hodnôt
Najprv skontrolujeme chýbajúce hodnoty a zaoberáme sa nimi, ak nejaké sú.

<details>
  <summary>Hint (click to expand)</summary>
  Pred trénovaním modelu je často potrebné dáta normalizovať alebo škálovať. Použite `StandardScaler` z knižnice Scikit-learn na škálovanie funkcií.
</details>

In [3]:
# Kontrola chýbajúcich hodnôt
wine_data.isnull().sum()

# Ak sú nejaké chýbajúce hodnoty, môžete ich vyplniť priemerom alebo mediánom stĺpca
# Príklad: wine_data['column_name'].fillna(wine_data['column_name'].mean(), inplace=True)

### Škálovanie prvkov
Mnoho modelov strojového učenia lepšie funguje, keď sú vstupné numerické premenné škálované alebo normalizované.

In [4]:
from sklearn.preprocessing import StandardScaler

# Definícia prvkov a cieľa
X = wine_data.drop('quality', axis=1)
y = wine_data['quality']

# Škálovanie prvkov
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Úloha: Škálovajte prvky a overte to zobrazením prvých 5 riadkov škálovaných prvkov.

Reflexná otázka: Prečo je škálovanie prvkov dôležité pri trénovaní modelov strojového učenia? Ako by mohlo ovplyvniť výsledky, keby sme dáta neškálovali?

## Časť 4: Rozdelenie datasetu
Rozdelíme dataset na trénovaciu a testovaciu množinu.

<details>
  <summary>Hint (click to expand)</summary>
  Rozdelenie dát na trénovaciu a testovaciu sadu pomáha overiť, ako dobre model funguje na nevidených dátach.
</details>

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

Reflexná otázka: Ako rozdelenie dát na trénovaciu a testovaciu sadu pomáha zabrániť problému pretrénovania? Aký vplyv by malo, keby sme použili príliš veľkú časť dát na trénovanie?

## Časť 5: Trénovanie modelu
Použijeme model Random Forest na predikciu kvality vína.

<details>
  <summary>Hint (click to expand)</summary>
  Random Forest je populárny model pre klasifikačné úlohy. Skúste ho použiť a sledujte, ako sa model učí z trénovacích dát.
</details>

In [6]:
from sklearn.ensemble import RandomForestClassifier

# Inicializácia modelu
model = RandomForestClassifier(random_state=42)

# Trénovanie modelu
model.fit(X_train, y_train)

Úloha: Natrénujte model a vytlačte skóre trénovania.

Reflexná otázka: Prečo sme si vybrali model Random Forest pre túto úlohu? Aké sú jeho výhody oproti iným modelom, ktoré poznáte?

## Časť 6: Hodnotenie modelu
Nakoniec, poďme hodnotiť náš model na testovacej množine.

<details>
  <summary>Hint (click to expand)</summary>
  Na hodnotenie modelu použite metriky ako presnosť a správu o klasifikácii. Tieto metriky poskytujú prehľad o výkone modelu.
</details>

In [7]:
from sklearn.metrics import accuracy_score, classification_report

# Predikcia na testovacej množine
y_pred = model.predict(X_test)

# Hodnotenie modelu
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))

Úloha: Ohodnoťte výkonnosť modelu a zvážte experimentovanie s rôznymi modelmi alebo technikami predspracovania, aby ste videli, či môžete zlepšiť presnosť.

Reflexná otázka: Ako hodnotíte výkon modelu Random Forest na základe výsledkov? Sú miesta, kde by model mohol byť zlepšený?

## Časť 7: Experimentovanie a záver
Skúste rôzne strojové učenie modely, techniky predspracovania alebo metódy inžinierstva prvkov na zlepšenie výkonnosti modelu

Úloha: Vyberte aspoň jeden nový model na trénovanie a porovnajte jeho výkonnosť s modelom Random Forest. Zdokumentujte svoje zistenia a závery.

<details>
  <summary>Hint (click to expand)</summary>
  Skúste rôzne strojové učenie modely, techniky predspracovania alebo metódy inžinierstva prvkov na zlepšenie výkonnosti modelu.
</details>

Reflexná otázka: Vyberte aspoň jeden nový model na trénovanie a porovnajte jeho výkonnosť s modelom Random Forest. Zdokumentujte svoje zistenia a závery.