# Predikcia kvality vína
V tomto cvičení preskúmame, ako použiť strojové učenie na predikciu kvality vína na základe jeho chemických vlastností. Prejdeme si základné kroky pracovného postupu strojového učenia vrátane načítania dát, predspracovania, trénovania modelu a hodnotenia.

## Časť 1: Načítanie dát
Najprv musíme načítať náš dataset. Použijeme dataset kvality vína, ktorý obsahuje chemické vlastnosti vína a hodnotenie kvality.

In [1]:
import pandas as pd

# Načítanie datasetu
wine_data = pd.read_csv('data/winequality-red.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'winequality-red.csv'

Úloha: Zobrazte prvých 5 riadkov datasetu, aby ste pochopili jeho štruktúru. Použite `wine_data.head()`.

## Časť 2: Prieskum dát
Predtým, než pokračujeme s predspracovaním, trochu preskúmajme náš dataset.

In [None]:
# Zobrazenie základných informácií o datasete
wine_data.info()

Úloha: Vykreslite distribúciu premennej 'quality', aby ste videli, ako je distribuovaná kvalita vína. Použite knižnice ako `matplotlib` alebo `seaborn` pre vizualizáciu.

## Časť 3: Predspracovanie dát
### Riešenie chýbajúcich hodnôt
Najprv skontrolujeme chýbajúce hodnoty a zaoberáme sa nimi, ak nejaké sú.

In [None]:
# Kontrola chýbajúcich hodnôt
wine_data.isnull().sum()

# Ak sú nejaké chýbajúce hodnoty, môžete ich vyplniť priemerom alebo mediánom stĺpca
# Príklad: wine_data['column_name'].fillna(wine_data['column_name'].mean(), inplace=True)

### Škálovanie prvkov
Mnoho modelov strojového učenia lepšie funguje, keď sú vstupné numerické premenné škálované alebo normalizované.

In [None]:
from sklearn.preprocessing import StandardScaler

# Definícia prvkov a cieľa
X = wine_data.drop('quality', axis=1)
y = wine_data['quality']

# Škálovanie prvkov
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Úloha: Škálovajte prvky a overte to zobrazením prvých 5 riadkov škálovaných prvkov.

## Časť 4: Rozdelenie datasetu
Rozdelíme dataset na trénovaciu a testovaciu množinu.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

## Časť 5: Trénovanie modelu
Použijeme model Random Forest na predikciu kvality vína.

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Inicializácia modelu
model = RandomForestClassifier(random_state=42)

# Trénovanie modelu
model.fit(X_train, y_train)

Úloha: Natrénujte model a vytlačte skóre trénovania.

## Časť 6: Hodnotenie modelu
Nakoniec, poďme hodnotiť náš model na testovacej množine.

In [None]:
from sklearn.metrics import accuracy_score, classification_report

# Predikcia na testovacej množine
y_pred = model.predict(X_test)

# Hodnotenie modelu
print("Presnosť:", accuracy_score(y_test, y_pred))
print("\nSpráva o klasifikácii:\n", classification_report(y_test, y_pred))

Úloha: Ohodnoťte výkonnosť modelu a zvážte experimentovanie s rôznymi modelmi alebo technikami predspracovania, aby ste videli, či môžete zlepšiť presnosť.

## Časť 7: Experimentovanie a záver
Skúste rôzne strojové učenie modely, techniky predspracovania alebo metódy inžinierstva prvkov na zlepšenie výkonnosti modelu.

Úloha: Vyberte aspoň jeden nový model na trénovanie a porovnajte jeho výkonnosť s modelom Random Forest. Zdokumentujte svoje zistenia a závery.