# Predikcia kvality vína
V tomto cvičení preskúmame, ako použiť strojové učenie na predikciu kvality vína na základe jeho chemických vlastností. Prejdeme si základné kroky pracovného postupu strojového učenia vrátane načítania dát, predspracovania, trénovania modelu a hodnotenia.

## Časť 1: Načítanie dát
Najprv musíme načítať náš dataset. Použijeme dataset kvality vína, ktorý obsahuje chemické vlastnosti vína a hodnotenie kvality.

In [None]:
# Import necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression

# Part 1: Data Loading
wine_data = pd.read_csv('data/winequality-red.csv')

# Display the first 5 rows of the dataset
print(wine_data.head())

## Časť 2: Prieskum dát
Predtým, než pokračujeme s predspracovaním, trochu preskúmajme náš dataset.

In [None]:
# Part 2: Data Exploration
wine_data.info()
plt.figure(figsize=(10, 6))
sns.countplot(x='quality', data=wine_data)
plt.title('Distribution of Wine Quality')
plt.show()

## Časť 3: Predspracovanie dát
### Riešenie chýbajúcich hodnôt
Najprv skontrolujeme chýbajúce hodnoty a zaoberáme sa nimi, ak nejaké sú.

In [None]:
# Part 3: Data Preprocessing
# Check for missing values
print(wine_data.isnull().sum())

# No missing values in this dataset, but if there were, you would handle them here

# Feature Scaling
X = wine_data.drop('quality', axis=1)
y = wine_data['quality']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

## Časť 4: Rozdelenie datasetu
Rozdelíme dataset na trénovaciu a testovaciu množinu.

In [None]:
# Part 4: Splitting the Dataset
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

## Časť 5: Trénovanie modelu
Použijeme model Random Forest na predikciu kvality vína.

In [None]:
# Part 5: Model Training (Random Forest)
model_rf = RandomForestClassifier(random_state=42)
model_rf.fit(X_train, y_train)

# Training score
print("Training Accuracy (Random Forest):", model_rf.score(X_train, y_train))

## Časť 6: Hodnotenie modelu
Nakoniec, poďme hodnotiť náš model na testovacej množine.

In [None]:
# Part 6: Model Evaluation (Random Forest)
y_pred_rf = model_rf.predict(X_test)
print("Accuracy (Random Forest):", accuracy_score(y_test, y_pred_rf))
print("\nClassification Report (Random Forest):\n", classification_report(y_test, y_pred_rf))

## Časť 7: Experimentovanie a záver
Skúste rôzne strojové učenie modely, techniky predspracovania alebo metódy inžinierstva prvkov na zlepšenie výkonnosti modelu.

In [None]:
# Trying another model for comparison: Logistic Regression
model_lr = LogisticRegression(max_iter=10000, random_state=42)
model_lr.fit(X_train, y_train)

# Training score
print("Training Accuracy (Logistic Regression):", model_lr.score(X_train, y_train))

# Model Evaluation (Logistic Regression)
y_pred_lr = model_lr.predict(X_test)
print("Accuracy (Logistic Regression):", accuracy_score(y_test, y_pred_lr))
print("\nClassification Report (Logistic Regression):\n", classification_report(y_test, y_pred_lr))