# Część 1 - Analiza
* Na wstepie wczytajmy nasze dane 
* Nastepnie zróbmy prostą analizę zależności miedzy zmiennymi
* Zobaczmy przykład zmiennych gausowskich

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import PolynomialFeatures

rd = pd.read_csv('./dataset/winequality-red.csv', sep=";")
wd = pd.read_csv('./dataset/winequality-white.csv', sep=";")
red_corr = rd.corr()
white_corr = wd.corr()

In [None]:
wd.head()

In [None]:
rd.head()

In [None]:
for x in [red_corr, white_corr]:
    fig, ax = plt.subplots()
    
    divnorm = colors.TwoSlopeNorm(vmin=-1, vcenter=0, vmax=1)
    cax = ax.imshow(x, cmap='Greys', interpolation='none', norm=divnorm)
    
    ax.set_xticks(np.arange(len(x.columns)))
    ax.set_yticks(np.arange(len(x.columns)))
    ax.set_xticklabels(x.columns)
    ax.set_yticklabels(red_corr.columns)
    
    plt.title(f"Macierz korelacji dla {"czerwonego wina" if x is red_corr else "białego wina"}")
    plt.colorbar(cax)  # Pasek kolorów
    plt.xticks(rotation=90, ha="right")
    plt.grid(False)
    plt.show()

## Zabaczmy najpierw zależności dla czerwonego wina

In [None]:
pairs_red = [
    (rd['density'],rd['fixed acidity']),
    (rd['volatile acidity'],rd['fixed acidity']),
    (rd['volatile acidity'],rd['citric acid']),
    (rd['pH'], rd['fixed acidity']),
    (rd['pH'], rd['citric acid']),
    (rd['free sulfur dioxide'], rd['total sulfur dioxide']),
    (rd['pH'],rd.density)]
gausian_red = [
    rd['volatile acidity'],
    rd['density'],
    rd.density,
    rd.pH,
    rd['fixed acidity']]
for pair in pairs_red:
    plt.scatter(pair[0],pair[1])
    plt.ylabel(pair[1].name)
    plt.xlabel(pair[0].name)
    plt.show()
    
for item in gausian_red:
    plt.hist(item,bins=50)
    plt.xlabel(item.name)
    plt.show()


## A teraz dla wina białego

In [None]:
pairs_white = [
    (wd['fixed acidity'],wd['volatile acidity']),
    (wd['fixed acidity'],wd['citric acid']),
    (wd['density'],wd['fixed acidity']),
    (wd['pH'],wd['fixed acidity'])]

for pair in pairs_white:
    plt.scatter(pair[0],pair[1])
    plt.ylabel(pair[1].name)
    plt.xlabel(pair[0].name)
    plt.show()
    

## Teraz jeszcze dwie heatmapy pokazujace ciekawe właściwości

In [None]:
# Teraz czerwone
plt.scatter(rd['free sulfur dioxide'], rd['volatile acidity'], cmap='nipy_spectral', c=rd.quality, alpha=rd.quality/(max(rd.quality)))
plt.colorbar().set_label('quality')
plt.xlabel("free sulfur dioxide")
plt.ylabel("volatile acidity")
plt.title("Heat mapa ocen dla czerwonego wina")
plt.show()

# Teraz białe
plt.scatter(wd['free sulfur dioxide'], wd['volatile acidity'], cmap='nipy_spectral', c=wd.quality, alpha=wd.quality/(max(wd.quality)))
plt.colorbar().set_label('quality')
plt.xlabel("free sulfur dioxide")
plt.ylabel("volatile acidity")
plt.title("Heat mapa ocen dla białego wina")
plt.xscale('linear')
plt.yscale('linear')
plt.show()

## Zmienne gausowskie dla wina czerwonego

In [None]:
gausian_red = [
    rd['volatile acidity'],
    rd['density'],
    rd.density,
    rd.pH,
    rd['fixed acidity']]

for item in gausian_red:
    plt.hist(item,bins=50)
    plt.xlabel(item.name)
    plt.title(f"~Guasowski rozkład dla {item.name}")
    plt.show()

## Zmienne gausowskie dla wina białego

In [None]:
gausian_white = [
    wd['volatile acidity'],
    wd['fixed acidity'], 
    wd['citric acid'],
    wd.pH, 
    wd.density]

for item in gausian_white:
    plt.hist(item,bins=50)
    plt.xlabel(item.name)
    plt.title(f"~Guasowski rozkład dla {item.name}")
    plt.show()

# Część 2 - Regresja
* postaram sie zbudować model przewidujący kilka użytecznych zmiennych
* analiza pod względem uzytych funkcji i dlaczego są dobre lub nie