In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns
sns.set()

## Data

In [None]:
# Чтение из файла, параметр "sep" - разделитель данных
df = pd.read_csv('winequality-white.csv', sep=';')

In [None]:
df.head()

In [None]:
# Проверяем наличие нулевых значений
df.info()

## Univariate analysis

### Quantitative features

In [None]:
# Смотрим на каждый из количественных параметров по отдельности, делаем вывод о распределении
features = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 
            'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol']
df[features].hist(figsize=(20, 20));

In [None]:
df[features].plot(kind='density', subplots=True,  layout=(4,3),
                  sharex=False, figsize=(20, 20), legend = False, title = features);

### Categorical features

In [None]:
# Если в датасете есть категориальные параметры

# Таблица частот (Frequency table)
df['...'].value_counts()

In [None]:
# То же самое, только на графике
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))
sns.countplot(x='...', data=df, ax=axes[0]);

## Multivariate analysis

### Quantitative vs quantitative

In [None]:
# Если нужно увидеть связь между количественными параметрами - корреляционная матрица
corr_matrix = df[features].corr()
sns.heatmap(corr_matrix);

### Quantitative vs categorical

In [None]:
# Взаимосвязь количественного и качественного параметра - строим ящики с усами
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(10, 7))
for idx, feat in enumerate(features):
    ax = axes[int(idx / 4), idx % 4]
    sns.boxplot(x='...', y=feat, data=df, ax=ax)
    ax.set_xlabel('')
    ax.set_ylabel(feat)
fig.tight_layout();

### Categorical vs categorical

In [None]:
# Визуализируем взаимосвязь двух категориальных параметров при помощи countplot
sns.countplot(x='...', hue='...', data=df);

## Preprocessing

In [None]:
# Категориальные параметры или выбрасываем, или кодируем

In [None]:
# Кодируем

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder(dtype = 'int32')

In [None]:
label_columns = ['...', '...', '...']

In [None]:
df_label_columns = df[label_columns]

In [None]:
enc.fit(df_label_columns)

In [None]:
enc_label_columns = enc.transform(df_label_columns).toarray()

In [None]:
# Отбрасываем старые категориальные параметры
all_columns = df.columns
int_columns = list(set(all_columns) - set(label_columns))
int_columns

In [None]:
# Отбрасываем то, что пойдет в Y
X = df[int_columns].drop('quality', axis = 1).values

In [None]:
# Добавляем закодированные категориальные параметры
X = np.concatenate((X, enc_label_columns), axis = 1)

In [None]:
y = df['quality'].values

## Split

In [None]:
Rand = 1

In [None]:
# Для задачи классификации указываем параметр "stratify"
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=Rand, stratify=y)
print(Xtrain.shape, Xtest.shape)

In [None]:
# Проверяем соотношение классов в тренировочном и тестовом датасетах
print(np.unique(ytrain, return_counts = True))
print(np.unique(ytest, return_counts = True))

## Modelling

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score
from sklearn.metrics import roc_auc_score, classification_report
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.model_selection import GridSearchCV

### LogisticRegression, default hyperparameters

In [None]:
lgr = LogisticRegression(n_jobs = -1)
lgr.fit(Xtrain, ytrain)

In [None]:
ytrain_pred = lgr.predict(Xtrain)
print(classification_report(ytrain, ytrain_pred))

In [None]:
ytest_pred = lgr.predict(Xtest)
print(classification_report(ytest, ytest_pred))

### RandomForestClassifier, default hyperparameters

In [None]:
rfc = RandomForestClassifier(random_state=Rand, n_jobs = -1)
rfc.fit(Xtrain, ytrain)

In [None]:
ytrain_pred = rfc.predict(Xtrain)
print(classification_report(ytrain, ytrain_pred))

In [None]:
ytest_pred = rfc.predict(Xtest)
print(classification_report(ytest, ytest_pred))

### GradientBoostingClassifier, default hyperparameters

In [None]:
gbc = GradientBoostingClassifier(random_state=Rand, n_jobs = -1)
gbc.fit(Xtrain, ytrain)

In [None]:
ytrain_pred = gbc.predict(Xtrain)
print(classification_report(ytrain, ytrain_pred))

In [None]:
ytest_pred = gbc.predict(Xtest)
print(classification_report(ytest, ytest_pred))