# Dataset Description

Dobrą praktyktą jest zawrzeć kilka informacji na temat problemu, którym będziemy się zajmować. 

# Load Dataset

Wczytujemy datset. Najczęściej:

```Python
import pandas as pd

data_set = pd.read_csv('/path/to/data.csv')
```

# Data Quality

Sprawdzamy jakość danych, uzgadniamy typy, wybieramy _featury_ w sposób **ekspercki**.

np.:
```Python
data_set.info()
data_set['column'] = data_set['column'].astype('category')

data_set.describe()
data_set.describe(include='category')

data_set.isnull().sum()/df.shape[0] * 100
df.drop([list_col_drop], axis=1, inplace=True)

```

# Train Test Split


```Python
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(data_set,
                                   test_size=0.2, 
                                   random_state=42)
```


# EDA

Analizujemy dataset pod różnym kątem.

Eksplorujemy dane. 

Sprawdzamy rokłady, współzależności, kolerację. 

Tu dajemy się ponieść duszy artysty! I detektywa.

Zazwyczaj przydaje się:
```Python
import matplotlib.pyplot as plt
```

Ale zachęcam do używania znacznie lepszych narzędiz jak:
- [plotly](https://plotly.com/)
- [bokeh](https://bokeh.org/) 

# Data Preprocessing

W tej części następuje pryzgotowanie danych bezpośrednio do trenowania. Tutaj uzupełniamy brakujące wartości, standaryzujemy, normalizujemy, dyskretyzujemy, enkodujemy itd. 

```Python
from sklearn.impute import SimpleImputer

imputer_num = SimpleImputer(strategy='median')
X_train = imputer_num.fit_transform(X_train)


from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)


from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder(sparse=False)
X_train = ohe.fit_transform(X_train)

```

## Feature Engineering

Jest to część preprocessingu. 

Jeśli nasze dane tego wymagają i mogłoby to polepszyć wyniki naszego modelu warto zbudować nowe featury lub dokonać jakiś niestandardowych operacji. Przykładem może być np.: 
- wyciągnięcie dnia tygodnia z daty
- wyciągnięcie płci z imienia
- na podstawie ilości rodziców i rodzeństwa sprawdzić czy ktoś podróżuje sam (Titanic dataset)





# Building Pipeline

Wszystkie operacje dokonane na zbiorze treningowym muszą zostać w ten sam sposób przeniesione na zbiór testowy. Czyli każdy transformer _wytrenowany_ na zbiorze treningowym musi dokonać transformacji na zbiorze testowym. To oznacza, że jeśli np. brakujące wartości zostały uzupełnione średnią ze zbioru treningowego, to tą samą wartością uzupełnimy zbiór testowy! 

W tym celu, żeby nie powtarzać tych samych operacji warto zbudować pipeline. Dobrą praktyką jest skorzystanie z biblioteki scikit-learn i skorzystanie z dostępnego API. Zapewni to dużą elastyczność przy ewentualnych zmianach oraz pozwoli łatow używać wszystkich komponentów. 

```Python
from sklearn.pipeline import Pipeline

pipeline = Pipeline(
    steps=[
        ('step_1', ...),
        ('step_2', ...),
        ('step_3', ...),
    ]
)

```
[docs](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)


Warto pamiętać o _cutomowych funkcjach_ z sklearn, które pomogą obsłużyć niestandardowe operacja np. z feature engineeringu.


# Model Training

## Model Exploration

Po preprocessingu następuje eksploracja modeli. Sprawdzamy jak zachowują się dane poddane różnym estymatorą. Czy złożoność pozwoli na użycie. Wstępna analiza pozwoli wybrać kilku potencjalnych kandydatów, którzy najlepiej opisują zbiór.

```Python
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB, MultinomialNB
```

## Model Selection/Model Tuning

Bo wybraniu potencjalnych kadydatów następuje proces dostrajania modelu czyli przeszukiwaniu przestrzeni hiperparametrów w celu uzyskania najlepszych wyników. Do tego celu najlepiej przydaje się metoda grid search.

```Python
from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(model, model_param, verbose=3, scoring='accuracy')
grid_search.fit(X_train, y_train)
```

# Evaluation

Po wybraniu najlepszego modelu następuje ewaluacja na zbiorze testowym, czyli sprawdzamy czy model nie jest przetrenowany, spełnia założenia o dokładności itd.

# Summary