# Analiza danych – ćwiczenia 2.
### Wstępne przetwarzanie danych


##### Autor: mgr inż. Bartosz Czech

---

#### Rozdzielanie zestawu danych na podzbiory uczące i testowe
Aby umożliwić komputerom proces uczenia, niezbędne jest właściwe przygotowanie danych. W uczeniu maszynowym, dane dzieli się zazwyczaj na dwa podzbiory – uczący i testowy. Dane uczące pozwala maszynie na poznanie wzorców zachodzących w zbiorze umożliwiających dokonanie predykcji/klasyfikacji. Zbiór testowy rozumiany jest jako ostateczny sprawdzian przygotowanego modelu. W przypadku danych niezbalansowanych (jedna z klas występuje bardzo rzadko), dobre przygotowanie danych uczących i testowych wymaga jeszcze bardziej precyzyjnego podziału danych. Do podziału danych, przydatna będzie funkcja [sklearn.model_selection.train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

#### Problem brakujących danych
W eksperymentach data science, problem brakujących danych jest dosyć powszechny. Wynika on w głównej mierze z błędów w trakcie zbierania informacji lub braku możliwości pomiarów. Większość algorytmów nie potrafi sobie poradzić z brakami danych lub generuje fałszywe wyniki. Jedną z najprostszych metod przetwarzania takich danych, jest usunięcie obserwacji z brakującymi cechami. W tym celu pomocna może być funkcja [pandas.DataFrame.dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html). 
Usuwanie rekordów może być natomiast problematyczne, jeśli braki danych pojawiają się często. Tracimy wtedy cenne informacje. Brakujące dane mozemy uzupełnić dzięki technikom imputacji, wykorzystując do tego średnią, medianę lub dominantę.

#### Normalizacja/standaryzacja zmiennych
W celu poprawnego zbudowania modelu sztucznej sieci neuronowej dane wymagają wstępnego przetworzenia. Brak normalizacji zmiennej może być przyczyną spowolnienia i niestabilności procesu uczenia modelu, a także mogą decydować o większym wpływie zmiennej nieznormalizowanej na budowany model. Normalizacja polega na skalowaniu pierwotnych danych do danego, innego przedziału. Najczęściej wykorzystywanymi metodami transformacji danych jest metoda min-max lub standaryzacja $\sim \mathcal{N}(0,\,1$) (nazywana również metodą z-score). Powyższa normalizacja jest stosowana dla zmiennych ilościowych.

W przypadku zmiennych o charakterze jakościowym konieczne jest sprowadzenie wartości do postaci numerycznej, czyli dogodnej do przetworzenia przez sieć neuronową (np. przy zastosowaniu metody jeden-z-N, w której każdej wartości zmiennej przyporządkowuje się wektor wartości binarnych). W tym celu może być przydatna funkcja [pandas.get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html).

---

1. Utwórz 2 sekwencje 3-merowe (BEHIND i BEFORE) na podstawie informacji o pojedynczych nukleotydach.
2. Dokonaj podziału danych na zbiory uczące i testowe.
3. Sprawdź kompletność danych. W przypadku rekordów z brakującą zmienną zdecyduj o ich usunięciu lub dokonaj imputacji brakującej zmiennej (średnia, dominanta, mediana, interpolacja modelem liniowym).
4. Dokonaj normalizacji lub standaryzacji zmiennych. 

In [2]:
import tensorflow as tf
import keras
import numpy as n
import scipy as sp
import matplotlib.pyplot as plt
import matplotlib as mpl
%matplotlib inline
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler

In [3]:
data = pd.read_csv("../data/logreg.txt", sep = ";", dtype={'genotype': np.object})