W tym rozdziale zajmę się przetwarzaniem danych ilościowych(liczbowych).
Główne skrzypce w tym rodziale będzie odgrywała bibloteka(modół) **numpy**

# Skalowanie danych

Przeskaluje teraz dane aby mieściły się w żądanym przedziale

In [3]:
# Wczytanie bibliotek.
import numpy as np


In [4]:
from sklearn import preprocessing


In [5]:
# Utworzenie cechy.
feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])


In [7]:
print(feature)

[[-500.5]
 [-100.1]
 [   0. ]
 [ 100.1]
 [ 900.9]]


In [8]:
# Utworzenie przelicznika, czyli egzemplarza typu MinMaxScaler.
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

# Skalowanie cechy.
scaled_feature = minmax_scale.fit_transform(feature)

# Wyświetlenie cechy.
scaled_feature


array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

W uczeniu maszynowym często będę potrzebował danych z zakresu [0;1] lub [-1;1]. Fajnym skalowaniem dającym takie efekty jest algorytm *skalowania min-max*. 
Niech *x* będzie ciągiem cech *x_i*. Wówczas ciąg cech przskalowanych wylicza się ze wzoru: *x'_i=(x_i-min(x))/(max(x)-min(x))*

Więcej fajnych algorytów normalizujących: https://en.wikipedia.org/wiki/Feature_scaling

# Standaryzowanie cechy
tzn.średnia jest równa zero a odchylenie standardowe wynosi 1

In [1]:
# Wczytanie bibliotek.
import numpy as np
from sklearn import preprocessing

#Utworzenie cechy.
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])


In [10]:
# Utworzenie przelicznika.
scaler = preprocessing.StandardScaler()

# Przekształcenie cechy.
standardized = scaler.fit_transform(x)


In [11]:
# Wyświetlenie cechy.
standardized


array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [16]:
#sprawdzenie 
print("Średnia wynosi:",np.average(standardized))#Wyszło bardzo bardzo, baaaardzo blisko zera(czyli git)
print("Odchylenie standardowe wynosi:",np.std(standardized))

Średnia wynosi: 4.4408920985006264e-17
Odchylenie standardowe wynosi: 1.0


Standaryzowanie odbywa się następująco:
niech *x* będzie wektorem cech *x_i*. Wówczas *x'_i*=(x_i-mean(x))/std(x)
Widzimy, że przekształcone wartości reprezentują wsakźnik **z-score**


Analiza głownej składowej w algorytmach uczenia maszynowego najlepiej przeprowadzić na ustandarywzowanych cechach, ale już w sieciach neurownowych najlepiej będą się sprawdzać cechy przeskalowane min-max

Czasami w statystyce wyrzuca się dane za bardzo "odstające" co wykonuje następujący fragment kodu

In [2]:
# Utworzenie przelicznika.
robust_scaler = preprocessing.RobustScaler()

# Przekształcenie cechy.
robust_scaler.fit_transform(x)


array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

# Normalizowanie obserwacji

Przeskaluje wektor obserwacji tak, aby suma jego składowych dawała 1

In [3]:
# Wczytanie bibliotek.
import numpy as np
from sklearn.preprocessing import Normalizer

# Utworzenie macierzy cech.
features = np.array([[0.5, 0.5],
                     [1.1, 3.4],
                     [1.5, 20.2],
                     [1.63, 34.4],
                     [10.9, 3.3]])


In [4]:
# Zdefiniowanie normalizacji. 
normalizer = Normalizer(norm="l2")#l2- czyli opoerujemy w normie L2(normaie euklidesowej)

# Przekształcenie macierzy cech.
normalizer.transform(features)


array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [5]:
# Przekształcenie macierzy cech.
features_l1_norm = Normalizer(norm="l1").transform(features)#l1- czyli wybieramy normę L1(normę taksówkową)

# Wyświetlenie macierzy cech.
features_l1_norm


array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

# Transformacja cech

Teraz nauczymy się przeprowadzać bardziej skąplikowane operacje na cechach.

In [6]:
# Wczytanie bibliotek.
import numpy as np
from sklearn.preprocessing import FunctionTransformer

# Utworzenie macierzy cech.
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])


In [7]:
# Zdefiniowanie prostej funkcji.
def add_ten(x: int) -> int:
    return x + 10


In [8]:
# Przygotowanie operacji przekształcenia.
ten_transformer = FunctionTransformer(add_ten)

# Przekształcenie macierzy cech.
ten_transformer.transform(features)


array([[12, 13],
       [12, 13],
       [12, 13]])

In [12]:
#To samo można zrobić przy pomocy funkcji applay() z pandas(to już umiemy)

import pandas as pd

dataframe = pd.DataFrame(features,columns=['col1','col2'])

dataframe.apply(add_ten)

Unnamed: 0,col1,col2
0,12,13
1,12,13
2,12,13


# Wykrywanie elementó odstających

In [13]:
# Wczytanie bibliotek.
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

# Utworzenie symulowanych danych.
features, _ = make_blobs(n_samples = 10,
                         n_features = 2,
                         centers = 1,
                         random_state = 1)


In [14]:
# Zastąpienie wartości pierwszej obserwacji wartościami odstającymi.
features[0,0] = 10000
features[0,1] = 10000

In [15]:
# Utworzenie detektora.
outlier_detector = EllipticEnvelope(contamination=.1)


In [16]:
# Wypełnienie detektora.
outlier_detector.fit(features)


In [17]:
# Wykrywanie elementów odstających.
outlier_detector.predict(features)


array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

Do wykrywania danych odstających trzeba przyjąć jakieś załorzenie. U nas zakłądamy, że dane mają rozkład normalny. Następnie graficznie rysujemy elipse i wszystkie dane mieszczące się w niej uznajemy za nieodstające. Następnie odstającym oznaczamy wartością -1 a nie odstających 1 aby łatwiej było je zlokazliwoać 

# Obsługa danych odstających

Przetestuje 3 sposoby na poradzenie sobie z danymi odstającymi

In [18]:
# Wczytanie biblioteki.
import pandas as pd

# Utworzenie obiektu typu DataFrame.
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]

# Filtrowanie obserwacji.
houses[houses['Bathrooms'] < 20]


Unnamed: 0,Price,Bathrooms,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


In [19]:
# Wczytanie biblioteki.
import numpy as np

# Utworzenie cechy na podstawie wyrażenia boolowskiego.
houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)

# Wyświetlenie danych.
houses


Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


In [20]:
# Obliczenie logarytmu cechy.
houses["Log_Of_Square_Feet"] = [np.log(x) for x in houses["Square_Feet"]]

# Wyświetlenie danych.
houses


Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier,Log_Of_Square_Feet
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


# usuwanie obserwacji w których brakuje wartości

In [21]:
# Wczytanie biblioteki.
import numpy as np

# Utworzenie macierzy cech.
features = np.array([[1.1, 11.1],
                     [2.2, 22.2],
                     [3.3, 33.3],
                     [4.4, 44.4],
                     [np.nan, 55]])


In [22]:
# Zachowanie jedynie tych obserwacji, w których nie brakuje danych (co jest możliwe dzięki użyciu znaku ~).
features[~np.isnan(features).any(axis=1)]


array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

In [23]:
#można też je wywalić przy pomocy pandas
import pandas as pd

dataframe = pd.DataFrame(features,columns=['feature1','feature2'])

dataframe.dropna()

Unnamed: 0,feature1,feature2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


W uczeniu maszynimym większość algorytmów nie umie poradzić sobie z brakującymi wartościami. Przedstawione wyżej rozwiązanie jest ostateczne(ale za to bardzo łatwe do przeprowadzenia). Ogólnie należy się zastanowaić nad rodzajem brakujących danych a są to:
**MCAR**-oznacza *missing completeky at random* jak braki są kompletnie losowe
**MAR**-oznacza *missing at random* prawdopodobieństo braku nie jest kompletnie losowe, a skorelowane z inforamcjami z innych cech
**MNAR**-oznacza *missing not at random* oznacza brak nie losowy i nie zależy od informacji z innych cech

Usunięcie danych MNAR może wybaczyć dane 

# Uzupełnianie brakujących wartości 

Przy użyciu **KNN**

In [24]:
# Wczytanie bibliotek.
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# Utworzenie symulowanej macierzy cech.
features, _ = make_blobs(n_samples = 1000,
                         n_features = 2,
                         random_state = 1)

# Standaryzacja cech.
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# Pozbycie się pierwszej wartości pierwszej cechy.
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

# Prognozowanie brakującej wartości w macierzy cech.
knn_imputer = KNNImputer(n_neighbors=5)
features_knn_imputed = knn_imputer.fit_transform(standardized_features)

# Porównanie wartości rzeczywistej i prognozowanej.
print("Wartość rzeczywista:", true_value)
print("Wartość prognozowana:", features_knn_imputed[0,0])


Wartość rzeczywista: 0.8730186113995938
Wartość prognozowana: 1.0959262913919632


Przy użyciu średniej 

In [25]:
# Wczytanie bibliotek.
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# Utworzenie symulowanej macierzy cech.
features, _ = make_blobs(n_samples = 1000,
                         n_features = 2,
                         random_state = 1)

# Standaryzacja cech.
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# Pozbycie się pierwszej wartości pierwszej cechy.
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

# Utworzenie obiektu modułu Imputer i użycie strategii „średniej”.
mean_imputer = SimpleImputer(strategy="mean")

# Wygenerowanie wartości.
features_mean_imputed = mean_imputer.fit_transform(features)

# Porównanie wartości rzeczywistej i prognozowanej.
print("Wartość rzeczywista:", true_value)
print("Wartość prognozowana:", features_mean_imputed[0,0])


Wartość rzeczywista: 0.8730186113995938
Wartość prognozowana: -3.058372724614996


# Koniec rozdziału 4