In [12]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Dealing with missing data

* W rzeczywistych aplikacjach często zdarza się, że w naszych próbkach brakuje jednej lub więcej wartości z różnych powodów. 
   * W procesie zbierania danych mógł wystąpić błąd, niektóre pomiary nie mogły zostać pobrane, poszczególne pola mogły na przykład pozostać puste w ankiecie. 
* Typowe wartości brakujące to zazwyczaj puste spacje w naszej tabeli danych lub ciągi znaków zastępczych, takie jak NaN (Not A Number).

* Niestety, większość algorytmów nie jest w stanie obsłużyć takich brakujących wartości. 
* Dlatego ważne jest, abyśmy zadbali o te brakujące wartości, zanim przejdziemy do dalszych analiz. 


In [1]:
import pandas as pd
from io import StringIO

csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

# If you are using Python 2.7, you need
# to convert the string to unicode:
# csv_data = unicode(csv_data)

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [2]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

# Usunięcie braków
Jednym z najprostszych sposobów radzenia sobie z brakującymi danymi jest po prostu usunięcie odpowiednich współrzędnych (kolumn) lub próbek (wierszy) z zestawu danych.

In [3]:
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [7]:
# only drop rows where all columns are NaN
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [8]:
# drop rows that have not at least 4 non-NaN values# drop  
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [9]:
# only drop rows where NaN appear in specific columns (here: 'C')
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


* Chociaż usunięcie brakujących danych wydaje się być dogodnym podejściem, ma ono również pewne wady:
    * na przykład możemy usunąć zbyt wielu próbek, co uniemożliwi wiarygodną analizę
    * jeśli usuniemy zbyt wiele kolumn ryzykujemy utratę cennych informacji
    
# Imputing missing values  

* Często usuwanie próbek lub kolumn jest po prostu niewykonalne, ponieważ możemy stracić zbyt wiele cennych danych. 

* W tym przypadku możemy użyć różnych technik interpolacji do oszacowania brakujących wartości. 
* Jedną z najbardziej powszechnych technik interpolacji jest **mean imputation**, w której po prostu zastępujemy brakującą wartość przez średnią wartość całej kolumny funkcji. 

In [10]:
from sklearn.preprocessing import Imputer

imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [11]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

* Tutaj zastąpiliśmy każdą wartość NaN przez odpowiednią średnią, która jest obliczana osobno dla każdej kolumny. 
* Gdybyśmy zmienili oś **axis=0** na **axis=1**, obliczylibyśmy śtednie w rzędach. 
* Inne opcje **strategy** to **median** albo **most_frequent**
* **most_frequent** jest to przydatne przy imputowaniu wartości cech kategorycznych.