# Fáza 2

**Michaela Gubovská, Jakub Hajdu**

V tejto fáze zealizujeme predspracovanie údajov pre strojové učenie.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import scipy.stats as stats
import statsmodels.stats.api as sms
import numpy as np
from datetime import datetime
from sklearn.impute import SimpleImputer, KNNImputer
from copy import deepcopy

filename_p = "data/profiles.csv"
dfp = pd.read_csv(filename_p, sep='\t')

filename_l = "data/labor.csv"
dfl = pd.read_csv(filename_l, sep='\t')

Pôvodné neočistené dáta vyzerajú napríklad nasledovne:

In [None]:
dfp.head()

In [None]:
dfl.head()

Ako prvé vykonáme základné úpravy dát z prvej fázy (EDA). Konkrétne očistíme tabuľky od nepotrebného stĺpca "Unnamed", zjednotíme hodnoty vo vybraných stĺpcoch (yes/no a pod.), upravíme stĺpec "birthdate" na iba rok narodenia a odstránime duplikáty z druhej tabuľky, nakoľko z EDA vieme, že v prvej sa duplikáty nenachádzajú.

In [None]:
dfp.drop('Unnamed: 0', axis=1, inplace=True)
dfp['race'] = dfp['race'].str.replace('white','White')
dfp['race'] = dfp['race'].str.replace('black','Black')
dfp['race'] = dfp['race'].str.replace('blsck','Black')
dfp['birthdate'] = (pd.to_datetime(dfp.birthdate)).dt.year


dfl.drop('Unnamed: 0', axis=1, inplace=True)
dfl = dfl.drop_duplicates()
dfl['smoker'] = dfl['smoker'].str.replace('N','no')
dfl['smoker'] = dfl['smoker'].str.replace('Y','yes')

Po týchto úpravách už vyzerajú naše dáta takto:

In [None]:
dfp.head()

In [None]:
dfl.head()

Pre ďalšie úpravy dát si tieto 2 tabuľky spojíme do jednej.

In [None]:
df = pd.merge(dfp, dfl, how="left", on=["ssn"])
df.head()

Odstránime stĺpce, ktoré ďalej nebudeme používať - stĺpce mená, adresy, zamestnanie, a rodinný stav. Tieto stĺpce sú nám pre ďalšiu fázu strojového učenia zbytočné, nakoľko podľa nás nemajú vplyv na indikátor.

Odstránime aj stĺpce "blood_group" a "race", pretože sme zistili, že nemajú vplyv na indikátor, keďže pri každej skupine je pomer indikátora 0 a 1 približne rovnaký.

In [None]:
df.groupby(['blood_group', 'indicator']).size()

In [None]:
df.groupby(['race', 'indicator']).size()

In [None]:
df.drop('name_x', axis=1, inplace=True)
df.drop('name_y', axis=1, inplace=True)
df.drop('job', axis=1, inplace=True)
df.drop('address', axis=1, inplace=True)
df.drop('residence', axis=1, inplace=True)
df.drop('relationship', axis=1, inplace=True)
df.drop('blood_group', axis=1, inplace=True)
df.drop('race', axis=1, inplace=True)
df.head()

## 1. Integrácia a čistenie dát

Ďalším dôležitým krokom je identifikácia outlierov a chýbajúcich hodnôt. V tejto časti si ukážeme viaceré spôsoby na úpravu vychýlených a chýbajúcich hodnôt. Tento krok je dôležitý pre ďalšiu fázu machine learningu, aby sme mali pre vybraný algoritmus vhodný model.

### Chýbajúce hodnoty

Ako prvé sa pozrieme, koľko záznamov v našej tabuľke obsahuje aspoň jednu chýbajúcu (NaN) hodnotu. Toto vieme zistiť pomocou funkcie .dropna(), ktorá vráti dataframe očistený od záznamov obsahujúcich aspoň jednu chýbajúcu hodnotu.

In [None]:
len(df) - len(df.dropna())

Vidíme, že celkový počet záznamov s nejakou chýbajucou hodnotou je 324, čo predstavuje približne 3.2% záznamov. Nakoľko je táto hodnota menšia ako 5% (podľa prednášky odporúčaná hranica po ktorú je možné odstrániť takéto záznamy z datasetu), problém s chýbajúcimi hodnotami by sme mohli jednoducho vyriešiť odstránením záznamov s aspoň jednou chýbajúcou hodnotou príkazom ```df = df.dropna()```.

Iným postupom je nahradenie chýbajúcich hodnôt. Pozrieme sa, v ktorých stĺpcoch sa nachádzajú chýbajúce hodnoty.

Vidíme, že sa nachádzajú iba v stĺpcoch s číselnými hodnotami, čo nám vyhovuje, nakoľko v ďalších krokoch budeme používať SimpleImputer, ktorý vie pre chýbajúcu hodnotu podľa zvolenej stratégie vypočítať jej novú hodnotu na základe ostatných číselných hodnôt v danom stĺpci.

In [None]:
df.isnull().sum()

In [None]:
nan_columns = df.columns[df.isna().any()].tolist()
nan_columns

Pre neskoršie porovnávanie nahradených hodnôt rôznymi stratégiami si zapamätáme indexy záznamov, ktoré majú v stĺpci "leukocyty" chýbajúcu hodnotu.

In [None]:
nan_values_leukocyty = df[(df['leukocyty'].isna() == True)].index.values.astype(int)
nan_values_leukocyty

**Nahradenie chýbajúcich hodnôt mediánom**

In [None]:
# imputer
temp_median = deepcopy(df)
imp_median = SimpleImputer(strategy='median', missing_values=np.nan)
imp_median = imp_median.fit(temp_median[nan_columns])
temp_median[nan_columns] = imp_median.transform(temp_median[nan_columns])

print("Medián neupravených hodnôt leukocytov: ", df['leukocyty'].median())
temp_median.loc[nan_values_leukocyty].head()

Nahradili sme chýbajúce hodnoty mediánom hodnôt v danom stĺpci. V príklade tabuľky vyššie môžeme vidieť nahradené chýbajúce hodnoty leukocytov hodnotou mediána stĺpca "leukocyty".

Pre kontrolu si môžeme pozrieť, či sa v našej tabuľke už naozaj v žiadnom stĺpci nenachádzajú chýbajúce hodnoty.

In [None]:
temp_median.isnull().sum()

**Nahradenie chýbajúcich hodnôt priemerom**

In [None]:
# imputer
temp_mean = deepcopy(df)
imp_mean = SimpleImputer(strategy='mean', missing_values=np.nan)
imp_mean = imp_mean.fit(temp_mean[nan_columns])
temp_mean[nan_columns] = imp_mean.transform(temp_mean[nan_columns])

print("Priemer neupravených hodnôt leukocytov: ", df['leukocyty'].mean())
temp_mean.loc[nan_values_leukocyty].head()

Nahradili sme chýbajúce hodnoty priemerom hodnôt v danom stĺpci. V príklade tabuľky vyššie môžeme vidieť nahradené chýbajúce hodnoty leukocytov priemernou hodnotou stĺpca "leukocyty".

Pre kontrolu si môžeme pozrieť, či sa v našej tabuľke už naozaj v žiadnom stĺpci nenachádzajú chýbajúce hodnoty.

In [None]:
temp_mean.isnull().sum()

**Nahradenie chýbajúcich hodnôt pomerom ku korelovanému atribútu**

**Nahradenie chýbajúcich hodnôt pomocou kNN algoritmu**

Ako posledné sa pozrieme na stratégiu nahradenia chýbajúcich hodnôt pomocou kNN algoritmu. Pre každú chýbajúcu hodnotu sa zvolí 5 najbližších (najpodobnejších) záznamov s nie-NaN hodnotami v danom stĺpci, spriemeruje ich a túto hodnotu priradí. Túto stratégiu aplikujeme na celý dataframe, nakoľko ju považujeme za najpresnejší spôsob nahradenia chýbajúcej hodnoty, keďže berie pri výpočte novej hodnoty do úvahy podobné záznamy.

In [None]:
# imputer
imp_knn = KNNImputer(n_neighbors=5, weights='uniform', metric='nan_euclidean')
imp_knn.fit(df[nan_columns])
df[nan_columns] = imp_knn.transform(df[nan_columns])

df.loc[nan_values_leukocyty].head()

Nahradili sme chýbajúce hodnoty hodnotami získanými kNN algoritmom podľa 5 najpodobnejších záznamov. V príklade tabuľky vyššie môžeme vidieť nahradené chýbajúce hodnoty leukocytov. Hodnoty sa líšia, keďže pre každý záznam sa počítajú na základe iných piatich susedov.
Pre kontrolu si môžeme pozrieť, či sa v našej tabuľke už naozaj v žiadnom stĺpci nenachádzajú chýbajúce hodnoty.

In [None]:
df.isnull().sum()

In [None]:
df.weight.describe()

### Vychýlené hodnoty

In [None]:
##funkcia na detekciu outlierov
def identify_outliers(a):
    lower = a.quantile(0.25) - 1.5 * stats.iqr(a)
    upper = a.quantile(0.75) + 1.5 * stats.iqr(a)
    
    return a[(a > upper) | (a < lower)]

**Odstránenie vychýlených pozorovaní**

Ako prvé si identifikujeme vychýlené hodnoty naprieč stĺpcami v našom dataframe. Tieto nájdené hodnoty následne odstránime.

In [None]:
df.head()

In [None]:
temp_df = deepcopy(df)
outliers = []
d = {}
for col in nan_columns + ['birthdate', 'weight']:
    x = identify_outliers(temp_df[col]).index.values.astype(int)
    d[col] = x
    for element in x:
        if element not in outliers:
            outliers.append(element)


print(len(outliers))
# outliers['leukocyty'] = identify_outliers(temp_df['leukocyty'])
# outliers['hemoglobin'] = identify_outliers(temp_df['hemoglobin'])
# outliers['trombocyty'] = identify_outliers(temp_df['trombocyty'])
# outliers['alt'] = identify_outliers(temp_df['alt'])
# outliers['weight'] = identify_outliers(temp_df['weight'])
# outliers['ast'] = identify_outliers(temp_df['ast'])
# outliers['alp'] = identify_outliers(temp_df['alp'])
# outliers['hematokrit'] = identify_outliers(temp_df['hematokrit'])
# outliers['hbver'] = identify_outliers(temp_df['hbver'])
# outliers['etytr'] = identify_outliers(temp_df['etytr'])
# outliers['er-cv'] = identify_outliers(temp_df['er-cv'])
# outliers['erytrocyty'] = identify_outliers(temp_df['erytrocyty'])

Nakoľko sme zistili, že počet záznamov patriacich medzi outlierov aspoň jedného atribútu je 734, čo pri celkovom počte pozorovaní predstavuje približne 7.4%. Nakoľko sa podľa prednášok neodporúča odstraňovať vychýlené hodnoty, ktorých počet presahuje 5% z celkového počtu záznamov, nepovažujeme za správne odstránenie záznamov obsahujúcich tieto vychýlené hodnoty. V prípade, že by ich počet bol <= 5% všetkých pozorovaní, odstránili by sme ich pomocou ```temp_df.drop(outliers, inplace=True)```

**Nahradenie vychýlenej hodnoty hraničnými hodnotami rozdelenia**

Pre zachovanie počtu záznamov nahradíme vychýlené hodnoty hraničnými hodnotami daného stĺpca. Konkrétne outlierov za maximom nahradíme hodnotou 95. percentilu a outlierov za minimom nahradíme hodnotou 5. percentilu.

In [None]:
##funkcia na detekciu outlierov, vrati oddelene zoznamy indexov prilis vysokych a prilis nizkych hodnot
def identify_outliers_low_up(a):
    lower = a.quantile(0.25) - 1.5 * stats.iqr(a)
    upper = a.quantile(0.75) + 1.5 * stats.iqr(a)
    
    return a[(a < lower)].index.values.astype(int), a[(a > upper)].index.values.astype(int)

In [None]:
##nahradenie hodnot outlierov hodnotami 5. a 95. percentilom rozlozenia
for col in nan_columns + ['birthdate', 'weight']:
    #print('\n', col) # nazov stlpca pre kontrolny vypis
    low, up = identify_outliers_low_up(df[col])
    #if (len(low) > 0): print('low[0]: ', df.loc[low[0], col]) ##prvy nizky outlier pre kontrolny vypis
    #if (len(up) > 0): print('up[0]: ', df.loc[up[0], col]) ##prvy vysoky outlier pre kontrolny vypis
    #print('0.05: ', df[col].quantile(0.05)) ##hodnota 5. percentilu, ktorou sa nahradzaju nizki outlieri
    #print('0.95: ', df[col].quantile(0.95)) ##hodnota 95. percentilu, ktorou sa nahradzaju vysoki outlieri
    df.loc[low, col] = df[col].quantile(0.05)
    df.loc[up, col] = df[col].quantile(0.95)
    #if (len(low) > 0): print('low[0]: ', df.loc[low[0], col]) ##prvy nizky outlier po nahradeni pre kontrolny vypis
    #if (len(up) > 0): print('up[0]: ', df.loc[up[0], col]) ##prvy vysoky outlier po nahradeni pre kontrolny vypis

## 2. Realizácia predspracovania dát

## 3. Výber atribútov pre strojové učenie

## 4. Replikovateľnosť predspracovania