# Data analyse en processing
In dit notebook gaan wij kijken naar de sample set die gegenereerd is in een eerder notebook (`1 - sample`) en hoe wij hiermee verder kunnen gaan.

## Libraries importeren

In [1]:
import pandas as pd
import seaborn as sn
import matplotlib.pyplot as plt

## Data importeren

De data die gebruikt wordt is de data die gegenereerd is in het notebook `1 - sample`.

In [5]:
df = pd.read_csv('../data/sample.csv')

## Data valideren
Om te kijken of de sample set correct geprocessed is, gaan wij deze eerst valideren.

Ten eerste kijken wij naar het begin van de dataframe, middels de functie `head()`, en naar het einde van de dataframe, middels de functie `tail()`. Hiermee valideren wij dat de data begint op 1 januari 2020 (2020-01-01) en eindigt op 31 december 2020 (2020-12-31).

In [6]:
df.head()

Unnamed: 0,date,serial_number,model,failure,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
0,2020-01-01,Z305B2QN,ST4000DM000,0,0.0,35462.0,0.0,0.0,22.0,0.0,0.0
1,2020-01-01,ZJV0XJQ4,ST12000NM0007,0,0.0,12494.0,0.0,0.0,28.0,0.0,0.0
2,2020-01-01,ZJV0XJQ3,ST12000NM0007,0,0.0,9544.0,0.0,0.0,29.0,0.0,0.0
3,2020-01-01,ZJV0XJQ0,ST12000NM0007,0,0.0,13098.0,0.0,0.0,25.0,0.0,0.0
4,2020-01-01,PL1331LAHG1S4H,HGST HMS5C4040ALE640,0,0.0,25546.0,,,28.0,0.0,0.0


In [7]:
df.tail()

Unnamed: 0,date,serial_number,model,failure,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
31945055,2020-12-31,ZJV2ESXT,ST12000NM0007,0,0.0,16158.0,0.0,0.0,21.0,0.0,0.0
31945056,2020-12-31,ZA13ZBCT,ST8000DM002,0,0.0,35836.0,0.0,0.0,36.0,0.0,0.0
31945057,2020-12-31,PL1331LAHGD9NH,HGST HMS5C4040BLE640,0,0.0,33286.0,,,29.0,0.0,0.0
31945058,2020-12-31,PL2331LAHDS4TJ,HGST HMS5C4040BLE640,0,0.0,33298.0,,,29.0,0.0,0.0
31945059,2020-12-31,X0GEV9EC,WDC WUH721414ALE6L4,0,0.0,1543.0,,,40.0,0.0,0.0


Ook kijken wij naar het aantal unieke `date` entries. Dit moet gelijk staan aan 366, gezien 2020 een schrikkeljaar was en daardoor 366 dagen had.

In [8]:
df['date'].drop_duplicates().count()

366

Vervolgens kijken wij nog naar het aantal entries in de sample set.

In [9]:
df.shape

(31945060, 11)

## NaN waardes
In de sample set zitten gegarandeerd NaN waardes. NaN staat voor 'Not a Number'.
In onze sample set willen wij zo min mogelijk NaN waardes hebben, omdat wij met NaN waardes onze predicties niet kunnen uitvoeren.

Ten eerste gaan wij kijken hoeveel NaN waardes elke feature heeft.

In [10]:
df.isnull().sum()

date                   0
serial_number          0
model                  0
failure                0
smart_5_raw        30233
smart_9_raw        30233
smart_187_raw    9942818
smart_188_raw    9942818
smart_194_raw      30233
smart_197_raw      54960
smart_198_raw      30233
dtype: int64

In [11]:
df.isnull().sum().sum()

20061528

Dit komt uiteindelijk uit op een totaal van `20061528` NaN waardes in de hele sample set.

### Procent van missing NaN waardes per feature weergeven
Om een beter beeld te krijgen van de NaN values, maken wij een overzicht met het procent van NaN waardes per feature, ten opzichten van het totaal aantal entries van die feature.

In [12]:
missing_nan = df.isnull().sum() * 100 / len(df)
missing_nan_df = pd.DataFrame({'% NaN': missing_nan})
missing_nan_df.head(15)

Unnamed: 0,% NaN
date,0.0
serial_number,0.0
model,0.0
failure,0.0
smart_5_raw,0.094641
smart_9_raw,0.094641
smart_187_raw,31.124744
smart_188_raw,31.124744
smart_194_raw,0.094641
smart_197_raw,0.172045


Uit bovenstaand overzicht kunnen wij concluderen dat de meeste NaN waardes binnen de features `smart_187_raw` en `smart_188_raw` zitten.

### NaN waardes per model
Om een nog beter beeld te krijgen over de NaN waardes, gaan wij een overzicht maken.

Dit overzicht geeft per model, het percentage NaN waardes ten opzichten van het totale aantal entries, per feature weer.

In [13]:
df_nan = df.isnull().groupby(df.model).mean().round(4).mul(100)

In [14]:
df_nan = df_nan.drop(['date', 'serial_number', 'model', 'failure'], axis = 1)
df_nan.head(51)

Unnamed: 0_level_0,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DELLBOSS VD,100.0,100.0,100.0,100.0,100.0,100.0,100.0
HGST HDS5C4040ALE630,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HMS5C4040ALE640,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE640,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE641,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721010ALE600,0.02,0.02,100.0,100.0,0.02,0.02,0.02
HGST HUH721212ALE600,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721212ALE604,0.23,0.23,100.0,100.0,0.23,0.23,0.23
HGST HUH721212ALN604,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH728080ALE600,0.02,0.02,100.0,100.0,0.02,0.02,0.02


Uit bovenstaand overzicht kunnen wij een aantal dingen concluderen:

- Elk model heeft, of een NaN percentage van onder de 1% (met uitzondering van `WDC WUH721414ALE6L4`, die op 1.13% zit), of een NaN percentage van 100% bij `smart_187_raw` en `smart_188_raw` (met uitzondering van `TOSHIBA MG07ACA14TEY` en `TOSHIBA MG08ACA16TEY`)
- De modellen die 100% NaN hebben bij `smart_187_raw`, hebben ook 100% NaN bij `smart_188_raw`
- Het model `DELLBOSS VD` is geen schijf

Ten eerste halen wij het model `DELLBOSS VD` uit de dataframe, gezien dit geen schijf is.

In [15]:
df = df.drop(df[df.model == 'DELLBOSS VD'].index)

In [16]:
df[df.model == 'DELLBOSS VD'].sum()

date             0.0
serial_number    0.0
model            0.0
failure          0.0
smart_5_raw      0.0
smart_9_raw      0.0
smart_187_raw    0.0
smart_188_raw    0.0
smart_194_raw    0.0
smart_197_raw    0.0
smart_198_raw    0.0
dtype: float64

Ook halen wij `DELLBOSS VD` uit de `df_nan` set.

In [17]:
df_nan = df_nan.drop('DELLBOSS VD')

Vervolgens is het voor ons handig om te zien, hoeveel entries elk model heeft ten opzichte van het totaal aantal entries.

Eerst voegen wij een kolom `amount_entries` toe aan de dataframe.

In [18]:
df_nan.insert(0, "amount_entries", float)

In [19]:
df_nan.head()

Unnamed: 0_level_0,amount_entries,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HGST HDS5C4040ALE630,<class 'float'>,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HMS5C4040ALE640,<class 'float'>,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE640,<class 'float'>,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE641,<class 'float'>,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721010ALE600,<class 'float'>,0.02,0.02,100.0,100.0,0.02,0.02,0.02


Vervolgens gaan wij elk model in de dataframe `df_nan` af. 

Per model kijken wij hoeveel entries dit model heeft in de dataframe `df`. Dit delen wij vervolgens door het totaal aantal totale entries, en doen dit getal keer 100. Hiermee krijgen wij een percentage.

Dit percentage wordt dan opgeslagen in de kolom `amount_entries` bij het desbetreffende model.

In [20]:
for i in df_nan.index:
    df_nan.at[i, 'amount_entries'] = (((len(df[df['model'] == i])) / df.shape[0]) * 100)

In [21]:
df_nan.head(50)

Unnamed: 0_level_0,amount_entries,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HGST HDS5C4040ALE630,0.017942,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HMS5C4040ALE640,2.091849,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE640,9.007476,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE641,0.000658,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721010ALE600,0.014173,0.02,0.02,100.0,100.0,0.02,0.02,0.02
HGST HUH721212ALE600,1.551329,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721212ALE604,0.5067,0.23,0.23,100.0,100.0,0.23,0.23,0.23
HGST HUH721212ALN604,7.647312,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH728080ALE600,0.713248,0.02,0.02,100.0,100.0,0.02,0.02,0.02
HGST HUS726040ALE610,0.020476,0.03,0.03,100.0,100.0,0.03,0.03,0.03


Om te valideren dat bovenstaande gegevens kloppen, tellen wij alle waardes van `amount_entries` bij elkaar op. De som hiervan moet uitkomen op 100.

In [22]:
df_nan['amount_entries'].sum()

100.00000000000004

Als laatste halen wij de `TOSHIBA MG07ACA14TEY` en `TOSHIBA MG08ACA16TEY` modellen eruit. Deze modellen hebben bij `smart_197_raw` beide een missing NaN percentage van 100%.

Gezien deze modellen niet al te veel entries in de dataset hebben, halen we deze uit de dataframes.

In [23]:
df = df.drop(df[df.model == 'TOSHIBA MG07ACA14TEY'].index)
df = df.drop(df[df.model == 'TOSHIBA MG08ACA16TEY'].index)

In [24]:
df_nan = df_nan.drop('TOSHIBA MG07ACA14TEY')
df_nan = df_nan.drop('TOSHIBA MG08ACA16TEY')

In [25]:
df_nan.head(50)

Unnamed: 0_level_0,amount_entries,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HGST HDS5C4040ALE630,0.017942,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HMS5C4040ALE640,2.091849,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE640,9.007476,0.01,0.01,100.0,100.0,0.01,0.01,0.01
HGST HMS5C4040BLE641,0.000658,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721010ALE600,0.014173,0.02,0.02,100.0,100.0,0.02,0.02,0.02
HGST HUH721212ALE600,1.551329,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH721212ALE604,0.5067,0.23,0.23,100.0,100.0,0.23,0.23,0.23
HGST HUH721212ALN604,7.647312,0.0,0.0,100.0,100.0,0.0,0.0,0.0
HGST HUH728080ALE600,0.713248,0.02,0.02,100.0,100.0,0.02,0.02,0.02
HGST HUS726040ALE610,0.020476,0.03,0.03,100.0,100.0,0.03,0.03,0.03


## Data opsplitsen
Om de data bruikbaar te maken, splitsen wij deze op in 2 verschillende sets.

Zoals in bovenstaand overzicht te zien is, zijn er veel modellen die alleen `smart_187_raw` en `smart_188_raw` missen. Deze modellen zetten wij in een aparte dataframe.

Ten eerste gaan we kijken welke schijven een NaN percentage van 100% hebben bij `smart_187_raw`. De schijven die een percentage van 100% NaN hebben bij `smart_187_raw`, hebben ook een 100% NaN percentage bij `smart_188_raw`. 

Om dit te doen gebruiken wij de dataframe `df_nan`, die eerder gebruikt is. Hieruit halen wij de modellen die een NaN percentage van 100% hebben.

De entries van deze modellen voegen wij vervolgens toe aan een dataframe `df_2`, en maken nog een dataframe `df_1` aan met alle modellen die niet een NaN percentage van 100% hebben.

In [26]:
df_nan_models = df_nan[df_nan['smart_187_raw'] == 100].index

In [27]:
df_2 = df[df['model'].isin(df_nan_models)]
df_2.shape[0]

9892664

In [28]:
df_1 = df[~df['model'].isin(df_nan_models)]
df_1.shape[0]

22008389

In [29]:
df.shape[0]

31901053

Het totaal aantal entries van de originele dataframe `df` was `31925780`.

Wanneer wij de entries van `df_1` (`22008389`) en `df_2` (`9917391`) optellen, komen wij uit op het volgende:

In [30]:
if (df_1.shape[0] + df_2.shape[0] == df.shape[0]):
    print(True)

else:
    print(False)

True


Dit betekent dat de som van `df_1` en `df_2` gelijk staat aan `df`.

Hieruit kunnen wij concluderen dat bovenstaande code de modellen correct heeft opgesplitst.

## Data exporteren

Uiteindelijk exporteren wij de twee verschillende dataframes naar csv files.

In [32]:
df_1.to_csv('..\\data\\sample_without_100nan.csv', index = False)

In [33]:
df_2.to_csv('..\\data\\sample_with_100nan.csv', index = False)