# Sample generating
In dit notebook gaan wij een sample genereren met een bepaald aantal eisen.

## Eisen sample

De sample heeft een aantal eisen waar aan voldaan moeten worden:
- De sample bevat data van het jaar 2020.
- De sample bevat de features `date`, `serial_number`, `model`, `failure`, `smart_5_raw`, `smart_9_raw`, `smart_187_raw`, `smart_188_raw`, `smart_194_raw`, `smart_197_raw`, en `smart_198_raw`.

## Libraries importeren

In [1]:
import glob
import pandas as pd

## Data importeren
De gebruikte data zijn csv files van alle dagen uit 2020. Dit zijn dus in totaal 366 csv files.

Gezien er ontzettend veel data gebruikt wordt, hebben wij deze data opgesplitst en per maanden ingeladen (1 keer voor de maanden januari - mei, 1 keer voor de maanden juni - november, en als laatst 1 keer voor de maand december).

In [2]:
path = '../data/sample'
all_files = glob.glob(path + "/*.csv")

In [3]:
df = pd.concat((pd.read_csv(f) for f in all_files))

In [4]:
df.shape

(9934368, 149)

## Onderscheid maken SSD's
Gezien er zowel SSD's als HDD's in de dataset zitten, moet hier onderscheid tussen worden gemaakt. Wij gaan namelijk alleen voorspellen over data van HDD's.

Als eerste wordt er een extra kolom `ssd` toegevoegd aan de dataset, en staat deze standaard op `False`.

In [5]:
df.insert(2, 'ssd', False, True)

Vervolgens wordt er gekeken naar `smart_233_raw`. Dit is een SMART value die alleen voor komt bij SSD's. Wanneer deze dus leeg is, is die entry geen SSD.
Bij alle entries waarbij `smart_233_raw` niet leeg is, wordt binnen de kolom SSD `True` gezet. Vervolgens worden al deze entries uit de dataframe verwijderd.

In [6]:
df.loc[df['smart_233_raw'].notna(), 'ssd'] = True
df.drop(df[df['ssd'] == True].index, inplace=True)

In [7]:
df.shape

(6694528, 150)

In [8]:
df.head()

Unnamed: 0,date,serial_number,ssd,model,capacity_bytes,failure,smart_1_normalized,smart_1_raw,smart_2_normalized,smart_2_raw,...,smart_250_normalized,smart_250_raw,smart_251_normalized,smart_251_raw,smart_252_normalized,smart_252_raw,smart_254_normalized,smart_254_raw,smart_255_normalized,smart_255_raw
0,2021-01-01,ZLW0EGC6,False,ST12000NM001G,12000138625024,0,83.0,213166608.0,,,...,,,,,,,,,,
1,2021-01-01,Z305B2QN,False,ST4000DM000,4000787030016,0,114.0,79306032.0,,,...,,,,,,,,,,
2,2021-01-01,ZLW0C6NE,False,ST12000NM001G,12000138625024,0,72.0,17162816.0,,,...,,,,,,,,,,
3,2021-01-01,ZJV0XJQ3,False,ST12000NM0007,12000138625024,0,100.0,1102160.0,,,...,,,,,,,,,,
4,2021-01-01,ZLW18MKT,False,ST14000NM001G,14000519643136,0,75.0,33233248.0,,,...,,,,,,,,,,


## Columns droppen
Bepaalde columns worden niet meegenomen in onze voorspellingen. Deze worden uit de dataframe verwijderd.

In [9]:
df.drop(df.columns.difference(['date', 'serial_number', 'model', 'failure', 'smart_5_raw', 'smart_9_raw', 'smart_187_raw', 'smart_188_raw', 'smart_194_raw', 'smart_197_raw', 'smart_198_raw']), 1, inplace=True)

  df.drop(df.columns.difference(['date', 'serial_number', 'model', 'failure', 'smart_5_raw', 'smart_9_raw', 'smart_187_raw', 'smart_188_raw', 'smart_194_raw', 'smart_197_raw', 'smart_198_raw']), 1, inplace=True)


In [10]:
df.head()

Unnamed: 0,date,serial_number,model,failure,smart_5_raw,smart_9_raw,smart_187_raw,smart_188_raw,smart_194_raw,smart_197_raw,smart_198_raw
0,2021-01-01,ZLW0EGC6,ST12000NM001G,0,0.0,5059.0,0.0,0.0,29.0,0.0,0.0
1,2021-01-01,Z305B2QN,ST4000DM000,0,0.0,44255.0,0.0,0.0,20.0,0.0,0.0
2,2021-01-01,ZLW0C6NE,ST12000NM001G,0,0.0,5460.0,0.0,0.0,39.0,0.0,0.0
3,2021-01-01,ZJV0XJQ3,ST12000NM0007,0,0.0,18325.0,0.0,0.0,34.0,0.0,0.0
4,2021-01-01,ZLW18MKT,ST14000NM001G,0,0.0,1178.0,0.0,0.0,27.0,0.0,0.0


## Data exporteren

Uiteindelijk exporteren wij de dataframe naar een csv file.

In [12]:
df.to_csv('..\\data\\sample2months2021.csv')

## Data mergen

Gezien wij 3 verschillende csv files met verschillende maanden gegenereerd hebben, hebben wij de csv's samengevoegd met onderstaand stukje code.

In [None]:
#df = pd.concat([first_df, second_df], ignore_index=True)