# Data rensing

**data_understanding.ipynb** gir et inntrykk av at datasettet fra Norsk Klimaservicesenter (KSS) inneholder noen manglende verdier spesielt for "snø", og har ellers en liten andel av duplikater og et lite standardavvik. Altså kan rensing av data virke noe overflødig. For å vise intuisjonen til data rensing, vil både det originale datasettet (blindern.csv) og en modifisert versjon av originalen fra KSS bli renset. Det modifiserte datasettet vil bli kalt **blindern_dirty_data_generator.csv** og vil ha en større andel av feil og mangler i datasettet i motsetning til hva originalen hadde.




### Kombinering av flere datasett
Nettsiden Norsk Klimaservicesenter tillater nedlasting av fem kolonner per cvs file, som var færre enn vi trengte. Siden vi trengte både data fra weather.cvs og wind.cvs, har vi slått de sammen til en cvs-fil som heter blindern.cvs under mappen data. Metoden .combine_file slår sammen to datasett.

In [2]:

import pandas as pd
import numpy as np
import sys
import os
#gets classes from make_data_files.py
sys.path.insert(0, os.path.abspath(os.path.join(os.getcwd(), '../src')))

from data_preparation.make_data_files import MakeDataFiles

mdf = MakeDataFiles()

mdf.combine_files()

Filene er slått sammen


### Rensing av rådata
Metoden .clean_file() renser data ved å fjerne duplikater, outliers og manglende verdier. Vi endrer også navn på kolonnene for bedre oversikt og brukte interpolate for manglende verdier. I vårt datasett var det en spesifik kolonne, "Snø"-kolonnen som hadde manglende verdier. Ved interpolate ble de manglende verdien fyllt med gjennomsnittet av de nærmeste snøverdiene, som gir mest mening i vårt tilfelle. En skal tro at snødybden ikke endrer seg dratisk fra dag til dag, og andre metoder ga oss urealistiske tall, som feks. 0.20 cm snø på en sommerdag. 

In [3]:
mdf.clean_file()

Modified CSV file saved as: c:\Users\Tai khoan chung\OneDrive - NTNU\Anvendt prog\Mappe innlevering\Miljo_dataanalyse_applikasjon\notebooks\..\data\blindern_data_cleaning.csv


### Skitten data
Datasettet fra Norsk Klimaservicesenter hadde få "feil" som duplikater, outliers og manglende verdier. Det var noen manglende verdier innenfor en spesifik kolonne, som gikk fort å rense. For å sikre oss og vise at rensingen vår fungerer godt, har vi lagd en "skitten" versjon av datasettet vårt. Den blir opprettet som "blindern_dirty_data_generator" under mappen data, der vi har erstattes 30% (justerbar) av tilfeldige celler med outliers, duplikater og manglende verdier merket som "-". Metoden .make_dirty_data() oppretter "blindern_dirty_data_generator" med feilene, mens metoden .clean_file() renser denne skittne filen og lagre det til en ny cvs-fil "blindern_dirty_data_cleaning.csv", i samme mappen. 

In [None]:
#opprettter en skitten datasett
mdf.make_dirty_data()

Modified CSV file saved as: c:\Users\livem\OneDrive - NTNU\Dokumenter\Andvendt programmering\Miljo_dataanalyse_applikasjon\src\data_preparation\..\..\data\blindern_dirty_data_generator.csv


In [None]:
#renser og lagrer det skittne datasettet i en ny fil
mdf.clean_file("blindern_dirty_data_generator.csv","blindern_dirty_data_cleaning.csv")

Modified CSV file saved as: c:\Users\Tai khoan chung\OneDrive - NTNU\Anvendt prog\Mappe innlevering\Miljo_dataanalyse_applikasjon\notebooks\..\data\blindern_dirty_data_cleaning.csv
