# Inlämningsuppgift 4, normalisering av data
##### Program skrivet av Charlie Rosander

In [1]:
import pandas as pd
import numpy as np

#### Formeln för normalisering som används här kommer vara: **$V = (x - min) / (max - min)$** , kallad min-max normalisering vilket leder till att värdena ligger mellan 0 och 1
#### Programmet är uppbyggt i en klass, gjord för att kunna användas framöver med andra csv-filer etc. Klassen innehåller olika funktioner där man kan städa data på olika sätt samt normalisera och spara resultaten på 2 olika sätt.


### Class Data:
#### En klass för Data-hanteringen. Den kan läsa in csv filer och skapa objekt av dom, köra pre-processing samt min-max-normalisering av data. 

### def data_preprocess:
#### Pre-process funktionen låter användaren välja vad som ska göras med NaN-värden genom att skriva in parametrar. "show" visar NaN värdena, "drop" droppar dom raderna som innehåller NaN, och 0 sätter NaN till 0.


### def min_max_norm:
#### Funktionen för att normalisera värdena. Den tar in dataframe som parameter och normaliserar värdena i kolumnerna som den fått genom funktionen set_columns. Ersätter original värdena med de nya normaliserade värdena.

### def set_columns
#### En funktion som loopar igenom kolumnerna i dataframen och kör en if-sats där den kollar om alla värden i kolumnen är int/float med hjälp av python-funktionen all(), isinstance och en for-loop, vilket returnerar True/False för varje kolumn. Den kollar också om det finns bool-värden eller kolumner som heter "index", "idx" eller "ix" (några vanliga namn för index) och skippar dessa, då index inte behövs/ska normaliseras och bool-värden kan uppfattas som integers (1 och 0) vilket skapar problem i normaliserings-beräkningen.
#### Namnen på kolumnerna som är true sparas i en variabel som sen passas till funktionerna som normaliserar för att tala om vilka kolumner som ska normaliseras.

In [2]:
class Data:
    value = None
    columns_to_normalize = []

    def __init__(self, csv):
        self.csv_file = csv

    @staticmethod
    def read_csv():
        try:
            csv_dataframe = pd.read_csv(csv.csv_file)
            return csv_dataframe
        except ValueError:
            print(ValueError, "The CSV-file is empty.")
            exit()

    @classmethod
    def data_preprocess(cls, dataframe, value):
        cls.value = value
        print(f"Columns containing NaN-values:\n{dataframe.isnull().sum()[dataframe.isnull().sum() > 0]}")

        if value == "show":
            print(dataframe.isnull().sum())

        elif value == "drop":
            dataframe.dropna(inplace=True)

        elif value == 0:
            dataframe.fillna(0, inplace=True)
            print(f"\nChanged all NaN values to 0.\n{dataframe.isnull().sum()}")

    @classmethod
    def set_columns(cls, dataframe):
        if "index" or "idx" or "ix" in dataframe.columns:
            for col in dataframe.columns[1:]:
                if all(isinstance(x, (int, float)) for x in dataframe[col]):
                    if not dataframe[col].dtype in ['bool']:
                        Data.columns_to_normalize.append(col)
        else:
            for col in dataframe.columns:
                if all(isinstance(x, (int, float)) for x in dataframe[col]):
                    if not dataframe[col].dtype in ['bool']:
                        Data.columns_to_normalize.append(col)

        return print(f"These are the columns that will be normalized: \n{Data.columns_to_normalize}")

    @staticmethod
    def min_max_norm(dataframe):
        for column in dataframe[Data.columns_to_normalize]:
            col_min = dataframe[column].min()
            col_max = dataframe[column].max()
            dataframe[column] = (dataframe[column] - col_min) / (col_max - col_min)

    @staticmethod
    def save_to_csv(dataframe):
        file_name = input("\nEnter the name for the CSV file: ")
        dataframe.to_csv(file_name + ".csv", index=False)

#### Kallar på klassen Data och skickar in csv-filen som parameter, som sedan skickas vidare till funktionen read_csv. Skapar också ett omodifierat objekt av csv:n så att man har en "backup"

In [3]:
csv = Data("Automobile_data.csv")
df = csv.read_csv()

#### Här skapas objekt av dataframes för att utföra modifieringar på, på det här sättet blir det enkelt att skapa hur många man vill för att sen kunna modifiera på olika sätt utan att behöva tänka på att man förstör i originalet

In [4]:
df_norm = csv.read_csv()

#### Här väljer jag att droppa raderna med NaN värden.

In [5]:
Data.data_preprocess(df_norm, "drop")

Columns containing NaN-values:
price    3
dtype: int64


In [6]:
df_norm

Unnamed: 0,index,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
0,0,alfa-romero,convertible,88.6,168.8,dohc,four,111,21,13495.0
1,1,alfa-romero,convertible,88.6,168.8,dohc,four,111,21,16500.0
2,2,alfa-romero,hatchback,94.5,171.2,ohcv,six,154,19,16500.0
3,3,audi,sedan,99.8,176.6,ohc,four,102,24,13950.0
4,4,audi,sedan,99.4,176.6,ohc,five,115,18,17450.0
5,5,audi,sedan,99.8,177.3,ohc,five,110,19,15250.0
6,6,audi,wagon,105.8,192.7,ohc,five,110,19,18920.0
7,9,bmw,sedan,101.2,176.8,ohc,four,101,23,16430.0
8,10,bmw,sedan,101.2,176.8,ohc,four,101,23,16925.0
9,11,bmw,sedan,101.2,176.8,ohc,six,121,21,20970.0


#### Här kallar vi på funktionen som kollar och bestämmer vilka kolumner som ska normaliseras.

In [7]:
Data.set_columns(df_norm)

These are the columns that will be normalized: 
['wheel-base', 'length', 'horsepower', 'average-mileage', 'price']


#### Här utför vi normaliseringen på csv:n. Kolumnernas värden ersätts med dom nya normaliserade värdena.

In [8]:
Data.min_max_norm(df_norm)

In [9]:
df_norm

Unnamed: 0,index,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
0,0,alfa-romero,convertible,0.006154,0.413433,dohc,four,0.294393,0.235294,0.207309
1,1,alfa-romero,convertible,0.006154,0.413433,dohc,four,0.294393,0.235294,0.28197
2,2,alfa-romero,hatchback,0.187692,0.449254,ohcv,six,0.495327,0.176471,0.28197
3,3,audi,sedan,0.350769,0.529851,ohc,four,0.252336,0.323529,0.218614
4,4,audi,sedan,0.338462,0.529851,ohc,five,0.313084,0.147059,0.305573
5,5,audi,sedan,0.350769,0.540299,ohc,five,0.28972,0.176471,0.250913
6,6,audi,wagon,0.535385,0.770149,ohc,five,0.28972,0.176471,0.342095
7,9,bmw,sedan,0.393846,0.532836,ohc,four,0.247664,0.294118,0.280231
8,10,bmw,sedan,0.393846,0.532836,ohc,four,0.247664,0.294118,0.292529
9,11,bmw,sedan,0.393846,0.532836,ohc,six,0.341121,0.235294,0.393028


#### Kallar på funktionen som sparar ner dataframen som en csv, tar in dataframe:en som parameter. Filen sparas i samma mapp som notebook:en ligger i och man skriver namnet som filen ska ha genom input.

In [10]:
Data.save_to_csv(df_norm)


Enter the name for the CSV file: Normaliserad_csv
