In [36]:
#Loading CSV file example
from csv import reader

# load a csv file
def load_csv(filename):
    dataset = list()
    with open(filename,"r") as file:
        csv_reader = reader(file)
        for row in csv_reader:
            if not row:
                continue
            dataset.append(row)
    return dataset

# convert string to float
def str_column_to_float(dataset, column):
    for row in dataset:
        row[column] = float(row[column].strip())
        
# convert string column to integer
def str_column_to_int(dataset, column):
    class_values = [row[column] for row in dataset]
    unique = set(class_values)
    lookup = dict()
    for i, value in enumerate(unique):
        lookup[value] = i
    for row in dataset:
        row[column] = lookup[row[column]]
    return lookup
        
# load dataset
filename = 'pima-indians-diabetes.csv'
dataset = load_csv(filename)
print('Loaded data file {} with {} rows and {} columns'.format(filename, len(dataset), len(dataset[0])))

# load iris dataset
filename = 'chapter_01/iris.csv'
dataset = load_csv(filename)
print('load data file {} with {} rows and {} columns'.format(filename, len(dataset), len(dataset[0])))
print(dataset[0])

# convert string to float
for i in range(4):
    str_column_to_float(dataset, i)

#convert class column to int
lookup = str_column_to_int(dataset, 4)
print(dataset[0])
print(lookup)

#Find the min and max values for each column
def dataset_minmax(dataset):
    minmax = list()
    for i in range(len(dataset[0])):
        col_value = [row[i] for row in dataset]
        val_min = min(col_value)
        val_max = max(col_value)
        minmax.append([val_min, val_max])
    return minmax


Loaded data file ../chapter_01/pima-indians-diabetes.csv with 768 rows and 9 columns
load data file ../chapter_01/iris.csv with 150 rows and 5 columns
['5.1', '3.5', '1.4', '0.2', 'Iris-setosa']
[5.1, 3.5, 1.4, 0.2, 1]
{'Iris-versicolor': 0, 'Iris-setosa': 1, 'Iris-virginica': 2}


In [37]:
# test if it works
#dataset = [[30,232],[34,90], [90,450]]
minmax_lst = dataset_minmax(dataset)
print (minmax_lst)

[[4.3, 7.9], [2.0, 4.4], [1.0, 6.9], [0.1, 2.5], [0, 2]]


In [38]:
# rescale dataset columns to the range 0 to 1
def normalized_dataset(dataset, minmax):
    for row in dataset:
        for i in range(len(row)):
            row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

In [42]:
# test if it works
print (dataset)
minmax = dataset_minmax(dataset)
#print (minmax)
normalized_dataset(dataset, minmax)
print (dataset)

[[0.22222222222222213, 0.6249999999999999, 0.06779661016949151, 0.04166666666666667, 0.5], [0.1666666666666668, 0.41666666666666663, 0.06779661016949151, 0.04166666666666667, 0.5], [0.11111111111111119, 0.5, 0.05084745762711865, 0.04166666666666667, 0.5], [0.08333333333333327, 0.4583333333333333, 0.0847457627118644, 0.04166666666666667, 0.5], [0.19444444444444448, 0.6666666666666666, 0.06779661016949151, 0.04166666666666667, 0.5], [0.30555555555555564, 0.7916666666666665, 0.11864406779661016, 0.12500000000000003, 0.5], [0.08333333333333327, 0.5833333333333333, 0.06779661016949151, 0.08333333333333333, 0.5], [0.19444444444444448, 0.5833333333333333, 0.0847457627118644, 0.04166666666666667, 0.5], [0.027777777777777922, 0.3749999999999999, 0.06779661016949151, 0.04166666666666667, 0.5], [0.1666666666666668, 0.4583333333333333, 0.0847457627118644, 0.0, 0.5], [0.30555555555555564, 0.7083333333333333, 0.0847457627118644, 0.04166666666666667, 0.5], [0.13888888888888887, 0.5833333333333333, 0.

In [45]:
## Standardization

In [72]:
# calculate column means
def column_means(dataset):
    means = [0 for i in range(len(dataset[0]))]
    for i in range(len(dataset[0])):
        col_value = [row[i] for row in dataset]
        means[i] = sum(col_value) / float(len(dataset))
    return means

dataset = [[50,30],[20,90],[30,50]]
print(column_means(dataset))

[33.333333333333336, 56.666666666666664]


In [77]:
# calculate standard deviation
from math import sqrt

def column_std_div(dataset, means):
    stdevs = [0 for i in range(len(dataset[0]))]
    for i in range(len(dataset[0])):
        variance = [pow(row[i] - means[i], 2) for row in dataset]
        stdevs[i] = sum(variance)
    stdevs = [sqrt(x/float(len(dataset)-1)) for x in stdevs]
    return stdevs

means = column_means(dataset)
stdev = column_std_div(dataset, means)
print(dataset)
print(means)
print(stdev)

[[50, 30], [20, 90], [30, 50]]
[33.333333333333336, 56.666666666666664]
[15.275252316519467, 30.550504633038933]


In [80]:
# standardarized_value
def standardize_dataset(dataset, means, stdev):
    for row in dataset:
        for i in range(len(row)):
            row[i] = (row[i] - means[i]) /stdev[i]

standardize_dataset(dataset, means, stdev)
print(dataset)

[[-2.1107503309313524, -1.8834234955773637], [-2.239321759502781, -1.8191377812916494], [-2.1964646166456383, -1.8619949241487923]]
