In [1]:
import pandas as pd
import numpy as np
import sklearn
import matplotlib.pyplot as plt
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import SGDClassifier



In [14]:
zipcode_mapping = {'0': {'col': 0,
  'dens': 0,
  'houses': 0,
  'pop': 0,
  'unit_0_freq': 93,
  'unit_1_freq': 472,
  'unit_2_freq': 1,
  'unit_3_freq': 404,
  'unit_4_freq': 174,
  'unit_5_freq': 25,
  'unit_6_freq': 21,
  'unit_7_freq': 1,
  'unit_8_freq': 156},
 '94102': {'col': 181.8,
  'dens': 44330,
  'houses': 19561,
  'pop': 29739,
  'unit_0_freq': 93,
  'unit_1_freq': 472,
  'unit_2_freq': 1,
  'unit_3_freq': 404,
  'unit_4_freq': 174,
  'unit_5_freq': 25,
  'unit_6_freq': 21,
  'unit_7_freq': 1,
  'unit_8_freq': 156},
 '94103': {'col': 167.8,
  'dens': 19259,
  'houses': 15685,
  'pop': 26116,
  'unit_0_freq': 55,
  'unit_1_freq': 377,
  'unit_2_freq': 3,
  'unit_3_freq': 402,
  'unit_4_freq': 154,
  'unit_5_freq': 25,
  'unit_6_freq': 47,
  'unit_7_freq': 0,
  'unit_8_freq': 90},
 '94104': {'col': 197.8,
  'dens': 6392,
  'houses': 360,
  'pop': 496,
  'unit_0_freq': 6,
  'unit_1_freq': 26,
  'unit_2_freq': 0,
  'unit_3_freq': 15,
  'unit_4_freq': 9,
  'unit_5_freq': 2,
  'unit_6_freq': 2,
  'unit_7_freq': 0,
  'unit_8_freq': 15},
 '94105': {'col': 151.8,
  'dens': 18652,
  'houses': 5258,
  'pop': 6890,
  'unit_0_freq': 33,
  'unit_1_freq': 103,
  'unit_2_freq': 1,
  'unit_3_freq': 70,
  'unit_4_freq': 36,
  'unit_5_freq': 8,
  'unit_6_freq': 8,
  'unit_7_freq': 1,
  'unit_8_freq': 43},
 '94107': {'col': 152.7,
  'dens': 16634,
  'houses': 15569,
  'pop': 29805,
  'unit_0_freq': 33,
  'unit_1_freq': 137,
  'unit_2_freq': 0,
  'unit_3_freq': 128,
  'unit_4_freq': 34,
  'unit_5_freq': 6,
  'unit_6_freq': 6,
  'unit_7_freq': 0,
  'unit_8_freq': 43},
 '94108': {'col': 175.6,
  'dens': 55226,
  'houses': 8997,
  'pop': 14914,
  'unit_0_freq': 27,
  'unit_1_freq': 81,
  'unit_2_freq': 0,
  'unit_3_freq': 58,
  'unit_4_freq': 26,
  'unit_5_freq': 6,
  'unit_6_freq': 1,
  'unit_7_freq': 0,
  'unit_8_freq': 42},
 '94109': {'col': 161.6,
  'dens': 47834,
  'houses': 37688,
  'pop': 56822,
  'unit_0_freq': 48,
  'unit_1_freq': 280,
  'unit_2_freq': 0,
  'unit_3_freq': 229,
  'unit_4_freq': 134,
  'unit_5_freq': 10,
  'unit_6_freq': 6,
  'unit_7_freq': 0,
  'unit_8_freq': 81},
 '94110': {'col': 155.3,
  'dens': 32066,
  'houses': 30262,
  'pop': 74565,
  'unit_0_freq': 58,
  'unit_1_freq': 276,
  'unit_2_freq': 2,
  'unit_3_freq': 279,
  'unit_4_freq': 81,
  'unit_5_freq': 21,
  'unit_6_freq': 15,
  'unit_7_freq': 0,
  'unit_8_freq': 64},
 '94111': {'col': 158.4,
  'dens': 10116,
  'houses': 2626,
  'pop': 3481,
  'unit_0_freq': 13,
  'unit_1_freq': 75,
  'unit_2_freq': 0,
  'unit_3_freq': 54,
  'unit_4_freq': 20,
  'unit_5_freq': 7,
  'unit_6_freq': 2,
  'unit_7_freq': 6,
  'unit_8_freq': 19},
 '94112': {'col': 154.3,
  'dens': 25329,
  'houses': 24570,
  'pop': 85205,
  'unit_0_freq': 23,
  'unit_1_freq': 165,
  'unit_2_freq': 0,
  'unit_3_freq': 151,
  'unit_4_freq': 41,
  'unit_5_freq': 28,
  'unit_6_freq': 5,
  'unit_7_freq': 0,
  'unit_8_freq': 36},
 '94114': {'col': 156.5,
  'dens': 23843,
  'houses': 18228,
  'pop': 33984,
  'unit_0_freq': 34,
  'unit_1_freq': 137,
  'unit_2_freq': 0,
  'unit_3_freq': 117,
  'unit_4_freq': 43,
  'unit_5_freq': 11,
  'unit_6_freq': 4,
  'unit_7_freq': 0,
  'unit_8_freq': 34},
 '94115': {'col': 160.7,
  'dens': 31529,
  'houses': 19430,
  'pop': 35178,
  'unit_0_freq': 39,
  'unit_1_freq': 171,
  'unit_2_freq': 1,
  'unit_3_freq': 112,
  'unit_4_freq': 56,
  'unit_5_freq': 10,
  'unit_6_freq': 5,
  'unit_7_freq': 0,
  'unit_8_freq': 50},
 '94116': {'col': 156.9,
  'dens': 18021,
  'houses': 16851,
  'pop': 46594,
  'unit_0_freq': 10,
  'unit_1_freq': 87,
  'unit_2_freq': 0,
  'unit_3_freq': 70,
  'unit_4_freq': 25,
  'unit_5_freq': 9,
  'unit_6_freq': 2,
  'unit_7_freq': 0,
  'unit_8_freq': 15},
 '94117': {'col': 156.4,
  'dens': 26041,
  'houses': 20017,
  'pop': 43944,
  'unit_0_freq': 36,
  'unit_1_freq': 153,
  'unit_2_freq': 0,
  'unit_3_freq': 104,
  'unit_4_freq': 47,
  'unit_5_freq': 7,
  'unit_6_freq': 6,
  'unit_7_freq': 1,
  'unit_8_freq': 44},
 '94118': {'col': 164.4,
  'dens': 21685,
  'houses': 19115,
  'pop': 42259,
  'unit_0_freq': 23,
  'unit_1_freq': 105,
  'unit_2_freq': 0,
  'unit_3_freq': 76,
  'unit_4_freq': 35,
  'unit_5_freq': 13,
  'unit_6_freq': 4,
  'unit_7_freq': 0,
  'unit_8_freq': 24},
 '94121': {'col': 163,
  'dens': 14061,
  'houses': 19311,
  'pop': 43332,
  'unit_0_freq': 17,
  'unit_1_freq': 78,
  'unit_2_freq': 0,
  'unit_3_freq': 66,
  'unit_4_freq': 21,
  'unit_5_freq': 9,
  'unit_6_freq': 2,
  'unit_7_freq': 3,
  'unit_8_freq': 18},
 '94122': {'col': 156.3,
  'dens': 26616,
  'houses': 24615,
  'pop': 62918,
  'unit_0_freq': 26,
  'unit_1_freq': 132,
  'unit_2_freq': 0,
  'unit_3_freq': 93,
  'unit_4_freq': 30,
  'unit_5_freq': 9,
  'unit_6_freq': 5,
  'unit_7_freq': 0,
  'unit_8_freq': 29},
 '94123': {'col': 162.7,
  'dens': 25083,
  'houses': 15429,
  'pop': 25600,
  'unit_0_freq': 19,
  'unit_1_freq': 70,
  'unit_2_freq': 0,
  'unit_3_freq': 38,
  'unit_4_freq': 29,
  'unit_5_freq': 6,
  'unit_6_freq': 3,
  'unit_7_freq': 4,
  'unit_8_freq': 23},
 '94124': {'col': 155.9,
  'dens': 7298,
  'houses': 11430,
  'pop': 35954,
  'unit_0_freq': 29,
  'unit_1_freq': 192,
  'unit_2_freq': 0,
  'unit_3_freq': 204,
  'unit_4_freq': 33,
  'unit_5_freq': 16,
  'unit_6_freq': 3,
  'unit_7_freq': 1,
  'unit_8_freq': 36},
 '94127': {'col': 156.2,
  'dens': 11839,
  'houses': 8077,
  'pop': 10960,
  'unit_0_freq': 10,
  'unit_1_freq': 38,
  'unit_2_freq': 1,
  'unit_3_freq': 18,
  'unit_4_freq': 6,
  'unit_5_freq': 2,
  'unit_6_freq': 3,
  'unit_7_freq': 3,
  'unit_8_freq': 9},
 '94129': {'col': 149.4,
  'dens': 1655,
  'houses': 1364,
  'pop': 3815,
  'unit_0_freq': 5,
  'unit_1_freq': 15,
  'unit_2_freq': 0,
  'unit_3_freq': 7,
  'unit_4_freq': 2,
  'unit_5_freq': 3,
  'unit_6_freq': 2,
  'unit_7_freq': 4,
  'unit_8_freq': 6},
 '94130': {'col': 144.2,
  'dens': 3405,
  'houses': 778,
  'pop': 3134,
  'unit_0_freq': 3,
  'unit_1_freq': 16,
  'unit_2_freq': 0,
  'unit_3_freq': 20,
  'unit_4_freq': 5,
  'unit_5_freq': 4,
  'unit_6_freq': 2,
  'unit_7_freq': 3,
  'unit_8_freq': 6},
 '94131': {'col': 157.2,
  'dens': 13828,
  'houses': 13952,
  'pop': 28756,
  'unit_0_freq': 16,
  'unit_1_freq': 72,
  'unit_2_freq': 0,
  'unit_3_freq': 71,
  'unit_4_freq': 16,
  'unit_5_freq': 10,
  'unit_6_freq': 3,
  'unit_7_freq': 0,
  'unit_8_freq': 17},
 '94132': {'col': 162.6,
  'dens': 10205,
  'houses': 11028,
  'pop': 31737,
  'unit_0_freq': 14,
  'unit_1_freq': 79,
  'unit_2_freq': 0,
  'unit_3_freq': 68,
  'unit_4_freq': 13,
  'unit_5_freq': 4,
  'unit_6_freq': 2,
  'unit_7_freq': 2,
  'unit_8_freq': 17},
 '94133': {'col': 178.0,
  'dens': 36931,
  'houses': 14941,
  'pop': 27885,
  'unit_0_freq': 34,
  'unit_1_freq': 140,
  'unit_2_freq': 1,
  'unit_3_freq': 84,
  'unit_4_freq': 51,
  'unit_5_freq': 8,
  'unit_6_freq': 5,
  'unit_7_freq': 4,
  'unit_8_freq': 39},
 '94134': {'col': 155.2,
  'dens': 17616,
  'houses': 12699,
  'pop': 42274,
  'unit_0_freq': 14,
  'unit_1_freq': 81,
  'unit_2_freq': 1,
  'unit_3_freq': 100,
  'unit_4_freq': 25,
  'unit_5_freq': 12,
  'unit_6_freq': 3,
  'unit_7_freq': 0,
  'unit_8_freq': 14},
 '94158': {'col': 139.0,
  'dens': 9247,
  'houses': 3629,
  'pop': 6080,
  'unit_0_freq': 8,
  'unit_1_freq': 31,
  'unit_2_freq': 0,
  'unit_3_freq': 28,
  'unit_4_freq': 8,
  'unit_5_freq': 1,
  'unit_6_freq': 1,
  'unit_7_freq': 0,
  'unit_8_freq': 11}}

In [19]:
import sys
# zipcode = sys.argv[1]
# hour = sys.argv[2]
# date = sys.argv[3]
# day = sys.argv[4]
zipcode = 94132
hour = 21
date = 24
day = 2

In [20]:
data = [{
    "zipcode_of_incident": str(zipcode),
    "date_rec": date,
    "dow_rec": day,
    "hour_rec": hour
}]
mapped_data = [zipcode_mapping[str(zipcode)]]

In [21]:
input_data = pd.DataFrame(data)
parsed_data = pd.DataFrame(mapped_data)

In [22]:
input_data = input_data.join(parsed_data)

In [26]:
df = pd.read_csv('../routes/data/zipcode_search.csv')

In [47]:
#y_data = df['unit_type']
#df_x = df.drop('unit_type', axis=1)
df_x = df_x.drop('zipcode_of_incident', axis=1)
X_data = df_x.loc[:,:].values

In [48]:
sscaler = StandardScaler()
X_std= sscaler.fit_transform(X_data)
x_train, x_test, y_train, y_test = train_test_split(X_data, y_data)

In [51]:
clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(40, 50, 50, 20))
clf.fit(x_train,y_train)

MLPClassifier(activation='relu', alpha=1e-05, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(40, 50, 50, 20), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='lbfgs', tol=0.0001, validation_fraction=0.1,
       verbose=False, warm_start=False)

In [53]:
predictions = clf.predict(x_test)
accuracy_score(predictions, y_test)

0.0356