# Соревнование: San Francisco Crime Classification
*Given time and location, you must predict the category of crime that occurred. Kaggle is hosting this competition for the machine learning community to use for fun and practice.*

https://www.kaggle.com/c/sf-crime

Этот ноутбук структурирован таким образом, чтобы облегчить совместную работу над соревнованием. За некоторыми исключениями, каждый участник работает только в разделе 4. При этом ни одна из строк кода любого из разделов не является постоянной: если в ней нет необходимости, ее стоит исключить; если один из участников написал полезный код, который может пригодиться остальным, этот код имеет смысл перенести из персонального раздела в общий.

Ноутбук имеет следующую структуру:

1. Подготовка работы. Загрузка библиотек и настройка отображения
    + Загрузка и очистка данных
    + Общие функции
    + Персональный раздел
    + Модель на тестовой выборке 

### 1. Подготовка работы. Загрузка библиотек и настройка отображения
Импорты и настройки, которые необходимы для шаблона.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cross_validation import KFold
from sklearn.cross_validation import cross_val_score
import time
import datetime
import csv

%matplotlib inline

### 2. Загрузка, очистка данных. Общие константы
Обучающая и тренировочная выборки надоходятся в папке `data`. 

In [2]:
train = pd.read_csv('./data/train.csv')

#### 2.1. Очистка данных
В то время, как в `train` находятся сырые данные, `X_train` содержит те же колонки, что и `test`, поэтому многие преобразования над обеими переменными могут выполняться одной функцией.

In [None]:
# необходимо принять волевое решение, что делать с данными, у которых левые координаты?
# пока их исключаем
train = train[train.Y < 40]

In [None]:
# эти колонки содержатся в тестовой выборке
test_features = pd.read_csv('./data/test.csv', nrows=1, index_col='Id').columns.tolist()

In [None]:
# теперь X_train с правильными колонками
X_train = train[test_features]

In [None]:
# целевая переменная, не путать с координатой
y = train.Category

In [None]:
# список происшествий, колонки для файла с результатами 
out_features = pd.read_csv('./data/sampleSubmission.csv', nrows=1, index_col='Id').columns.tolist()

In [42]:
# количество классов происшествий
classes = len(out_features)

#### 2.2. Общие константы
Константы, которые используются для обработки данных.

In [31]:
# данные
train_rows = X_train.shape[0]
train_features = train.columns.tolist()
test_features = pd.read_csv('./data/test.csv', nrows=1, index_col='Id').columns.tolist()

# другие
random_state = 19

### 3. Общие функции
Это функции для операций с данными.
Сюда надо написать функции для записи моделей и их параметров в файл (хранить в json?), и пр.

In [20]:
# добавление колонок к выборке
# хорошо бы сделать, чтоб работало для разных типов
def add_features_to_X(X, X_add):
    assert X.shape[0] == X_add.shape[0]
    return pd.concat([X, X_add], axis=1, join_axes=[X.index])

# расп-сить колонку y.Category в матрицу с колонками out_features
def convert_y_to_matrix(Category):
    #

# запись результатов в файл
# имена колонок содержатся в out_features
def write_results(filename, results):
    #


### 4. Персональный раздел. 
Место для творчества. В этом пункте можно творить что угодно! 

Возможно, стоит указывать свой `id` для наиболее полезных функций и т.п.

В конце раздела передаем свой классификатор в переменную `clf`

#### 4.1. Мои импорты

In [19]:
from sklearn.ensemble import FantasticClassifier

#### 4.2. Мои константы
Все мои клевые константы находятся здесь.

In [39]:
# то, чем пользуюcь только я
random_state = 42
n_jobs = 4
learning_rate = 0.1

#### 4.3. Мои функции
Мои потрясающие функции определены в следующих ячейках.

In [23]:
# это моя воображаемая функция добавления новых признаков
def add_breakthru_features(X):
    return X # сорри :(

#### 4.4. Моя модель
Моя крутая модель, ее запредельные метрики и наглядные графики.

In [45]:
# моя обучающая выборка
X = add_breakthru_features(X_train)

# настройка кросс-валидации
cv = KFold(n=train_rows, n_folds=5, shuffle=True, random_state=random_state)

# мой классификатор
my_awesome_clf = FantasticClassifier()

In [60]:
# обучение моего классификаторв и проверка качества
start_time = datetime.datetime.now()
# logloss = cross_val_score(my_awesome_clf, X, y, cv=cv, scoring='log_loss').mean()
time.sleep(1)
logloss = 2.71828
duration = (datetime.datetime.now() - start_time).total_seconds()

print 'Time elapsed:', duration
print 'average score (5 folds): %s' % logloss

Time elapsed: 1.003155
average score (5 folds): 2.71828


In [57]:
clf = my_awesome_clf

### 5. Тестирование
О том, что надо скормить своему классификатору тестовую выборку.

In [None]:
filename = 'mybest.csv'

#### 5.1. Загрузка и константы тестовой выборки

#### 5.2. Обработка тестовой выборки

#### 5.3. Предсказания классификатора
Пропускаем тестовую выборку через свой классификатор и записываем результаты в файл. 

In [None]:
# pred = clf.predict()

In [None]:
# write_results(filename, pred)

# 2Do:
1. Константы в раздел 2 или 3?
+ функция для записи и чтения данных о моделировании (параметры модели, длительность, используемые данные и т.д.)
+ функция для добавления новых фич к исходным данным
+ что делать с данными с неправильными координатами?
