In [40]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os

In [41]:
train = pd.read_csv("data/train.csv")
test = pd.read_csv("data/test.csv")
flat = pd.read_csv("data/flat.csv")
price = pd.read_csv("data/price.csv")
status  = pd.read_csv("data/status.csv")

In [42]:
# Transforming non-numerical data
#train['Класс объекта'].astype('category', copy=False)
train.columns

Index([u'id', u'bulk_id', u'spalen', u'date1', u'start_square', u'value',
       u'price', u'mean_sq', u'mean_fl', u'plan_s', u'plan_m', u'plan_l',
       u'vid_0', u'vid_1', u'vid_2', u'month', u'month_cnt', u'Класс объекта',
       u'Количество помещений', u'Огорожена территория',
       u'Площадь земельного участка', u'Входные группы', u'Детский сад',
       u'Школа', u'Поликлиника', u'ФОК', u'Спортивная площадка', u'Автомойка',
       u'Кладовые', u'Колясочные', u'Кондиционирование', u'Вентлияция',
       u'Лифт', u'Система мусоротведения', u'Видеонаблюдение',
       u'Подземная парковка', u'Двор без машин', u'Машиномест',
       u'Площадь пром. зоны в радиусе 500 м',
       u'Площадь зеленой зоны в радиусе 500 м', u'До Кремля', u'До ТТК(км)',
       u'До Садового(км)', u'До большой дороги на машине(км)',
       u'До удобной авторазвязки на машине(км)', u'До метро пешком(км)',
       u'До промки(км)', u'До парка(км)', u'До парка пешком(км)',
       u'Станций метро от кольца', u'Пло

In [43]:
# train = train.rename(columns={'Класс объекта': "Object class",
#                              'Количество помещений': "n_rooms"
#                               'Огорожена территория': "fenced"
#                              })

## Categorical features

* Класс объекта - ekonom, stadart, komfort
* Огорожена территория - da, niet
* Входные группы - da, niet
* Спортивная площадка - da, niet
* Автомойка - da, niet
* Кладовые - da, niet
* Колясочные - da, niet
* Система мусоротведения - jedna odp?
* Подземная парковка - da, niet
* Двор без машин - da, niet

In [44]:
CATEGORICAL_FEATURES = [
"Класс объекта",
"Огорожена территория",
"Входные группы",
"Спортивная площадка",
"Автомойка",
"Кладовые",
"Колясочные",
"Система мусоротведения",
"Подземная парковка",
"Двор без машин"
]

In [None]:
FEATURE_MAPPING = {
       u'Класс объекта': "klass_obiekta",
       u'Количество помещений': "n_rooms", 
       u'Огорожена территория': "fenced",
       u'Площадь земельного участка', u'Входные группы', u'Детский сад',
       u'Школа', u'Поликлиника', u'ФОК', u'Спортивная площадка', u'Автомойка',
       u'Кладовые', u'Колясочные', u'Кондиционирование', u'Вентлияция',
       u'Лифт', u'Система мусоротведения', u'Видеонаблюдение',
       u'Подземная парковка', u'Двор без машин', u'Машиномест',
       u'Площадь пром. зоны в радиусе 500 м',
       u'Площадь зеленой зоны в радиусе 500 м', u'До Кремля', u'До ТТК(км)',
       u'До Садового(км)', u'До большой дороги на машине(км)',
       u'До удобной авторазвязки на машине(км)', u'До метро пешком(км)',
       u'До промки(км)', u'До парка(км)', u'До парка пешком(км)',
       u'Станций метро от кольца', u'Площадь двора', u'Курс',
       u'Cтавка по ипотеке', u'Вклады до 1 года', u'Вклады от 1 года до 3 лет',
       u'Вклады свыше 3 лет'
    
}

In [45]:
def preprocess(data, categorical_features):
    '''
    
    Preprocessing train/test data
    
    Parameters
    ----------
    data: pandas.DataFrame
        Pandas DataFrame object
    categorical_features: list of str
        Categorical feature names
    
    '''
    
    # Transforming categorical features
    for feature_name in categorical_features:
        data[feature_name] = data[feature_name].str.decode('utf-8').astype('category').cat.codes
    return train
    
    

In [46]:
train = preprocess(train, categorical_features=CATEGORICAL_FEATURES)

In [47]:
train

Index([u'id', u'bulk_id', u'spalen', u'date1', u'start_square', u'value',
       u'price', u'mean_sq', u'mean_fl', u'plan_s', u'plan_m', u'plan_l',
       u'vid_0', u'vid_1', u'vid_2', u'month', u'month_cnt', u'Класс объекта',
       u'Количество помещений', u'Огорожена территория',
       u'Площадь земельного участка', u'Входные группы', u'Детский сад',
       u'Школа', u'Поликлиника', u'ФОК', u'Спортивная площадка', u'Автомойка',
       u'Кладовые', u'Колясочные', u'Кондиционирование', u'Вентлияция',
       u'Лифт', u'Система мусоротведения', u'Видеонаблюдение',
       u'Подземная парковка', u'Двор без машин', u'Машиномест',
       u'Площадь пром. зоны в радиусе 500 м',
       u'Площадь зеленой зоны в радиусе 500 м', u'До Кремля', u'До ТТК(км)',
       u'До Садового(км)', u'До большой дороги на машине(км)',
       u'До удобной авторазвязки на машине(км)', u'До метро пешком(км)',
       u'До промки(км)', u'До парка(км)', u'До парка пешком(км)',
       u'Станций метро от кольца', u'Пло

In [48]:
train[u'Входные группы']

KeyError: u'\u0412\u0445\u043e\u0434\u043d\u044b\u0435 \u0433\u0440\u0443\u043f\u043f\u044b'

In [49]:
train.columns = [c.decode('utf-8') for c in train.columns]

In [51]:
train[u'Входные группы']

0       0
1       0
2       0
3       0
4       0
5       0
6       0
7       0
8       0
9       0
10      0
11      0
12      0
13      0
14      0
15      0
16      0
17      0
18      0
19      0
20      0
21      0
22      0
23      0
24      0
25      0
26      0
27      0
28      0
29      0
       ..
8686    0
8687    0
8688    0
8689    0
8690    0
8691    0
8692    0
8693    0
8694    0
8695    0
8696    0
8697    0
8698    0
8699    0
8700    0
8701    0
8702    0
8703    0
8704    0
8705    0
8706    0
8707    0
8708    0
8709    0
8710    0
8711    0
8712    0
8713    0
8714    0
8715    0
Name: Входные группы, dtype: int8