# Обработка данных

**`Цель`**:
        1. Избавиться от пропущенных значений;
        2. Удалить неинформативные, избыточные переменные;
        3. Избавиться от дубликатов;
        4. Преобразовать переменные.

## Оглавление

1. [Описание данных](#1)<br>
2. [Работа с переменными](#2)<br>
3. [Обработка пропущенных значений](#3)<br>
4. [Удаление неинформативных переменных](#4)<br>
5. [Преобразование переменных](#5)<br>
6. [Удаление избыточных переменных](#6)<br>
7. [Избавимся от дубликатов](#7)<br>
8. [Создание новой переменной - расстояние до центра города](#8)<br>
9. [Обработка выбросов](#9)<br>

In [1]:
# импорт необходимых библиотек
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

### Описание данных <a class="anchor" id="1"></a>

- price - стоимость квартиры;
- rooms - количество комнат;
- area - площадь квартиры;
- floor - этаж;
- districttr - район;
- lon - долгота;
- lat - широта;
- flatId - Id квартиры;
- floors_in_house - этажность дома;
- keep - ремонт;
- balcon - наличие балкона;
- building_year - год постройки дома;
- wall_id - тип стен дома;
- euro - является ли квартира евро-кваритрой;
- street - улица; 
- house_address_number - номер дома;
- mortgage - подходит ли под ипотеку;
- young_family - подходит ли молодой семье;
- transport - наличие транспорта;
- ceiling_height - высота потолков;
- renovation - ремонт;
- bath - наличие ванной;
- wall_type - тип стен;
- balcon2 - тип балкона;
- balcon_glass - застеклен ли балкон;
- mater_window - материал окон;
- sunny - солнечная ли сторона;
- view - вид из окна;
- lift - наличие лифта;
- yard - наличие спортивной площадки;
- parking - наличие парковки;
- wate_heating_system - наличие водонагревательной системы;
- domofon - наличие домофона;
- iron_door - наличие железной двери;
- Water_meter - наличие счетчиков;
- furniture - наличие мебели;
- technic - наличие техники;
- services - наличие сервисов (телефон, интернет и т.д.)

In [2]:
data = pd.read_excel("InitialData.xlsx", index_col=0)

In [3]:
data.head()

Unnamed: 0,price,rooms,area,floor,districttr,lon,lat,flatId,floors_in_house,keep,...,lift,yard,parking,wate_heating_system,domofon,iron_door,Water_meter,furniture,technic,services
0,7800000,3,59.4,2,zmeinka,131.895842,43.086803,8056913,5,cosmetic,...,,Двор,наземный паркинг,,да,есть,есть,,,"телефон, интернет, кабельное телевидение"
1,6500000,3,57.5,5,balyaeva,,,7110701,5,half,...,,Двор,наземный паркинг,,да,есть,есть,"кухонный гарнитур, шкаф-купе, стол рабочий, ст...",,кабельное телевидение
2,8300000,1,38.7,2,centr,131.892905,43.120511,6988438,9,cosmetic,...,пассажирский,Двор,наземный паркинг,да,да,есть,есть,"кухонный гарнитур, шкаф-купе, стол рабочий, ст...",,"интернет, кабельное телевидение"
3,13950000,3,89.6,16,nekrasovskaya,131.903083,43.122281,6656303,26,good,...,пассажирский и грузовой,Двор,наземный паркинг,,да,есть,есть,,,"телефон, интернет, кабельное телевидение"
4,5700000,1,29.3,7,tolstogo,131.913809,43.120971,5594677,13,cosmetic,...,,Двор,наземный паркинг,,да,есть,есть,,,"телефон, интернет, кабельное телевидение"


In [4]:
data.iloc[0]

price                                                    7800000
rooms                                                          3
area                                                        59.4
floor                                                          2
districttr                                               zmeinka
lon                                                   131.895842
lat                                                    43.086803
flatId                                                   8056913
floors_in_house                                                5
keep                                                    cosmetic
balcon                                                yes_balcon
building_year                                             1971.0
wall_id                                                       11
euro                                                        True
street                                       Зои Космодемьянской
house_address_number     

### Работа с переменными <a class="anchor" id="2"></a>

In [5]:
data.dtypes

price                     int64
rooms                     int64
area                    float64
floor                     int64
districttr               object
lon                     float64
lat                     float64
flatId                    int64
floors_in_house           int64
keep                     object
balcon                   object
building_year           float64
wall_id                   int64
euro                       bool
street                   object
house_address_number      int64
mortgage                   bool
young_family               bool
transport                  bool
ceiling_height           object
renovation               object
bath                     object
wall_type                object
balcon2                  object
balcon_glass             object
mater_window             object
sunny                    object
view                     object
lift                     object
yard                     object
parking                  object
wate_hea

Признаки «street» и «house_address_number» объединим в один – «address». 

In [6]:
# Создаем новую переменную address и удаляем избыточные - street и house_address_number
data['address'] = data['street'] + ', ' + data['house_address_number'].astype('str')
data = data.drop(['street', 'house_address_number'], axis=1)

In [7]:
# Приводим ceiling_height к типу float
data.ceiling_height = data.ceiling_height.str.replace(' м','').astype('float')

In [8]:
data['services'].unique()

array(['телефон, интернет, кабельное телевидение',
       'кабельное телевидение', 'интернет, кабельное телевидение'],
      dtype=object)

Признак «services» разобьем на три признака «internet», «telephon» и «tv».

In [9]:
# Создаём новые переменные из services - internet, telephon и tv, указывающих на их наличие в квартире
data['internet'] = data['services'].fillna('nothing').apply(lambda x: 1 if x.find('интернет')>=0 else 0)
data['telephon'] = data['services'].fillna('nothing').apply(lambda x: 1 if x.find('телефон')>=0 else 0)
data['tv'] = data['services'].fillna('nothing').apply(lambda x: 1 if x.find('кабельное телевидение')>=0 else 0)

### Обработка пропущенных значений <a class="anchor" id="3"></a>

In [10]:
data.isna().sum().sort_values(ascending=False)

technic                1344
wate_heating_system    1280
furniture              1152
balcon_glass            896
lift                    832
building_year           384
domofon                 320
lon                     256
lat                     256
price                     0
sunny                     0
view                      0
yard                      0
parking                   0
Water_meter               0
iron_door                 0
services                  0
address                   0
internet                  0
telephon                  0
mater_window              0
wall_type                 0
balcon2                   0
rooms                     0
area                      0
floor                     0
districttr                0
flatId                    0
floors_in_house           0
keep                      0
balcon                    0
wall_id                   0
euro                      0
mortgage                  0
young_family              0
transport           

Признаки «technic», «furniture», «wate_heating_system», «domofon», «water_meter», «iron_door», «parking», «sunny», «services», «balcon_glass» заменяем значением «нет» в тех местах, где пропущены значения, что указывает на тот факт, что данной характеристики в квартире нет.

In [11]:
data['domofon'] = data['domofon'].fillna('нет')
data['iron_door'] = data['iron_door'].fillna('нет')
data['Water_meter'] = data['Water_meter'].fillna('нет')

In [12]:
data['parking'] = data['parking'].fillna('nothing').apply(lambda x: 0 if (x.find('парковка отсутствует')>=0 or x.find('nothing')>=0) else 1)
data.furniture = data.furniture.fillna('nothing').apply(lambda x: 0 if x=='nothing' else 1)
data.technic = data.technic.fillna('nothing').apply(lambda x: 0 if x=='nothing' else 1)

data.wate_heating_system = data.wate_heating_system.fillna('нет')
data.balcon_glass = data.balcon_glass.fillna('нет')

In [13]:
# Будем считать, что лифт есть во всех домах, где больше 5 этажей
data.lift = data.lift.fillna('nothing').apply(lambda x: 0 if x=='nothing' else 1)
data['floors_more_5'] = (data['floors_in_house']>5).astype('int')

def lift(x):
    if x['lift'] == 1 or x['floors_more_5'] == 1:
        return 1
    else:
        return 0
data['lift'] = data.apply(lift,axis=1)

In [14]:
# Переменную building_year заполним медианным значением
data.building_year = data.building_year.fillna(data.building_year.median())

### Удаление неинформативных переменных <a class="anchor" id="4"></a>
Если переменная в 70% и более случаев принмает одно и то же значение, будем считать ее неинформативной

In [15]:
for i in data.columns:
    if (data[i].dtype == 'object') or (data[i].dtype == 'bool'):
        print(i)
        print(data[i].value_counts(normalize=True)*100)
        print('________________________________________')

districttr
nekrasovskaya                       10.000000
64-71-mikrorajjony                  10.000000
ehgersheld                           6.666667
centr                                6.666667
tretya-rabochaya                     6.666667
churkin                              6.666667
borisenko                            6.666667
avtovokzal                           6.666667
snegovaya-pad                        3.333333
barabash-s                           3.333333
prospekt-100-letiya-vladivostoka     3.333333
balyaeva                             3.333333
vesennyaya                           3.333333
zmeinka                              3.333333
diomid                               3.333333
varyag                               3.333333
tikhaya                              3.333333
dneprovskaya                         3.333333
sedanka                              3.333333
tolstogo                             3.333333
Name: districttr, dtype: float64
____________________________________

In [16]:
data = data.drop(['mater_window', 'sunny', 'view', 'yard', 'parking', 'domofon', 'iron_door', 'Water_meter','euro', 'young_family', 'transport'], axis=1)

In [17]:
for i in ['furniture', 'technic', 'lift']:
    print(i)
    print(data[i].value_counts(normalize=True)*100)
    print('________________________________________')

furniture
0    60.0
1    40.0
Name: furniture, dtype: float64
________________________________________
technic
0    70.0
1    30.0
Name: technic, dtype: float64
________________________________________
lift
1    66.666667
0    33.333333
Name: lift, dtype: float64
________________________________________


In [18]:
data = data.drop('technic', axis=1)

### Преобразование переменных <a class="anchor" id="5"></a>

Также добавим столбец «region» - название одного из пяти районов Владивостока.

In [19]:
# Превращаем микрорайоны в районы
regions = {'Ленинский': ['64-71-mikrorajjony','nekrasovskaya','centr','tolstogo','lugovaya','tretya-rabochaya','gajjdamak','dalzavod','shilkinskaya', 'sportivnaya', 'avangard','centralnyjj','prospekt-krasoty','sukhanova'],		
'Первомайский': ['diomid','churkin','borisenko','tikhaya','vilkova','zmeinka','patrokl','okatovaya','chajjka','shkolnaya'],	
'Первореченский': ['balyaeva','snegovaya-pad','postysheva','bam', 'sabaneeva','zhigura','molodezhnaya','dneprovskaya','snegovaya'],
'Советский': ['vtoraya-rechka','prospekt-100-letiya-vladivostoka','varyag','sedanka', 'zarya','vesennyaya','avtovokzal','sovetskijj','sputnik','trudovoe-p','sanatornaya', 'sadgorod','russkaya', 'shamora'],
'Фрунзенский': ['russkijj-ostrov','pervaya-rechka','ehgersheld','okeanskaya']}

def district(distr):
    for region in regions.keys():
        if distr in regions[region]:
            return region
data['region'] = data.districttr.apply(district)
region = {'Фрунзенский':0, 'Ленинский':1, 'Советский':2, 'Первореченский':3,
       'Первомайский':4}
data['regionLabel'] = data.region.map(region)

In [20]:
keep = {'design':3, 'cosmetic':2, 'black':0, 'good':2, 'half':1, 'need':1,
       'well_black':0}
data['keepLabel'] = data['keep'].map(keep)

In [21]:
balcon = {'loggia':1, 'no_balcon':0, 'balcon':1, 'more_loggia':2, 'more_balcon':2,
       'balcon_loggia':2, 'yes_balcon':1}
data['balconLabel'] = data['balcon'].map(balcon)

In [22]:
bath = {0:0,1:1,'раздельный':1, 'совмещенный':0, 'раздельная':1}
data['bathLabel'] = data['bath'].map(bath)

In [23]:
data['mortgage'] = data['mortgage'].astype('int64')
data['balcon_glass'] = data.balcon_glass.replace('есть',1).replace('нет',0)
data['wate_heating_system'] = data.wate_heating_system.replace('да',1).replace('нет',0)

In [24]:
districttrlabel = {'zmeinka':0, 'balyaeva':1, 'centr':2, 'nekrasovskaya':3, 'tolstogo':4,
       'snegovaya-pad':5, 'ehgersheld':6, 'barabash-s':7, 'borisenko':8,
       'tretya-rabochaya':9, 'churkin':10, 'vesennyaya':11, '64-71-mikrorajjony':12,
       'tikhaya':13, 'varyag':14, 'avtovokzal':15, 'diomid':16, 'dneprovskaya':17,
       'sedanka':18, 'prospekt-100-letiya-vladivostoka':19}
data['districttr_label'] = data.districttr.map(districttrlabel)

### Удаление избыточных переменных <a class="anchor" id="6"></a>

In [25]:
data.iloc[0]

price                                                   7800000
rooms                                                         3
area                                                       59.4
floor                                                         2
districttr                                              zmeinka
lon                                                  131.895842
lat                                                   43.086803
flatId                                                  8056913
floors_in_house                                               5
keep                                                   cosmetic
balcon                                               yes_balcon
building_year                                            1971.0
wall_id                                                      11
mortgage                                                      1
ceiling_height                                              2.5
renovation                              

In [26]:
data = data.drop(['districttr', 'flatId', 'keep', 'balcon', 'renovation', 'bath', 'wall_type', 'balcon2','services','address','region','floors_more_5'], axis=1)

In [33]:
# Оставим только непропущенные значения
data = data[data.lon.notna()]
data = data[data.regionLabel.notna()]

In [34]:
data.isna().sum().sort_values(ascending=False)

price                  0
lift                   0
bathLabel              0
balconLabel            0
keepLabel              0
regionLabel            0
tv                     0
telephon               0
internet               0
furniture              0
wate_heating_system    0
balcon_glass           0
rooms                  0
ceiling_height         0
mortgage               0
wall_id                0
building_year          0
floors_in_house        0
lat                    0
lon                    0
floor                  0
area                   0
districttr_label       0
dtype: int64

Пропущенных значений нет

### Избавимся от дубликатов <a class="anchor" id="7"></a>

In [38]:
data = data.drop_duplicates()

### Создание новой переменной - расстояние до центра города <a class="anchor" id="8"></a>

Добавим признак «dist_centr», показывающий расстояние от объекта до центра города (координаты 43.115654, 131.883284). Его найдем с помощью геодезического расстояния. Геодезическое расстояние – это длина кратчайшего пути между двумя точками на любой поверхности Земли. Для этого используем модуль geopy.distance. 

In [35]:
from geopy.distance import geodesic as GD
def dist_centr(x):
    centr = (43.115654, 131.883284)
    flat = (x['lat'],x['lon'])
    return GD(centr, flat).km
data['dist_centr'] = data.apply(dist_centr, axis=1)

### Обработка выбросов <a class="anchor" id="9"></a>

Удалим все объекты, стоимость которых боле 20 000 000 рублей (74 объектов) – элитная недвижимость, для которой требуется индивидуальный анализ, и объекты, стоимость которых менее 2 000 0000 (7 объектов) – комнаты/квартиры без санузла и воды.

In [None]:
data = data[2_000_000<=data['price']<=20_000_000]

In [37]:
data.to_excel('data_ready.xlsx')