# This is Feature Engineering Module.

* Objectives of this module includes creating new effective features based on our scraped features

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# view additional data frame columns
pd.set_option('display.max_columns', 100)

# display plots in the notebook
%matplotlib inline

# load the cleaned dataset
df = pd.read_csv('cleaned_data.csv')

## Developing new features and consolidating sparse classes into a one single classes.

In [2]:
# Use arithmetic to construct new features 
df['Нас'] = 2024 - df['Ашиглалтанд орсон он:']

# Check for improper data values
df['Нас'].describe()

count    5370.000000
mean        7.537430
std         9.119547
min        -1.000000
25%         1.000000
50%         5.000000
75%        10.000000
max        44.000000
Name: Нас, dtype: float64

In [3]:
# Determine the number of observations that have descrepancies
df['Нас'].lt(0).sum()

40

In [4]:
# Remove observations that are negative in property age
df = df[df['Нас'] >= 0]

# review the remaining observations
df.head()

Unnamed: 0,үнэ,хаяг,Шал:,Тагт:,Ашиглалтанд орсон он:,Гараж:,Цонх:,Барилгын давхар:,Хаалга:,Талбай:,Хэдэн давхарт:,Лизингээр авах боломж:,Цонхны тоо:,Барилгын явц:,Нас
0,84.0,"УБ — Хан-Уул, Viva city",Паркет,0,2013,0,Вакум,5,Бүргэд,30.5,5,0,2,1,11
1,115.0,"УБ — Хан-Уул, 19-р хороолол",Паркет,1,1990,0,Вакум,5,Бүргэд,16.0,5,0,2,1,34
2,510.0,"УБ — Баянзүрх, Чингис зочид буудал",Паркет,1,2010,0,Вакум,10,Бүргэд,150.0,10,0,5,1,14
3,107.946,"УБ — Хан-Уул, Хан-Уул, Хороо 16",Паркет,0,2021,0,Вакум,12,Вакум,39.98,2,0,2,1,3
4,521.37,"УБ — Баянзүрх, Баянзүрх, Хороо 26",Паркет,2,2016,1,Вакум,16,Бүргэд,115.86,7,0,5,1,8


In [5]:
# Let's create a new feature called "District", in order to have an easier to work with data.

# Extract district by splitting the address on the comma and taking the first part
df['Дүүрэг'] = df['хаяг'].str.split(',', expand=True)[0].str.strip()

df['хаяг'] = df['хаяг'].str.split(',', expand=True)[1].str.strip() 

df['хаяг'] = df['хаяг'].fillna(0)
df.head()


Unnamed: 0,үнэ,хаяг,Шал:,Тагт:,Ашиглалтанд орсон он:,Гараж:,Цонх:,Барилгын давхар:,Хаалга:,Талбай:,Хэдэн давхарт:,Лизингээр авах боломж:,Цонхны тоо:,Барилгын явц:,Нас,Дүүрэг
0,84.0,Viva city,Паркет,0,2013,0,Вакум,5,Бүргэд,30.5,5,0,2,1,11,УБ — Хан-Уул
1,115.0,19-р хороолол,Паркет,1,1990,0,Вакум,5,Бүргэд,16.0,5,0,2,1,34,УБ — Хан-Уул
2,510.0,Чингис зочид буудал,Паркет,1,2010,0,Вакум,10,Бүргэд,150.0,10,0,5,1,14,УБ — Баянзүрх
3,107.946,Хан-Уул,Паркет,0,2021,0,Вакум,12,Вакум,39.98,2,0,2,1,3,УБ — Хан-Уул
4,521.37,Баянзүрх,Паркет,2,2016,1,Вакум,16,Бүргэд,115.86,7,0,5,1,8,УБ — Баянзүрх


In [6]:
sda = df['Хаалга:'].value_counts()
sda

Хаалга:
Бүргэд         3834
Төмөр          1170
Төмөр вакум     207
Вакум            83
Мод              36
Name: count, dtype: int64

In [7]:
#consolidate sparse classes into a one class
df['Хаалга:'].replace(to_replace=['Төмөр вакум', 'Төмөр'], value='Төмөр', inplace=True)
sda = df['Хаалга:'].value_counts()
sda

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Хаалга:'].replace(to_replace=['Төмөр вакум', 'Төмөр'], value='Төмөр', inplace=True)


Хаалга:
Бүргэд    3834
Төмөр     1377
Вакум       83
Мод         36
Name: count, dtype: int64

In [8]:
#list classes to be replaced as other

other_roofs = ['Мод', 'Вакум']

# consolidate into the 'Other' class
df['Хаалга:'].replace(other_roofs, 'Бусад', inplace=True)
sda = df['Хаалга:'].value_counts()
sda


Хаалга:
Бүргэд    3834
Төмөр     1377
Бусад      119
Name: count, dtype: int64

In [9]:
sda = df['Шал:'].value_counts()
sda

Шал:
Паркет     5153
Ламинат      72
Мод          62
Цемент       26
Плита        15
Чулуу         2
Name: count, dtype: int64

In [10]:
other_windows = ['Ламинат', 'Мод', 'Цемент', 'Плита']

# consolidate into the 'Other' class
df['Шал:'].replace(other_windows, 'Бусад', inplace=True)
sda = df['Шал:'].value_counts()
sda

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Шал:'].replace(other_windows, 'Бусад', inplace=True)


Шал:
Паркет    5153
Бусад      175
Чулуу        2
Name: count, dtype: int64

In [11]:
df['Цонх:'].value_counts()

Цонх:
Вакум          5137
Төмөр вакум     115
Модон вакум      47
Мод              31
Name: count, dtype: int64

In [12]:
other_windows = ['Төмөр вакум', 'Модон вакум', 'Мод']

# consolidate into the 'Other' class
df['Цонх:'].replace(other_windows, 'Бусад', inplace=True)
sda = df['Цонх:'].value_counts()
sda

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Цонх:'].replace(other_windows, 'Бусад', inplace=True)


Цонх:
Вакум    5137
Бусад     193
Name: count, dtype: int64

## Remove Unused

Remove unused or redundant columns from the table

* Now given that we've created a new Property age feature we can remove property year feature.

In [13]:
df = df.drop(columns=['Ашиглалтанд орсон он:'])
df.head()

Unnamed: 0,үнэ,хаяг,Шал:,Тагт:,Гараж:,Цонх:,Барилгын давхар:,Хаалга:,Талбай:,Хэдэн давхарт:,Лизингээр авах боломж:,Цонхны тоо:,Барилгын явц:,Нас,Дүүрэг
0,84.0,Viva city,Паркет,0,0,Вакум,5,Бүргэд,30.5,5,0,2,1,11,УБ — Хан-Уул
1,115.0,19-р хороолол,Паркет,1,0,Вакум,5,Бүргэд,16.0,5,0,2,1,34,УБ — Хан-Уул
2,510.0,Чингис зочид буудал,Паркет,1,0,Вакум,10,Бүргэд,150.0,10,0,5,1,14,УБ — Баянзүрх
3,107.946,Хан-Уул,Паркет,0,0,Вакум,12,Бусад,39.98,2,0,2,1,3,УБ — Хан-Уул
4,521.37,Баянзүрх,Паркет,2,1,Вакум,16,Бүргэд,115.86,7,0,5,1,8,УБ — Баянзүрх


## Do one-hot encoder for categorical values

In [14]:
df['Цонх:'].unique()

array(['Вакум', 'Бусад'], dtype=object)

In [15]:
df = pd.get_dummies(df, columns=['Цонх:', 'Дүүрэг', 'Хаалга:', 'Шал:'])
df.filter(like='Дүүрэг').head(5)

Unnamed: 0,Дүүрэг_Архангай,Дүүрэг_Дархан-Уул,Дүүрэг_Дорноговь,Дүүрэг_Дорнод,Дүүрэг_Орхон,Дүүрэг_Сүхбаатар,Дүүрэг_Төв,Дүүрэг_УБ — Багануур,Дүүрэг_УБ — Баянгол,Дүүрэг_УБ — Баянзүрх,Дүүрэг_УБ — Налайх,Дүүрэг_УБ — Сонгинохайрхан,Дүүрэг_УБ — Сүхбаатар,Дүүрэг_УБ — Хан-Уул,Дүүрэг_УБ — Чингэлтэй
0,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


In [16]:
df.to_csv('training_data.csv')