# Analysis of the estimating price in Nakhon Ratchasima, Thailand
ข้อมูลที่นำมาวิเคราะห์คือ<b>สรุปราคาประเมินทุนทรัพย์ที่ดิน</b>ของจังหวัดนครราชสีมา รอบบัญชีปีพ.ศ.2559-2562 ซึ่งได้มาจาก<a href='https://www.treasury.go.th/th/summary-of-land-valuation/?keyword=&category=16&order=news'>กรมธนารักษ์</a> กระทรวงการคลัง โดยเป็นประเด็นที่ผู้จัดทำสนใจเนื่องจากแม่มีที่ดินอยู่บ้างแล้วชอบพูดว่า <em>"ถ้ามีที่ดินในเมืองเรารวยกันไปแล้ว"</em> เลยอยากทราบว่าที่ดินแต่ละอำเภอในจังหวัดนครราชสีมานั้นมามูลค่าต่างกันแค่ไหนในแต่ละพื้นที่ จึงลองมาวิเคราะห์ 2 ส่วน ดังนี้ <br>
1. Summary of data: การหาข้อสรุปของข้อมูลเบื้องต้น
2. Statistical model: การนำข้อมูลมาสู่โมเดลทางสถิติ

In [1]:
# Load libraries
import geopandas as gpd
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.io as pio
import plotly.graph_objects as go
from distfit import distfit
from plotly.subplots import make_subplots
from pyod.models.mad import MAD
from scipy.stats import anderson
from scipy.stats import boxcox
from scipy.stats import median_abs_deviation
from scipy.stats import norm

PROJ: proj_create_from_database: SQLite error on SELECT name, type, coordinate_system_auth_name, coordinate_system_code, datum_auth_name, datum_code, area_of_use_auth_name, area_of_use_code, text_definition, deprecated FROM geodetic_crs WHERE auth_name = ? AND code = ?: no such column: area_of_use_auth_name


ModuleNotFoundError: No module named 'distfit'

In [2]:
pio.renderers.default = "notebook_connected"

## 0. Data Cleaning
เมื่อดึงข้อมูลจากไฟล์ pdf และล้างใน Excel มาแล้วนั้น ก็นำข้อมูลนำเข้าและ import libraries ที่จำเป็นต่อการวิเคราะห์ข้อมูลในครั้งนี้

In [3]:
price_korat = pd.read_excel('lands_korat.xlsx', sheet_name='lands_korat_cleaned')
size_korat = pd.read_excel('lands_korat.xlsx', sheet_name='district')

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

Join tables ทั้ง 2 เข้าด้วยกัน

In [4]:
all_korat = price_korat.merge(size_korat, left_on='district', right_on='th_name')

NameError: name 'price_korat' is not defined

เลือกเฉพาะ columns ที่จำเป็นและตอนนี้ area_size มีหน่วยพื้นที่เป็น<b style='color: #48AEB5;'>ตารางกิโลเมตร</b> จึงต้องเพิ่มหน่วย<b style='color: #48AEB5;'>ตารางวา</b>เข้าไปเพื่อให้สอดคล้องกับราคาที่ดินที่มีหน่วยบาทต่อตารางวา

In [5]:
all_korat = all_korat.loc[:, ~all_korat.columns.isin(['index', 'unit_name', 'id', 'district'])]
all_korat['area_size_wa_sq'] = all_korat['area_size'] * 250000
all_korat.head()

Unnamed: 0,price_pt,price_min,price_max,price_est,eng_name,th_name,area_size,area_size_wa_sq
0,250.0,,,250.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
1,250.0,,,250.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
2,200.0,,,200.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
3,250.0,,,250.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
4,200.0,,,200.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0


ปรับชื่อ columns ให้เหมาะสำหรับการวิเคราะห์ โดยปรับแก้ดังนี้
- price_pt 👉🏽 ชื่อเดิม: ราคา unit เป็นจุดราคาหรือ point data
- price_min 👉🏽 price_lb: ราคาขอบล่างของ unit
- price_max 👉🏽 price_ub: ราคาขอบบนของ unit
- price_est 👉🏽 price_unit_est: ราคาเฉลี่ยของ unit กรณี unit มีช่วงราคาหรือ interval data
- eng_name 👉🏽 amp_eng_name: ชื่ออำเภอเป็นภาษาอังกฤษ
- th_name 👉🏽 amp_th_name: ชื่ออำเภอเป็นภาษาไทย
- area_size 👉🏽 km_sq: หน่วยพื้นที่ของอำเภอเป็นตารางกิโลเมตร
- area_size_wa_sq 👉🏽 wa_sq: หน่วยพื้นที่ของอำเภอเป็นตารางวา

In [6]:
all_korat.columns = ['price_pt', 'price_lb', 'price_ub', 'price_unit_est', 'amp_eng_name', 'amp_th_name', 'km_sq' , 'wa_sq']
all_korat.head()

Unnamed: 0,price_pt,price_lb,price_ub,price_unit_est,amp_eng_name,amp_th_name,km_sq,wa_sq
0,250.0,,,250.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
1,250.0,,,250.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
2,200.0,,,200.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
3,250.0,,,250.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0
4,200.0,,,200.0,Kaeng Sanam Nang,แก้งสนามนาง,107.258,26814500.0


ลองสำรวจว่ามีคอลัมน์ไหนบ้างที่ไม่มีข้อมูล และมีประมาณกี่ % ของข้อมูลทั้งหมดในแต่ละคอลัมน์

In [7]:
all_korat.isna().sum()/len(all_korat) * 100

price_pt          16.707466
price_lb          83.292534
price_ub          83.261934
price_unit_est     0.000000
amp_eng_name       0.000000
amp_th_name        0.000000
km_sq              0.000000
wa_sq              0.000000
dtype: float64

จะพบว่าข้อมูลชุดนี้มี 3 columns ที่ไม่มีข้อมูลและสูงสุดถึง 83.29% แต่เนื่องจากข้อมูล price_pt, price_lb และ price_ub ถูกคำนวณไปอยู่ใน price_unit_est แล้ว จึงสามารถ drop ได้แต่ยังไม่ได้มีการหาราคาสูงสุดและราคาต่ำสุดของแต่ละอำเภอไว้ จึงคิดว่าควรหาราคาสูงที่สุดและราคาต่ำที่สุดของแต่ละอำเภอ
- price_min: ราคาต่ำสุดของอำเภอ
- price_max: ราคาสูงสุดของอำเภอ

In [8]:
for amp in all_korat['amp_eng_name']:
    #หาราคาสูงสุด: price_max
    price_max = max(all_korat.loc[all_korat['amp_eng_name'] == amp,'price_pt'].max(), \
    all_korat.loc[all_korat['amp_eng_name'] == amp,'price_ub'].max())

    all_korat.loc[all_korat['amp_eng_name'] == amp,'price_max'] = price_max
    
    #หาราคาสูงสุด: price_min
    price_min = min(all_korat.loc[all_korat['amp_eng_name'] == amp,'price_pt'].min(), \
    all_korat.loc[all_korat['amp_eng_name'] == amp,'price_lb'].min())
    
    all_korat.loc[all_korat['amp_eng_name'] == amp,'price_min'] = price_min
    
all_korat_cleaned = all_korat.drop(columns = ['price_pt', 'price_lb', 'price_ub'])
all_korat_cleaned.isna().any()

price_unit_est    False
amp_eng_name      False
amp_th_name       False
km_sq             False
wa_sq             False
price_max         False
price_min         False
dtype: bool

## 1. EDA: Exploratory Data Analysis
ก่อนจะเริ่มวิเคราะห์ไปถึงราคาประเมินที่ดิน ลองสำรวจข้อมูลก่อนเริ่มวิเคราะห์ว่ามีอะไรบ้างในข้อมูลชุดนี้

### ตรวจสอบข้อมูลเบื้องต้น

In [9]:
all_korat_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3268 entries, 0 to 3267
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   price_unit_est  3268 non-null   float64
 1   amp_eng_name    3268 non-null   object 
 2   amp_th_name     3268 non-null   object 
 3   km_sq           3268 non-null   float64
 4   wa_sq           3268 non-null   float64
 5   price_max       3268 non-null   float64
 6   price_min       3268 non-null   float64
dtypes: float64(5), object(2)
memory usage: 204.2+ KB


In [10]:
all_korat_cleaned.shape

(3268, 7)

กรมธนารักษ์ได้ประเมินราคาที่ดินในจังหวัดนครราชสีมาในช่วงปี พ.ศ. 2559-2562 ถึง 3,268 หน่วยพื้นที่

In [11]:
all_korat_cleaned.describe()

Unnamed: 0,price_unit_est,km_sq,wa_sq,price_max,price_min
count,3268.0,3268.0,3268.0,3268.0,3268.0
mean,3975.005355,845.787266,211446800.0,55699.020808,187.53672
std,8739.072667,469.997712,117499400.0,56212.298284,57.981612
min,85.0,106.893,26723250.0,300.0,85.0
25%,350.0,540.567,135141800.0,8500.0,150.0
50%,1500.0,755.596,188899000.0,20000.0,200.0
75%,4300.0,1129.996,282499000.0,130000.0,200.0
max,130000.0,1825.168,456292000.0,130000.0,325.0


หากดูที่คอลัมน์ <b style='color: #48AEB5;'>price_unit_est</b> จะพบว่ามีความเบี่ยงเบนของข้อมูลอย่างมาก หากดูที่ค่าสูงสุดและต่ำสุด นั่นคือ 130,000 และ 85 ตามลำดับแล้ว รวมไปถึงค่าเฉลี่ยและค่าเบียงเบนมาตรฐาน นั่นคือ 3,975 และ 8,739 ตามลำดับนั้น ข้อมูลอาจมีค่าสุดขีดที่นับเป็น outlier(s) ได้ ซึ่งจะพิจารณาต่อไป

In [12]:
print(f"จังหวัดนครราชสีมามีทั้งหมด {all_korat_cleaned['amp_th_name'].nunique()} อำเภอ")

จังหวัดนครราชสีมามีทั้งหมด 32 อำเภอ


In [13]:
all_korat_cleaned.value_counts('amp_th_name', ascending = False)/all_korat_cleaned.shape[0]*100

amp_th_name
เมืองนครราชสีมา    35.556916
ปากช่อง             9.394125
บัวใหญ่             5.293758
ด่านขุนทด           3.794370
โนนสูง              3.733170
พิมาย               3.304774
ประทาย              3.212974
ครบุรี              2.845777
สีคิ้ว              2.723378
เสิงสาง             2.723378
โชคชัย              2.417381
ปักธงชัย            2.386781
จักราช              2.325581
ห้วยแถลง            2.172583
คง                  1.988984
สูงเนิน             1.713586
แก้งสนามนาง         1.285190
เฉลิมพระเกียรติ     1.223990
ชุมพวง              1.223990
วังน้ำเขียว         1.193390
ลำทะเมนชัย          1.162791
โนนไทย              1.101591
โนนแดง              1.070991
ขามทะเลสอ           1.070991
ขามสะแกแสง          1.040392
บัวลาย              1.009792
พระทองคำ            0.979192
หนองบุญมาก          0.581395
สีดา                0.520196
บ้านเหลื่อม         0.428397
เมืองยาง            0.275398
เทพารักษ์           0.244798
dtype: float64

พบว่า 35.57% หรือประมาณ 1 ใน 3 ของที่ดินที่ถูกประเมินทั้งหมดนั้นมาจากอำเภอเมืองนครราชสีมา และรองลงมา 9.39% คืออำเภอปากช่อง ซึ่งถือว่าลดลงอย่างมากจากอันดับแรก สามารถตั้งแง่ได้ว่าที่ดินที่พอประเมินได้ราคาได้จะต้องมีลักษณะที่เป็นชุมชนเมืองเป็นหลัก

จังหวัดที่มีค่าเฉลี่ยและค่ามัธยฐานสูงสุด 5 จังหวัดแรก

In [14]:
def top_n(df: pd.Series, singleColumn: str, n: int):
    top_n = df.sort_values(by = singleColumn, ascending = [False]).iloc[:n][singleColumn]
    return top_n

avg = all_korat_cleaned.groupby('amp_th_name')['price_unit_est'].agg([np.mean, np.median])
Mean = top_n(avg, 'mean', 5)
Median = top_n(avg, 'median', 5)

print(Mean)
print(Median)

amp_th_name
เมืองนครราชสีมา    7786.729776
ปากช่อง            4649.918567
พิมาย              3674.027778
ประทาย             2289.047619
ปักธงชัย           2221.634615
Name: mean, dtype: float64
amp_th_name
เมืองนครราชสีมา    4000.0
ปากช่อง            4000.0
ด่านขุนทด          2500.0
ประทาย             2500.0
บัวใหญ่            1500.0
Name: median, dtype: float64


### สร้าง Bar plot เปรียบเทียบค่า Mean และ Median และดูจังหวัดที่มีราคากลางสูงสุด

เพื่อดูว่าจังหวัดใดมีค่ากลางข้อมูลสูงที่สุด จึงลองสร้าง bar plot ขึ้นมา

In [1]:
fig = make_subplots(rows = 1, cols = 2)

# subplot bar chart
col_tab = px.colors.qualitative.T10

fig.add_trace(go.Bar(x = Mean.index, y = Mean, name = 'Mean', marker_color = col_tab[0]), row = 1, col = 1)
fig.add_trace(go.Bar(x = Median.index, y = Median, name = 'Median', marker_color = col_tab[1]), row = 1, col = 2)

fig.update_xaxes(title_text = 'อำเภอ', row = 1, col = 1)
fig.update_xaxes(title_text = 'อำเภอ', row = 1, col = 2)
fig.update_yaxes(title_text = 'ราคาประเมินที่ดิน', row = 1, col = 1)
fig.update_yaxes(range = [0,8000], row = 1, col = 2)

fig.update_layout(barmode = 'group', template = 'plotly_dark', height = 700,
                title = dict(text = 'ค่ากลางของราคาประเมินที่ดินจังหวัดนครราชสีมา ปี พ.ศ. 2559-2562', x = 0.5, y = 0.95, font_size = 20)
    )

fig.show()

NameError: name 'make_subplots' is not defined

จาก bar plot ด้านบน จะพบว่าเมื่อใช้ค่า Mean กับ Median จะมีอำเภอที่มีอันดับคงเดิมคือ เมืองนครราชสีมาอันดับ 1 ปากช่องอันดับ 2 และประทายอันดับ 4 แต่ค่าที่ได้มานั้นต่างกัน โดยเฉพาะอำเภอเมืองนครราชสีมาที่มีค่าต่างกันเกือบถึง 2 เท่า

### สร้าง Scatter plot ดูความสัมพันธ์ค่า Mean และ Median

In [16]:
fig = go.Figure()

maximum_axis = max(avg['mean'].max(),avg['median'].max())
Range = np.array(range(round(maximum_axis)))

fig.add_trace(go.Scatter(x = avg['mean'], y = avg['median'], mode = 'markers', marker_color = col_tab[0]))
fig.add_trace(go.Scatter(x = Range, y = Range, mode = 'lines', marker_color = col_tab[1]))

fig.update_layout(template = 'plotly_dark', showlegend = False, width = 1000, height = 750, 
                title = dict(text = 'Mean VS Median', x = 0.5, y = 0.9)
                )

fig.show()

จะพบว่าแต่ละอำเภอมีค่า Mean > median นั่นหมายความว่าข้อมูลส่วนใหญ่อาจมีการแจกแจงแบบเบ้ขวา หรือมีค่าของข้อมูลที่อยู่ฝั่ง Heavy-tailed เป็นส่วนใหญ่

### สร้าง Strip plot ดูการกระจายตัวของราคาประเมินของจังหวัดและแต่ละอำเภอ

In [None]:
fig = px.strip(all_korat_cleaned, x = 'price_unit_est')

fig.update_layout(template = 'plotly_dark', xaxis_tickangle = -45, xaxis_title = 'อำเภอ', yaxis_title = 'ราคาประเมินที่ดิน',
                title = dict(text = 'ราคาประเมินที่ดินของจังหวัดนครราชสีมา ปี พ.ศ. 2559-2562', x = 0.5, y = 0.9)
)
fig.update_traces(marker_color=col_tab[0])
fig.update_xaxes(dtick = 10000)
fig.show()

In [None]:
med = (np.median(all_korat_cleaned['price_unit_est']), median_abs_deviation(all_korat_cleaned['price_unit_est']))
mean = (np.mean(all_korat_cleaned['price_unit_est']), np.std(all_korat_cleaned['price_unit_est']))
print('ค่า Median %.2f และมีส่วนเบี่ยงเบนเฉลี่ย (M.A.D.) อยู่ที่ %.2f' % med)
print('ค่า Mean %.2f และมีส่วนเบี่ยงเบนมาตรฐาน (S.D.) อยู่ที่ %.2f' % mean)

ค่า Median 1500.00 และมีส่วนเบี่ยงเบนเฉลี่ย (M.A.D.) อยู่ที่ 1250.00
ค่า Mean 3975.01 และมีส่วนเบี่ยงเบนมาตรฐาน (S.D.) อยู่ที่ 8737.74


จะพบว่าราคาประเมินที่ดินส่วนใหญ่จะไม่เกิน 10,000 บาท/ตารางวา และตั้งแต่ราคาประเมินที่ดิน 10,000 บาท/ตารางวา ขึ้นไปจะเริ่มมีจำนวนที่ดินลดลง

In [None]:
amp = all_korat_cleaned['amp_th_name'].unique()

fig = px.strip(all_korat_cleaned, x = 'amp_th_name' , y = 'price_unit_est')
fig.update_layout(template = 'plotly_dark', xaxis_tickangle = -45, xaxis_title = 'อำเภอ', yaxis_title = 'ราคาประเมินที่ดิน',
                title = dict(text = 'ราคาประเมินที่ดินของแต่ละอำเภอในจังหวัดนครราชสีมา ปี พ.ศ. 2559-2562', x = 0.5, y = 0.9)
)
fig.update_traces(marker_color=col_tab[0])
fig.update_yaxes(dtick = 10000)

fig.show()

จะพบว่าราคาประเมินของอำเภอเมืองนครราชสีมานั้นมีค่าที่เป็นค่าสุดขีดของราคาประเมินทั้งจังหวัดจำนวนมาก เพื่อง่ายต่อการดูจะขอใช้ log scale ในการทำ box plot

In [None]:
fig = px.strip(all_korat_cleaned, x = 'amp_th_name' , y = 'price_unit_est', log_y=True)
fig.update_layout(template = 'plotly_dark', xaxis_tickangle = -45, xaxis_title = 'อำเภอ', yaxis_title = 'ราคาประเมินที่ดิน',
                title = dict(text = 'ราคาประเมินที่ดินของแต่ละอำเภอในจังหวัดนครราชสีมา ปี พ.ศ. 2559-2562', x = 0.5, y = 0.9)
)
fig.update_traces(marker_color=col_tab[0])

fig.show()

จะพบว่าที่ดินที่ถูกประเมินแล้วราคาเกิน 10,000 บาท/ตารางวา ส่วนใหญ่จะมาจากอำเภอเมืองนครราชสีมา รองลงมาคืออำเภอปากช่อง และพบว่าแต่ละอำเภอมีการแจกแจงที่เบ้ขวาหรือ Heavy-tailed

### สร้าง Dumbell plot ดูราคาสูงสุและราคาต่ำสุดของแต่ละอำเภอ

In [None]:
# Dumbell chart
dumbell_korat = all_korat_cleaned.drop_duplicates(subset=['amp_eng_name'])

amps = (dumbell_korat.sort_values(by = "price_max", ascending=True)['amp_th_name'].unique())

data = {'x': [], 'y': [], 'colors': []}

for amp in amps:
    data['x'].extend(
        [
            dumbell_korat.loc[(dumbell_korat.amp_th_name == amp)]['price_min'].values[0],
            dumbell_korat.loc[(dumbell_korat.amp_th_name == amp)]['price_max'].values[0],
            None
        ]
    )
    data['y'].extend([amp, amp, None])
    data['colors'].extend([col_tab[0], col_tab[1], 'brown'])

fig = go.Figure(
    data = [
        go.Scatter(
            x = data['x'],
            y = data['y'],
            mode = 'lines',
            marker = dict(color = 'grey')
        ),
        go.Scatter(
            x = data['x'],
            y = data['y'],
            mode = 'markers+text',
            marker = dict(color = data['colors']),
            hovertemplate = """อำเภอ: %{y}<br> ราคา: %{x} บาท <extra></extra>"""
        ),
    ]
)

fig.update_layout(
    title = dict(text = 'ราคาประเมินที่ดินสูงสุดและต่ำสุดของแต่ละอำเภอ พ.ศ. 2559-2562', font = dict(size = 20)),
    xaxis = dict(title = dict(text = 'ราคาประเมินที่ดิน')),
    yaxis = dict(title = dict(text = 'อำเภอ')),
    width = 850,
    height = 1000,
    showlegend = False,
    template = 'plotly_dark',
    annotations = [
        dict(text = 'ราคาสูงมากกว่าอำเภออื่น ๆ อย่างมาก', x = 130000, y = 'เมืองนครราชสีมา', font = dict(size = 15)),
        dict(
            xref = 'paper', yref = 'paper', x = 0.8, y = 0.75, showarrow = False,
            text = 'ราคาต่ำสุดจะไม่<em>ต่างกัน</em>มากนักในแต่ละอำเภอ<br>จะมีเพียงแค่อำเภอ<b>เมืองนครราชสีมา</b>เท่านั้น<br>ที่มีราคาประเมินการกระจายตัวสูง',
            font = dict(size = 16, color = 'white'),
            bgcolor = col_tab[0]
        )
    ]
)
fig.update_yaxes(showgrid=False)
fig.update_xaxes(dtick = 10000)

fig.show()

ราคาต่ำสุดจะไม่<em>ต่างกัน</em>มากนักในแต่ละอำเภอจะมีเพียงแค่อำเภอ<b>เมืองนครราชสีมา</b>เท่านั้นที่มีราคาประเมินการกระจายตัวสูง

In [None]:
fig = go.Figure(
    data = [
        go.Scatter(
            x = data['x'],
            y = data['y'],
            mode = 'lines',
            marker = dict(color = 'grey')
        ),
        go.Scatter(
            x = data['x'],
            y = data['y'],
            mode = 'markers+text',
            marker = dict(color = data['colors']),
            hovertemplate = """อำเภอ: %{y}<br> ราคา: %{x} บาท <extra></extra>"""
        ),
    ]
)

fig.update_layout(
    title = dict(text = 'ราคาประเมินที่ดินสูงสุดและต่ำสุดของแต่ละอำเภอ พ.ศ. 2559-2562', font = dict(size = 20)),
    xaxis = dict(title = dict(text = 'ราคาประเมินที่ดิน (log scale)')),
    yaxis = dict(title = dict(text = 'อำเภอ')),
    width = 850,
    height = 1000,
    showlegend = False,
    template = 'plotly_dark',
    annotations = [
        dict(text = 'ราคาสูงมากกว่าอำเภออื่น ๆ อย่างมาก', x = np.log10(130000), y = 'เมืองนครราชสีมา', font = dict(size = 20)),
        dict(
            xref = 'paper', yref = 'paper', x = 0.95, y = 0.5, showarrow = False,
            text = 'ราคาต่ำสุดจะกระจุกตัวอยู่ที่ 150-200 บาท<br>ในขณะที่ราคาสูงสุดยังคงค่อนข้างมีความผันผวน',
            font = dict(size = 16, color = 'white'),
            bgcolor = col_tab[0]
        )
    ]
)

fig.update_xaxes(type = 'log')
fig.update_yaxes(showgrid=False)

fig.show()

ราคาต่ำสุดจะกระจุกตัวอยู่ที่ 150-200 บาท ในขณะที่ราคาสูงสุดยังคงค่อนข้างมีความผันผวน

### สร้าง Choropleth map ราคาแต่ละพื้นที่

ดูราคาเฉลี่ยของราคาประเมินในแต่ละพื้นที่ โดยที่ใช้ค่า Mean ในการแสดงผล

In [None]:
# Load แผนที่อำเภอในประเทศไทย
gdf = gpd.read_file('OpenGISData-Thailand-master\districts.geojson')

# เลือกเฉพาะจังหวัดนครราชสีมา
gdf_korat = gdf[gdf['pro_th'] == 'นครราชสีมา']

# Export ออกมาเป็น Geojson เพื่อนำไปใช้ทำ dashboard ต่อไป
gdf_korat.to_file('korat_map\Korat.geojson')

# Load แผนที่จังหวัดนครราชสีมา
gdf_korat = gpd.read_file('korat_map/Korat.geojson', encoding = 'utf-8')

In [None]:
summary = all_korat_cleaned.groupby('amp_th_name')['price_unit_est'].agg([np.mean, np.std, np.max, np.min])
merged = gdf_korat.set_index('amp_th').join(summary)

fig = px.choropleth_mapbox(merged, geojson = merged.geometry, locations = merged.index,
                    color = 'mean', color_continuous_scale = ['#DFFDFE','#A2CFEF','#4268A8'],
                    hover_data = ['std','amin', 'amax']
                    )
token = 'pk.eyJ1IjoiZGVhcmRhZGFhIiwiYSI6ImNrOGZ3ZWFtNDA4cnAzbm9pb3FzN2lxMnAifQ.x4S74XpfVBkqyLYt9eN9vw'
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0},mapbox_style="mapbox://styles/deardadaa/clb7fvinj004m14s0piigset3", mapbox_accesstoken=token,
                  mapbox_zoom=7, mapbox_center = {"lat": 14.974595, "lon": 102.097915}, template = 'plotly_dark')
fig.show()

จุดที่น่าสังเกตคือยิ่งมีพื้นที่มาก ราคาประเมินอาจมีค่าที่สูงขึ้น จึงได้ลองหาค่า Pearson correlation และสร้าง scatter plot ออกมา

In [None]:
summary = all_korat_cleaned.groupby('amp_th_name').agg([np.mean, np.std, np.max, np.min])
np.corrcoef(summary.price_unit_est['mean'],summary.km_sq['mean'])[1,0]

0.400222948041468

In [None]:
fig = px.scatter(x = np.array(summary.km_sq['mean']), y = np.array(summary.price_unit_est['mean']), trendline = 'ols')

fig.update_layout(template = 'plotly_dark', showlegend = False, width = 1000, height = 750, 
                title = dict(text = 'Area VS Mean', x = 0.5, y = 0.95)
                )
fig.update_traces(marker_color = col_tab[0])

fig.show()

พบว่ามีค่า Pearson correlation ที่ 0.4 และจาก scatter plot ด้านบน แต่ทั้งนี้ทั้งนั้นนี่เป็นเพียงแค่การดูสหสัมพันธ์ ไม่ได้ดูความเป็นเหตุเป็นผลหรือความสัมพันธ์กัน ก็อาจจะสรุปไม่ได้นักว่าถ้าพื้นที่ของอำเภอมากขึ้น จะทำให้ราคาประเมินที่ดินสูงขึ้น

### Remove outliers
ในการวิเคราะห์ครั้งนี้ จะทำการตัดค่า Outliers โดยที่ใช้วิธีการ MAD score (Median Absolute Deviation) หรือ Modified Z-score เนื่องจากข้อมูลชุดนี้จะมีการแจกแจงแบบ Heavy-tail (แบบเบ้ขวา) จึงใช้ MAD score ในการช่วยตัดข้อมูลสุดขีด

In [None]:
'''สร้างฟังก์ชันตรวจสอบ outliers ให้คืนค่า
1. ชุดข้อมูลของ outliers
2. จำนวนข้อมูล
3. ร้อยละของ outliers ในข้อมูล
'''
def check_outliers(data, column, threshold = 3.5):
    if not isinstance(data, pd.core.frame.DataFrame):
        raise TypeError('Sorry, "data" must be a DataFrame.')
    if column not in data.columns:
        raise ValueError('The DataFrame does not have a ' + column + ' column.')

    # Set the threshold
    mad = MAD(threshold=threshold)

    # Reshape data to fit the model
    data_reshaped = data[column].values.reshape(-1,1)

    # Labels as outliers: score = 1, inliers: score = 0
    labels = mad.fit_predict(data_reshaped)

    # Define outliers
    outliers = data.loc[labels == 1,:]
    return (outliers, outliers[column].min(), sum(labels), str(round(len(outliers)/len(data)*100,2)) + '% of data')

def remove_outliers(data, column):
    if not isinstance(data, pd.core.frame.DataFrame):
        raise TypeError('Sorry, "data" must be a DataFrame.')
    if column not in data.columns:
        raise ValueError('The DataFrame does not have a ' + column + ' column.')
    
    data_out = data[~data[column].isin(check_outliers(data, column)[0][column])]
    return data_out

print(check_outliers(all_korat_cleaned, 'price_unit_est')[1:])

(8000.0, 361, '11.05% of data')


พบว่ามีข้อมูลที่เป็น outliers ทั้งหมด 11.05% ของข้อมูลทั้งหมด อีกทั้งค่าต่ำสุดที่ถูกคิดเป็น outliers คือ 8,000 บาท/ตารางวา
<br><br>
เมื่อเขียนฟังก์ชันการตัด outliers แล้ว ลอง plot การแจกแจงของข้อมูลทั้งห่อนและหลังตีดของภาพรวม และทุกอำเภอในจังหวัดนครราชสีมา

In [None]:
fig = go.Figure()

fig.add_trace(go.Violin(x = remove_outliers(all_korat_cleaned, 'price_unit_est')['price_unit_est'], line_color = col_tab[1], name = 'Without outliers'))
fig.add_trace(go.Violin(x = all_korat_cleaned['price_unit_est'], line_color = col_tab[0], name = 'With outliers'))

fig.update_layout(
    xaxis_showgrid=False, xaxis_zeroline=False, template = 'plotly_dark', showlegend = False,
    title = 'การกระจายตัวของข้อมูลระหว่าง ก่อน VS หลังกำจัด outliers', xaxis = dict(title = dict(text = 'ราคาประเมินแต่ละหน่วยพื้นที่'))
    )
fig.update_traces(orientation='h', side='positive', width=1.5, points=False)
fig.update_xaxes(dtick = 10000, range = [0,130000])
fig.add_vline(x=10000, line_width=2, line_dash="dash", line_color=col_tab[3])
fig.show()

พบว่าหลังการตัด outliers ไปแล้วนั้น plot ไม่มีการกระจายตัวอย่างสุดขีดแล้ว เราจะนำข้อมูลนี้ในการวิเคราะห์ทางสถิติต่อไป

## 2. Probability model: การนำข้อมูลมาสู่โมเดลความน่าจะเป็น

หลังจากได้วิเคราะห์ข้อมูลแล้ว จะนำข้อมูลมาเข้าโมเดลความน่าจะเป็น เพื่อการคาดการณ์ความน่าจะเป็นของข้อมูลที่เป็นไปได้<br><br>
ซึ่งในการวิเคราะห์นี้จะทำ 2 แบบ
1. การนำข้อมูล fit กับการแจกแจงทางสถิติ (DistFit)
    <br>โดยมีขั้นตอนคือ
    1. นำ data ที่ลบ outliers แล้ว เข้า distfit transform เพื่อเข้าไป fit กับการแจกแจงทั้งหมดใน scipy.stats
    2. จากนั้นนำมาทำ ECDF plot และหา error
    3. หาก |error| < 0.5 ก็จะนำการแจกแจงนั้นมาใช้ หากไม่ตรงเงื่อนไข จะใช้วิธี Box-Cox transformation
2. แปลงข้อมูลให้เป็นการแจกแจงปกติด้วย Box-Cox transformation
    <br>โดยมีขั้นตอนคือ
    1. นำ data ที่ลบ outliers แล้ว เข้า Box-Cox transformation เพื่อแปลงเป็นการแจกแจงปกติ
    2. ตรวจสอบ Normality ด้วย Anderson-Darling test
    3. หากทดสอบผ่าน นำข้อมูลมาทำ ECDF plot และหา error
    4. หาก |error| < 0.5 ก็จะนำการแจกแจงปกตินั้นมาใช้ หากไม่ตรงเงื่อนไข จะเทียบ Error กับวิธี DistFit ถ้าอันไหน error น้อยกว่าก็จะเลือกวิธีนั้นมาใช้

ปัญหา 2 ข้อที่ตั้งไว้คือ
1. โอกาสที่ที่ดินในอำเภอเมืองมีราคาประเมินสูงสุดที่ 4,500.-/ตารางวา มีกี่เปอร์เซ็นต์
2. โอกาสที่ที่ดินในจังหวัดนครราชสีมามีราคาประเมินมากกว่า 200.-/2,000.-/20,000.-/200,000.- มีกี่เปอร์เซ็นต์

#### เตรียมฟังก์ชันใช้งาน: ECDF, Box-Cox transformation

สร้าง ECDF function เพื่อแปลงข้อมูลในรูปแบบของ ECDF

In [None]:
def ecdf(data):
    n = len(data)
    xx = np.sort(data)
    yy = np.arange(1,n+1)/n
    return (xx,yy)

เตรียม Box-Cox transformation function โดยจะให้มีการทำ transforming และ normality checking ภายในฟังก์ชันเดียวกัน

In [None]:
def boxcox_test(data, column):
    # Generate Box-Cox transformation of removed-outliers data
    rmo_data = remove_outliers(data, column)[column]
    fit_data, fit_lambda = boxcox(rmo_data)

    # Get parameters of Normal distributed
    mu, sd = np.mean(fit_data), np.std(fit_data)

    # Do Anderson-Darling test to test normality of transformed data
    result = anderson(fit_data, dist = 'norm')
    if(result[1][2] > 0.05):
        text = 'This transformation is normally distributed.'
    else:
        text = 'This transformation is ABSOLUTELY NOT normally distributed.'
    params = [mu, sd]
    result = (text, fit_lambda, params, fit_data)
    return result

def boxcox_value(y, fit_lambda):
    y_transformed = ((y**fit_lambda)-1)/fit_lambda
    return y_transformed

### 2.1 โอกาสที่ที่ดินในอำเภอเมืองมีราคาประเมินสูงสุดที่ 4,500.-/ตารางวา มีกี่เปอร์เซ็นต์

ใช้วิธี Distfist ก่อน และสามารถลองเปรียบเทียบกับวิธี Box-Cox transformation

In [None]:
# Load data
amp_mueang = all_korat_cleaned.loc[all_korat_cleaned['amp_th_name'] == 'เมืองนครราชสีมา']
data = remove_outliers(amp_mueang, 'price_unit_est')

# Goodness-of-fit Test of removed outliers data
dist = distfit(distr = 'full', method = 'parametric', alpha = 0.05)
dist.fit_transform(data['price_unit_est'])

[distfit] >fit..
[distfit] >transform..
[distfit] >[alpha          ] [0.02 sec] [RSS: 3.6965e-07] [loc=-3.716 scale=1289.239]
[distfit] >[anglit         ] [0.01 sec] [RSS: 2.35985e-07] [loc=6461.675 scale=12835.805]
[distfit] >[arcsine        ] [0.03 sec] [RSS: 3.01755e-07] [loc=200.000 scale=16306.517]
[distfit] >[beta           ] [0.05 sec] [RSS: 1.33699e-07] [loc=195.450 scale=22422.265]
[distfit] >[betaprime      ] [0.08 sec] [RSS: 1.34861e-07] [loc=-76.720 scale=54097.326]
[distfit] >[bradford       ] [0.05 sec] [RSS: 1.79652e-07] [loc=200.000 scale=16362.186]
[distfit] >[burr           ] [0.21 sec] [RSS: 1.40378e-07] [loc=-43.509 scale=6476.127]
[distfit] >[cauchy         ] [0.00 sec] [RSS: 1.82935e-07] [loc=3366.382 scale=1896.650]
[distfit] >[chi            ] [0.04 sec] [RSS: 1.37521e-07] [loc=200.000 scale=5735.270]
[distfit] >[chi2           ] [0.05 sec] [RSS: 1.32562e-07] [loc=168.767 scale=1510.407]
[distfit] >[cosine         ] [0.01 sec] [RSS: 2.11582e-07] [loc=5576.228 sc

{'model': {'distr': <scipy.stats._continuous_distns.johnsonsb_gen at 0x1e80f291420>,
  'stats': 'RSS',
  'params': (1.1498226875699602,
   0.8402852964430396,
   33.34458097025545,
   18234.523008373584),
  'name': 'johnsonsb',
  'model': <scipy.stats._distn_infrastructure.rv_continuous_frozen at 0x1e816870340>,
  'score': 1.3159990902285922e-07,
  'loc': 33.34458097025545,
  'scale': 18234.523008373584,
  'arg': (1.1498226875699602, 0.8402852964430396),
  'CII_min_alpha': 665.9806752856495,
  'CII_max_alpha': 11761.129170938464},
 'summary':           distr                                              score  LLE  \
 0     johnsonsb                                                0.0  NaN   
 1        erlang                                                0.0  NaN   
 2         gamma                                                0.0  NaN   
 3      pearson3                                                0.0  NaN   
 4          chi2                                                0.0  NaN

In [None]:
print(dist.model)

{'distr': <scipy.stats._continuous_distns.johnsonsb_gen object at 0x000001E80F291420>, 'stats': 'RSS', 'params': (1.1498226875699602, 0.8402852964430396, 33.34458097025545, 18234.523008373584), 'name': 'johnsonsb', 'model': <scipy.stats._distn_infrastructure.rv_continuous_frozen object at 0x000001E816870340>, 'score': 1.3159990902285922e-07, 'loc': 33.34458097025545, 'scale': 18234.523008373584, 'arg': (1.1498226875699602, 0.8402852964430396), 'CII_min_alpha': 665.9806752856495, 'CII_max_alpha': 11761.129170938464}


In [None]:
# JohnsonSB distribution
a, b, loc, scale = dist.model['params']

หลังจาก fit แล้วพบว่าได้การแจกแจง JohnsonSB โดยการแจกแจงนี้เป็นการแจกแจงแบบเบ้ขวา จากนั้นทำ ECDF plot

In [None]:
# Load การแจกแจงที่ต้องการใช้
from scipy.stats import johnsonsb

# แปลงข้อมูลเป็น ECDF
ECDF = ecdf(data['price_unit_est'])

# ECDF plot
fig = go.Figure()

fig.add_trace(go.Scatter(x = ECDF[0], y = ECDF[1], name = 'ECDF', marker_color = col_tab[0]))
fig.add_trace(go.Scatter(x = ECDF[0], y = johnsonsb.cdf(ECDF[0], a, b, loc, scale), mode = 'lines', name = dist.model['name'].capitalize(), line_color = col_tab[1]))

fig.update_layout(template = 'plotly_dark', title = dict(text = 'ECDF of '+ dist.model['name'].capitalize() + '(a = %.2f, b = %.2f, loc = %.2f, scale =%.2f)' % dist.model['params'],
                    x = 0.5, y = 0.9),
                xaxis_title = 'ราคาประเมินที่ดิน',
                yaxis_title = 'CDF',
                )
fig.update_xaxes(dtick = 500)
fig.update_yaxes(dtick = .1)
fig.show()

In [None]:
error_distfit = abs(sum(ECDF[1] - johnsonsb.cdf(ECDF[0], a, b, loc, scale)))
(error_distfit, error_distfit < 0.5)

(0.28537686270695495, True)

จะพบว่า CDF ของ JohnsonSB และ ECDF ของข้อมูล ค่อนข้างมีแนวโน้มไปทางเดียวกันและสนิทดี (Goodness of fit) และค่า error อยู่ที่ 0.285 จึงใช้การแจกแจงนี้ในการหาคำตอบของโจทย์

In [None]:
prob_distfit = johnsonsb.cdf(4500, a, b, loc = 33.34458097025545, scale = 18234.523008373584)
prob_distfit

0.5807902710640227

ทีนี้ลองนำข้อมูลมาใช้วิธี Box-Cox transformation

In [None]:
result = boxcox_test(amp_mueang, 'price_unit_est')
result

('This transformation is normally distributed.',
 0.2836829679213999,
 [32.826341478371745, 8.51422553597582],
 array([51.64635262, 49.891504  , 49.891504  , ..., 21.49080993,
        21.49080993, 18.11611782]))

In [None]:
mu, sd = result[2][0], result[2][1]


เนื่องจากข้อมูลเป็นการแจกแจงปกติแล้ว ลองสร้าง ECDF plot หา error และค่าความน่าจะเป็น จากนั้นลองเทียบกับวิธี DistFit

In [None]:
# แปลงข้อมูลเป็น ECDF
ECDF = ecdf(result[3])

# ECDF plot
fig = go.Figure()

fig.add_trace(go.Scatter(x = ECDF[0], y = ECDF[1], name = 'ECDF', marker_color = col_tab[0]))
fig.add_trace(go.Scatter(x = ECDF[0], y = norm.cdf(ECDF[0], mu, sd), mode = 'lines', name = dist.model['name'].capitalize(), line_color = col_tab[1]))

fig.update_layout(template = 'plotly_dark', title = dict(text = 'ECDF of '+ dist.model['name'].capitalize() + '(mean = %.2f, sd = %.2f)' % (mu,sd),
                    x = 0.5, y = 0.9),
                xaxis_title = 'ราคาประเมินที่ดิน',
                yaxis_title = 'CDF',
                )
fig.update_xaxes(dtick = 500)
fig.update_yaxes(dtick = .1)
fig.show()

In [None]:
error_bc = abs(sum(ECDF[1] - norm.cdf(ECDF[0], mu, sd)))
(error_bc, error_bc < 0.5)

(0.654007105824234, False)

วิธีของ Box-Cox transformation มีค่า |error| >= 0.5 จึงควรใช้วิธี DistFit

จากวิธี DistFit จะได้ว่า P(ราคาประเมินที่ดิน <= 4500 บาท/ตร.วา) = 0.5808 หรือก็คือมีโอกาสเจอราคาประเมินที่ดินสูงสุด 4,500 บาท/ตารางวา อยู่ที่ 58.08%

### 2.2 โอกาสที่ที่ดินในจังหวัดนครราชสีมามีราคาประเมินมากกว่า 200.-/2,000.-/20,000.-/200,000.- มีกี่เปอร์เซ็นต์

In [None]:
# Load data
data = remove_outliers(all_korat_cleaned, 'price_unit_est')

# Goodness-of-fit Test of removed outliers data
dist = distfit(distr = 'full', method = 'parametric', alpha = 0.05)
dist.fit_transform(data['price_unit_est'])

[distfit] >fit..
[distfit] >transform..
[distfit] >[alpha          ] [0.03 sec] [RSS: 1.25837e-06] [loc=-1.146 scale=401.305]
[distfit] >[anglit         ] [0.01 sec] [RSS: 2.12818e-06] [loc=2798.283 scale=6359.198]
[distfit] >[arcsine        ] [0.04 sec] [RSS: 1.7386e-06] [loc=85.000 scale=7668.896]
[distfit] >[beta           ] [0.15 sec] [RSS: 1.00221e-06] [loc=85.000 scale=8735.298]
[distfit] >[betaprime      ] [0.13 sec] [RSS: 8.93646e-07] [loc=0.341 scale=124.077]
[distfit] >[bradford       ] [0.04 sec] [RSS: 1.68342e-06] [loc=85.000 scale=7665.000]
[distfit] >[burr           ] [0.50 sec] [RSS: 8.31218e-07] [loc=-0.358 scale=1.540]
[distfit] >[cauchy         ] [0.02 sec] [RSS: 1.69983e-06] [loc=918.914 scale=892.060]
[distfit] >[chi            ] [0.13 sec] [RSS: 1.00604e-06] [loc=85.000 scale=3645.423]
[distfit] >[chi2           ] [0.15 sec] [RSS: 9.6536e-07] [loc=85.000 scale=1057.284]
[distfit] >[cosine         ] [0.03 sec] [RSS: 2.07335e-06] [loc=2440.270 scale=1851.132]
[distfi

{'model': {'distr': <scipy.stats._continuous_distns.levy_gen at 0x1e80f2902e0>,
  'stats': 'RSS',
  'params': (71.89671420256133, 408.9815990690789),
  'name': 'levy',
  'model': <scipy.stats._distn_infrastructure.rv_continuous_frozen at 0x1e8168f36a0>,
  'score': 7.188592986505051e-07,
  'loc': 71.89671420256133,
  'scale': 408.9815990690789,
  'arg': (),
  'CII_min_alpha': 178.3618927086734,
  'CII_max_alpha': 104081.8249128546},
 'summary':           distr                                             score  LLE  \
 0          levy                                          0.000001  NaN   
 1   fatiguelife                                          0.000001  NaN   
 2     johnsonsu                                          0.000001  NaN   
 3    genextreme                                          0.000001  NaN   
 4      invgauss                                          0.000001  NaN   
 ..          ...                                               ...  ...   
 75      lognorm            

In [None]:
print(dist.model)

{'distr': <scipy.stats._continuous_distns.levy_gen object at 0x000001E80F2902E0>, 'stats': 'RSS', 'params': (71.89671420256133, 408.9815990690789), 'name': 'levy', 'model': <scipy.stats._distn_infrastructure.rv_continuous_frozen object at 0x000001E8168F36A0>, 'score': 7.188592986505051e-07, 'loc': 71.89671420256133, 'scale': 408.9815990690789, 'arg': (), 'CII_min_alpha': 178.3618927086734, 'CII_max_alpha': 104081.8249128546}


In [None]:
# Levy
loc, scale = dist.model['params']

In [None]:
from scipy.stats import levy
ECDF = ecdf(data['price_unit_est'])

fig = go.Figure()

fig.add_trace(go.Scatter(x = ECDF[0], y = ECDF[1], name = 'ECDF', marker_color = col_tab[0]))
fig.add_trace(go.Scatter(x = ECDF[0], y = levy.cdf(ECDF[0], loc, scale), mode = 'lines', name = dist.model['name'].capitalize(), line_color = col_tab[1]))

fig.update_layout(template = 'plotly_dark', title = dict(text = 'ECDF of '+ dist.model['name'].capitalize() + '(loc = %.2f, scale =%.2f)' % dist.model['params'],
                    x = 0.5, y = 0.9),
                xaxis_title = 'ราคาประเมินที่ดิน',
                yaxis_title = 'CDF',
                )
fig.update_xaxes(dtick = 500)
fig.update_yaxes(dtick = .1)
fig.show()

In [None]:
error_distfit = sum(ECDF[1] - levy.cdf(ECDF[0], loc, scale))
(error_distfit, error_distfit < 0.5)

(58.043274459878084, False)

จะพบว่าวิธี DistFit นั้นไม่สามารถที่จะใช้ได้เนื่องจากค่า |error| >= 0.5 จึงควรลองใช้วิธี Box-Cox transformation

In [None]:
result = boxcox_test(all_korat_cleaned, 'price_unit_est')
result

('This transformation is normally distributed.',
 0.05255117521107342,
 [8.526628288789542, 1.7297643167880536],
 array([6.40595274, 6.40595274, 6.10943203, ..., 7.91761918, 7.34952198,
        9.95399917]))

In [None]:
mu, sd = result[2][0], result[2][1]

เนื่องจากข้อมูลเป็นการแจกแจงปกติแล้ว ลองสร้าง ECDF plot หา error และค่าความน่าจะเป็น 

In [None]:
ECDF = ecdf(result[3])
fig = go.Figure()

fig.add_trace(go.Scatter(x = ECDF[0], y = ECDF[1], name = 'ECDF', marker_color = col_tab[0]))
fig.add_trace(go.Scatter(x = ECDF[0], y = norm.cdf(ECDF[0], mu, sd), mode = 'lines', name = 'Normal', line_color = col_tab[1]))

fig.update_layout(template = 'plotly_dark', title = dict(text = 'ECDF of Normal(mu = %.2f, sd =%.2f)' % (mu,sd),
                    x = 0.5, y = 0.9),
                xaxis_title = 'ราคาประเมินที่ดิน',
                yaxis_title = 'CDF',
                )
fig.update_xaxes(dtick = 500)
fig.update_yaxes(dtick = .1)
fig.show()

In [None]:
error_bc = abs(sum(ECDF[1] - norm.cdf(ECDF[0], mu, sd)))
(error_bc, error_bc < 0.5)

(4.515539078848287, False)

เนื่องจาก |error| >= 0.5 เช่นกัน ดังนั้น ควรลองเปรียบเทียบค่า error กัน เพื่อนำการแจกแจงที่ค่า error น้อยกว่ามาคำนวณความน่าจะเป็น

In [None]:
(error_bc < error_distfit, error_distfit/error_bc)

(True, 12.854118510847288)

จากการลองทดสอบ logic พบว่าค่า error จากวิธี Box-Cox transformation นั้นมีค่าน้อยกว่าวิธี DistFit ประมาณ 13 เท่า จึงควรใช้การแจกแจงปกติที่ได้จากการ transform

ต่อไปหาค่า P(ราคาประเมิน > ราคา) สำหรับ ราคา = 200, 2000, 20000, 200000<br>
โดยก่อนจะนำเข้าสู่การหาความน่าจะเป็น ควรจะนำราคาจากโจทย์ไปแปลงผ่านสมการของ Box-Cox ก่อน

In [None]:
prices = np.array([200,2000,20000,200000])
fit_value = result[1]


prob_bc = [1 - norm.cdf(price, result[2][0], result[2][1]) for price in boxcox_value(prices, fit_value)]
prob_bc

[0.9188553910385031,
 0.31848538474384935,
 0.004915135805830584,
 3.4718837149672055e-07]

พบว่ามีโอกาสเกือบ 92% ที่จะพบราคาประเมินมากกว่าราคา 200 บาท/ตารางวา แต่เมื่อหาราคาประเมินที่มากกว่า 2000 บาท/ตารางวา จะพบว่าลดลงเหลือประมาณ 32% ส่วนกรณีราคาประเมินมากกว่า 20,000 และ 200,000 บาท/ตารางว่า มีโอกาส 0.5% และ <0.0001% ตามลำดับ