# Pengujian Hipotesis

Langkah terakhir, kita cari apakah ada bukti statistik yang cukup terhadap klaim atau hipotesis
tentang tagihan kesehatan. Anda wajib mengecek 3 hipotesis tentang karakter populasi dari
data. Hipotesis yang wajib uji adalah
1. Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non perokok
2. Tagihan kesehatan dengan BMI diatas 25 lebih tinggi daripada tagihan kesehatan dengan BMI dibawah 25

Satu hipotesis lain, anda bisa pilih salah satu hipotesis dibawah ini, atau anda dapat membuat
hipotesis lainnya
1. BMI laki-laki dan perempuan sama
2. Tagihan kesehatan laki-laki lebih besar dari perempuan
3. Proporsi perokok berbeda di tiap region

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from statsmodels.stats.weightstats import ztest as ztest
from scipy import stats

In [3]:
def load_data_insurance():
    data_insurance = pd.read_csv("insurance.csv")
    data_insurance = data_insurance.assign(bmi_category=pd.cut(data_insurance['bmi'], 
                               bins=[0, 25, 60], 
                               labels=['normal', 'over']))
    data_insurance = data_insurance.assign(charges_category=pd.cut(data_insurance['charges'], 
                               bins=[0, 16_700, 65_000], 
                               labels=['normal', 'high']))
    return data_insurance

In [4]:
data_insurance = load_data_insurance()
data_smoker = data_insurance.query('smoker=="yes"')
data_non_smoker = data_insurance.query('smoker=="no"')

data_bmi_over = data_insurance.query('bmi_category=="over"')
data_bmi_normal = data_insurance.query('bmi_category=="normal"')

data_female = data_insurance.query('sex=="female"')
data_male = data_insurance.query('sex=="male"')

In [5]:
# 1. Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non perokok

ztest(data_smoker['charges'], data_non_smoker['charges'], value=0, alternative='larger')

(46.66492117272371, 0.0)

In [6]:
# 2. Tagihan kesehatan dengan BMI diatas 25 lebih tinggi daripada tagihan kesehatan dengan BMI dibawah 25

ztest(data_bmi_over['charges'], data_bmi_normal['charges'], value=0, alternative='larger')

(4.319946909530397, 7.803337139644701e-06)

In [7]:
# 3. BMI laki-laki dan perempuan sama

ztest(data_male['bmi'], data_female['bmi'], value=0, alternative='two-sided')

(1.6967526357522242, 0.08974343679943912)

In [8]:
# 4. Tagihan kesehatan laki-laki lebih besar dari perempuan

ztest(data_male['charges'], data_female['charges'], value=0, alternative='larger')

(2.097546590051688, 0.017972608708410026)