In [1]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
import pandas as pd
import numpy as np
import scipy.stats as stats

In [4]:
data = pd.read_csv('insurance.csv')

# Analisis Statistik pada Data Asuransi Kesehatan

## Pendahuluan

Asuransi kesehatan merupakan sebuah bisnis pengelolaan risiko yang berkaitan dengan kesehatan nasabahnya. Di mana potensi-potensi risiko yang akan dihadapi oleh perusahaan asuransi terkait dengan bergabungnya nasabah harus diperhatikan dan dikelola dengan baik. Penentuan premi yang harus dibayarkan nasabah merupakan tantangan tersendiri bagi perusahaan asuransi, kerena harus memperhitungkan potensi-potensi risiko yang akan dihadapi di masa depan.

Pada riset kecil ini penulis mencoba menganalisis faktor-faktor yang memiliki hubungan dengan tagihan kesehatan yang diterima oleh setiap nasabah. Data yang dianalisis merupakan data personal nasabah, seperti: umur, jenis kelamin, BMI, jumlah anak tertanggung asuransi, merokok atau tidak merokoknya nasabah, dan wilayah tempat tinggal nasabah.

## Analisis Deskriptif

Data yang akan digunakan dalam analisis ini adalah sebagai berikut:

In [5]:
data.head(10)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
7,37,female,27.74,3,no,northwest,7281.5056
8,37,male,29.83,2,no,northeast,6406.4107
9,60,female,25.84,0,no,northwest,28923.13692


 Data yang akan digunakan sebanyak 1.338 baris data, dengan variabel yang digunakan adalah sebagai berikut:
-	Age : usia pengguna
-	Sex : jenis kelamin pengguna
-	BMI : nilai Body Mass Index pengguna
-	Children : jumlah anak yang ditanggung oleh asuransi
-	Smoker : apakah pengguna merokok atau tidak merokok
-	Region : wilayah tempat tinggal pengguna
-	Charge : tagihan pengguna

Sebelum menganalisis lebih jauh, kita akan menjawab beberapa pertanyaan berikut untuk mengetahui lebih dalam data yang kita gunakan:
1.	Rata-rata umur penguna
2.	Rata-rata nilai BMI pengguna yang merokok
3.	Rata-rata usia pengguna yang merokok
4.	Mana yang lebih tinggi, rata rata tagihan kesehatan perokok atau non merokok?
5.	BMI mana yang lebih tinggi, seseorang perokok atau non perokok?

##### 1. Rata-rata umur pengguna

In [6]:
print('Rata-rata umur: ', data['age'].mean())
print('Usia terkecil: ', data['age'].min())
print('Usia terbesar: ', data['age'].max())

Rata-rata umur:  39.20702541106129
Usia terkecil:  18
Usia terbesar:  64


Rata-rata umur pengguna adalah 39,21 tahun dengan pengguna usia termuda adalah 18 tahun dan nasabah usia tertua adalah 64 tahun.

##### 2. Rata-rata nilai BMI pengguna yang merokok

In [7]:
data[data['smoker']=='yes']['bmi'].mean()

30.708448905109503

Rata-rata nilai BMI pengguna yang merokok adalah 30,71 tahun

##### 3. Rata-rata usia pengguna yang merokok

In [8]:
print('Rata-rata umur: ', data[data['smoker']=='yes']['age'].mean())
print('Usia terkecil: ', data[data['smoker']=='yes']['age'].min())
print('Usia terbesar: ',data[data['smoker']=='yes']['age'].max())

Rata-rata umur:  38.51459854014598
Usia terkecil:  18
Usia terbesar:  64


Rata-rata usia pengguna yang merokok adalah 38,52 tahun, dengan usia termuda adalah 18 tahun dan usia tertua adalah 64 tahun.

##### 4. Mana yang lebih tinggi, rata-rata tagihan kesehatan perokok atau non perokok?

In [9]:
data.groupby('smoker', axis=0).mean()[['bmi','charges']]

Unnamed: 0_level_0,bmi,charges
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1
no,30.651795,8434.268298
yes,30.708449,32050.231832


Dari tabel di atas menunjukkan bahwa bahwa rata-rata tagihan kesehatan perokok lebih tinggi dari rata-rata tagihan non perokok, masing-masing sebesar USD 32.050,23 dan USD 8.434,27

##### 5.	BMI mana yang lebih tinggi, seseorang perokok atau non perokok?

Pada tabel pada pertanyaan 4 di atas terlihat bahwa nilai BMI perokok juga lebih tinggi dari pada nilai BMI non perokok, masing-masing sebesar 30,71 dan 30,65.

## Analisis Variabel Kategorik

Pada bagian ini kita menganalisis variabel-variabel kategorik untuk melihat peluang kondisi tertentu yang berpeluang menyebabkan besarnya tagihan. Pada bagian ini kita akan menjawab beberapa pertanyaan sebagai berikut:
1.	Gender mana yang memiliki tagihan paling tinggi?
2.	Distribusi peluang tagihan di tiap-tiap wilayah
3.	Apakah setiap wilayah memiliki proporsi data banyak orang yang sama?
4.	Mana yang lebih tinggi proporsi perokok atau non perokok?
5.	Berapa peluang seseorang tersebut adalah perempuan diketahui dia adalah perokok?

##### 1.	Gender mana yang memiliki tagihan paling tinggi?

In [10]:
data.groupby('sex', axis=0)[['charges']].aggregate(['mean', 'max'])

Unnamed: 0_level_0,charges,charges
Unnamed: 0_level_1,mean,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2
female,12569.578844,63770.42801
male,13956.751178,62592.87309


Pada tabel di atas menunjukkan bahwa pengguna laki-laki memiliki rata-rata biaya lebih tinggi dari pengguna perempuan. Namun, pengguna perempuan memiliki nilai maksimum klaim lebih tinggi dari pengguna laki-laki.

##### 2.	Distribusi peluang tagihan di tiap-tiap wilayah

In [11]:
df = data.groupby('region', axis=0)['age'].aggregate(['count'])
df['peluang'] = df.transform(lambda x: x/x.sum())
df

Unnamed: 0_level_0,count,peluang
region,Unnamed: 1_level_1,Unnamed: 2_level_1
northeast,324,0.242152
northwest,325,0.2429
southeast,364,0.272048
southwest,325,0.2429


Pada tabel di atas menunjukkan bahwa Southeast memiliki peluang lebih tinggi dari pada wilayah lain, yaitu: 0,27 di mana peluang tagihan di wilayah lain masing-masing relatif sama, yaitu sebesar 0,24.

##### 3.	Apakah setiap wilayah memiliki proporsi data banyak orang yang sama?

Masing-masing wilayah memiliki proporsi data jumlah orang yang berbeda, Southeast merupakan wilayah dengan jumlah data tertinggi, yaitu: 364 data dan Northeast adalah wilayah dengan proporsi jumlah data terkecil, yaitu: 324 data.

##### 4.	Mana yang lebih tinggi proporsi perokok atau non perokok?

In [12]:
df = data.groupby('smoker', axis=0)['age'].aggregate(['count'])
df['proporsi'] = df.transform(lambda x: x/x.sum())
df

Unnamed: 0_level_0,count,proporsi
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1
no,1064,0.795217
yes,274,0.204783


Pada tabel di atas menunjukkan bahwa non perokok memiliki proporsi lebih tinggi dari perokok.

##### 5.	Berapa peluang seseorang tersebut adalah perempuan diketahui dia adalah perokok?

In [13]:
df = data[data['smoker']=='yes'].groupby('sex', axis=0)['age'].aggregate(['count'])
df['peluang'] = df.transform(lambda x: x/x.sum())
df

Unnamed: 0_level_0,count,peluang
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,115,0.419708
male,159,0.580292


Pada di atas, menunjukkan bahwa peluang seseorang adalah perempuan jika diketahui dia adalah perokok adalah sebesar 0,42.

## Kesimpulan Analisis Variabel Kategorik

Dari analisis variabel kategorik di atas kita dapat mengambil kesimpulan bahwa laki-laki memiliki rata-rata biaya tagihan terbesar dibanding perempuan. Kita juga menemukan fakta mengejutkan bahwa proporsi pengguna non perokok lebih besar dari pengguna merokok yaitu sebesar 0,8. Hal ini disebabkan kemungkinan adanya skrining awal pada waktu pembelian produk asuransi di mana perokok yang ingin membeli produk asuransi kesehatan teriliminasi pada waktu skrining awal. 

## Analisa Variabel Kontinu

Pada bagian ini kita menganalisis variabel-variabel kontinu untuk melihat variabel kontinu yang berpeluang menyebabkan besarnya tagihan. Pada bagian ini kita akan menjawab beberapa pertanyaan sebagai berikut:
1.	Mana yang lebih mungkin terjadi
- Seseorang dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7k, atau
- Seseorang dengan BMI di bawah 25 mendapatkan tagihan kesehatan di atas 16.7k
2.	Mana yang lebih mungkin terjadi
- Seseorang perokok dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7k, atau
- Seseorang non perokok dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7k

##### 1.	Mana yang lebih mungkin terjadi
###### - Seseorang dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7k, atau
###### - Seseorang dengan BMI di bawah 25 mendapatkan tagihan kesehatan di atas 16.7k


In [14]:
## BMI di atas 25
df = data[data['bmi']>25]
df['charges_group'] = df['charges'].transform(lambda x : '>16.7K' if x > 16700 else '<=16.7K')
df = df.groupby('charges_group', axis=0)['age'].aggregate(['count'])
df['peluang'] = df.transform(lambda x: x/x.sum())
df

Unnamed: 0_level_0,count,peluang
charges_group,Unnamed: 1_level_1,Unnamed: 2_level_1
<=16.7K,808,0.740605
>16.7K,283,0.259395


In [15]:
## BMI di bawah 25
df = data[data['bmi']<=25]
df['charges_group'] = df['charges'].transform(lambda x : '>16.7K' if x > 16700 else '<=16.7K')
df = df.groupby('charges_group', axis=0)['age'].aggregate(['count'])
df['peluang'] = df.transform(lambda x: x/x.sum())
df

Unnamed: 0_level_0,count,peluang
charges_group,Unnamed: 1_level_1,Unnamed: 2_level_1
<=16.7K,196,0.793522
>16.7K,51,0.206478


Peluang seseorang dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7K adalah: 0,26. Peluang seseorang dengan BMI di bawah 25 mendapatkan tagihan kesehatan di atas 16.7K adalah: 0,21. Sehingga dapat dikatakan bahwa seseorang yang memiliki BMI di atas 25 lebih berpeluang mendapatkan tagihan di atas 16.7K dibandingkan dengan seseorang yang memiliki BMI di bawah 25.

##### 2.	Mana yang lebih mungkin terjadi
###### - Seseorang perokok dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7k, atau
###### - Seseorang non perokok dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7k

In [16]:
## Perokok dengan BMI di atas 25
df = data[(data['bmi']>25) & (data['smoker']=='yes')]
df['charges_group'] = df['charges'].transform(lambda x : '>16.7K' if x > 16700 else '<=16.7K')
df = df.groupby('charges_group', axis=0)['age'].aggregate(['count'])
df['peluang'] = df.transform(lambda x: x/x.sum())
df

Unnamed: 0_level_0,count,peluang
charges_group,Unnamed: 1_level_1,Unnamed: 2_level_1
<=16.7K,4,0.018265
>16.7K,215,0.981735


Peluang seorang perokok dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7K adalah: 0,98. Peluang seorang non perokok dengan BMI di atas 25 mendapatkan tagihan kesehatan di atas 16.7K adalah: 0,02. Sehingga dapat dikatakan bahwa seorang perokok yang memiliki BMI di atas 25 lebih berpeluang mendapatkan tagihan di atas 16.7K dibandingkan dengan seorang non perokok yang memiliki BMI di atas 25.

## Kesimpulan Analisis Variabel Kontinu

Dari analisis di atas dapat disimpulkan bahwa seseorang yang memiliki BMI di atas 25 (berat badan berlebih) berpeluang akan mendapatkan tagihan kesehatan yang besar (di atas 16.7K). Risiko ini semakin besar terjadi pada perokok yang memiliki BMI di atas 25. Sehingga pihak asuransi harus menaruh perhatian lebih kepada nasabah  atau calon nasabah perokok yang memiliki BMI di atas 25.

## Analisis Korelasi Variabel

Analisis korelasi dilakukan untuk menggambarkan hubungan linear antara 2 (dua) variabel. Hubungan tersebut dikuantifikasi oleh koefisien korelasi yang menggambarkan kekuatan hubungan antara variabel dan arah hubungan.

In [17]:
data[['age','bmi','children','charges']].corr()

Unnamed: 0,age,bmi,children,charges
age,1.0,0.109272,0.042469,0.299008
bmi,0.109272,1.0,0.012759,0.198341
children,0.042469,0.012759,1.0,0.067998
charges,0.299008,0.198341,0.067998,1.0


Pada tabel di atas menunjukkan korelasi antara variabel charges dengan variabel age, bmi, dan children. Dari tabel di atas dapat diambil kesimpulan sebagai berikut:
-	Variabel age memiliki korelasi lemah dan positif terhadap variabel charges
-	Variabel bmi memiliki korelasi lemah dan positif terhadap variabel charges
-	Variabel children memiliki korelasi lemah dan positif terhadap variabel charges

## Pengujian Hipotesis

Pada bagian ini kita akan melakukan pengujian hipotesis untuk melihat apakah terdapat bukti statistik yang cukup terhadap hipotesa tentang tagihan kesehatan. Hipotesa yang akan kita uji adalah:
1. Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non perokok
2. Tagihan kesehatan dengan BMI di atas 25 lebih tinggi daripada tagihan kesehatan dengan BMI di bawah 25
3. Tagihan kesehatan laki-laki lebih besar dari perempuan

##### 1. Tagihan kesehatan perokok lebih tinggi daripada tagihan kesehatan non perokok

In [18]:
alpha = 0.05
H0 = "Tagihan kesehatan perokok dan non perokok adalah sama"
H1 = "Tagihan kesehatan perokok lebih tinggi dari non perokok"

stat, p = stats.ttest_ind(data[data['smoker']=='yes']['charges'], data[data['smoker']=='no']['charges'])
print('Statistik: ', stat)
print('p-value: ', p)

Statistik:  46.66492117272371
p-value:  8.271435842179102e-283


In [19]:
# Pengambilan keputusan
if p>alpha:
    print("HO diterima, yaitu: ", H0)
else:
    print("H0 ditolak H1 diterima, yaitu: ", H1)

H0 ditolak H1 diterima, yaitu:  Tagihan kesehatan perokok lebih tinggi dari non perokok


Dari uji hipotesa di atas disimpulkan bahwa secara statistik, tagihan kesehatan perokok lebih tinggi dari tagihan kesehatan non perokok.

##### 2. Tagihan kesehatan dengan BMI di atas 25 lebih tinggi daripada tagihan kesehatan dengan BMI di bawah 25

In [20]:
H0 = "Tagihan kesehatan dengan BMI di atas 25 dan tagihan kesehatan dengan BMI di bawah 25 adalah sama"
H1 = "Tagihan kesehatan dengan BMI di atas 25 lebih tinggi daripada tagihan kesehatan dengan BMI di bawah 25"

stat, p = stats.ttest_ind(data[data['bmi']>25]['charges'], data[data['bmi']<=25]['charges'])
print('Statistik: ', stat)
print('p-value: ', p)

Statistik:  4.319946909530397
p-value:  1.6761321969419405e-05


In [21]:
# Pengambilan keputusan
if p>alpha:
    print("HO diterima, yaitu: ", H0)
else:
    print("H0 ditolak H1 diterima, yaitu: ", H1)

H0 ditolak H1 diterima, yaitu:  Tagihan kesehatan dengan BMI di atas 25 lebih tinggi daripada tagihan kesehatan dengan BMI di bawah 25


Dari uji hipotesa di atas disimpulkan bahwa secara statistik, tagihan kesehatan dengan BMI di atas 25 lebih tinggi daripada tagihan kesehatan dengan BMI di bawah 25.

##### 3. Tagihan kesehatan laki-laki lebih besar dari perempuan

In [22]:
H0 = "Tagihan kesehatan laki-laki dan perempuan adalah sama"
H1 = "Tagihan kesehatan laki-laki lebih besar dari tagihan kesehatan perempuan"

stat, p = stats.ttest_ind(data[data['sex']=='male']['charges'], data[data['sex']=='female']['charges'])
print('Statistik: ', stat)
print('p-value: ', p)

Statistik:  2.097546590051688
p-value:  0.03613272100592976


In [23]:
if p>alpha:
    print("HO diterima, yaitu: ", H0)
else:
    print("H0 ditolak H1 diterima, yaitu: ", H1)

H0 ditolak H1 diterima, yaitu:  Tagihan kesehatan laki-laki lebih besar dari tagihan kesehatan perempuan


Dari uji hipotesa di atas disimpulkan bahwa secara statistik, tagihan kesehatan laki-laki lebih besar dari tagihan kesehatan perempuan.

## Penelitian yang Akan Datang

Pada mini riset ini masih sangat sederhana, hanya dilakukan analisa korelasi dan uji hipotesa dengan t-test. Untuk menguji pengaruh variabel-variabel terhadap tagihan kesehatan dapat dilakukan analisa regresi sehingga diperoleh kesimpulan variabel-variabel yang berperan sebab-akibat terhadap variabel tagihan kesehatan.