In [1]:
import pandas as pd 
import plotly.express as px 
import plotly.graph_objects as go
import plotly.io as pio
import kaleido
DATA_PATH ='../data/insurance.csv'

In [2]:
insurance = pd.read_csv(DATA_PATH)

In [3]:
insurance.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')

## Objective 1 : Descriptive 


1. Apakah rata rata umur perempuan dan laki-laki yang merokok sama?
2. Mana yang lebih tinggi, rata rata tagihan kesehatan perokok atau non merokok?
3. Mana yang lebih tinggi, rata rata tagihan kesehatan perokok yang BMI nya diatas 25 atau non perokok yang BMI nya diatas 25
4. BMI mana yang lebih tinggi, seseorang laki-laki atau perempuan?
5. BMI mana yang lebih tinggi, seseorang perokok atau non perokok?

### 1.1. Apakah rata rata umur perempuan dan laki-laki yang merokok sama?

In [4]:
insurance.sex

0       female
1         male
2         male
3         male
4         male
         ...  
1333      male
1334    female
1335    female
1336    female
1337    female
Name: sex, Length: 1338, dtype: object

In [5]:
male_filter = (insurance['sex']=='male') & (insurance['smoker']=='yes')
female_filter = (insurance['sex']=='female') & (insurance['smoker']=='yes')
male_smoker_age_mean = insurance.loc[male_filter,'age'].mean()
female_smoker_age_mean = insurance.loc[female_filter,'age'].mean()

print(f'''Rata-rata umur perempuan yang merokok  {female_smoker_age_mean} 
          sedangkan laki laki perokok {male_smoker_age_mean}. 
          ''')

Rata-rata umur perempuan yang merokok  38.608695652173914 
          sedangkan laki laki perokok 38.44654088050314. 
          


In [9]:
box_age_smoker = px.box(insurance.loc[(insurance['smoker']=='yes')],y='age',color='sex',template='ggplot2')
box_age_smoker.update_layout(title='Boxplot umur perokok laki laki dan perempuan',height=500,width=500)
box_age_smoker.write_image('../visualization/smoker_age_female_male.png', format='png')

### 1.2. Mana yang lebih tinggi, rata rata tagihan kesehatan perokok atau non merokok?

In [23]:
smoker_filter = (insurance['smoker']=='yes')
nonsmoker_filter = (insurance['smoker']=='no')

smoker_mean_bill = insurance.loc[smoker_filter,'charges'].mean()
nonsmoker_mean_bill = insurance.loc[nonsmoker_filter,'charges'].mean()

print(f'''Rata-rata tagihan perokok  {smoker_mean_bill} 
          sedangkan non perokok {nonsmoker_mean_bill}. 
          ''')

Rata-rata tagihan perokok  32050.23183153284 
          sedangkan non perokok 8434.268297856204. 
          


#### Conclusion 
Rata-rata Tagihan perokok jauh lebih tinggi daripada non perokok

### 1.3.Mana yang lebih tinggi, rata rata tagihan kesehatan perokok yang BMI nya diatas 25 atau non perokok yang BMI nya diatas 25

In [25]:
smoker_filter_bmi = (insurance['smoker']=='yes') & (insurance['bmi']>25)
nonsmoker_filter_bmi = (insurance['smoker']=='no')& (insurance['bmi']>25)

smoker_mean_bill_bmi = insurance.loc[smoker_filter_bmi,'charges'].mean()
nonsmoker_mean_bill_bmi = insurance.loc[nonsmoker_filter_bmi,'charges'].mean()

print(f'''Rata-rata tagihan perokok  dengan BMI diatas 25 : {smoker_mean_bill_bmi} 
          sedangkan non perokok dengan BMI diatas 25 : {nonsmoker_mean_bill_bmi}. 
          ''')

Rata-rata tagihan perokok  dengan BMI diatas 25 : 35116.90965694064 
          sedangkan non perokok dengan BMI diatas 25 : 8629.589609712157. 
          


#### Conclusion 
Rata-rata Tagihan perokok dengan BMI diatas 25  jauh lebih tinggi daripada non perokok dengan BMI diatas 25

### 1.4.BMI mana yang lebih tinggi, seseorang laki-laki atau perempuan?

In [26]:
male_bmi_filter = (insurance['sex']=='male')
female_bmi_filter = (insurance['sex']=='female')

male_bmi_mean = insurance.loc[male_bmi_filter,'bmi'].mean()
female_bmi_mean = insurance.loc[female_bmi_filter,'bmi'].mean()

print(f'''Rata-rata BMI perempuan  : {female_bmi_mean} 
          sedangkan BMI laki-laki : {male_bmi_mean}. 
          ''')

Rata-rata BMI perempuan  : 30.37774924471299 
          sedangkan BMI laki-laki : 30.943128698224854. 
          


#### Conclusion 
Rata-rata BMI Laki-laki lebih tinggi daripada perempuan

### 1.5.BMI mana yang lebih tinggi, seseorang perokok atau non perokok?

In [27]:
smoker_filter = (insurance['smoker']=='yes')
nonsmoker_filter = (insurance['smoker']=='no')

smoker_bmi_mean = insurance.loc[smoker_filter,'bmi'].mean()
nonsmoker_bmi_mean = insurance.loc[nonsmoker_filter,'bmi'].mean()

print(f'''Rata-rata BMI Perokok  : {smoker_bmi_mean} 
          sedangkan BMI Non perokok : {nonsmoker_bmi_mean}. 
          ''')

Rata-rata BMI Perokok  : 30.70844890510949 
          sedangkan BMI Non perokok : 30.651795112781954. 
          


#### Conclusion 
Rata-rata BMI Perokok lebih tinggi dibanding Non Perokok

### 1.c. Berapa rata rata umur pada data tersebut?

### 1.c. Berapa rata rata umur pada data tersebut?

## Objective 2 : Analisa Variabel Kategorik (PMF) 

1. Gender mana yang memiliki tagihan paling tinggi?
2. Distribusi peluang tagihan di tiap-tiap region
3. Apakah setiap region memiliki proporsi data banyak orang yang sama?
4. Mana yang lebih tinggi proporsi perokok atau non perokok?
5. Berapa peluang seseorang tersebut adalah perempuan diketahui dia adalah perokok?
6. Berapa peluang seseorang tersebut adalah laki-laki diketahui dia adalah perokok?
7. Bagaimana bentuk distribusi tagihan dari tiap-tiap region?

## Objective 3 : Analisa Variabel Kontinu (CDF)

1. Mencari peluang besar tagihan berdasarkan BMI
2. Mencari kemungkin terjadi, seorang perokok dengan BMI diatas 25 akan mendapatkan tagihan kesehatan di atas 16.700.
3. Berapa peluang seseorang acak tagihan kesehatannya diatas 16.7k diketahui dia adalah perokok
4. Mana yang lebih mungkin terjadi
    a. Seseorang dengan BMI diatas 25 mendapatkan tagihan kesehatan diatas 16.7k,atau
    b. Seseorang dengan BMI dibawah 25 mendapatkan tagihan kesehatan diatas 16.7k

5. Mana yang lebih mungkin terjadi
    a. Seseorang perokok dengan BMI diatas 25 mendapatkan tagihan kesehatan diatas 16.7k, atau
    b. Seseorang non perokok dengan BMI diatas 25 mendapatkan tagihan kesehatan diatas 16.7k

## Objective 4 : Analisa Korelasi Variabel

## Objective 5 : Hypothesis Testing