# **Exploratory Data Analyst BMI**
---
pada bagian ini kita akan membuat analisis untuk menemukan insight dan menjadikan nya sebagai informasi dari data yang kita miliki 
> Portofolio Machine Learning 

## **1.Data Wrangling**
---
pada bagian ini kita akan melakukan pembersihan dan pengecekan pada datasheet yang kita miliki


### **1.1 import library dan load datasheet**

In [2]:
# import library yang digunakan 
import numpy as np                  # library untuk komputasi numerik dengan library numpy 
import pandas as pd                 # library untuk pengolahan datafarme 
import matplotlib.pyplot as plt     # library untuk visualisasi data 
import seaborn as sns               # library untuk visualisasi data 

# load datasheet yang akan digunakan
df = pd.read_csv('../Data/bmi.csv')

# tampilkan isi dari datasheet 
print(df)

     Gender  Height  Weight  Index
0      Male     174      96      4
1      Male     189      87      2
2    Female     185     110      4
3    Female     195     104      3
4      Male     149      61      3
..      ...     ...     ...    ...
495  Female     150     153      5
496  Female     184     121      4
497  Female     141     136      5
498    Male     150      95      5
499    Male     173     131      5

[500 rows x 4 columns]


<b>Insight :</b>
<p>sekrang kita telah berhasil menambahkan datahsheet dan menampilkan 5 data teratas dan terakhir</p>

### **1.2 melihat informasi dari datasheet yang kita gunakan**
---
<p>tahap selanjutnya kita akan melihat informasi dari datasheet untuk mengetahui jumlah kolom dan baris</p>

In [3]:
print(f'jumlah baris dari datasheet yang kita punya berjumlah : {df.shape[0] } baris')
print(f'jumlah kolom dari datasheet yang kita punya berjumlah : {df.shape[1]} kolom')

jumlah baris dari datasheet yang kita punya berjumlah : 500 baris
jumlah kolom dari datasheet yang kita punya berjumlah : 4 kolom


<b>Insight : </b>
<ul>
    <li>ternyata jumlah baris kita berjumlah 500 data, meskipun sedikit kita akan mencoba mengoptimalkan data tersebut untuk membuat model yang efesien</li>
    <li>kita memiliki 4 kolom fitur data yang bisa kita gunakan untuk analisis lebih lanjut</li>
</ul>

### **1.3 Mengecek duplikasi dan missing value dari datasheet yang kita punya**
---
selanjutnya kita akan melakukan pengecekan apakah ada data yang mengalami missing value atau duplikasi 

In [4]:
# mengecek duplikasi dan missing value dengan menggunakan pandas 
print(f'jumlah duplikasi : {df.duplicated().sum()} data')

jumlah duplikasi : 11 data


<b>Insight :</b>
<p>ternyata dari datahsheet kita ada 11 data yang mengalami duplikasi, tetapi karena jumlah data kita yang hanya berjumlah sedikit sekitar 500 data, kita tidak akan menghapus duplikasi tersebut akan tetapi kita akan memilih model yang tahan terhadap duplikasi</p>

sekarang kita akan melakukan pengecekan apakah terdapat data yang mengalami missing value atau bernilai null

In [5]:
duplicate_rows = df[df.duplicated()]
print(duplicate_rows)

     Gender  Height  Weight  Index
187  Female     182      84      3
310    Male     171     147      5
327  Female     167      85      4
355    Male     174      90      3
365    Male     141      80      5
381    Male     191      62      1
382    Male     177     117      4
395  Female     164      71      3
400  Female     195     104      3
462    Male     179      56      1
482  Female     142      86      5


## **2.Exploratory Data Analyst**
---
selanjutnya kita akan melakukan analisis lebih lanjut dengan melakukan pendekatan EDA untuk mendapatkan insight yang kemudian hari bisa dijadikan sebagai informasi yang berharga

### **2.1 Merubah Kategorisasi Data**
---
pada tahap ini kita akan melakukan preprocessing untuk fitur Index danan melakukan kategorisasi ke beberapa label kelas

In [6]:
# buat fungsi kategorisasi untuk merubah fitur status menjadi beberapa kategori 
def convert_status_to_description(x):
    if x['Index'] == 0:
        return 'Extremely Weak'
    elif x['Index'] == 1:
        return 'Weak'
    elif x['Index'] == 2:
        return 'Normal'
    elif x['Index'] == 3:
        return 'Overweight'
    elif x['Index'] == 4:
        return 'Obesity'
    elif x['Index'] == 5:
        return 'Extreame Obesity'

# copy datasheet dari variable df ke variabel data dengan tujuan memisahkan data raw dengan data analisis
data = df.copy()

# konversi fitur index dan buat tabel status untuk menyimpan hasil konversi 
data['Status'] = data.apply(convert_status_to_description, axis=1)

# tampilkan hasil konversi 
print(data)

     Gender  Height  Weight  Index            Status
0      Male     174      96      4           Obesity
1      Male     189      87      2            Normal
2    Female     185     110      4           Obesity
3    Female     195     104      3        Overweight
4      Male     149      61      3        Overweight
..      ...     ...     ...    ...               ...
495  Female     150     153      5  Extreame Obesity
496  Female     184     121      4           Obesity
497  Female     141     136      5  Extreame Obesity
498    Male     150      95      5  Extreame Obesity
499    Male     173     131      5  Extreame Obesity

[500 rows x 5 columns]


<b>Insight : </b>
<p>sekarang kita memiliki kolom status dari hasil konversi dari datasheet raw yang kiat miliki</p>

#### **2.1.1 Mengkonversi Fitur Gender ke Tipe Data Numerik**
---
sekarang kita akan mengkonversi fitur gender dari datasheet data ke tipe data numerik agar bisa dilakukan analisis dan pembuatan visualisasi

In [7]:
# melakukan konversi tipe data untuk gender dari object ke numerik dan menambahkan kolom baru dengan nama gender label 
def convert_gender_to_label(x):
    if x['Gender'] == 'Male':
        return 1
    if x['Gender'] == 'Female':
        return 0

data['gen_lbl'] = data.apply(convert_gender_to_label, axis=1)
print(data.head())

   Gender  Height  Weight  Index      Status  gen_lbl
0    Male     174      96      4     Obesity        1
1    Male     189      87      2      Normal        1
2  Female     185     110      4     Obesity        0
3  Female     195     104      3  Overweight        0
4    Male     149      61      3  Overweight        1


<b>Insight:</b>
<p>proses binning dilakukan untuk membuat kategorisasi agar lebih mudah untuk dilakukan analisis dan pembuatan model machine learning. pada analisis ini kita membuat kategori pada kolom index dan gender</p>

### **2.2 Melakukan Group By dan Aggregasi Nilai Max dan Min dari fitur Height, Weight**
---
<p>setelah proses kategori telah selesai selanjutnya kita akan membuat analisis groupby untuk mencari aggregasi dari nilai maksimal dan minimal untuk fitur tinggi badan dan berat badan</p>

In [15]:
# melakukan aggregasi untuk mencari nilai max dan min dari kolom tabel tinggi badan
df_agg = pd.pivot_table(data = data, index='Gender', columns='Status', values='Height').round(2)
print(df_agg)

Status  Extreame Obesity  Extremely Weak  Normal  Obesity  Overweight    Weak
Gender                                                                       
Female            161.57          186.57  171.68   174.34      176.94  184.14
Male              160.46          188.67  178.04   173.32      174.91  185.07
