# Task

1. Gunakan data titanic dari seaborn
2. Gunakan fillna untuk mengisi missing value pada kolom age dengan mean/median. Kalo misal 'age' berdistribusi normal, gunakan mean age untuk mengisi missing value, jika tidak gunanakan median.
3. Adakah kolom yang sebaiknya didrop karena terlalu banyak missing value? Jika ada drop kolom tersebut.
4. Deskripsikan kolom 'age' untuk setiap 'class'.
5. Adakah pengaruh mereka yang selamat berdasarkan jenis kelamin?
6. Adakah pengaruh 'class' terhadap mereka yang selamat?
7. Adakah perbedaan 'fare' untuk setiap 'class'?
8. Antara male/female, yang mana paling banyak berada di first class?
9. Antara male/female, yang mana paling banyak berpergian sendiri?


# Answer

## 1. Gunakan data titanic dari seaborn

In [2]:
import seaborn as sns
import pandas as pd
import numpy as np
from scipy.stats import normaltest

# 1. Load Titanic dataset
titanic = sns.load_dataset("titanic")

## 2. Gunakan fillna untuk mengisi missing value pada kolom age dengan mean/median. Kalo misal 'age' berdistribusi normal, gunakan mean age untuk mengisi missing value, jika tidak gunanakan median.

In [3]:
# 2. Cek distribusi age
age = titanic['age'].dropna()
stat, p = normaltest(age)

if p > 0.05: 
    fill_value = age.mean()
    method_used = "mean"
else:      
    fill_value = age.median()
    method_used = "median"

# isi missing value age
titanic['age'] = titanic['age'].fillna(fill_value)
print(f"Missing value 'age' diisi dengan {method_used}: {fill_value:.2f}")

Missing value 'age' diisi dengan median: 28.00


## 3. Adakah kolom yang sebaiknya didrop karena terlalu banyak missing value? Jika ada drop kolom tersebut.

In [4]:
missing_ratio = titanic.isnull().mean().reset_index()
missing_ratio

Unnamed: 0,index,0
0,survived,0.0
1,pclass,0.0
2,sex,0.0
3,age,0.0
4,sibsp,0.0
5,parch,0.0
6,fare,0.0
7,embarked,0.002245
8,class,0.0
9,who,0.0


In [5]:
# drop bagian deck
titanic_cleaned = titanic.drop(columns=['deck'])
titanic_cleaned

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,Southampton,yes,True
888,0,3,female,28.0,1,2,23.4500,S,Third,woman,False,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,Cherbourg,yes,True


## 4. Deskripsikan kolom 'age' untuk setiap 'class'.

In [6]:
titanic_cleaned.groupby('class', observed=False)['age'].median().reset_index()

Unnamed: 0,class,age
0,First,35.0
1,Second,28.0
2,Third,28.0


## 5. Pengaruh mereka yang selamat berdasarkan jenis kelamin

In [7]:
titanic_cleaned.groupby('sex', as_index=False)['survived'].mean()

Unnamed: 0,sex,survived
0,female,0.742038
1,male,0.188908


## 6. Pengaruh 'class' terhadap mereka yang selamat

In [8]:
titanic_cleaned.groupby('class', observed=False, as_index=False)['survived'].mean()

Unnamed: 0,class,survived
0,First,0.62963
1,Second,0.472826
2,Third,0.242363


## 7. Perbedaan fare untuk setiap class

In [9]:
titanic_cleaned.groupby('class', observed=False)['fare'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
First,216.0,84.154687,78.380373,0.0,30.92395,60.2875,93.5,512.3292
Second,184.0,20.662183,13.417399,0.0,13.0,14.25,26.0,73.5
Third,491.0,13.67555,11.778142,0.0,7.75,8.05,15.5,69.55


## 8. Gender terbanyak di fist class

In [10]:
titanic_cleaned[titanic_cleaned['class'] == 'First']['sex'].value_counts().reset_index()

Unnamed: 0,sex,count
0,male,122
1,female,94


## 9. Gender terbanyak yang berpergian sendiri

In [11]:
titanic_cleaned[(titanic_cleaned['sibsp'] == 0) & (titanic_cleaned['parch'] == 0)]['sex'].value_counts().reset_index()

Unnamed: 0,sex,count
0,male,411
1,female,126


# Data visualization (basic)

## Histogram
- Histogram adalah representasi grafis dari distribusi data numerik. Ini membagi rentang data menjadi interval (atau "bin") dan menghitung berapa banyak nilai yang jatuh ke dalam setiap interval tersebut. Histogram membantu kita memahami pola distribusi data, seperti apakah data terdistribusi secara normal, miring ke kiri atau kanan, atau memiliki beberapa puncak (multimodal).
- Contoh penggunaan histogram adalah untuk melihat distribusi usia penumpang di dataset Titanic. Dengan histogram, kita dapat melihat rentang usia yang paling umum di antara penumpang dan apakah ada kelompok usia tertentu yang lebih banyak atau lebih sedikit.
---
Hindari menggunakan histogram untuk data kategorikal, karena histogram dirancang untuk data numerik. Untuk data kategorikal, lebih baik menggunakan diagram batang (bar chart) atau diagram lingkaran (pie chart) untuk menampilkan frekuensi atau proporsi kategori.

In [21]:
## Contoh penggunaan histogram
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Load data sales_data.csv
sales_data = pd.read_csv('sales_data.csv')
sales_data.head()


Unnamed: 0,order_id,order_date,product_category,brand,price,quantity,region,customer_age,payment_method,customer_rating,total_sales
0,ORD10000,2025-05-13 10:16:33.883392,Printer,Brother,1603.26,4,East,57,E-Wallet,5,6413.04
1,ORD10001,2023-11-20 10:16:33.883392,Camera,Logitech,407.7,4,East,53,E-Wallet,1,2446.2
2,ORD10002,2023-08-23 10:16:33.883392,Tablet,HP,1570.4,2,South,67,Credit Card,1,3140.8
3,ORD10003,2024-05-05 10:16:33.883392,Monitor,Garmin,1213.86,4,West,60,Credit Card,1,5826.53
4,ORD10004,2024-04-04 10:16:33.883392,Monitor,LG,919.37,2,South,54,Credit Card,3,1838.74


# **TASK DESCRIPTIVE**
1. Di Region Mana Printer dan Camera paling banyak di order?
2. Payment Method apa yang paling banyak digunakan?
3. Buat 1 kolom baru, yang merupakan harga dasar (total sales/quantity). Beri nama `base_price`
4. Bagaimana sebaran data base price? apakah terdapat outliers di dalam nya?
5. Deskripsikan `base_price` per masing masing `product_category`. Tampilkan 1 angka yang memberikan deskripsi dari sales per category.