<div style="text-align: center;">
    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1280px-Pandas_logo.svg.png" alt="Pandas Logo" width="500">
    <p style="font-size: 50px; font-weight: bold;">Pengenalan Pandas</p>
    <p style="font-size: 50px; font-weight: normal;">Intern BCC 2025</p>
</div>

Thanks to [EvanLaksanaWP's GitHub](https://github.com/EvanLaksanaWP) for providing the base reference for this notebook, which has been adapted and expanded upon for this material.


# **Pandas 🐼**  

**Pandas** adalah library Python yang digunakan untuk **manipulasi dan analisis data**.  
Library ini menyediakan struktur data yang fleksibel dan kaya fitur untuk mengolah **data tabular**, seperti file **CSV, Excel, atau database SQL**.  

### **🔹 Kenapa Menggunakan Pandas?**
- **Mudah dalam manipulasi data** → Bisa menyaring, mengubah, dan membersihkan data dengan cepat.  
- **Struktur data yang kuat** → Mendukung operasi berbasis tabel seperti di spreadsheet.  
- **Fungsi statistik bawaan** → Memudahkan analisis data tanpa perlu banyak perhitungan manual.  
- **Terintegrasi dengan library lain** → Dapat digunakan bersama NumPy, Matplotlib, dan Scikit-Learn untuk analisis data lebih lanjut.  

### **🔹 Struktur Data Utama dalam Pandas**
1. **Series** → Struktur data satu dimensi (mirip dengan daftar atau array).  
2. **DataFrame** → Struktur data dua dimensi (mirip dengan tabel Excel atau database).  

## Import Pandas


In [14]:
# !pip install pandas

In [15]:
import pandas as pd

## Read CSV

Pandas dapat membaca file dengan format file csv ataupun excel lalu dikonversi ke tipe data DataFrame.


In [16]:
# Download dataset ke dalam direktori lokal, tanpa dikonversi ke DataFrame

!wget https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

--2025-02-18 11:19:52--  https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 60302 (59K) [text/plain]
Saving to: ‘titanic.csv.1’


2025-02-18 11:19:52 (1.79 MB/s) - ‘titanic.csv.1’ saved [60302/60302]



In [17]:
# Mengambil dari file path lokal
data = pd.read_csv("./titanic.csv")

# Mengambil dari GitHub
data = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

# Mengambil dari Google Drive ( https://drive.google.com/file/d/10Lsr1MvgORJl_XOv8LfrKXW9Hy-FcbOr/view)
id = "10Lsr1MvgORJl_XOv8LfrKXW9Hy-FcbOr"
data_ = pd.read_csv("https://drive.google.com/uc?id=" + id, delimiter='\t')

print(type(data))

<class 'pandas.core.frame.DataFrame'>


## DataFrame

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" alt="Pandas Logo" width="500">

## **Apa itu DataFrame?**

DataFrame adalah struktur data dalam Pandas yang berbentuk seperti tabel, mirip dengan tabel di Excel atau database. DataFrame terdiri dari **baris** dan **kolom**, sehingga mudah digunakan untuk menyimpan dan mengolah data.

### **Komponen dalam DataFrame:**
1. **Data** → Nilai-nilai yang tersimpan dalam tabel, bisa berupa angka, teks, atau tipe data lainnya.
2. **Index** → Label unik untuk setiap baris, digunakan untuk mengidentifikasi baris dalam DataFrame.
3. **Column Names** → Nama-nama kolom yang berfungsi sebagai label untuk setiap kategori data.
4. **Data Types** → Tipe data yang digunakan dalam setiap kolom, seperti `int` (bilangan bulat), `float` (bilangan desimal), atau `object` (teks).

In [18]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### **Membuat DataFrame Secara Manual**

Kita bisa membuat DataFrame secara manual menggunakan struktur data **Dictionary** di Python.

- **Key** → Berfungsi sebagai nama kolom dalam DataFrame (harus berupa string).
- **Value** → Berisi data dalam bentuk **list**, yang akan menjadi isi dari kolom tersebut.
- **Index** → Secara default, Pandas akan memberikan label indeks mulai dari 0 hingga n (jumlah baris - 1).

*we'll start with minecraft :D*

<img src='https://media.tenor.com/729u0YBE2NcAAAAm/minecraft-minecraft-memes.webp' alt='Steevee' width='200'>

In [19]:
dict_data = {
    'Name': ['Steve', 'Alex', 'Herobrine', 'Villager'],
    'Role': ['Adventurer', 'Explorer', 'Mystic', 'Trader'],
    'Biome': ['Plains', 'Jungle', 'Nether', 'Village'],
    'Health': [20, 20, 40, 10]
}

manual_df = pd.DataFrame(dict_data)
manual_df


Unnamed: 0,Name,Role,Biome,Health
0,Steve,Adventurer,Plains,20
1,Alex,Explorer,Jungle,20
2,Herobrine,Mystic,Nether,40
3,Villager,Trader,Village,10


### **Mengubah Label Kolom dan Indeks pada DataFrame**  

Kadang, nama kolom dalam DataFrame perlu diperjelas agar lebih mudah dipahami. 🤔 Misalnya, **"Name"** bisa diganti menjadi **"Character"**, dan **"Health"** lebih jelas jika disebut **"HP (Health Points)"!** 

<img src="https://minecraft.wiki/images/Shaking_hearts.gif?11774" alt="Health Points" width="200">



In [20]:
# Mengubah label kolom pada DataFrame
manual_df.rename(columns={'Name': 'Character', 'Role': 'Occupation', 'Biome': 'Environment', 'Health': 'HP'}, inplace=True)

# Mengubah label indeks/baris pada DataFrame
manual_df.rename(index={2: 'Mystic Entity'}, inplace=True)

# Menampilkan DataFrame yang telah diperbarui
manual_df

Unnamed: 0,Character,Occupation,Environment,HP
0,Steve,Adventurer,Plains,20
1,Alex,Explorer,Jungle,20
Mystic Entity,Herobrine,Mystic,Nether,40
3,Villager,Trader,Village,10


### **Menambahkan Kolom Baru pada DataFrame**  

Saat melihat karakter di dunia Minecraft, kita bisa mengkategorikan mereka berdasarkan perilaku mereka. 🤔 Tapi, bagaimana cara menambah informasi ini ke dalam DataFrame kita?  

Jawabannya: **menambahkan kolom baru!** 🎯  

Kita akan membuat kolom **"Status"** untuk menunjukkan apakah karakter tersebut **bersahabat (Passive), netral (Neutral), atau berbahaya (Hostile).**  

In [21]:
# Menambah kolom 'Status' pada manual_df
manual_df['Status'] = ['Hostile', 'Neutral', 'Hostile', 'Passive']

# Menampilkan DataFrame yang telah diperbarui
manual_df

Unnamed: 0,Character,Occupation,Environment,HP,Status
0,Steve,Adventurer,Plains,20,Hostile
1,Alex,Explorer,Jungle,20,Neutral
Mystic Entity,Herobrine,Mystic,Nether,40,Hostile
3,Villager,Trader,Village,10,Passive


In [22]:
print(len(manual_df))

4


#### **Menambah Baris Baru pada DataFrame**

Sekarang, kita akan menambahkan baris baru ke dalam DataFrame! 🤔 Tapi... kenapa kita menggunakan `len(manual_df)` sebagai indeksnya?

In [23]:
# Menambah Baris baru pada manual_df
manual_df.loc[len(manual_df)] = ['NPC', 'Normies', 'Village', 10, 'Extremely Normal']
manual_df

Unnamed: 0,Character,Occupation,Environment,HP,Status
0,Steve,Adventurer,Plains,20,Hostile
1,Alex,Explorer,Jungle,20,Neutral
Mystic Entity,Herobrine,Mystic,Nether,40,Hostile
3,Villager,Trader,Village,10,Passive
4,NPC,Normies,Village,10,Extremely Normal


In [24]:
manual_df['Copy Character'] = manual_df['Character']
manual_df

Unnamed: 0,Character,Occupation,Environment,HP,Status,Copy Character
0,Steve,Adventurer,Plains,20,Hostile,Steve
1,Alex,Explorer,Jungle,20,Neutral,Alex
Mystic Entity,Herobrine,Mystic,Nether,40,Hostile,Herobrine
3,Villager,Trader,Village,10,Passive,Villager
4,NPC,Normies,Village,10,Extremely Normal,NPC


## **Series dalam Pandas**

Series dalam Pandas adalah struktur data satu dimensi yang mirip dengan **array** atau **kolom dalam tabel**.  
Series dapat menyimpan berbagai tipe data, seperti **integer, float, string, atau objek Python**.  

Perbedaan utama antara **Series** dan **array biasa** adalah bahwa setiap elemen dalam Series memiliki **index** yang menyertainya. 🔢✨  

### **Komponen dalam Series:**
1. **Data** → Nilai-nilai yang tersimpan dalam Series, bisa berupa angka, teks, atau tipe data lainnya.
2. **Index** → Label unik untuk setiap elemen dalam Series.  
   Secara default, indeks dimulai dari **0 hingga n** (jumlah elemen - 1).  

In [25]:
# Mengambil Series dari kolom Age pada Dataframe data
hp_series = manual_df["HP"]

print("Tipe data:", type(hp_series))

hp_series

Tipe data: <class 'pandas.core.series.Series'>


0                20
1                20
Mystic Entity    40
3                10
4                10
Name: HP, dtype: int64

### **Membuat Series Secara Manual**  

Untuk memahami lebih lanjut, kita bisa membuat **Series** secara manual menggunakan **List** di Python.  

Series yang dibuat dari **List** akan secara otomatis memiliki **indeks numerik** yang dimulai dari **0 hingga n** (jumlah elemen - 1).  

In [26]:
list_data = ['Steve', 'Alex', 'Herobrine', 'Villager']
manual_series = pd.Series(list_data)

manual_series

0        Steve
1         Alex
2    Herobrine
3     Villager
dtype: object

## Data Exploration Using Pandas


### **Menampilkan Baris Teratas dengan `head()`**  

Dalam analisis data, sering kali kita ingin melihat **cuplikan awal** dari DataFrame untuk memahami struktur dan isinya.  
Pandas menyediakan metode `.head(n)`, yang digunakan untuk menampilkan **n baris pertama** dari DataFrame.  

nilai default n = 5 

In [27]:
data.head(20)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


### Tail

### **Menampilkan Baris Terbawah dengan `tail()`**  

Saat bekerja dengan data, kita tidak hanya perlu melihat bagian awalnya, tetapi juga **baris-baris terakhir** untuk memahami struktur data secara keseluruhan.  
Pandas menyediakan metode `.tail(n)`, yang digunakan untuk menampilkan **n baris terakhir** dari DataFrame.  

nilai default n = 5


In [28]:
data.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [29]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### **Mengetahui Dimensi Data dengan `shape`**  

Saat bekerja dengan data, penting untuk mengetahui **berapa banyak baris dan kolom** yang ada dalam DataFrame.  
Pandas menyediakan atribut `.shape`, yang mengembalikan **_tuple_ (n, m)**, di mana:  

- **n** → Jumlah baris dalam DataFrame.  
- **m** → Jumlah kolom dalam DataFrame.  

In [30]:
data.shape

(891, 12)

### **Menampilkan Informasi Detail Data dengan `info()`**  

Dalam analisis data, kita perlu memahami struktur dataset yang kita gunakan.  
Pandas menyediakan metode `.info()`, yang memberikan **ringkasan detail** tentang setiap **kolom** dalam DataFrame.  

#### **🔹 Apa Saja yang Ditampilkan oleh `.info()`?**  
- **Jumlah total baris dan kolom** dalam DataFrame.  
- **Nama setiap kolom** dan jumlah nilai yang tidak kosong (**non-null values**).  
- **Tipe data** dari setiap kolom (misalnya: `int64`, `float64`, `object` untuk teks).  
- **Penggunaan memori** dari DataFrame.  

In [31]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### **Mendapatkan Ringkasan Statistik dengan `describe()`**  

Saat menganalisis data, kita sering ingin melihat **ringkasan statistik** untuk memahami distribusi dan karakteristik data numerik.  
Pandas menyediakan metode `.describe()`, yang memberikan **statistik deskriptif** untuk semua kolom numerik dalam DataFrame.  

#### **🔹 Apa Saja yang Ditampilkan oleh `.describe()`?**  
- **count** → Jumlah total baris yang memiliki nilai (bukan NaN).  
- **mean** → Nilai rata-rata dari kolom numerik.  
- **std** → **Standar deviasi**, mengukur seberapa tersebar datanya.  
- **min** → Nilai terkecil dalam kolom.  
- **25%** → **Kuartil pertama (Q1)** atau presentil bawah (25% data lebih kecil dari ini).  
- **50%** → **Median (Q2)** atau nilai tengah dalam dataset.  
- **75%** → **Kuartil ketiga (Q3)** atau presentil atas (75% data lebih kecil dari ini).  
- **max** → Nilai terbesar dalam kolom.  

In [32]:
# Menggunakan Describe
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [33]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [34]:
# Perkolom satu-persatu 
print("Modus Pclass Orang yang Selamat: ", data['Pclass'].median())
print("Jumlah Keseluruhan Penumpang:", data['PassengerId'].count())

Modus Pclass Orang yang Selamat:  3.0
Jumlah Keseluruhan Penumpang: 891


### **Melihat Nilai Unik dalam Kolom dengan `unique()`**  

Metode `.unique()` digunakan untuk melihat **daftar nilai unik** dalam suatu kolom pada DataFrame.  
Ini berguna untuk memahami variasi data dalam kategori tertentu.  

In [35]:
data["Sex"].unique()

array(['male', 'female'], dtype=object)

### **Melihat Jumlah Nilai Unik dalam Kolom dengan `nunique()`**  

Metode `.nunique()` digunakan untuk mengetahui **berapa banyak nilai unik** yang terdapat dalam suatu kolom.  
Ini berguna untuk memahami keragaman data dalam kategori tertentu. 

In [36]:
data["Sex"].nunique()

2

### **Melihat Jumlah Data untuk Setiap Nilai Unik dengan `value_counts()`**  

Dalam analisis data, kita sering ingin mengetahui **berapa kali setiap nilai unik muncul** dalam suatu kolom.  
Pandas menyediakan metode `.value_counts()`, yang menghitung frekuensi kemunculan setiap kategori dalam suatu kolom.  

In [37]:
data["Sex"].value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

### **Seleksi Data dalam DataFrame**  

Untuk mengambil nilai dari baris atau kolom tertentu, kita bisa menggunakan **seleksi data**.  

#### **Seleksi Data dengan `[]` (Indexing Sederhana)**  

Cara paling sederhana untuk mengambil data dari suatu kolom adalah dengan menggunakan **bracket notation** `[ ]`.  
Namun, metode ini hanya bisa digunakan untuk **mengakses kolom**, bukan baris tertentu.  

In [38]:
# Mengambil semua data pada sebuah kolom tertentu dalam bentuk DataFrame
data["Sex"]

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

In [39]:
# Mengambil semua data pada sebuah kolom tertentu dalam bentuk Series
data["Survived"]

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

In [40]:
# Mengambil semua data pada kolom tertentu
data[["Name", "Sex", "Age"]]

Unnamed: 0,Name,Sex,Age
0,"Braund, Mr. Owen Harris",male,22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0
...,...,...,...
886,"Montvila, Rev. Juozas",male,27.0
887,"Graham, Miss. Margaret Edith",female,19.0
888,"Johnston, Miss. Catherine Helen ""Carrie""",female,
889,"Behr, Mr. Karl Howell",male,26.0


### **Seleksi Data dengan `loc`**  

Metode `.loc[]` digunakan untuk mengambil data berdasarkan **label** baris dan kolom.  
Dengan ini, kita bisa memilih **baris tertentu**, **kolom tertentu**, atau keduanya sekaligus.  

In [41]:
# Mengambil baris index 0 hingga 5 pada semua kolom
data.loc[0:5]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


In [42]:
# Mengambil semua baris pada kolom tertentu
data.loc[:, ["Name", "Cabin"]]

Unnamed: 0,Name,Cabin
0,"Braund, Mr. Owen Harris",
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",C85
2,"Heikkinen, Miss. Laina",
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",C123
4,"Allen, Mr. William Henry",
...,...,...
886,"Montvila, Rev. Juozas",
887,"Graham, Miss. Margaret Edith",B42
888,"Johnston, Miss. Catherine Helen ""Carrie""",
889,"Behr, Mr. Karl Howell",C148


In [43]:
# Mengambil range index baris ternetu pada kolom tertentu menggunakan list
data.loc[887:891, ["Name", "Age"]]

Unnamed: 0,Name,Age
887,"Graham, Miss. Margaret Edith",19.0
888,"Johnston, Miss. Catherine Helen ""Carrie""",
889,"Behr, Mr. Karl Howell",26.0
890,"Dooley, Mr. Patrick",32.0


In [44]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [45]:
# Mengambil range index baris ternetu pada range kolom tertentu
data.loc[0:5, "Name":"Age"]

Unnamed: 0,Name,Sex,Age
0,"Braund, Mr. Owen Harris",male,22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0
5,"Moran, Mr. James",male,


In [46]:
# Mengambil baris index tertentu dan pada kolom tertentu menggunakan list
data.loc[[1, 5, 881, 886], ['Name', 'Age']]

Unnamed: 0,Name,Age
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0
5,"Moran, Mr. James",
881,"Markun, Mr. Johann",33.0
886,"Montvila, Rev. Juozas",27.0


### **Seleksi Data dengan `iloc`**  

Metode `.iloc[]` digunakan untuk mengambil data berdasarkan **posisi indeks integer** dalam DataFrame.  
Cara penggunaannya mirip dengan `.loc[]`, tetapi menggunakan **angka** sebagai referensi baris dan kolom.  

In [47]:
# Mengambil range baris tertentu pada range kolom tertentu
data.iloc[1:5, 0:4]

Unnamed: 0,PassengerId,Survived,Pclass,Name
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,3,1,3,"Heikkinen, Miss. Laina"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,5,0,3,"Allen, Mr. William Henry"


In [48]:
# Mengambil semua baris pada kolom tertentu
data.iloc[:, [0, 5]]

Unnamed: 0,PassengerId,Age
0,1,22.0
1,2,38.0
2,3,26.0
3,4,35.0
4,5,35.0
...,...,...
886,887,27.0
887,888,19.0
888,889,
889,890,26.0


#### Perbedaan `.loc[]` vs `.iloc[]` di Pandas

| **Fitur**           | **.loc[]**                                | **.iloc[]**                        |
|---------------------|--------------------------------------|----------------------------------|
| **Berdasarkan**     | Label indeks (bisa angka atau string) | Posisi indeks (hanya angka)     |
| **Batas atas slicing** | **Inklusif** (batas atas termasuk) | **Eksklusif** (batas atas tidak termasuk) |
| **Bisa pakai string?** | ✅ Bisa | ❌ Tidak bisa |
| **Bisa pakai angka?** | ✅ Bisa (jika label indeks angka) | ✅ Bisa (karena posisi selalu angka) |


#### **Seleksi Data dengan Index Boolean**  

Kita bisa menggunakan `.loc[]` atau `[]` untuk melakukan **Boolean Indexing**, yaitu menyeleksi data berdasarkan kondisi tertentu.  

In [49]:
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [50]:
data['Age'] < 5

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [51]:
data[(data['Sex'] == 'male')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [52]:
# Mengembalikan hasil operasi boolean dalam bentuk struktur data 1 dimensi
filter_umur_balita = data["Age"] < 5
filter_umur_balita

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [53]:
# Mengembalikan baris data yang bernilai True atau memenuhi kondisi kolom Age < 5 (Balita)
data[filter_umur_balita]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
43,44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.0,1,2,SC/Paris 2123,41.5792,,C
63,64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9,,S
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
119,120,0,3,"Andersson, Miss. Ellis Anna Maria",female,2.0,4,2,347082,31.275,,S
164,165,0,3,"Panula, Master. Eino Viljami",male,1.0,4,1,3101295,39.6875,,S
171,172,0,3,"Rice, Master. Arthur",male,4.0,4,1,382652,29.125,,Q
172,173,1,3,"Johnson, Miss. Eleanor Ileen",female,1.0,1,1,347742,11.1333,,S


In [54]:
# Menampilkan baris data dengan Age < 5 dan Survived == 0
filter_balita = data["Age"] < 5
filter_meninggoy = data["Survived"] == 0

data[filter_balita & filter_meninggoy]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
63,64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9,,S
119,120,0,3,"Andersson, Miss. Ellis Anna Maria",female,2.0,4,2,347082,31.275,,S
164,165,0,3,"Panula, Master. Eino Viljami",male,1.0,4,1,3101295,39.6875,,S
171,172,0,3,"Rice, Master. Arthur",male,4.0,4,1,382652,29.125,,Q
205,206,0,3,"Strom, Miss. Telma Matilda",female,2.0,0,1,347054,10.4625,G6,S
297,298,0,1,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
374,375,0,3,"Palsson, Miss. Stina Viola",female,3.0,3,1,349909,21.075,,S
386,387,0,3,"Goodwin, Master. Sidney Leonard",male,1.0,5,2,CA 2144,46.9,,S


In [55]:
data[(data["Age"] < 5) & (data["Survived"] == 0)].shape[0]

13

In [56]:
# Menampilkan baris data dengan Age < 5 atau Survived == 0
data[(data["Age"] < 5) | (data["Survived"] == 0)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S


## **Pandas untuk Data Cleaning**  

### **Menangani Nilai Kosong dalam Data**  

Saat bekerja dengan data, sering kali kita menemukan nilai yang **kosong (NaN/Null)**.  
Untuk mendeteksi nilai kosong, kita bisa menggunakan metode `.isna()`.  


In [57]:
data.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [58]:
data.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [59]:
# sum() akan menampilkan banyak null tiap kolom
null_per_column = data.isna().sum()
null_per_column

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### **Membersihkan Nilai Kosong dalam Data**  

Jika dataset mengandung nilai **kosong (NaN/Null)**, kita bisa membersihkannya menggunakan Pandas.  
Terdapat dua cara utama: **menghapus** atau **mengisi nilai kosong**.  

In [60]:
data.dropna(inplace=True)
data.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

In [61]:
data.fillna(0, inplace=True)
data.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

### **Menangani Data Duplikat**  

Terkadang, dataset mengandung **baris yang terduplikasi**, yang bisa mempengaruhi hasil analisis.  
Kita bisa menggunakan `.duplicated()` untuk mendeteksi baris yang muncul lebih dari satu kali.  

In [62]:
data.duplicated().sum()

0

### **Membersihkan Data Duplikat**  

Setelah mendeteksi data duplikat, kita bisa menghapusnya menggunakan `.drop_duplicates()`.

In [63]:
data.drop_duplicates(inplace=True)
data.duplicated().sum()

0

### **Menghapus Baris & Kolom dalam DataFrame**  

Kita bisa menghapus baris atau kolom yang tidak diperlukan dalam DataFrame menggunakan `.drop()`.  

In [64]:
copy_data = data.copy()
copy_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


#### **🔹 Parameter Utama:**  
1. **labels** → Label baris atau kolom yang ingin dihapus.  
   - Bisa berupa **satu label** atau **daftar label**.  
   - Jika menggunakan **tuple**, akan dianggap sebagai satu label, bukan daftar.  

2. **axis** → Menentukan apakah yang akan dihapus adalah **baris atau kolom**.  
   - `0` atau `'index'` → Menghapus **baris** berdasarkan label.  
   - `1` atau `'columns'` → Menghapus **kolom** berdasarkan label.  

3. **index** → Alternatif untuk menentukan baris yang dihapus.  
   - `data.drop(index=labels)` sama dengan `data.drop(labels, axis=0)`.  

4. **columns** → Alternatif untuk menentukan kolom yang dihapus.  
   - `data.drop(columns=labels)` sama dengan `data.drop(labels, axis=1)`.  


In [65]:
# Menghapus kolom Name, Sex, Age, SibSp
copy_data.drop(labels=['Name', 'Sex'], axis=1, inplace=True)
copy_data = copy_data.drop(columns=['Age', 'SibSp'])


# Menghapus baris 2 dan 4
copy_data.drop(labels=[6, 10], axis=0, inplace=True)
copy_data.drop(index=[1, 3], inplace=True)
copy_data

Unnamed: 0,PassengerId,Survived,Pclass,Parch,Ticket,Fare,Cabin,Embarked
11,12,1,1,0,113783,26.5500,C103,S
21,22,1,2,0,248698,13.0000,D56,S
23,24,1,1,0,113788,35.5000,A6,S
27,28,0,1,2,19950,263.0000,C23 C25 C27,S
52,53,1,1,0,PC 17572,76.7292,D33,C
...,...,...,...,...,...,...,...,...
871,872,1,1,1,11751,52.5542,D35,S
872,873,0,1,0,695,5.0000,B51 B53 B55,S
879,880,1,1,1,11767,83.1583,C50,C
887,888,1,1,0,112053,30.0000,B42,S


## Materi Tambahan 
<img src="https://media.tenor.com/5z0XqvkpFEkAAAAm/betterbedricj.webp" alt="Health Points" width="200">




In [66]:
import pandas as pd

# Data tentang penjualan item dalam dunia Minecraft dengan harga berbeda tergantung Biome
data_minecraft_sales = {
    'Item': ["Diamond", "Emerald", "Golden Apple", "Iron Ingot", "Netherite Scrap", 
             "Diamond", "Emerald", "Golden Apple", "Iron Ingot", "Golden Apple"],
    'Biome': ["Plains", "Desert", "Forest", "Mountains", "Nether", 
              "Forest", "Plains", "Desert", "Mountains", "Forest"],
    'Sales (Stacks)': [120, 200, 150, 300, 50, 120, 200, 150, 300, 150],  # Beberapa nilai sama
    'Revenue (Emeralds)': [2500, 3800, 2100, 1600, 5000, 2300, 4000, 2200, 1700, 2400]  # Harga tergantung biome
}

# Membuat DataFrame
minecraft_sales_df = pd.DataFrame(data_minecraft_sales)

### **Mengurutkan Data dengan `sort_values()`**  

Kita bisa mengurutkan DataFrame berdasarkan nilai dalam suatu kolom menggunakan `.sort_values()`.  
Metode ini berguna untuk melihat **peringkat tertinggi atau terendah** dalam dataset.  

In [67]:
# Mengurutkan DataFrame berdasarkan pendapatan (Revenue) dalam Emeralds, dari yang tertinggi ke terendah
minecraft_sales_df.sort_values(by="Revenue (Emeralds)", ascending=False)

Unnamed: 0,Item,Biome,Sales (Stacks),Revenue (Emeralds)
4,Netherite Scrap,Nether,50,5000
6,Emerald,Plains,200,4000
1,Emerald,Desert,200,3800
0,Diamond,Plains,120,2500
9,Golden Apple,Forest,150,2400
5,Diamond,Forest,120,2300
7,Golden Apple,Desert,150,2200
2,Golden Apple,Forest,150,2100
8,Iron Ingot,Mountains,300,1700
3,Iron Ingot,Mountains,300,1600


In [68]:
# Mengurutkan DataFrame berdasarkan penjualan (Sales Stacks) secara ascending 
# dan pendapatan (Revenue Emeralds) secara descending
minecraft_sales_df.sort_values(by=["Sales (Stacks)", "Revenue (Emeralds)"], ascending=[True, False])

Unnamed: 0,Item,Biome,Sales (Stacks),Revenue (Emeralds)
4,Netherite Scrap,Nether,50,5000
0,Diamond,Plains,120,2500
5,Diamond,Forest,120,2300
9,Golden Apple,Forest,150,2400
7,Golden Apple,Desert,150,2200
2,Golden Apple,Forest,150,2100
6,Emerald,Plains,200,4000
1,Emerald,Desert,200,3800
8,Iron Ingot,Mountains,300,1700
3,Iron Ingot,Mountains,300,1600


### **GroupBy & Aggregation**  

#### **📌 Apa Itu `GroupBy`?**  
`GroupBy` adalah operasi yang memungkinkan kita untuk **mengelompokkan data** berdasarkan satu atau lebih kolom.  
Ini sangat berguna untuk melihat pola dalam dataset dengan cara mengorganisir data dalam kelompok tertentu.  

#### **📌 Apa Itu Aggregation?**  
Aggregation adalah proses **meringkas data** dengan menghitung statistik tertentu dari setiap kelompok hasil `GroupBy`.  
Contoh fungsi agregasi yang umum digunakan:  
- **`sum()`** → Menjumlahkan nilai dalam kelompok.  
- **`mean()`** → Menghitung rata-rata dalam kelompok.  
- **`count()`** → Menghitung jumlah elemen dalam kelompok.  
- **`max()` / `min()`** → Mencari nilai maksimum atau minimum dalam kelompok.  

#### GroupBy Single Columns


In [69]:
minecraft_sales_df

Unnamed: 0,Item,Biome,Sales (Stacks),Revenue (Emeralds)
0,Diamond,Plains,120,2500
1,Emerald,Desert,200,3800
2,Golden Apple,Forest,150,2100
3,Iron Ingot,Mountains,300,1600
4,Netherite Scrap,Nether,50,5000
5,Diamond,Forest,120,2300
6,Emerald,Plains,200,4000
7,Golden Apple,Desert,150,2200
8,Iron Ingot,Mountains,300,1700
9,Golden Apple,Forest,150,2400


In [70]:
# GroupBy berdasarkan kolom 'Item'
grouped_by_item = minecraft_sales_df.groupby('Item')

# Melakukan agregasi: jumlah total Sales (Stacks) dan rata-rata Revenue (Emeralds) per item
aggregated = grouped_by_item.agg({
    'Sales (Stacks)': 'sum',  # Menjumlahkan total penjualan per item
    'Revenue (Emeralds)': 'mean'  # Menghitung rata-rata pendapatan per item
})

# Membatasi hasil ke 2 angka di belakang koma
# aggregated = aggregated.round(2)

# Menampilkan hasil agregasi
print(aggregated)


                 Sales (Stacks)  Revenue (Emeralds)
Item                                               
Diamond                     240         2400.000000
Emerald                     400         3900.000000
Golden Apple                450         2233.333333
Iron Ingot                  600         1650.000000
Netherite Scrap              50         5000.000000


#### GroupBy Double Columns


In [71]:
minecraft_sales_df

Unnamed: 0,Item,Biome,Sales (Stacks),Revenue (Emeralds)
0,Diamond,Plains,120,2500
1,Emerald,Desert,200,3800
2,Golden Apple,Forest,150,2100
3,Iron Ingot,Mountains,300,1600
4,Netherite Scrap,Nether,50,5000
5,Diamond,Forest,120,2300
6,Emerald,Plains,200,4000
7,Golden Apple,Desert,150,2200
8,Iron Ingot,Mountains,300,1700
9,Golden Apple,Forest,150,2400


In [72]:
# GroupBy berdasarkan kolom 'Item' dan 'Biome'
grouped_by_item_biome = minecraft_sales_df.groupby(['Item', 'Biome'])

# Melakukan agregasi: total, rata-rata, median, min, dan max dari penjualan (Sales Stacks)
aggregated = grouped_by_item_biome.agg({
    'Sales (Stacks)': ['sum', 'mean', 'median', 'min', 'max'],
})

# Menampilkan hasil agregasi
print(aggregated)


                          Sales (Stacks)                        
                                     sum   mean median  min  max
Item            Biome                                           
Diamond         Forest               120  120.0  120.0  120  120
                Plains               120  120.0  120.0  120  120
Emerald         Desert               200  200.0  200.0  200  200
                Plains               200  200.0  200.0  200  200
Golden Apple    Desert               150  150.0  150.0  150  150
                Forest               300  150.0  150.0  150  150
Iron Ingot      Mountains            600  300.0  300.0  300  300
Netherite Scrap Nether                50   50.0   50.0   50   50


### **Menggunakan `.apply()` dalam Pandas**  

Metode **`.apply()`** memungkinkan kita untuk menerapkan **fungsi kustom** (_user-defined function_) pada setiap baris atau kolom dalam DataFrame.  
Ini berguna untuk melakukan operasi yang lebih kompleks daripada metode bawaan Pandas seperti `.sum()` atau `.mean()`.  


In [73]:
minecraft_sales_df

Unnamed: 0,Item,Biome,Sales (Stacks),Revenue (Emeralds)
0,Diamond,Plains,120,2500
1,Emerald,Desert,200,3800
2,Golden Apple,Forest,150,2100
3,Iron Ingot,Mountains,300,1600
4,Netherite Scrap,Nether,50,5000
5,Diamond,Forest,120,2300
6,Emerald,Plains,200,4000
7,Golden Apple,Desert,150,2200
8,Iron Ingot,Mountains,300,1700
9,Golden Apple,Forest,150,2400


In [None]:
def categorize_sales(sales):
    if sales > 200:
        return "High"
    elif sales > 100:
        return "Medium"
    else:
        return "Low"

minecraft_sales_df["Sales Category"] = minecraft_sales_df["Sales (Stacks)"].apply(categorize_sales)

In [None]:
# Apply pada beberapa kolom (Sales Stacks dan Revenue Emeralds)
def calculate_total_value(row):
    return row['Sales (Stacks)'] * row['Revenue (Emeralds)']

# Menambahkan kolom baru 'Total Value' yang menghitung total pendapatan dari setiap transaksi
minecraft_sales_df['Total Value'] = minecraft_sales_df.apply(calculate_total_value, axis=1)

# Menampilkan DataFrame yang telah diperbarui
minecraft_sales_df

Unnamed: 0,Item,Biome,Sales (Stacks),Revenue (Emeralds),Sales Category,Total Value
0,Diamond,Plains,120,2500,Medium,300000
1,Emerald,Desert,200,3800,Medium,760000
2,Golden Apple,Forest,150,2100,Medium,315000
3,Iron Ingot,Mountains,300,1600,High,480000
4,Netherite Scrap,Nether,50,5000,Low,250000
5,Diamond,Forest,120,2300,Medium,276000
6,Emerald,Plains,200,4000,Medium,800000
7,Golden Apple,Desert,150,2200,Medium,330000
8,Iron Ingot,Mountains,300,1700,High,510000
9,Golden Apple,Forest,150,2400,Medium,360000


### **Menyimpan DataFrame ke File (`Saving DataFrame`)**  

Setelah mengolah data, kita bisa menyimpannya kembali dalam berbagai format seperti **CSV, Excel, atau JSON**.  
Hal ini memungkinkan kita untuk menggunakan data yang telah diproses di aplikasi lain atau untuk analisis lebih lanjut.  

In [76]:
minecraft_sales_df.to_csv("minecraft_sales.csv", index=False)

# Menytimpan DataFrame ke dalam format Excel
# minecraft_sales_df.to_excel("minecraft_sales.xlsx", index=False)

# Saatnya QnA Guys 🤝🏻

<img src="https://media.tenor.com/ayjJMkutts4AAAAm/sheep-minecraft.webp" alt="Health Points" width="200">
