# Tutorial Pandas: Filtering Data

Selamat datang di tutorial Pandas untuk Filtering Data! Dalam tutorial ini, kita akan mempelajari berbagai teknik untuk melakukan filtering data menggunakan library Pandas di Python.

## Daftar Isi:
1. Pengenalan dan Persiapan Data
2. Metode Filtering Dasar
   - Operator Perbandingan
   - Operator Logika (AND, OR, NOT)
3. Filtering Lanjutan
   - Filtering dengan String Methods
   - Filtering dengan isin()
   - Filtering dengan isna() dan notna()
4. Studi Kasus: Analisis Data Penjualan
5. Latihan dan Tugas

Mari kita mulai!

In [22]:
# Import library yang diperlukan
import pandas as pd
import numpy as np

# Membuat data sampel penjualan
np.random.seed(42)
data = {
    'Produk': ['Laptop', 'Smartphone', 'Tablet', 'Headphone', 'Mouse', 
               'Keyboard', 'Monitor', 'Printer', 'Speaker', 'Charger'],
    'Kategori': ['Elektronik', 'Gadget', 'Gadget', 'Aksesoris', 'Aksesoris',
                 'Aksesoris', 'Elektronik', 'Elektronik', 'Aksesoris', 'Aksesoris'],
    'Harga': np.random.randint(500000, 15000000, 10),
    'Stok': np.random.randint(0, 50, 10),
    'Rating': np.random.uniform(3.5, 5.0, 10).round(1),
    'Terjual': np.random.randint(10, 200, 10)
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Tampilkan DataFrame
print("Data Penjualan Toko Elektronik:")
print("-" * 50)
print(df)

Data Penjualan Toko Elektronik:
--------------------------------------------------
       Produk    Kategori     Harga  Stok  Rating  Terjual
0      Laptop  Elektronik   6923388    35     3.5       24
1  Smartphone      Gadget   7050634    39     5.0      199
2      Tablet      Gadget  10581351    23     4.4      199
3   Headphone   Aksesoris   4804572     2     4.4      184
4       Mouse   Aksesoris  13815092    21     3.5      199
5    Keyboard   Aksesoris   2734489     1     3.5       60
6     Monitor  Elektronik  10458614    23     4.3      117
7     Printer  Elektronik  10024682    43     4.1       64
8     Speaker   Aksesoris  12933495    29     3.6       73
9     Charger   Aksesoris   7704212    37     5.0      140


## 1. Metode Filtering Dasar

### A. Operator Perbandingan
Pandas mendukung semua operator perbandingan standar:
- `>` (lebih besar dari)
- `<` (kurang dari)
- `>=` (lebih besar atau sama dengan)
- `<=` (kurang dari atau sama dengan)
- `==` (sama dengan)
- `!=` (tidak sama dengan)

Mari kita lihat beberapa contoh penggunaan operator perbandingan:

In [24]:
# 1. Mencari produk dengan harga di atas 10 juta
print("Produk dengan harga > 10 juta:")
print(df[df['Harga'] > 10000000])
print("\n" + "-"*50 + "\n")

# 2. Mencari produk dengan stok sedikit (kurang dari 5)
print("Produk dengan stok < 5:")
print(df[df['Stok'] < 5])
print("\n" + "-"*50 + "\n")

# 3. Mencari produk dengan rating sempurna (5.0)
print("Produk dengan rating sempurna:")
print(df[df['Rating'] == 5.0])

Produk dengan harga > 10 juta:
    Produk    Kategori     Harga  Stok  Rating  Terjual
2   Tablet      Gadget  10581351    23     4.4      199
4    Mouse   Aksesoris  13815092    21     3.5      199
6  Monitor  Elektronik  10458614    23     4.3      117
7  Printer  Elektronik  10024682    43     4.1       64
8  Speaker   Aksesoris  12933495    29     3.6       73

--------------------------------------------------

Produk dengan stok < 5:
      Produk   Kategori    Harga  Stok  Rating  Terjual
3  Headphone  Aksesoris  4804572     2     4.4      184
5   Keyboard  Aksesoris  2734489     1     3.5       60

--------------------------------------------------

Produk dengan rating sempurna:
       Produk   Kategori    Harga  Stok  Rating  Terjual
1  Smartphone     Gadget  7050634    39     5.0      199
9     Charger  Aksesoris  7704212    37     5.0      140


### B. Operator Logika
Pandas menggunakan operator logika untuk menggabungkan beberapa kondisi:
- `&` untuk AND
- `|` untuk OR
- `~` untuk NOT

**Penting:** Saat menggunakan operator logika, setiap kondisi harus dalam tanda kurung.

Mari kita lihat beberapa contoh:

In [26]:
# 1. AND: Produk elektronik dengan harga di atas 8 juta
print("Produk elektronik dengan harga > 8 juta:")
print(df[(df['Kategori'] == 'Elektronik') & (df['Harga'] > 8000000)])
print("\n" + "-"*50 + "\n")

# 2. OR: Produk dengan rating tinggi (>4.5) atau terjual banyak (>150)
print("Produk dengan rating >4.5 atau terjual >150:")
print(df[(df['Rating'] > 4.5) | (df['Terjual'] > 150)])
print("\n" + "-"*50 + "\n")

# 3. NOT: Produk selain kategori Aksesoris
print("Produk selain kategori Aksesoris:")
print(df[~(df['Kategori'] == 'Aksesoris')])

Produk elektronik dengan harga > 8 juta:
    Produk    Kategori     Harga  Stok  Rating  Terjual
6  Monitor  Elektronik  10458614    23     4.3      117
7  Printer  Elektronik  10024682    43     4.1       64

--------------------------------------------------

Produk dengan rating >4.5 atau terjual >150:
       Produk   Kategori     Harga  Stok  Rating  Terjual
1  Smartphone     Gadget   7050634    39     5.0      199
2      Tablet     Gadget  10581351    23     4.4      199
3   Headphone  Aksesoris   4804572     2     4.4      184
4       Mouse  Aksesoris  13815092    21     3.5      199
9     Charger  Aksesoris   7704212    37     5.0      140

--------------------------------------------------

Produk selain kategori Aksesoris:
       Produk    Kategori     Harga  Stok  Rating  Terjual
0      Laptop  Elektronik   6923388    35     3.5       24
1  Smartphone      Gadget   7050634    39     5.0      199
2      Tablet      Gadget  10581351    23     4.4      199
6     Monitor  Elektro

## 2. Filtering Lanjutan

### A. String Methods
Pandas menyediakan berbagai metode untuk filtering berdasarkan string melalui accessor `.str`. Beberapa metode yang sering digunakan:
- `str.contains()`: Mencari string yang mengandung pola tertentu
- `str.startswith()`: Mencari string yang dimulai dengan pola tertentu
- `str.endswith()`: Mencari string yang diakhiri dengan pola tertentu
- `str.lower()`: Mengubah string menjadi lowercase
- `str.upper()`: Mengubah string menjadi uppercase

In [27]:
# 1. Mencari produk yang mengandung kata 'phone'
print("Produk yang mengandung kata 'phone':")
print(df[df['Produk'].str.contains('phone')])
print("\n" + "-"*50 + "\n")

# 2. Mencari produk yang diawali huruf 'M'
print("Produk yang diawali huruf 'M':")
print(df[df['Produk'].str.startswith('M')])
print("\n" + "-"*50 + "\n")

# Membuat kolom baru untuk demonstrasi
df['Kode_Produk'] = ['EL001', 'GD001', 'GD002', 'AK001', 'AK002', 
                     'AK003', 'EL002', 'EL003', 'AK004', 'AK005']

# 3. Mencari produk dengan kode yang diakhiri '001'
print("Produk dengan kode berakhiran '001':")
print(df[df['Kode_Produk'].str.endswith('001')])

Produk yang mengandung kata 'phone':
       Produk   Kategori    Harga  Stok  Rating  Terjual
1  Smartphone     Gadget  7050634    39     5.0      199
3   Headphone  Aksesoris  4804572     2     4.4      184

--------------------------------------------------

Produk yang diawali huruf 'M':
    Produk    Kategori     Harga  Stok  Rating  Terjual
4    Mouse   Aksesoris  13815092    21     3.5      199
6  Monitor  Elektronik  10458614    23     4.3      117

--------------------------------------------------

Produk dengan kode berakhiran '001':
       Produk    Kategori    Harga  Stok  Rating  Terjual Kode_Produk
0      Laptop  Elektronik  6923388    35     3.5       24       EL001
1  Smartphone      Gadget  7050634    39     5.0      199       GD001
3   Headphone   Aksesoris  4804572     2     4.4      184       AK001


### B. Metode isin() dan isna()
Pandas menyediakan beberapa metode khusus untuk filtering:
- `isin()`: Memeriksa apakah nilai ada dalam list yang diberikan
- `isna()`: Memeriksa apakah nilai adalah NA/NaN
- `notna()`: Memeriksa apakah nilai bukan NA/NaN

Mari kita lihat contoh penggunaannya:

In [28]:
# 1. Menggunakan isin()
kategori_elektronik = ['Elektronik', 'Gadget']
print("Produk kategori Elektronik dan Gadget:")
print(df[df['Kategori'].isin(kategori_elektronik)])
print("\n" + "-"*50 + "\n")

# Menambahkan beberapa nilai NaN untuk demonstrasi
df.loc[2, 'Rating'] = np.nan
df.loc[5, 'Terjual'] = np.nan

# 2. Menggunakan isna()
print("Produk dengan rating NA:")
print(df[df['Rating'].isna()])
print("\n" + "-"*50 + "\n")

# 3. Menggunakan notna()
print("Produk dengan rating valid (bukan NA):")
print(df[df['Rating'].notna()])

Produk kategori Elektronik dan Gadget:
       Produk    Kategori     Harga  Stok  Rating  Terjual Kode_Produk
0      Laptop  Elektronik   6923388    35     3.5       24       EL001
1  Smartphone      Gadget   7050634    39     5.0      199       GD001
2      Tablet      Gadget  10581351    23     4.4      199       GD002
6     Monitor  Elektronik  10458614    23     4.3      117       EL002
7     Printer  Elektronik  10024682    43     4.1       64       EL003

--------------------------------------------------

Produk dengan rating NA:
   Produk Kategori     Harga  Stok  Rating  Terjual Kode_Produk
2  Tablet   Gadget  10581351    23     NaN    199.0       GD002

--------------------------------------------------

Produk dengan rating valid (bukan NA):
       Produk    Kategori     Harga  Stok  Rating  Terjual Kode_Produk
0      Laptop  Elektronik   6923388    35     3.5     24.0       EL001
1  Smartphone      Gadget   7050634    39     5.0    199.0       GD001
3   Headphone   Aksesori

## 3. Studi Kasus: Analisis Data Penjualan

Mari kita analisis data penjualan toko elektronik dengan beberapa skenario yang sering ditemui dalam analisis data real:

1. Mencari produk best-seller (kombinasi rating tinggi dan penjualan tinggi)
2. Mengidentifikasi produk yang perlu restock
3. Analisis performa produk per kategori
4. Rekomendasi produk untuk promosi

In [29]:
# 1. Produk Best-seller (Rating >= 4.0 dan Terjual > 100)
print("Produk Best-seller:")
best_seller = df[(df['Rating'] >= 4.0) & (df['Terjual'] > 100)]
print(best_seller[['Produk', 'Rating', 'Terjual', 'Harga']])
print("\n" + "-"*50 + "\n")

# 2. Produk yang perlu restock (Stok < 5 dan Terjual > 50)
print("Produk yang perlu restock:")
need_restock = df[(df['Stok'] < 5) & (df['Terjual'] > 50)]
print(need_restock[['Produk', 'Stok', 'Terjual']])
print("\n" + "-"*50 + "\n")

# 3. Analisis performa per kategori
print("Rata-rata penjualan dan rating per kategori:")
kategori_analisis = df.groupby('Kategori').agg({
    'Terjual': 'mean',
    'Rating': 'mean',
    'Harga': 'mean'
}).round(2)
print(kategori_analisis)
print("\n" + "-"*50 + "\n")

# 4. Rekomendasi produk untuk promosi (Stok tinggi tapi penjualan rendah)
print("Rekomendasi produk untuk promosi:")
promosi = df[(df['Stok'] > 30) & (df['Terjual'] < 100)]
print(promosi[['Produk', 'Stok', 'Terjual', 'Harga']])

Produk Best-seller:
       Produk  Rating  Terjual     Harga
1  Smartphone     5.0    199.0   7050634
3   Headphone     4.4    184.0   4804572
6     Monitor     4.3    117.0  10458614
9     Charger     5.0    140.0   7704212

--------------------------------------------------

Produk yang perlu restock:
      Produk  Stok  Terjual
3  Headphone     2    184.0

--------------------------------------------------

Rata-rata penjualan dan rating per kategori:
            Terjual  Rating       Harga
Kategori                               
Aksesoris    149.00    4.00  8398372.00
Elektronik    68.33    3.97  9135561.33
Gadget       199.00    5.00  8815992.50

--------------------------------------------------

Rekomendasi produk untuk promosi:
    Produk  Stok  Terjual     Harga
0   Laptop    35     24.0   6923388
7  Printer    43     64.0  10024682


## 4. Latihan

Gunakan dataset yang telah kita buat untuk menyelesaikan soal-soal berikut:

1. Temukan semua produk dengan harga antara 5 juta hingga 10 juta dan memiliki rating di atas 4.0
2. Identifikasi produk yang memiliki potensi keuntungan tinggi (harga > 10 juta dan terjual > 100)
3. Buat analisis untuk setiap kategori:
   - Jumlah produk
   - Rata-rata harga
   - Total penjualan
4. Temukan produk yang perlu perhatian khusus (stok tinggi > 30, penjualan rendah < 50, rating < 4.0)
5. Buat rekomendasi produk untuk diskon berdasarkan:
   - Harga di atas rata-rata kategorinya
   - Penjualan di bawah rata-rata kategorinya
   - Stok masih tersedia (> 10)

Berikut template kode untuk memulai latihan:

In [30]:
# Template untuk latihan

# Soal 1: Produk dengan harga 5-10 juta dan rating > 4.0
# Lengkapi kode di sini...

# Soal 2: Produk dengan potensi keuntungan tinggi
# Lengkapi kode di sini...

# Soal 3: Analisis per kategori
# Lengkapi kode di sini...

# Soal 4: Produk yang perlu perhatian khusus
# Lengkapi kode di sini...

# Soal 5: Rekomendasi produk untuk diskon
# Lengkapi kode di sini...

### Solusi Latihan

Berikut adalah solusi untuk latihan di atas. Cobalah untuk mengerjakan sendiri terlebih dahulu sebelum melihat solusi!

In [35]:
# Import library dan buat ulang dataset
import pandas as pd
import numpy as np

# Membuat data sampel
np.random.seed(42)
data = {
    'Produk': ['Laptop', 'Smartphone', 'Tablet', 'Headphone', 'Mouse', 
               'Keyboard', 'Monitor', 'Printer', 'Speaker', 'Charger'],
    'Kategori': ['Elektronik', 'Gadget', 'Gadget', 'Aksesoris', 'Aksesoris',
                 'Aksesoris', 'Elektronik', 'Elektronik', 'Aksesoris', 'Aksesoris'],
    'Harga': np.random.randint(500000, 15000000, 10),
    'Stok': np.random.randint(0, 50, 10),
    'Rating': np.random.uniform(3.5, 5.0, 10).round(1),
    'Terjual': np.random.randint(10, 200, 10)
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Solusi Soal 1
print("Produk dengan harga 5-10 juta dan rating > 4.0:")
hasil_1 = df[(df['Harga'].between(5000000, 10000000)) & (df['Rating'] > 4.0)]
print(hasil_1[['Produk', 'Harga', 'Rating']])
print("\n" + "-"*50 + "\n")

# Solusi Soal 2
print("Produk dengan potensi keuntungan tinggi:")
hasil_2 = df[(df['Harga'] > 10000000) & (df['Terjual'] > 100)]
print(hasil_2[['Produk', 'Harga', 'Terjual']])
print("\n" + "-"*50 + "\n")

# Solusi Soal 3
print("Analisis per kategori:")
hasil_3 = df.groupby('Kategori').agg({
    'Produk': 'count',
    'Harga': 'mean',
    'Terjual': 'sum'
}).round(2)
hasil_3.columns = ['Jumlah Produk', 'Rata-rata Harga', 'Total Penjualan']
print(hasil_3)
print("\n" + "-"*50 + "\n")

# Solusi Soal 4
print("Produk yang perlu perhatian khusus:")
hasil_4 = df[(df['Stok'] > 30) & (df['Terjual'] < 50) & (df['Rating'] < 4.0)]
print(hasil_4[['Produk', 'Stok', 'Terjual', 'Rating']])
print("\n" + "-"*50 + "\n")

# Solusi Soal 5
print("Rekomendasi produk untuk diskon:")
# Hitung rata-rata harga dan penjualan per kategori
rata_kategori = df.groupby('Kategori').agg({
    'Harga': 'mean',
    'Terjual': 'mean'
}).round(2)

# Gabungkan kembali dengan DataFrame asli
df_merged = df.merge(rata_kategori, on='Kategori', suffixes=('', '_rata'))

# Filter berdasarkan kriteria
hasil_5 = df_merged[
    (df_merged['Harga'] > df_merged['Harga_rata']) & 
    (df_merged['Terjual'] < df_merged['Terjual_rata']) & 
    (df_merged['Stok'] > 10)
]
print(hasil_5[['Produk', 'Kategori', 'Harga', 'Terjual', 'Stok']])

Produk dengan harga 5-10 juta dan rating > 4.0:
       Produk    Harga  Rating
1  Smartphone  7050634     5.0
9     Charger  7704212     5.0

--------------------------------------------------

Produk dengan potensi keuntungan tinggi:
    Produk     Harga  Terjual
2   Tablet  10581351      199
4    Mouse  13815092      199
6  Monitor  10458614      117

--------------------------------------------------

Analisis per kategori:
            Jumlah Produk  Rata-rata Harga  Total Penjualan
Kategori                                                   
Aksesoris               5       8398372.00              656
Elektronik              3       9135561.33              205
Gadget                  2       8815992.50              398

--------------------------------------------------

Produk yang perlu perhatian khusus:
   Produk  Stok  Terjual  Rating
0  Laptop    35       24     3.5

--------------------------------------------------

Rekomendasi produk untuk diskon:
    Produk    Kategori     H

## Kesimpulan

Dalam tutorial ini, kita telah mempelajari berbagai teknik filtering data menggunakan Pandas:

1. **Filtering Dasar**
   - Operator perbandingan (>, <, >=, <=, ==, !=)
   - Operator logika (AND, OR, NOT)

2. **Filtering Lanjutan**
   - String methods (contains, startswith, endswith)
   - Metode isin() untuk multiple values
   - Penanganan missing values (isna, notna)

3. **Studi Kasus**
   - Analisis data penjualan
   - Identifikasi produk berdasarkan berbagai kriteria
   - Pembuatan rekomendasi berdasarkan multiple conditions

4. **Tips Penting**
   - Selalu gunakan tanda kurung untuk setiap kondisi saat menggunakan operator logika
   - Perhatikan tipe data saat melakukan filtering
   - Manfaatkan method chaining untuk filtering yang kompleks
   - Gunakan agg() untuk analisis yang melibatkan multiple metrics

Dengan menguasai teknik-teknik filtering ini, Anda akan dapat melakukan analisis data yang lebih efektif dan menghasilkan insight yang lebih bernilai dari data Anda.