# Tutorial Pandas: Seleksi Data

Selamat datang di tutorial Pandas untuk Seleksi Data! Dalam tutorial ini, kita akan mempelajari berbagai cara untuk melakukan seleksi dan filtering data menggunakan library Pandas di Python.

## Daftar Isi:
1. Pengenalan
2. Import Library dan Persiapan Data
3. Metode Seleksi Data
   - Seleksi Kolom
   - Seleksi Baris
   - Seleksi Baris dan Kolom
   - Filtering Data
4. Studi Kasus
5. Latihan

Mari kita mulai!

In [16]:
# Import library yang diperlukan
import pandas as pd
import numpy as np

# Membuat data sampel
data = {
    'Nama': ['Andi', 'Budi', 'Citra', 'Deni', 'Eva'],
    'Usia': [20, 25, 22, 28, 21],
    'Kota': ['Jakarta', 'Bandung', 'Surabaya', 'Jakarta', 'Bandung'],
    'Nilai': [85, 92, 78, 95, 88]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Tampilkan DataFrame
print("Data Mahasiswa:")
print("-" * 50)
print(df)

Data Mahasiswa:
--------------------------------------------------
    Nama  Usia      Kota  Nilai
0   Andi    20   Jakarta     85
1   Budi    25   Bandung     92
2  Citra    22  Surabaya     78
3   Deni    28   Jakarta     95
4    Eva    21   Bandung     88


## 1. Seleksi Kolom

Dalam Pandas, kita dapat melakukan seleksi kolom dengan beberapa cara:
1. Menggunakan nama kolom tunggal
2. Menggunakan list untuk multiple kolom
3. Menggunakan dot notation (.)

Mari kita pelajari satu per satu:

In [17]:
# 1. Seleksi satu kolom
print("Seleksi kolom 'Nama':")
print(df['Nama'])
print("\n" + "-"*50)

# 2. Seleksi multiple kolom
print("\nSeleksi kolom 'Nama' dan 'Nilai':")
print(df[['Nama', 'Nilai']])
print("\n" + "-"*50)

# 3. Menggunakan dot notation
print("\nSeleksi menggunakan dot notation:")
print(df.Usia)

Seleksi kolom 'Nama':
0     Andi
1     Budi
2    Citra
3     Deni
4      Eva
Name: Nama, dtype: object

--------------------------------------------------

Seleksi kolom 'Nama' dan 'Nilai':
    Nama  Nilai
0   Andi     85
1   Budi     92
2  Citra     78
3   Deni     95
4    Eva     88

--------------------------------------------------

Seleksi menggunakan dot notation:
0    20
1    25
2    22
3    28
4    21
Name: Usia, dtype: int64


## 2. Seleksi Baris

Kita dapat melakukan seleksi baris dengan beberapa metode:
1. Menggunakan index (loc dan iloc)
2. Menggunakan range
3. Menggunakan kondisi (filtering)

Mari kita lihat contohnya:

In [18]:
# 1. Menggunakan loc (label based)
print("Seleksi baris dengan loc:")
print(df.loc[0])  # Mengambil baris pertama
print("\n" + "-"*50)

# 2. Menggunakan iloc (integer based)
print("\nSeleksi baris dengan iloc:")
print(df.iloc[0:2])  # Mengambil 2 baris pertama
print("\n" + "-"*50)

# 3. Menggunakan kondisi
print("\nSeleksi baris dengan kondisi (Usia > 25):")
print(df[df['Usia'] > 25])

Seleksi baris dengan loc:
Nama        Andi
Usia          20
Kota     Jakarta
Nilai         85
Name: 0, dtype: object

--------------------------------------------------

Seleksi baris dengan iloc:
   Nama  Usia     Kota  Nilai
0  Andi    20  Jakarta     85
1  Budi    25  Bandung     92

--------------------------------------------------

Seleksi baris dengan kondisi (Usia > 25):
   Nama  Usia     Kota  Nilai
3  Deni    28  Jakarta     95


## 3. Filtering Data

Filtering data adalah salah satu operasi yang paling sering digunakan dalam analisis data. Kita bisa menggunakan berbagai operator logika seperti:
- AND (&)
- OR (|)
- NOT (~)

Mari kita lihat beberapa contoh filtering yang lebih kompleks:

In [19]:
# 1. Filter dengan AND
print("Mahasiswa dengan Nilai > 85 DAN Usia < 25:")
print(df[(df['Nilai'] > 85) & (df['Usia'] < 25)])
print("\n" + "-"*50)

# 2. Filter dengan OR
print("\nMahasiswa dari Jakarta ATAU Bandung:")
print(df[df['Kota'].isin(['Jakarta', 'Bandung'])])
print("\n" + "-"*50)

# 3. Filter dengan string
print("\nMahasiswa dengan nama mengandung huruf 'a':")
print(df[df['Nama'].str.contains('a')])

Mahasiswa dengan Nilai > 85 DAN Usia < 25:
  Nama  Usia     Kota  Nilai
4  Eva    21  Bandung     88

--------------------------------------------------

Mahasiswa dari Jakarta ATAU Bandung:
   Nama  Usia     Kota  Nilai
0  Andi    20  Jakarta     85
1  Budi    25  Bandung     92
3  Deni    28  Jakarta     95
4   Eva    21  Bandung     88

--------------------------------------------------

Mahasiswa dengan nama mengandung huruf 'a':
    Nama  Usia      Kota  Nilai
2  Citra    22  Surabaya     78
4    Eva    21   Bandung     88


## 4. Studi Kasus: Analisis Data Mahasiswa

Mari kita coba sebuah studi kasus yang lebih kompleks dengan dataset yang lebih besar. Kita akan menganalisis data nilai mahasiswa dari berbagai jurusan.

In [20]:
# Membuat dataset yang lebih besar
np.random.seed(42)
n = 20

data_mahasiswa = {
    'NIM': [f'2023{str(i).zfill(3)}' for i in range(n)],
    'Nama': [f'Mahasiswa_{i}' for i in range(n)],
    'Jurusan': np.random.choice(['Informatika', 'Sistem Informasi', 'Data Science'], n),
    'IPK': np.random.uniform(2.5, 4.0, n).round(2),
    'Semester': np.random.randint(1, 9, n),
    'Status': np.random.choice(['Aktif', 'Cuti'], n, p=[0.9, 0.1])
}

df_mahasiswa = pd.DataFrame(data_mahasiswa)
print("Dataset Mahasiswa:")
print(df_mahasiswa)

Dataset Mahasiswa:
        NIM          Nama           Jurusan   IPK  Semester Status
0   2023000   Mahasiswa_0      Data Science  2.77         4  Aktif
1   2023001   Mahasiswa_1       Informatika  2.78         6  Aktif
2   2023002   Mahasiswa_2      Data Science  2.96         2  Aktif
3   2023003   Mahasiswa_3      Data Science  3.29         2  Aktif
4   2023004   Mahasiswa_4       Informatika  3.15         1  Aktif
..      ...           ...               ...   ...       ...    ...
15  2023015  Mahasiswa_15       Informatika  2.57         8  Aktif
16  2023016  Mahasiswa_16  Sistem Informasi  3.41         7  Aktif
17  2023017  Mahasiswa_17  Sistem Informasi  2.76         3  Aktif
18  2023018  Mahasiswa_18  Sistem Informasi  2.60         6  Aktif
19  2023019  Mahasiswa_19  Sistem Informasi  3.92         1  Aktif

[20 rows x 6 columns]


### Analisis Data Mahasiswa

Mari kita lakukan beberapa analisis menggunakan teknik seleksi data yang telah kita pelajari:

In [21]:
# 1. Mencari mahasiswa dengan IPK tertinggi di setiap jurusan
print("IPK Tertinggi per Jurusan:")
print(df_mahasiswa.loc[df_mahasiswa.groupby('Jurusan')['IPK'].idxmax()])
print("\n" + "-"*50)

# 2. Mencari mahasiswa semester atas (>6) dengan IPK > 3.5
print("\nMahasiswa Semester Atas dengan IPK Tinggi:")
print(df_mahasiswa[(df_mahasiswa['Semester'] > 6) & (df_mahasiswa['IPK'] > 3.5)])
print("\n" + "-"*50)

# 3. Rata-rata IPK per jurusan
print("\nRata-rata IPK per Jurusan:")
print(df_mahasiswa.groupby('Jurusan')['IPK'].mean().round(2))
print("\n" + "-"*50)

# 4. Distribusi status mahasiswa per jurusan
print("\nDistribusi Status per Jurusan:")
print(pd.crosstab(df_mahasiswa['Jurusan'], df_mahasiswa['Status']))

IPK Tertinggi per Jurusan:
        NIM          Nama           Jurusan   IPK  Semester Status
11  2023011  Mahasiswa_11      Data Science  3.68         4   Cuti
4   2023004   Mahasiswa_4       Informatika  3.15         1  Aktif
19  2023019  Mahasiswa_19  Sistem Informasi  3.92         1  Aktif

--------------------------------------------------

Mahasiswa Semester Atas dengan IPK Tinggi:
Empty DataFrame
Columns: [NIM, Nama, Jurusan, IPK, Semester, Status]
Index: []

--------------------------------------------------

Rata-rata IPK per Jurusan:
Jurusan
Data Science        3.17
Informatika         2.85
Sistem Informasi    3.13
Name: IPK, dtype: float64

--------------------------------------------------

Distribusi Status per Jurusan:
Status            Aktif  Cuti
Jurusan                      
Data Science          6     3
Informatika           5     0
Sistem Informasi      6     0


## 5. Latihan

Gunakan dataset mahasiswa di atas untuk menyelesaikan soal-soal berikut:

1. Tampilkan daftar mahasiswa Informatika yang memiliki IPK di atas rata-rata jurusannya
2. Temukan mahasiswa dengan IPK tertinggi di setiap semester
3. Hitung berapa mahasiswa yang memiliki IPK di atas 3.0 untuk setiap jurusan
4. Tampilkan daftar mahasiswa yang berada di semester ganjil dan memiliki IPK > 3.0
5. Buat analisis distribusi IPK (rendah < 2.75, sedang 2.75-3.5, tinggi > 3.5) untuk setiap jurusan

Berikut adalah template kode untuk memulai latihan:

In [23]:
# Template untuk latihan

# Soal 1: Mahasiswa Informatika dengan IPK di atas rata-rata jurusan
rata_rata_informatika = df_mahasiswa[df_mahasiswa['Jurusan'] == 'Informatika']['IPK'].mean()
# Lengkapi kode di sini...

# Soal 2: IPK tertinggi per semester
# Lengkapi kode di sini...

# Soal 3: Jumlah mahasiswa dengan IPK > 3.0 per jurusan
# Lengkapi kode di sini...

# Soal 4: Mahasiswa semester ganjil dengan IPK > 3.0
# Lengkapi kode di sini...

# Soal 5: Distribusi IPK per jurusan
# Lengkapi kode di sini...

### Solusi Latihan

Berikut adalah solusi untuk latihan di atas. Cobalah untuk mengerjakan sendiri terlebih dahulu sebelum melihat solusi!

In [25]:
# Solusi Soal 1
print("Mahasiswa Informatika dengan IPK di atas rata-rata jurusan:")
rata_rata_informatika = df_mahasiswa[df_mahasiswa['Jurusan'] == 'Informatika']['IPK'].mean()
print(df_mahasiswa[(df_mahasiswa['Jurusan'] == 'Informatika') & 
                   (df_mahasiswa['IPK'] > rata_rata_informatika)])
print("\n" + "-"*50)

# Solusi Soal 2
print("\nIPK tertinggi per semester:")
print(df_mahasiswa.loc[df_mahasiswa.groupby('Semester')['IPK'].idxmax()])
print("\n" + "-"*50)

# Solusi Soal 3
print("\nJumlah mahasiswa dengan IPK > 3.0 per jurusan:")
print(df_mahasiswa[df_mahasiswa['IPK'] > 3.0].groupby('Jurusan').size())
print("\n" + "-"*50)

# Solusi Soal 4
print("\nMahasiswa semester ganjil dengan IPK > 3.0:")
print(df_mahasiswa[(df_mahasiswa['Semester'] % 2 == 1) & 
                   (df_mahasiswa['IPK'] > 3.0)])
print("\n" + "-"*50)

# Solusi Soal 5
print("\nDistribusi IPK per jurusan:")
def kategori_ipk(ipk):
    if ipk < 2.75:
        return 'Rendah'
    elif ipk <= 3.5:
        return 'Sedang'
    else:
        return 'Tinggi'

df_mahasiswa['Kategori_IPK'] = df_mahasiswa['IPK'].apply(kategori_ipk)
print(pd.crosstab(df_mahasiswa['Jurusan'], df_mahasiswa['Kategori_IPK']))

Mahasiswa Informatika dengan IPK di atas rata-rata jurusan:
       NIM         Nama      Jurusan   IPK  Semester Status
4  2023004  Mahasiswa_4  Informatika  3.15         1  Aktif
5  2023005  Mahasiswa_5  Informatika  2.94         2  Aktif

--------------------------------------------------

IPK tertinggi per semester:
        NIM          Nama           Jurusan   IPK  Semester Status
19  2023019  Mahasiswa_19  Sistem Informasi  3.92         1  Aktif
3   2023003   Mahasiswa_3      Data Science  3.29         2  Aktif
17  2023017  Mahasiswa_17  Sistem Informasi  2.76         3  Aktif
11  2023011  Mahasiswa_11      Data Science  3.68         4   Cuti
6   2023006   Mahasiswa_6      Data Science  3.42         5   Cuti
1   2023001   Mahasiswa_1       Informatika  2.78         6  Aktif
16  2023016  Mahasiswa_16  Sistem Informasi  3.41         7  Aktif
15  2023015  Mahasiswa_15       Informatika  2.57         8  Aktif

--------------------------------------------------

Jumlah mahasiswa dengan