### Buat Dataset

In [None]:
import pandas as pd

df = pd.DataFrame({
    'ID':[101,102,103,104,105,106],
    'Nama':['Andi', 'Budi', 'Citra', 'Dewi', 'Eka', 'Fajar']
    'Usia': [20, 21, None, 22, 21, '-'],
    'Nilai': [80, 90, 75, None, 95, 88],
    'Kota': ['Malang', 'Malang', 'Surabaya', 'Malang', None, 'Surabaya'],
    'Jurusan': ['TI', 'SI', 'TI', 'TI', 'SI', 'SI']
})

print(df)

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi    20   80.0    Malang      TI
1  102   Budi    21   90.0    Malang      SI
2  103  Citra  None   75.0  Surabaya      TI
3  104   Dewi    22    NaN    Malang      TI
4  105    Eka    21   95.0      None      SI
5  106  Fajar     -   88.0  Surabaya      SI


### BAGIAN A — PEMAHAMAN DASAR & EKSPLORASI DATA

- Tampilkan 5 baris pertama dataset

- Tampilkan struktur dataset (kolom, non-null, tipe data)

- Tampilkan ringkasan statistik numerik

- Berapa jumlah baris dan kolom dataset?

- Sebutkan nama semua kolom dalam bentuk list

In [6]:
# menampilkan 5 baris pertama dataset
print(df.head())

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi    20   80.0    Malang      TI
1  102   Budi    21   90.0    Malang      SI
2  103  Citra  None   75.0  Surabaya      TI
3  104   Dewi    22    NaN    Malang      TI
4  105    Eka    21   95.0      None      SI


In [9]:
# struktur dataset
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   ID       6 non-null      int64  
 1   Nama     6 non-null      object 
 2   Usia     5 non-null      object 
 3   Nilai    5 non-null      float64
 4   Kota     5 non-null      object 
 5   Jurusan  6 non-null      object 
dtypes: float64(1), int64(1), object(4)
memory usage: 416.0+ bytes
None


In [11]:
# ringkasan statistik numerik
print(df.describe())

               ID      Nilai
count    6.000000   5.000000
mean   103.500000  85.600000
std      1.870829   8.018728
min    101.000000  75.000000
25%    102.250000  80.000000
50%    103.500000  88.000000
75%    104.750000  90.000000
max    106.000000  95.000000


In [None]:
# Jumlah baris dan kolom dataset
print(df.shape)

(6, 6)


In [16]:
# nama semua kolom
print(df.columns)

Index(['ID', 'Nama', 'Usia', 'Nilai', 'Kota', 'Jurusan'], dtype='object')


### BAGIAN B — INDEXING, SELECTION, & SLICING

- Ambil kolom Nilai saja

- Ambil kolom Nama dan Kota

- Ambil baris ke-3 menggunakan .iloc

- Ambil nilai Usia milik Dewi menggunakan .loc

- Ambil Nama dan Nilai untuk 3 baris pertama

In [20]:
# mengambil hanya kolom usia
print(df['Usia'])

0      20
1      21
2    None
3      22
4      21
5       -
Name: Usia, dtype: object


In [23]:
# mengambil kolom nama dan kota
print(df[['Usia','Kota']])

   Usia      Kota
0    20    Malang
1    21    Malang
2  None  Surabaya
3    22    Malang
4    21      None
5     -  Surabaya


In [31]:
# ambil baris ke tiga
print(df.iloc[3])

ID            104
Nama         Dewi
Usia           22
Nilai         NaN
Kota       Malang
Jurusan        TI
Name: 3, dtype: object


In [44]:
# ambil data dewi
# harus make index atau namanya diset jadi index baru bisa
print(df.loc[3,'Usia']) # make 'Dewi' ga bisa harus indeks dari si dewinya itu atau namanya diubah jadi index

22


In [46]:
# ambil nama dan nilai untuk 3 baris pertama
print(df[['Nama','Nilai']].head(3))

    Nama  Nilai
0   Andi   80.0
1   Budi   90.0
2  Citra   75.0


### BAGIAN C — FILTERING & KONDISI LOGIS

- Tampilkan mahasiswa dengan Usia > 20

- Tampilkan mahasiswa dengan Nilai ≥ 85 dan Kota = Malang

- Tampilkan mahasiswa yang Kota-nya tidak null

- Tampilkan mahasiswa dengan Jurusan diawali huruf "T"

In [55]:
# disitu ada nilai yang tidak diketahui pada kolom usia
# mendeteksi nilai unik dulu
print(df['Usia'].unique())
# ganti nilai - jadi nan dlu
df['Usia'] = df['Usia'].replace('-', pd.NA)
# ganti nilai string jadi
df['Usia'] = pd.to_numeric(df['Usia'], errors='coerce')
# filter usia
filter_usia = df[df['Usia']>20]
print(filter_usia)


[20. 21. nan 22.]
    ID  Nama  Usia  Nilai    Kota Jurusan
1  102  Budi  21.0   90.0  Malang      SI
3  104  Dewi  22.0    NaN  Malang      TI
4  105   Eka  21.0   95.0    None      SI


In [60]:
# menampilkan mahasiswa dengan nilai >= 85 dan di kota malang
filter_nilai_kota = df[(df['Nilai']>=85) & (df['Kota'] == 'Malang') ]
print(filter_nilai_kota)

    ID  Nama  Usia  Nilai    Kota Jurusan
1  102  Budi  21.0   90.0  Malang      SI


In [67]:
# menampilkan kota yang tidak memiliki null
filter_kota = df[df['Kota'].notnull()]
print(filter_kota)

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi  20.0   80.0    Malang      TI
1  102   Budi  21.0   90.0    Malang      SI
2  103  Citra   NaN   75.0  Surabaya      TI
3  104   Dewi  22.0    NaN    Malang      TI
5  106  Fajar   NaN   88.0  Surabaya      SI


In [70]:
# menampilkan mahasiswa dengan jurusan awal T
filter_jurusan = df[df['Jurusan'].str.startswith('T')]
print(filter_jurusan)

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi  20.0   80.0    Malang      TI
2  103  Citra   NaN   75.0  Surabaya      TI
3  104   Dewi  22.0    NaN    Malang      TI


### BAGIAN D — ASSIGNMENT & MODIFIKASI DATA

- Tambahkan kolom baru Lulus (Nilai ≥ 85 → True)

- Naikkan semua Nilai sebesar 5 poin

- Ganti semua nilai '-' pada kolom Usia menjadi missing value

- Ganti nama kolom:

- Nama → Nama_Mahasiswa

- Nilai → Skor

In [None]:
# menambahkan kolom baru
df['Lulus'] = df['Nilai']>=85
df.head()

Unnamed: 0,ID,Nama,Usia,Nilai,Kota,Jurusan,Lulus
0,101,Andi,20.0,80.0,Malang,TI,False
1,102,Budi,21.0,90.0,Malang,SI,True
2,103,Citra,,75.0,Surabaya,TI,False
3,104,Dewi,22.0,,Malang,TI,False
4,105,Eka,21.0,95.0,,SI,True


In [None]:
df['Nilai'] = df['Nilai'] + 5
# df['Nilai'] = df['Nilai'].add(5) kalau ada nilai NaN lebih aman make ini
df.head()

Unnamed: 0,ID,Nama,Usia,Nilai,Kota,Jurusan,Lulus
0,101,Andi,20.0,85.0,Malang,TI,85.0
1,102,Budi,21.0,95.0,Malang,SI,95.0
2,103,Citra,,80.0,Surabaya,TI,80.0
3,104,Dewi,22.0,,Malang,TI,
4,105,Eka,21.0,100.0,,SI,100.0


In [89]:
# mengganti nama kolom
df = df.rename(columns={'Nama':'Nama Mahasiswa','Nilai':'Skor'})
df.head()

Unnamed: 0,ID,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus
0,101,Andi,20.0,85.0,Malang,TI,85.0
1,102,Budi,21.0,95.0,Malang,SI,95.0
2,103,Citra,,80.0,Surabaya,TI,80.0
3,104,Dewi,22.0,,Malang,TI,
4,105,Eka,21.0,100.0,,SI,100.0


### BAGIAN E — TIPE DATA & NILAI HILANG

- Periksa tipe data setiap kolom

- Ubah kolom Usia menjadi numerik

- Hitung jumlah nilai hilang per kolom

- Isi:

    - Usia kosong → mean Usia

    - Kota kosong → "Unknown"

In [None]:
#  periksa data untuk setiap kolom
print(df.dtypes)

ID                  int64
Nama Mahasiswa     object
Usia              float64
Skor              float64
Kota               object
Jurusan            object
Lulus             float64
dtype: object


In [114]:
# ubah kolom Usia jadi numerik
df['Usia'] = pd.to_numeric(df['Usia'], errors='coerce')

In [115]:
# jumlah nilai hilang per kolom
df.isnull().sum()

ID                0
Nama Mahasiswa    0
Usia              2
Skor              1
Kota              0
Jurusan           0
Lulus             1
dtype: int64

In [116]:
# mengisi usia menggunakan mean
df['Usia'] = df['Usia'].fillna(df['Usia'].mean())

In [None]:
# mengisi kolom kota dengan unknown
df['Kota'] = df['Kota'].fillna('unknown')

In [118]:
df.head()

Unnamed: 0,ID,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus
0,101,Andi,20.0,85.0,Malang,TI,85.0
1,102,Budi,21.0,95.0,Malang,SI,95.0
2,103,Citra,21.0,80.0,Surabaya,TI,80.0
3,104,Dewi,22.0,,Malang,TI,
4,105,Eka,21.0,100.0,Unknown,SI,100.0


### BAGIAN F — SUMMARY FUNCTIONS

Hitung:

- Rata-rata Skor

- Skor maksimum

- Skor minimum

- Hitung jumlah mahasiswa per Jurusan

- Tampilkan nilai unik Kota

In [122]:
# hitung rata-rata skor
print(df['Skor'].mean())
# hitung skor maksimum
print(df['Skor'].max())
# hitung skor minimum
print(df['Skor'].min())

90.6
100.0
80.0


In [124]:
# hitung jumlah mahasiswa per jurusan
print(df['Jurusan'].value_counts())

Jurusan
TI    3
SI    3
Name: count, dtype: int64


In [126]:
# menampilkan nilai unik untuk kota
print(df['Kota'].unique())

['Malang' 'Surabaya' 'Unknown']


### BAGIAN G — MAP & APPLY

- Buat kolom Kategori_Usia:

    - < 21 → "Muda"

    - ≥ 21 → "Dewasa"

- Buat kolom Selisih_Skor = Skor − rata-rata Skor

- Gunakan apply baris (axis=1)

In [131]:
def kategori_usia(baris):
    if baris['Usia'] < 21:
        return 'Muda'
    else: 
        return 'dewasa'

df["Kategori Usia"] = df.apply(kategori_usia,axis=1)

In [134]:
df['Selisih'] = abs(df['Skor']-df['Skor'].mean())
df.head()


Unnamed: 0,ID,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus,Selisih,Kategori Usia
0,101,Andi,20.0,85.0,Malang,TI,85.0,5.6,Muda
1,102,Budi,21.0,95.0,Malang,SI,95.0,4.4,dewasa
2,103,Citra,21.0,80.0,Surabaya,TI,80.0,10.6,dewasa
3,104,Dewi,22.0,,Malang,TI,,,dewasa
4,105,Eka,21.0,100.0,Unknown,SI,100.0,9.4,dewasa


### BAGIAN H — GROUPBY & AGREGASI

- Hitung rata-rata Skor per Kota

- Hitung jumlah mahasiswa per Jurusan

- Hitung mean dan max Skor per Jurusan

- Group berdasarkan Kota & Jurusan, hitung rata-rata Skor

- Kembalikan hasil groupby ke DataFrame biasa

In [135]:
rata_skor_kota = df.groupby("Kota")['Skor'].mean().reset_index()
rata_skor_kota.head()

Unnamed: 0,Kota,Skor
0,Malang,90.0
1,Surabaya,86.5
2,Unknown,100.0


In [141]:
jumlah_mahasiswa_jurusan = df.groupby("Jurusan")['Skor'].mean().reset_index()
jumlah_mahasiswa_jurusan.head()


Unnamed: 0,Jurusan,Skor
0,SI,96.0
1,TI,82.5


In [144]:
jumlah_mahasiswa_jurusa_meanmax = (df.groupby("Jurusan")['Skor'].agg(mean_skor="mean", max_skor="max").reset_index())
jumlah_mahasiswa_jurusa_meanmax.head()

Unnamed: 0,Jurusan,mean_skor,max_skor
0,SI,96.0,100.0
1,TI,82.5,85.0


In [150]:
grup_by_city_and_prodi = df.groupby(['Jurusan','Kota'])['Skor'].mean().reset_index(name="Rata_skor")

In [151]:
grup_by_city_and_prodi.head()

Unnamed: 0,Jurusan,Kota,Rata_skor
0,SI,Malang,95.0
1,SI,Surabaya,93.0
2,SI,Unknown,100.0
3,TI,Malang,85.0
4,TI,Surabaya,80.0


In [153]:
df.groupby("Kota", as_index=False)["Skor"].mean()


Unnamed: 0,Kota,Skor
0,Malang,90.0
1,Surabaya,86.5
2,Unknown,100.0


### BAGIAN I — SORTING

- Urutkan mahasiswa berdasarkan Skor menurun

- Urutkan berdasarkan:

- Kota (A–Z)

- Skor (tertinggi ke rendah)

- Dari hasil groupby Jurusan, tampilkan jurusan dengan rata-rata Skor tertinggi

In [156]:
df.sort_values(by="Skor",ascending=False)

Unnamed: 0,ID,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus,Selisih,Kategori Usia
4,105,Eka,21.0,100.0,Unknown,SI,100.0,9.4,dewasa
1,102,Budi,21.0,95.0,Malang,SI,95.0,4.4,dewasa
5,106,Fajar,21.0,93.0,Surabaya,SI,93.0,2.4,dewasa
0,101,Andi,20.0,85.0,Malang,TI,85.0,5.6,Muda
2,103,Citra,21.0,80.0,Surabaya,TI,80.0,10.6,dewasa
3,104,Dewi,22.0,,Malang,TI,,,dewasa


In [157]:
df.sort_values(by="Kota",ascending=True)

Unnamed: 0,ID,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus,Selisih,Kategori Usia
0,101,Andi,20.0,85.0,Malang,TI,85.0,5.6,Muda
1,102,Budi,21.0,95.0,Malang,SI,95.0,4.4,dewasa
3,104,Dewi,22.0,,Malang,TI,,,dewasa
2,103,Citra,21.0,80.0,Surabaya,TI,80.0,10.6,dewasa
5,106,Fajar,21.0,93.0,Surabaya,SI,93.0,2.4,dewasa
4,105,Eka,21.0,100.0,Unknown,SI,100.0,9.4,dewasa


In [160]:
df.groupby("Jurusan")["Skor"].mean().sort_values(ascending=False).reset_index()

Unnamed: 0,Jurusan,Skor
0,SI,96.0
1,TI,82.5


### BAGIAN J — QUERY & INDEXING LANJUTAN

- Gunakan .query() untuk memilih Skor ≥ 85

- Jadikan ID sebagai index

- Balik urutan baris dan reset index

In [173]:
df_skor_tinggi = df.query("Skor >= 80")
print(df_skor_tinggi)

    ID Nama Mahasiswa  Usia   Skor      Kota Jurusan  Lulus  Selisih  \
0  101           Andi  20.0   85.0    Malang      TI   85.0      5.6   
1  102           Budi  21.0   95.0    Malang      SI   95.0      4.4   
2  103          Citra  21.0   80.0  Surabaya      TI   80.0     10.6   
4  105            Eka  21.0  100.0   Unknown      SI  100.0      9.4   
5  106          Fajar  21.0   93.0  Surabaya      SI   93.0      2.4   

  Kategori Usia  
0          Muda  
1        dewasa  
2        dewasa  
4        dewasa  
5        dewasa  


In [174]:
df_skor_tinggi = df_skor_tinggi.set_index("ID")

In [175]:
df_skor_tinggi.head()

Unnamed: 0_level_0,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus,Selisih,Kategori Usia
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
101,Andi,20.0,85.0,Malang,TI,85.0,5.6,Muda
102,Budi,21.0,95.0,Malang,SI,95.0,4.4,dewasa
103,Citra,21.0,80.0,Surabaya,TI,80.0,10.6,dewasa
105,Eka,21.0,100.0,Unknown,SI,100.0,9.4,dewasa
106,Fajar,21.0,93.0,Surabaya,SI,93.0,2.4,dewasa


In [179]:
df_terbalik = df_skor_tinggi[1::-1]
df_terbalik.head()

Unnamed: 0_level_0,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus,Selisih,Kategori Usia
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
102,Budi,21.0,95.0,Malang,SI,95.0,4.4,dewasa
101,Andi,20.0,85.0,Malang,TI,85.0,5.6,Muda


### BAGIAN K — MULTIINDEX (ADVANCED)

- Buat DataFrame hasil groupby Kota & Jurusan

- Urutkan berdasarkan index

- Ambil data:

- Kota = Malang

- Semua jurusan

In [199]:
group_kota_jurusan = df.groupby(['Kota','Jurusan'])["Skor"].mean()


In [200]:
group_kota_jurusan.head()
df_sorted= group_kota_jurusan.sort_index()


In [201]:
df_sorted.head()

Kota      Jurusan
Malang    SI          95.0
          TI          85.0
Surabaya  SI          93.0
          TI          80.0
Unknown   SI         100.0
Name: Skor, dtype: float64

In [203]:
df_sorted.loc["Malang","SI"]

95.0

### BAGIAN L — PENGGABUNGAN DATAFRAME

- Gunakan DataFrame tambahan:

    df_ipk = pd.DataFrame({
        'ID': [101, 102, 103, 104, 105, 106],
        'IPK': [3.2, 3.6, 3.0, 3.8, 3.9, 3.4]
    })


- Gabungkan df dan df_ipk berdasarkan ID

- Gabungkan menggunakan:

    - merge

    - join (set index dulu)

In [204]:
df_ipk = pd.DataFrame({
    'ID': [101, 102, 103, 104, 105, 106],
    'IPK': [3.2, 3.6, 3.0, 3.8, 3.9, 3.4]
})


In [205]:
df_merge = pd.merge(df, df_ipk, on="ID")
df_merge.head()

Unnamed: 0,ID,Nama Mahasiswa,Usia,Skor,Kota,Jurusan,Lulus,Selisih,Kategori Usia,IPK
0,101,Andi,20.0,85.0,Malang,TI,85.0,5.6,Muda,3.2
1,102,Budi,21.0,95.0,Malang,SI,95.0,4.4,dewasa,3.6
2,103,Citra,21.0,80.0,Surabaya,TI,80.0,10.6,dewasa,3.0
3,104,Dewi,22.0,,Malang,TI,,,dewasa,3.8
4,105,Eka,21.0,100.0,Unknown,SI,100.0,9.4,dewasa,3.9
