### Buat Dataset

In [None]:
import pandas as pd

df = pd.DataFrame({
    'ID':[101,102,103,104,105,106],
    'Nama':['Andi', 'Budi', 'Citra', 'Dewi', 'Eka', 'Fajar']
    'Usia': [20, 21, None, 22, 21, '-'],
    'Nilai': [80, 90, 75, None, 95, 88],
    'Kota': ['Malang', 'Malang', 'Surabaya', 'Malang', None, 'Surabaya'],
    'Jurusan': ['TI', 'SI', 'TI', 'TI', 'SI', 'SI']
})

print(df)

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi    20   80.0    Malang      TI
1  102   Budi    21   90.0    Malang      SI
2  103  Citra  None   75.0  Surabaya      TI
3  104   Dewi    22    NaN    Malang      TI
4  105    Eka    21   95.0      None      SI
5  106  Fajar     -   88.0  Surabaya      SI


### BAGIAN A — PEMAHAMAN DASAR & EKSPLORASI DATA

- Tampilkan 5 baris pertama dataset

- Tampilkan struktur dataset (kolom, non-null, tipe data)

- Tampilkan ringkasan statistik numerik

- Berapa jumlah baris dan kolom dataset?

- Sebutkan nama semua kolom dalam bentuk list

In [6]:
# menampilkan 5 baris pertama dataset
print(df.head())

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi    20   80.0    Malang      TI
1  102   Budi    21   90.0    Malang      SI
2  103  Citra  None   75.0  Surabaya      TI
3  104   Dewi    22    NaN    Malang      TI
4  105    Eka    21   95.0      None      SI


In [9]:
# struktur dataset
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   ID       6 non-null      int64  
 1   Nama     6 non-null      object 
 2   Usia     5 non-null      object 
 3   Nilai    5 non-null      float64
 4   Kota     5 non-null      object 
 5   Jurusan  6 non-null      object 
dtypes: float64(1), int64(1), object(4)
memory usage: 416.0+ bytes
None


In [11]:
# ringkasan statistik numerik
print(df.describe())

               ID      Nilai
count    6.000000   5.000000
mean   103.500000  85.600000
std      1.870829   8.018728
min    101.000000  75.000000
25%    102.250000  80.000000
50%    103.500000  88.000000
75%    104.750000  90.000000
max    106.000000  95.000000


In [None]:
# Jumlah baris dan kolom dataset
print(df.shape)

(6, 6)


In [16]:
# nama semua kolom
print(df.columns)

Index(['ID', 'Nama', 'Usia', 'Nilai', 'Kota', 'Jurusan'], dtype='object')


### BAGIAN B — INDEXING, SELECTION, & SLICING

- Ambil kolom Nilai saja

- Ambil kolom Nama dan Kota

- Ambil baris ke-3 menggunakan .iloc

- Ambil nilai Usia milik Dewi menggunakan .loc

- Ambil Nama dan Nilai untuk 3 baris pertama

In [20]:
# mengambil hanya kolom usia
print(df['Usia'])

0      20
1      21
2    None
3      22
4      21
5       -
Name: Usia, dtype: object


In [23]:
# mengambil kolom nama dan kota
print(df[['Usia','Kota']])

   Usia      Kota
0    20    Malang
1    21    Malang
2  None  Surabaya
3    22    Malang
4    21      None
5     -  Surabaya


In [31]:
# ambil baris ke tiga
print(df.iloc[3])

ID            104
Nama         Dewi
Usia           22
Nilai         NaN
Kota       Malang
Jurusan        TI
Name: 3, dtype: object


In [44]:
# ambil data dewi
# harus make index atau namanya diset jadi index baru bisa
print(df.loc[3,'Usia']) # make 'Dewi' ga bisa harus indeks dari si dewinya itu atau namanya diubah jadi index

22


In [46]:
# ambil nama dan nilai untuk 3 baris pertama
print(df[['Nama','Nilai']].head(3))

    Nama  Nilai
0   Andi   80.0
1   Budi   90.0
2  Citra   75.0


### BAGIAN C — FILTERING & KONDISI LOGIS

- Tampilkan mahasiswa dengan Usia > 20

- Tampilkan mahasiswa dengan Nilai ≥ 85 dan Kota = Malang

- Tampilkan mahasiswa yang Kota-nya tidak null

- Tampilkan mahasiswa dengan Jurusan diawali huruf "T"

In [55]:
# disitu ada nilai yang tidak diketahui pada kolom usia
# mendeteksi nilai unik dulu
print(df['Usia'].unique())
# ganti nilai - jadi nan dlu
df['Usia'] = df['Usia'].replace('-', pd.NA)
# ganti nilai string jadi
df['Usia'] = pd.to_numeric(df['Usia'], errors='coerce')
# filter usia
filter_usia = df[df['Usia']>20]
print(filter_usia)


[20. 21. nan 22.]
    ID  Nama  Usia  Nilai    Kota Jurusan
1  102  Budi  21.0   90.0  Malang      SI
3  104  Dewi  22.0    NaN  Malang      TI
4  105   Eka  21.0   95.0    None      SI


In [60]:
# menampilkan mahasiswa dengan nilai >= 85 dan di kota malang
filter_nilai_kota = df[(df['Nilai']>=85) & (df['Kota'] == 'Malang') ]
print(filter_nilai_kota)

    ID  Nama  Usia  Nilai    Kota Jurusan
1  102  Budi  21.0   90.0  Malang      SI


In [67]:
# menampilkan kota yang tidak memiliki null
filter_kota = df[df['Kota'].notnull()]
print(filter_kota)

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi  20.0   80.0    Malang      TI
1  102   Budi  21.0   90.0    Malang      SI
2  103  Citra   NaN   75.0  Surabaya      TI
3  104   Dewi  22.0    NaN    Malang      TI
5  106  Fajar   NaN   88.0  Surabaya      SI


In [70]:
# menampilkan mahasiswa dengan jurusan awal T
filter_jurusan = df[df['Jurusan'].str.startswith('T')]
print(filter_jurusan)

    ID   Nama  Usia  Nilai      Kota Jurusan
0  101   Andi  20.0   80.0    Malang      TI
2  103  Citra   NaN   75.0  Surabaya      TI
3  104   Dewi  22.0    NaN    Malang      TI


### BAGIAN D — ASSIGNMENT & MODIFIKASI DATA

- Tambahkan kolom baru Lulus (Nilai ≥ 85 → True)

- Naikkan semua Nilai sebesar 5 poin

- Ganti semua nilai '-' pada kolom Usia menjadi missing value

- Ganti nama kolom:

- Nama → Nama_Mahasiswa

- Nilai → Skor