# 07 – Introduction to Pandas

## Tujuan Pembelajaran
Setelah mempelajari bab ini, kita akan mampu:
1. Memahami apa itu Pandas dan kegunaannya
2. Mengenal DataFrame dan Series
3. Membaca data dari file CSV dan JSON menggunakan Pandas
4. Melakukan eksplorasi data dasar
5. Memahami alur kerja awal seorang Data Analyst / Data Scientist

## Apa itu Pandas?

Pandas adalah library Python yang digunakan untuk:
- Mengelola data tabular
- Membersihkan data
- Menganalisis data

Dalam dunia nyata, hampir semua Data Analyst dan Data Scientist
menggunakan Pandas sebagai alat utama eksplorasi data.

## Instalasi Pandas

Jika Pandas belum terpasang, jalankan perintah berikut di terminal:

`pip install pandas`

In [None]:
# Import library Pandas
import pandas as pd

## Struktur Data Utama di Pandas

Pandas memiliki dua struktur data utama:
1. Series  -> data satu dimensi
2. DataFrame -> data dua dimensi (tabel)

## 1. Pandas Series

Series adalah struktur data satu dimensi yang mirip dengan list,
namun memiliki index.

In [None]:
# Membuat Series
nilai = pd.Series([80, 85, 90, 95])

print(nilai)

In [None]:
# Mengakses data Series
print(nilai[0])
print("Rata-rata nilai:", nilai.mean())

## 2. Pandas DataFrame

DataFrame adalah struktur data dua dimensi berbentuk tabel
yang terdiri dari baris dan kolom.

In [7]:
# Membuat DataFrame dari dictionary
data = {
    "nama": ["Kamil", "Nurul", "Mahreen"],
    "umur": [21, 22, 23],
    "nilai": [85, 90, 78]
}

df = pd.DataFrame(data)
df

Unnamed: 0,nama,umur,nilai
0,Kamil,21,85
1,Nurul,22,90
2,Mahreen,23,78


### Informasi Dasar DataFrame

In [8]:
# Melihat 5 baris pertama
df.head()

Unnamed: 0,nama,umur,nilai
0,Kamil,21,85
1,Nurul,22,90
2,Mahreen,23,78


In [9]:
# Informasi struktur data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nama    3 non-null      object
 1   umur    3 non-null      int64 
 2   nilai   3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes


In [10]:
# Statistik deskriptif
df.describe()

Unnamed: 0,umur,nilai
count,3.0,3.0
mean,22.0,84.333333
std,1.0,6.027714
min,21.0,78.0
25%,21.5,81.5
50%,22.0,85.0
75%,22.5,87.5
max,23.0,90.0


## 3. Membaca File CSV

Pandas sangat sering digunakan untuk membaca data dari file CSV.

In [11]:
# Membaca file CSV
df_csv = pd.read_csv("mahasiswa.csv")

df_csv

Unnamed: 0,nama,umur,nilai
0,Kamil,30,85
1,Nurul,30,90
2,Fildza,25,78


## 4. Membaca File JSON

In [12]:
# Membaca file JSON
df_json = pd.read_json("mahasiswa.json")

df_json

Unnamed: 0,nama,umur,nilai
0,Kamil,30,85
1,Nurul,30,90
2,Fildza,25,78


## 5. Eksplorasi Data Dasar

Eksplorasi data adalah langkah awal untuk memahami:
- Bentuk data
- Pola data
- Kualitas data

In [13]:
# Ukuran data (baris, kolom)
df.shape

(3, 3)

In [14]:
# Nama kolom
df.columns

Index(['nama', 'umur', 'nilai'], dtype='object')

In [15]:
# Mengakses satu kolom
df["nilai"]

0    85
1    90
2    78
Name: nilai, dtype: int64

In [16]:
# Filter data
df[df["nilai"] >= 85]

Unnamed: 0,nama,umur,nilai
0,Kamil,21,85
1,Nurul,22,90


## Studi Kasus Mini

Menampilkan mahasiswa yang memiliki nilai di atas rata-rata.

In [17]:
rata_rata = df["nilai"].mean()

df[df["nilai"] > rata_rata]

Unnamed: 0,nama,umur,nilai
0,Kamil,21,85
1,Nurul,22,90


## Latihan

1. Buat DataFrame berisi data minimal 5 mahasiswa
2. Tampilkan 5 baris pertama
3. Hitung nilai rata-rata
4. Tampilkan mahasiswa dengan nilai di bawah rata-rata

# Jawaban & Solusi Latihan

Bagian ini berisi solusi dari latihan pada Bab 07 – Introduction to Pandas.

### Penjelasan
Data mahasiswa disimpan dalam bentuk dictionary,
kemudian dikonversi menjadi Pandas DataFrame.

In [21]:
import pandas as pd

# Membuat data mahasiswa
data_mahasiswa = {
    "nama": ["Kamil", "Nurul", "Fildza", "Mahreen", "Kamil"],
    "umur": [21, 22, 23, 21, 24],
    "nilai": [85, 90, 78, 88, 70]
}

# Membuat DataFrame
df = pd.DataFrame(data_mahasiswa)

df

Unnamed: 0,nama,umur,nilai
0,Kamil,21,85
1,Nurul,22,90
2,Fildza,23,78
3,Mahreen,21,88
4,Kamil,24,70


In [22]:
# Menampilkan 5 baris pertama
df.head()

Unnamed: 0,nama,umur,nilai
0,Kamil,21,85
1,Nurul,22,90
2,Fildza,23,78
3,Mahreen,21,88
4,Kamil,24,70


## Latihan 3
Hitung nilai rata-rata mahasiswa.

In [23]:
# Menghitung nilai rata-rata
rata_rata_nilai = df["nilai"].mean()

print("Nilai rata-rata mahasiswa:", rata_rata_nilai)

Nilai rata-rata mahasiswa: 82.2


## Latihan 4
Tampilkan mahasiswa dengan nilai di bawah rata-rata.

In [24]:
# Filter mahasiswa dengan nilai di bawah rata-rata
mahasiswa_di_bawah_rata_rata = df[df["nilai"] < rata_rata_nilai]

mahasiswa_di_bawah_rata_rata

Unnamed: 0,nama,umur,nilai
2,Fildza,23,78
4,Kamil,24,70


## Ringkasan

- Pandas adalah library utama analisis data
- Series -> satu dimensi
- DataFrame -> dua dimensi
- Pandas mempermudah eksplorasi dan analisis data
- DataFrame mempermudah pengolahan data tabular
- Fungsi `mean()` digunakan untuk menghitung nilai rata-rata
- Filtering membantu menemukan data berdasarkan kondisi tertentu