# Pandas DataFrame dan Operasi CSV

Pandas DataFrame adalah struktur data 2 dimensi yang sangat powerful untuk analisis data. Pada materi ini, kita akan mempelajari:

1. Membuat dan Memanipulasi DataFrame
2. Membaca dan Menulis File CSV
3. Operasi Dasar DataFrame
4. Filtering dan Sorting Data
5. Grouping dan Aggregasi
6. Handling Missing Values

Mari kita mulai dengan import library yang diperlukan dan membuat DataFrame sederhana.

In [11]:
import pandas as pd
import numpy as np

# Membuat DataFrame sederhana
data = {
    'Nama': ['Budi', 'Ani', 'Citra', 'Doni', 'Eva'],
    'Usia': [25, 22, 28, 20, 24],
    'Kota': ['Jakarta', 'Bandung', 'Surabaya', 'Yogyakarta', 'Medan'],
    'Nilai': [85.5, 92.0, 88.5, 75.0, 95.5]
}

df = pd.DataFrame(data)
print("DataFrame dari dictionary:")
print(df)
print("\nInformasi DataFrame:")
print(df.info())
print("\nStatistik deskriptif:")
print(df.describe())

DataFrame dari dictionary:
    Nama  Usia        Kota  Nilai
0   Budi    25     Jakarta   85.5
1    Ani    22     Bandung   92.0
2  Citra    28    Surabaya   88.5
3   Doni    20  Yogyakarta   75.0
4    Eva    24       Medan   95.5

Informasi DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nama    5 non-null      object 
 1   Usia    5 non-null      int64  
 2   Kota    5 non-null      object 
 3   Nilai   5 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes
None

Statistik deskriptif:
           Usia      Nilai
count   5.00000   5.000000
mean   23.80000  87.300000
std     3.03315   7.831028
min    20.00000  75.000000
25%    22.00000  85.500000
50%    24.00000  88.500000
75%    25.00000  92.000000
max    28.00000  95.500000


# Penjelasan DataFrame Dasar

Dari contoh di atas, kita dapat melihat beberapa hal penting:

1. **Pembuatan DataFrame**
   - DataFrame dibuat dari dictionary Python
   - Setiap key menjadi nama kolom
   - Setiap value berupa list menjadi data kolom

2. **Struktur DataFrame**
   - Index otomatis (0-4)
   - 4 kolom: Nama, Usia, Kota, Nilai
   - 5 baris data

3. **Informasi DataFrame (`df.info()`)**
   - Menampilkan tipe data setiap kolom
   - Jumlah non-null values
   - Penggunaan memori

4. **Statistik Deskriptif (`df.describe()`)**
   - Hanya untuk kolom numerik (Usia dan Nilai)
   - Menampilkan count, mean, std, min, 25%, 50%, 75%, max

Mari kita lanjutkan dengan operasi-operasi dasar pada DataFrame.

In [13]:
# 1. Mengakses kolom
print("Kolom Nama:")
print(df['Nama'])
print("\nKolom Nama dan Kota:")
print(df[['Nama', 'Kota']])

# 2. Filtering data
print("\nData siswa dengan Nilai > 85:")
print(df[df['Nilai'] > 85])

# 3. Sorting
print("\nData diurutkan berdasarkan Nilai (descending):")
print(df.sort_values('Nilai', ascending=False))

# 4. Menambah kolom baru
df['Status'] = ['Lulus' if nilai >= 80 else 'Tidak Lulus' for nilai in df['Nilai']]
print("\nDataFrame dengan kolom Status baru:")
print(df)

# 5. Grouping dan agregasi
print("\nRata-rata Nilai berdasarkan Status:")
print(df.groupby('Status')['Nilai'].mean())

Kolom Nama:
0     Andi
1     Budi
2    Citra
3     Deni
4      Eva
Name: Nama, dtype: object

Kolom Nama dan Kota:
    Nama      Kota
0   Andi   Jakarta
1   Budi   Bandung
2  Citra  Surabaya
3   Deni   Jakarta
4    Eva   Bandung

Data siswa dengan Nilai > 85:
    Nama  Usia      Kota  Nilai
1   Budi    25   Bandung     90
2  Citra    22  Surabaya     88
3   Deni    28   Jakarta     95
4    Eva    21   Bandung     87

Data diurutkan berdasarkan Nilai (descending):
    Nama  Usia      Kota  Nilai
3   Deni    28   Jakarta     95
1   Budi    25   Bandung     90
2  Citra    22  Surabaya     88
4    Eva    21   Bandung     87
0   Andi    20   Jakarta     85

DataFrame dengan kolom Status baru:
    Nama  Usia      Kota  Nilai Status
0   Andi    20   Jakarta     85  Lulus
1   Budi    25   Bandung     90  Lulus
2  Citra    22  Surabaya     88  Lulus
3   Deni    28   Jakarta     95  Lulus
4    Eva    21   Bandung     87  Lulus

Rata-rata Nilai berdasarkan Status:
Status
Lulus    89.0
Name: Nilai

# Operasi Dasar DataFrame

Mari kita bahas operasi-operasi dasar yang baru saja kita lakukan:

1. **Mengakses Kolom**
   - Menggunakan `df['nama_kolom']` untuk satu kolom
   - Menggunakan `df[['kolom1', 'kolom2']]` untuk multiple kolom
   - Hasil berupa Series (satu kolom) atau DataFrame (multiple kolom)

2. **Filtering Data**
   - Menggunakan operator perbandingan (`>`, `<`, `==`, dll)
   - Bisa menggunakan operator logika (`&` untuk AND, `|` untuk OR)
   - Hasil berupa DataFrame yang memenuhi kondisi

3. **Sorting (Pengurutan)**
   - `sort_values()` untuk mengurutkan berdasarkan nilai kolom
   - Parameter `ascending=False` untuk urutan menurun
   - Bisa mengurutkan berdasarkan multiple kolom

4. **Menambah Kolom**
   - Bisa menambah kolom baru dengan assignment langsung
   - Bisa menggunakan list comprehension atau fungsi
   - Kolom baru otomatis ditambahkan ke DataFrame

5. **Grouping dan Agregasi**
   - `groupby()` untuk mengelompokkan data
   - Bisa dilanjutkan dengan fungsi agregasi (`mean()`, `sum()`, `count()`, dll)
   - Hasil berupa Series atau DataFrame tergantung operasi

Selanjutnya, mari kita pelajari cara membaca dan menulis file CSV.

In [14]:
# Menyimpan DataFrame ke CSV
df.to_csv('data_siswa.csv', index=False)
print("File CSV telah disimpan!")

# Membaca file CSV
df_baru = pd.read_csv('data_siswa.csv')
print("\nMembaca file CSV:")
print(df_baru)

# Membaca dengan opsi tambahan
df_custom = pd.read_csv('data_siswa.csv', 
                       usecols=['Nama', 'Nilai'],  # Hanya baca kolom tertentu
                       dtype={'Nilai': float})      # Tentukan tipe data

print("\nMembaca kolom tertentu:")
print(df_custom)

# Menampilkan informasi statistik
print("\nInformasi statistik nilai:")
print(df_custom['Nilai'].describe())

File CSV telah disimpan!

Membaca file CSV:
    Nama  Usia      Kota  Nilai Status
0   Andi    20   Jakarta     85  Lulus
1   Budi    25   Bandung     90  Lulus
2  Citra    22  Surabaya     88  Lulus
3   Deni    28   Jakarta     95  Lulus
4    Eva    21   Bandung     87  Lulus

Membaca kolom tertentu:
    Nama  Nilai
0   Andi   85.0
1   Budi   90.0
2  Citra   88.0
3   Deni   95.0
4    Eva   87.0

Informasi statistik nilai:
count     5.000000
mean     89.000000
std       3.807887
min      85.000000
25%      87.000000
50%      88.000000
75%      90.000000
max      95.000000
Name: Nilai, dtype: float64


# Bekerja dengan File CSV

CSV (Comma Separated Values) adalah format file yang umum digunakan untuk menyimpan data tabular. Pandas menyediakan fungsi yang powerful untuk membaca dan menulis file CSV.

### 1. Menyimpan DataFrame ke CSV
- Menggunakan method `to_csv()`
- Parameter `index=False` untuk tidak menyimpan index
- Bisa menentukan separator, encoding, dll

### 2. Membaca File CSV
Pandas menyediakan berbagai opsi untuk membaca file CSV:

**Opsi Dasar:**
- `pd.read_csv('nama_file.csv')`
- Secara default membaca semua kolom
- Menebak tipe data secara otomatis

**Opsi Lanjutan:**
- `usecols`: Memilih kolom tertentu
- `dtype`: Menentukan tipe data kolom
- `sep`: Menentukan separator (default: ',')
- `encoding`: Menentukan encoding file
- `na_values`: Menentukan nilai yang dianggap NA/NaN
- `skiprows`: Melewati baris tertentu
- `nrows`: Membaca sejumlah baris tertentu

### 3. Tips Penggunaan
- Selalu periksa tipe data setelah membaca CSV
- Gunakan parameter yang sesuai untuk optimasi memori
- Pertimbangkan encoding yang sesuai (utf-8, latin1, dll)
- Tangani missing values dengan tepat

Mari kita lanjutkan dengan contoh penanganan missing values dan operasi lanjutan lainnya.

In [15]:
# Membuat DataFrame dengan missing values
data_missing = {
    'Nama': ['Budi', 'Ani', 'Citra', 'Doni', 'Eva'],
    'Usia': [25, np.nan, 28, 20, np.nan],
    'Kota': ['Jakarta', None, 'Surabaya', 'Yogyakarta', 'Medan'],
    'Nilai': [85.5, 92.0, np.nan, 75.0, 95.5]
}

df_missing = pd.DataFrame(data_missing)
print("DataFrame dengan missing values:")
print(df_missing)
print("\nInformasi missing values:")
print(df_missing.isnull().sum())

# Menangani missing values
df_clean = df_missing.copy()

# 1. Mengisi missing values dengan nilai tertentu
df_clean['Usia'] = df_clean['Usia'].fillna(df_clean['Usia'].mean())
df_clean['Kota'] = df_clean['Kota'].fillna('Tidak Diketahui')
df_clean['Nilai'] = df_clean['Nilai'].fillna(df_clean['Nilai'].median())

print("\nDataFrame setelah handling missing values:")
print(df_clean)

# 2. Operasi lanjutan
print("\nStatistik per kota:")
kota_stats = df_clean.groupby('Kota').agg({
    'Usia': ['count', 'mean'],
    'Nilai': ['mean', 'min', 'max']
})
print(kota_stats)

DataFrame dengan missing values:
    Nama  Usia        Kota  Nilai
0   Budi  25.0     Jakarta   85.5
1    Ani   NaN        None   92.0
2  Citra  28.0    Surabaya    NaN
3   Doni  20.0  Yogyakarta   75.0
4    Eva   NaN       Medan   95.5

Informasi missing values:
Nama     0
Usia     2
Kota     1
Nilai    1
dtype: int64

DataFrame setelah handling missing values:
    Nama       Usia             Kota  Nilai
0   Budi  25.000000          Jakarta  85.50
1    Ani  24.333333  Tidak Diketahui  92.00
2  Citra  28.000000         Surabaya  88.75
3   Doni  20.000000       Yogyakarta  75.00
4    Eva  24.333333            Medan  95.50

Statistik per kota:
                 Usia             Nilai              
                count       mean   mean    min    max
Kota                                                 
Jakarta             1  25.000000  85.50  85.50  85.50
Medan               1  24.333333  95.50  95.50  95.50
Surabaya            1  28.000000  88.75  88.75  88.75
Tidak Diketahui     1  24.

# Penanganan Missing Values dan Operasi Lanjutan

### 1. Identifikasi Missing Values
- Menggunakan `isnull()` atau `isna()` untuk mengecek missing values
- `isnull().sum()` untuk menghitung jumlah missing values per kolom
- Missing values bisa berupa `NaN`, `None`, atau nilai kosong lainnya

### 2. Metode Penanganan Missing Values
a. **Mengisi (Imputation)**
   - `fillna()`: Mengisi dengan nilai tertentu
   - Bisa menggunakan nilai statistik (mean, median, mode)
   - Bisa menggunakan nilai default atau custom

b. **Menghapus (Deletion)**
   - `dropna()`: Menghapus baris atau kolom dengan missing values
   - Parameter `how='all'`: Hapus jika semua nilai missing
   - Parameter `how='any'`: Hapus jika ada nilai missing

### 3. Operasi Lanjutan
a. **Groupby dengan Agregasi**
   - Mengelompokkan data berdasarkan satu atau lebih kolom
   - Melakukan multiple agregasi sekaligus
   - Hasil berupa DataFrame dengan MultiIndex

b. **Best Practices**
   - Selalu buat copy DataFrame sebelum modifikasi
   - Pilih metode handling yang sesuai dengan konteks data
   - Dokumentasikan asumsi dan keputusan yang diambil

### 4. Tips Tambahan
- Pertimbangkan dampak handling missing values pada analisis
- Gunakan visualisasi untuk memahami pola missing values
- Simpan log perubahan yang dilakukan pada data

Dengan ini, kita telah mempelajari dasar-dasar penggunaan Pandas DataFrame dan operasi pada file CSV, termasuk penanganan missing values dan operasi lanjutan lainnya.