# Modul 2 
## Topik 1: Komputasi Numerik dengan NumPy

In [4]:
import numpy as np

### 1. Apa itu NumPy dan Mengapa Penting?
NumPy (singkatan dari Numerical Python) adalah library inti untuk komputasi numerik di Python. Ia menyediakan sebuah objek array multi-dimensi yang sangat efisien dan berbagai fungsi untuk bekerja dengan array tersebut.

Bayangkan Anda memiliki daftar berisi satu juta angka. Jika Anda menggunakan List biasa di Python, melakukan operasi matematika (misalnya, mengalikan setiap angka dengan 2) akan berjalan relatif lambat. NumPy melakukan operasi yang sama jauh lebih cepat karena:

- Ditulis dalam bahasa C yang sangat cepat.

- Menyimpan data di memori secara lebih efisien.

- Mendukung operasi matematika pada seluruh array sekaligus (disebut vectorization).

Di dunia data, Pandas (yang akan kita pelajari selanjutnya) dibangun di atas NumPy. Jadi, memahami NumPy adalah langkah krusial.

### 2. Objek Inti: NumPy Array (ndarray)

In [5]:
# Membuat array 1 dimensi (vektor)
list_angka = [1, 2, 3, 4, 5]
array_satu_dimensi = np.array(list_angka)

print(array_satu_dimensi)
print(type(array_satu_dimensi)) # Output: <class 'numpy.ndarray'>

# Membuat array 2 dimensi (matriks)
list_bersarang = [[1, 2, 3], [4, 5, 6]]
array_dua_dimensi = np.array(list_bersarang)

print(array_dua_dimensi)

[1 2 3 4 5]
<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]


In [6]:
# Melihat dimensi array
print(array_dua_dimensi.ndim) # Output: 2

# Melihat bentuk/ukuran array (baris, kolom)
print(array_dua_dimensi.shape) # Output: (2, 3) -> 2 baris, 3 kolom

# Melihat tipe data elemen di dalam array
print(array_dua_dimensi.dtype) # Output: int64 (tergantung sistem)

2
(2, 3)
int64


### 3. Operasi Matematika dan Statistika pada Array

In [7]:
data_penjualan = np.array([100, 150, 200, 250])

# Operasi dengan skalar (satu angka)
print("Ditambah 10: ", data_penjualan + 10)
print("Dikali 2: ", data_penjualan * 2)

# Operasi antar dua array (harus memiliki shape yang sama)
data_keuntungan = np.array([20, 25, 30, 35])
total_pendapatan = data_penjualan + data_keuntungan
print("Total Pendapatan: ", total_pendapatan)

Ditambah 10:  [110 160 210 260]
Dikali 2:  [200 300 400 500]
Total Pendapatan:  [120 175 230 285]


In [8]:
data_nilai_ujian = np.array([88, 92, 75, 60, 95, 80, 100])

print("Nilai rata-rata: ", data_nilai_ujian.mean())
print("Nilai tertinggi: ", data_nilai_ujian.max())
print("Nilai terendah: ", data_nilai_ujian.min())
print("Total nilai: ", data_nilai_ujian.sum())
print("Standar deviasi: ", data_nilai_ujian.std())

Nilai rata-rata:  84.28571428571429
Nilai tertinggi:  100
Nilai terendah:  60
Total nilai:  590
Standar deviasi:  12.702241486269665


### 4. Indexing dan Slicing

In [12]:
# Array 1 Dimensi
arr1d = np.array([10, 11, 12, 13, 14])
print(arr1d[2]) # Output: 12
print(arr1d[1:4]) # Output: [11 12 13]

# Array 2 Dimensi
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d)

# Mengakses satu elemen [baris, kolom]
print("Elemen baris 1, kolom 2: ", arr2d[1, 2]) # Output: 6

# Mengakses satu baris penuh
print("Baris kedua: ", arr2d[1]) # Output: [4, 5, 6] atau arr2d[1, :]

# Mengakses satu kolom penuh
print("Kolom ketigaL ", arr2d[:, 2]) # Output: [3 6 9]

# Slicing (mengambil sebagian matriks)
# Ambil 2 baris pertama, dan kolom ke-2 sampai akhir
print("Slice:\n", arr2d[0:2, 1:])

12
[11 12 13]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
Elemen baris 1, kolom 2:  6
Baris kedua:  [4 5 6]
Kolom ketigaL  [3 6 9]
Slice:
 [[2 3]
 [5 6]]


### Latihan

1. Buat sebuah NumPy array 2D berukuran 3x3 yang berisi angka dari 1 hingga 9.
2. Dari array tersebut, kalikan semua elemennya dengan 10.
3. Akses dan cetak elemen yang berada di tengah matriks (angka 5).
4. Ambil dan cetak hanya kolom terakhir dari matriks tersebut.

In [19]:
# Membuat array 2d berukuran 3x3
matriks = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(matriks)

# Kalikan semua elemennya dengan 10
print("Dikali 10:\n", matriks * 10)

# Akses dan cetak elemen yang berada di tengah matriks (angka 5)
print("Elemen yang berada di tengah matriks adalah, ", matriks[1, 1])

# Akses dan cetak hanya kolom terakhir
print("Kolom terakhir dari matriks tersebut adalah: \n", matriks[:, 2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
Dikali 10:
 [[10 20 30]
 [40 50 60]
 [70 80 90]]
Elemen yang berada di tengah matriks adalah,  5
Kolom terakhir dari matriks tersebut adalah: 
 [3 6 9]


## Topik 2: Pengenalan Pandas

In [1]:
import pandas as pd
import numpy as np # Kita juga sering menggunakan NumPy bersamaan dengan Pandas

### 1. Struktur Data Inti: Series dan DataFrame
#### a. Series (1 Dimensi)

In [2]:
# Membuat Series dari sebuah list
nilai_mahasiswa = pd.Series([80, 95, 77, 65, 92])
print(nilai_mahasiswa)

0    80
1    95
2    77
3    65
4    92
dtype: int64


#### b. DataFrame (2 Dimensi)

In [3]:
# Membuat DataFram dari sebuah dictionary
data_penjualan = {
    'Produk': ['Buku', 'Pensil', 'Buku', 'Penghapus', 'Pensil'],
    'Jumlah': [10, 25, 8, 15, 30],
    'Harga Satuan': [5000, 1000, 5000, 1500, 1000]
}

df = pd.DataFrame(data_penjualan)
print(df)

      Produk  Jumlah  Harga Satuan
0       Buku      10          5000
1     Pensil      25          1000
2       Buku       8          5000
3  Penghapus      15          1500
4     Pensil      30          1000


### 2. Membaca dan Menulis Data dari File
#### a. Membaca File CSV(.csv)

In [4]:
# Anggap kita punya file bernama 'data_transaksi.csv'
# df_transaksi = pd.read.csv('data_transaksi.csv)

#### b. Membaca File Excel (.xlsx)

In [5]:
# Membaca sheet pertama dari file 'laporan_bulanan.xlsx'
# df_laporan = pd.read_excel('laporan_bulanan.xlsx')

#### c. Menulis DataFrame ke File

In [6]:
# Menyimpan DataFrame 'df' ke file baru bernana 'hasil_analisis.csv'
# df.to_csv('hasil_analisis.csv', index=False) # index=False agar index tidak ikut tersimpan

### 3. Inspeksi Awal Data (First Look)

In [11]:
# Melihat 3 baris pertama
print(df.head(3)) 

# Melihat 2 baris terakhir
print(df.tail(2))

# Melihat dimensi DataFrame (jumlah baris, jumlah kolom)
print(df.shape) # Output: (5, 3)

# Melihat ringkasan teknis DataFrame
df.info()

# Melihat ringkasan statistik
print(df.describe())

   Produk  Jumlah  Harga Satuan
0    Buku      10          5000
1  Pensil      25          1000
2    Buku       8          5000
      Produk  Jumlah  Harga Satuan
3  Penghapus      15          1500
4     Pensil      30          1000
(5, 3)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Produk        5 non-null      object
 1   Jumlah        5 non-null      int64 
 2   Harga Satuan  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 252.0+ bytes
          Jumlah  Harga Satuan
count   5.000000      5.000000
mean   17.600000   2700.000000
std     9.555103   2109.502311
min     8.000000   1000.000000
25%    10.000000   1000.000000
50%    15.000000   1500.000000
75%    25.000000   5000.000000
max    30.000000   5000.000000


### Latihan
1. Buat sebuah dictionary yang berisi data teman-teman Anda, dengan kolom "Nama", "Usia", dan "Kota".
2. Ubah dictionary tersebut menjadi sebuah Pandas DataFrame.
3. Gunakan metode .head(), .info(), dan .describe() untuk melakukan inspeksi awal pada DataFrame yang baru Anda buat.

In [13]:
# 1. Membuat dictionary
data = {
    'Nama': ['Miyeon', 'Minnie', 'Soyeon', 'Yuqi', 'Shuhua'],
    'Usia': [28, 27, 26, 25, 25],
    'Kota': ['Seoul', 'Bangkok', 'Seoul', 'Beijing', 'Taipei']
}

# 2. Mengubah dictionary menjadi Pandas DataFrame
df = pd.DataFrame(data)
print(df)

# 3. Menggunakan metode .head(), .info(), .describe()
print(df.head())
df.info()
print(df.describe())

     Nama  Usia     Kota
0  Miyeon    28    Seoul
1  Minnie    27  Bangkok
2  Soyeon    26    Seoul
3    Yuqi    25  Beijing
4  Shuhua    25   Taipei
     Nama  Usia     Kota
0  Miyeon    28    Seoul
1  Minnie    27  Bangkok
2  Soyeon    26    Seoul
3    Yuqi    25  Beijing
4  Shuhua    25   Taipei
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nama    5 non-null      object
 1   Usia    5 non-null      int64 
 2   Kota    5 non-null      object
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes
           Usia
count   5.00000
mean   26.20000
std     1.30384
min    25.00000
25%    25.00000
50%    26.00000
75%    27.00000
max    28.00000


## Topik 3: Data Wrangling & Cleaning dengan Pandas

In [2]:
import pandas as pd
import numpy as np

data_karyawan = {
    'Nama': ['Andi', 'Budi', 'Citra', 'Dedi', 'Eka', 'Budi', np.nan],
    'Usia': [28, 35, 28, 42, 35, 35, 22],
    'Kota': ['Jakarta', 'Bandung', 'Jakarta', 'Surabaya', 'Bandung', 'Bandung', 'Yogyakarta'],
    'Gaji': [7000000, 8500000, 7200000, 10000000, np.nan, 8500000, 5000000]
}

df = pd.DataFrame(data_karyawan)
print("Data Awal yang Berantakan: ")
print(df)

Data Awal yang Berantakan: 
    Nama  Usia        Kota        Gaji
0   Andi    28     Jakarta   7000000.0
1   Budi    35     Bandung   8500000.0
2  Citra    28     Jakarta   7200000.0
3   Dedi    42    Surabaya  10000000.0
4    Eka    35     Bandung         NaN
5   Budi    35     Bandung   8500000.0
6    NaN    22  Yogyakarta   5000000.0


### 1. Seleksi Data: Memilih Data yang Anda Butuhkan
#### a. Memilih Kolom

In [3]:
# Memilih satu kolom (hasilnya adalah Series)
print(df['Nama'])

# Memilih beberapa kolom (hasilnya adalah DataFrame)
print(df[['Nama', 'Kota']])

0     Andi
1     Budi
2    Citra
3     Dedi
4      Eka
5     Budi
6      NaN
Name: Nama, dtype: object
    Nama        Kota
0   Andi     Jakarta
1   Budi     Bandung
2  Citra     Jakarta
3   Dedi    Surabaya
4    Eka     Bandung
5   Budi     Bandung
6    NaN  Yogyakarta


#### Memilih Baris dan Kolom dengan .loc dan .iloc
- .loc: Seleksi berdasarkan label (nama index dan nama kolom)
- .iloc: Seleksi berdasarkan posisi integer (angka urutan baris dan kolom).

In [7]:
# .loc[baris, kolom]
# Memilih baris dengan index 3
print(df.loc[3])

# Memilih baris index 1 sampai 3, dan kolom 'Nama' sampai 'Kota'
print(df.loc[1:3, 'Nama':'Kota'])

# .iloc[baris, kolom]
# Memilih baris di posisi ke-2 (ingat, dimulai dari 0)
print(df.iloc[2])

# Memilih baris di posisi 0 dan 1, dan kolom di posisi 0 dan 2
print(df.iloc[0:2, [0,2]])

Nama          Dedi
Usia            42
Kota      Surabaya
Gaji    10000000.0
Name: 3, dtype: object
    Nama  Usia      Kota
1   Budi    35   Bandung
2  Citra    28   Jakarta
3   Dedi    42  Surabaya
Nama        Citra
Usia           28
Kota      Jakarta
Gaji    7200000.0
Name: 2, dtype: object
   Nama     Kota
0  Andi  Jakarta
1  Budi  Bandung


#### c. Conditional Filtering (Penyaringan Berdasarkan Kondisi)

In [9]:
# Memilih semua karyawan yang usianya di atas 30 tahun
df_diatas_30 = df[df['Usia'] > 30]
print(df_diatas_30)

# Menggabungkan dua kondisi: karyawan dari Bandung DAN gajinya di atas 8 juta
df_bandung_gaji_tinggi = df[(df['Kota'] == 'Bandung') & (df['Gaji'] > 8000000)]
print(df_bandung_gaji_tinggi)

   Nama  Usia      Kota        Gaji
1  Budi    35   Bandung   8500000.0
3  Dedi    42  Surabaya  10000000.0
4   Eka    35   Bandung         NaN
5  Budi    35   Bandung   8500000.0
   Nama  Usia     Kota       Gaji
1  Budi    35  Bandung  8500000.0
5  Budi    35  Bandung  8500000.0


### 2. Menangani Missing Values (Data yang Hilang)

In [10]:
# Menghasilkan boolean True/False untuk setiap sel
print(df.isnull())

# Menghitung jumlah data yang hilang di setiap kolom (paling sering digunakan)
print(df.isnull().sum())

    Nama   Usia   Kota   Gaji
0  False  False  False  False
1  False  False  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False   True
5  False  False  False  False
6   True  False  False  False
Nama    1
Usia    0
Kota    0
Gaji    1
dtype: int64


In [11]:
# Menghapus semua baris yang memiliki setidaknya satu data hilang
df_bersih = df.dropna()
print(df_bersih)

    Nama  Usia      Kota        Gaji
0   Andi    28   Jakarta   7000000.0
1   Budi    35   Bandung   8500000.0
2  Citra    28   Jakarta   7200000.0
3   Dedi    42  Surabaya  10000000.0
5   Budi    35   Bandung   8500000.0


In [12]:
# Mengisi Gaji yang hilang dengan nilai rata-rata gaji
rata_rata_gaji = df['Gaji'].mean()
df['Gaji'].fillna(rata_rata_gaji, inplace=True) # inplace=True untuk memodifikasi df secara langsung

# Mengisi Nama yang hilang dengan 'Tidak Diketahui'
df['Nama'].fillna('Tidak Diketahui', inplace=True)
print(df)

              Nama  Usia        Kota        Gaji
0             Andi    28     Jakarta   7000000.0
1             Budi    35     Bandung   8500000.0
2            Citra    28     Jakarta   7200000.0
3             Dedi    42    Surabaya  10000000.0
4              Eka    35     Bandung   7700000.0
5             Budi    35     Bandung   8500000.0
6  Tidak Diketahui    22  Yogyakarta   5000000.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Gaji'].fillna(rata_rata_gaji, inplace=True) # inplace=True untuk memodifikasi df secara langsung


### 3. Menangani Data Duplikat

In [13]:
# Menampilkan baris mana saja yang merupakan duplikat
print(df.duplicated())

0    False
1    False
2    False
3    False
4    False
5     True
6    False
dtype: bool


In [14]:
# Menghapus baris yang duplikat, mempertahankan yang pertama muncul
df_tanpa_duplikat = df.drop_duplicates()
print(df_tanpa_duplikat)

              Nama  Usia        Kota        Gaji
0             Andi    28     Jakarta   7000000.0
1             Budi    35     Bandung   8500000.0
2            Citra    28     Jakarta   7200000.0
3             Dedi    42    Surabaya  10000000.0
4              Eka    35     Bandung   7700000.0
6  Tidak Diketahui    22  Yogyakarta   5000000.0


### 4. Mengubah Tipe Data Kolom (.astype())

In [16]:
# Cek tipe data awal
df.info()

# Mengubah tipe data kolom 'Usia' dari float (jika ada) menjadi integer
# Ini hanya bisa dilakukan jika tidak ada missing values di kolom tersebut
# df['Usia'] = df['Usia'].astype(int)

# print("\nTipe data setelah diubah: ")
# df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nama    7 non-null      object 
 1   Usia    7 non-null      int64  
 2   Kota    7 non-null      object 
 3   Gaji    7 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 356.0+ bytes


### Latihan
1. Gunakan DataFrame data_karyawan yang asli (yang masih berantakan).
2. Hapus baris yang duplikat terlebih dahulu.
3. Isi Gaji yang hilang dengan nilai median (bukan mean).
4. Isi Nama yang hilang dengan teks "ANONIM".
5. Tampilkan hanya data karyawan yang berasal dari "Jakarta".

In [26]:
# Gunakan DataFrame data_karyawan yang asli
df = pd.DataFrame(data_karyawan)
print(df)

# Hapus baris yang duplikat
df_tanpa_duplikat = df.drop_duplicates()
print(df_tanpa_duplikat)

# Isi gaji yang hilang dengan median
median_gaji = df_tanpa_duplikat['Gaji'].median()
df_tanpa_duplikat['Gaji'].fillna(median_gaji, inplace=True)
print(df_tanpa_duplikat)

# Isi nama yang hilang dengan ANONIM
df_tanpa_duplikat['Nama'].fillna('ANONIM', inplace=True)
print(df_tanpa_duplikat)

# Karyawan yang berasal dari Jakarta
df_jakarta = df_tanpa_duplikat[(df_tanpa_duplikat['Kota'] == 'Jakarta')]
print(df_jakarta)

    Nama  Usia        Kota        Gaji
0   Andi    28     Jakarta   7000000.0
1   Budi    35     Bandung   8500000.0
2  Citra    28     Jakarta   7200000.0
3   Dedi    42    Surabaya  10000000.0
4    Eka    35     Bandung         NaN
5   Budi    35     Bandung   8500000.0
6    NaN    22  Yogyakarta   5000000.0
    Nama  Usia        Kota        Gaji
0   Andi    28     Jakarta   7000000.0
1   Budi    35     Bandung   8500000.0
2  Citra    28     Jakarta   7200000.0
3   Dedi    42    Surabaya  10000000.0
4    Eka    35     Bandung         NaN
6    NaN    22  Yogyakarta   5000000.0
    Nama  Usia        Kota        Gaji
0   Andi    28     Jakarta   7000000.0
1   Budi    35     Bandung   8500000.0
2  Citra    28     Jakarta   7200000.0
3   Dedi    42    Surabaya  10000000.0
4    Eka    35     Bandung   7200000.0
6    NaN    22  Yogyakarta   5000000.0
     Nama  Usia        Kota        Gaji
0    Andi    28     Jakarta   7000000.0
1    Budi    35     Bandung   8500000.0
2   Citra    28     Ja

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_tanpa_duplikat['Gaji'].fillna(median_gaji, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tanpa_duplikat['Gaji'].fillna(median_gaji, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col

Perbaikan

In [27]:
# Gunakan DataFrame data_karyawan yang asli
df = pd.DataFrame(data_karyawan)

# 1. Hapus baris yang duplikat
# Kita buat variabel baru agar lebih jelas
df_cleaned = df.drop_duplicates()

# 2. Isi gaji yang hilang dengan median
median_gaji = df_cleaned['Gaji'].median()
# Simpan kembali hasilnya, hindari inplace=True
df_cleaned['Gaji'] = df_cleaned['Gaji'].fillna(median_gaji)

# 3. Isi nama yang hilang dengan ANONIM
df_cleaned['Nama'] = df_cleaned['Nama'].fillna('ANONIM')

# 4. Tampilkan karyawan yang berasal dari Jakarta
df_jakarta = df_cleaned[df_cleaned['Kota'] == 'Jakarta']

print("--- Hasil Akhir (Karyawan dari Jakarta) ---")
print(df_jakarta)

--- Hasil Akhir (Karyawan dari Jakarta) ---
    Nama  Usia     Kota       Gaji
0   Andi    28  Jakarta  7000000.0
2  Citra    28  Jakarta  7200000.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned['Gaji'] = df_cleaned['Gaji'].fillna(median_gaji)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned['Nama'] = df_cleaned['Nama'].fillna('ANONIM')


## Topik 4: Manipulasi Data Tingkat Lanjut dengan Pandas

In [28]:
import pandas as pd
data = {
    'Tanggal': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-03'],
    'Toko': ['Jakarta', 'Bandung', 'Jakarta', 'Bandung', 'Jakarta', 'Bandung'],
    'Produk': ['Buku', 'Pensil', 'Buku', 'Penghapus', 'Pensil', 'Buku'],
    'Jumlah': [10, 15, 8, 20, 12, 7],
    'Pendapatan': [50000, 7500, 40000, 10000, 6000, 35000]
}
df = pd.DataFrame(data)
print("Data Penjualan: ")
print(df)

Data Penjualan: 
      Tanggal     Toko     Produk  Jumlah  Pendapatan
0  2023-01-01  Jakarta       Buku      10       50000
1  2023-01-01  Bandung     Pensil      15        7500
2  2023-01-02  Jakarta       Buku       8       40000
3  2023-01-02  Bandung  Penghapus      20       10000
4  2023-01-03  Jakarta     Pensil      12        6000
5  2023-01-03  Bandung       Buku       7       35000


### 1. Grouping dan Agregasi dengan .groupby()

Konsepnya adalah Split-Apply-Combine:
1. Split: Memecah DataFrame menjadi beberapa grup berdasarkan kriteria.
2. Apply: Menerapkan sebuah fungsi (misalnya sum(), mean(), count()) pada setiap grup.
3. Combine: Menggabungkan hasilnya menjadi sebuah DataFrame baru.

In [29]:
# Contoh 1
# Mengelompokkan berdasarkan kolom 'Toko', lalu menjumlahkan 'Pendapatan' untuk setiap toko
pendapatan_per_toko = df.groupby('Toko')['Pendapatan'].sum()
print(pendapatan_per_toko)

Toko
Bandung    52500
Jakarta    96000
Name: Pendapatan, dtype: int64


In [30]:
# Contoh 2
# Mengelompokkan berdasarkan 'Produk', lalu menghitung rata-rata 'Jumlah'
rata_rata_jumlah_per_produk = df.groupby('Produk')['Jumlah'].mean()
print(rata_rata_jumlah_per_produk)

Produk
Buku          8.333333
Penghapus    20.000000
Pensil       13.500000
Name: Jumlah, dtype: float64


In [31]:
# Melihat total pendapatan untuk setiap produk di setiap toko
pendapatan_produk_toko = df.groupby(['Toko', 'Produk'])['Pendapatan'].sum()
print(pendapatan_per_toko)

Toko
Bandung    52500
Jakarta    96000
Name: Pendapatan, dtype: int64


### 2. Menggabungkan Beberapa DataFrame
#### a. Menggabungkan dengan .merge() (Mirip VLOOKUP atau SQL JOIN)

In [32]:
data_toko = {
    'Nama Toko': ['Jakarta', 'Bandung', 'Surabaya'],
    'Manajer': ['Andi', 'Budi', 'Citra']
}
df_toko = pd.DataFrame(data_toko)

# Menggabungkan df dengan df_toko
# Pandas cukup pintar untuk tahu bahwa 'Toko' di df dan 'Nama Toko' di df_toko adalah kunci yang sama
df_lengkap = pd.merge(df, df_toko, left_on='Toko', right_on='Nama Toko')
print(df_lengkap)

      Tanggal     Toko     Produk  Jumlah  Pendapatan Nama Toko Manajer
0  2023-01-01  Jakarta       Buku      10       50000   Jakarta    Andi
1  2023-01-01  Bandung     Pensil      15        7500   Bandung    Budi
2  2023-01-02  Jakarta       Buku       8       40000   Jakarta    Andi
3  2023-01-02  Bandung  Penghapus      20       10000   Bandung    Budi
4  2023-01-03  Jakarta     Pensil      12        6000   Jakarta    Andi
5  2023-01-03  Bandung       Buku       7       35000   Bandung    Budi


#### b. Menumpuk dengan .concat()

In [33]:
# Anggap punya DataFrame lain dengan struktur kolom yang sama
# df2 = ...
# df_gabungan = pd.concat([df, df2])

### 3. Membuat Kolom Baru dari Kolom yang Sudah Ada

In [34]:
# Harga Satuan = Pendapatan / Jumlah
df['Harga Satuan'] = df['Pendapatan'] / df['Jumlah']
print(df)

      Tanggal     Toko     Produk  Jumlah  Pendapatan  Harga Satuan
0  2023-01-01  Jakarta       Buku      10       50000        5000.0
1  2023-01-01  Bandung     Pensil      15        7500         500.0
2  2023-01-02  Jakarta       Buku       8       40000        5000.0
3  2023-01-02  Bandung  Penghapus      20       10000         500.0
4  2023-01-03  Jakarta     Pensil      12        6000         500.0
5  2023-01-03  Bandung       Buku       7       35000        5000.0


### Dasar-dasar Time Series Analysis

In [35]:
# Mengubah kolom 'Tanggal' dari teks menjadi objek datetime
df['Tanggal'] = pd.to_datetime(df['Tanggal'])
df.info() # Perhatikan Dtype kolom 'Tanggal' sekarang menjadi datetime64[ns]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Tanggal       6 non-null      datetime64[ns]
 1   Toko          6 non-null      object        
 2   Produk        6 non-null      object        
 3   Jumlah        6 non-null      int64         
 4   Pendapatan    6 non-null      int64         
 5   Harga Satuan  6 non-null      float64       
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 420.0+ bytes


In [36]:
# Mengekstrak informasi dari datetime
df['Bulan'] = df['Tanggal'].dt.month
df['Hari'] = df['Tanggal'].dt.day_name()
print(df)

     Tanggal     Toko     Produk  Jumlah  Pendapatan  Harga Satuan  Bulan  \
0 2023-01-01  Jakarta       Buku      10       50000        5000.0      1   
1 2023-01-01  Bandung     Pensil      15        7500         500.0      1   
2 2023-01-02  Jakarta       Buku       8       40000        5000.0      1   
3 2023-01-02  Bandung  Penghapus      20       10000         500.0      1   
4 2023-01-03  Jakarta     Pensil      12        6000         500.0      1   
5 2023-01-03  Bandung       Buku       7       35000        5000.0      1   

      Hari  
0   Sunday  
1   Sunday  
2   Monday  
3   Monday  
4  Tuesday  
5  Tuesday  


### Latihan
1. Gunakan .groupby() untuk mencari total pendapatan untuk setiap bulan.
2. Gunakan .groupby() untuk mencari jumlah produk terbanyak yang terjual dalam satu transaksi untuk setiap Toko. (Gunakan agregasi .max()).
3. Filter dan tampilkan hanya transaksi yang terjadi pada hari 'Selasa' (Tuesday).

In [51]:
# No. 1
pendapatan_per_bulan = df.groupby('Bulan')['Pendapatan'].sum()
print(pendapatan_per_bulan)

# No. 2
produk_terbanyak = df.groupby('Toko')['Jumlah'].max()
print(produk_terbanyak)

# No. 3
df_selasa = df[df['Hari'] == 'Tuesday']
print(df_selasa)

Bulan
1    148500
Name: Pendapatan, dtype: int64
Toko
Bandung    20
Jakarta    12
Name: Jumlah, dtype: int64
     Tanggal     Toko  Produk  Jumlah  Pendapatan  Harga Satuan  Bulan  \
4 2023-01-03  Jakarta  Pensil      12        6000         500.0      1   
5 2023-01-03  Bandung    Buku       7       35000        5000.0      1   

      Hari  
4  Tuesday  
5  Tuesday  
