# 1. Pandas Introduction
**Ringkasan tentang Pandas: Mengelola dan Menganalisis Data dengan Mudah**

Pandas adalah pustaka Python yang kuat dan populer untuk analisis dan manipulasi data. Pustaka ini menawarkan alat yang luas untuk memahami, membersihkan, memanipulasi, dan menganalisis data dalam berbagai format, seperti tabel, lembar kerja, dan kumpulan data berdimensi tinggi. Dengan Pandas, Anda dapat mengoptimalkan analisis data Anda dengan mudah dan efisien.

**Fitur Utama Pandas:**

1. **DataFrame dan Series:** Pandas menyediakan struktur data utama dalam bentuk DataFrame (tabel dua dimensi) dan Series (array satu dimensi dengan label). Ini memudahkan penyimpanan dan pengelolaan data berkolom dan berbaris.

2. **Memuat dan Menyimpan Data:** Anda dapat dengan mudah mengimpor data dari berbagai sumber seperti file CSV, Excel, SQL databases, dan API web. Pandas juga mendukung penyimpanan ulang data ke berbagai format.

3. **Pembersihan dan Pra-pemrosesan Data:** Pustaka ini menyediakan alat untuk mengatasi nilai yang hilang, menghapus duplikat, dan mengubah tipe data agar data Anda lebih berkualitas.

4. **Pengindeksan dan Pemotongan:** Anda dapat dengan mudah mengindeks, memotong, dan memilih data berdasarkan kriteria tertentu, baik berdasarkan label maupun indeks numerik.

5. **Filtering dan Kueri Data:** Pandas memungkinkan Anda melakukan filtrasi dan pengambilan data berdasarkan kriteria tertentu menggunakan operator logika, fungsi lambda, dan metode lainnya.

6. **Transformasi Data:** Anda dapat melakukan berbagai transformasi pada data, seperti pengelompokan, agregasi, pivot, dan operasi melt untuk mengubah struktur data.

7. **Analisis Seri Waktu:** Pandas memiliki dukungan yang kuat untuk analisis deret waktu, dengan indeks waktu dan berbagai operasi terkait seri waktu.

8. **Visualisasi Data:** Pustaka ini terintegrasi dengan baik dengan pustaka visualisasi seperti Matplotlib dan Seaborn, memungkinkan pembuatan plot dan grafik dari data Pandas.

9. **Analisis Statistik:** Pandas menyediakan berbagai metode statistik untuk menghitung rata-rata, deviasi standar, korelasi, distribusi, dan statistik lainnya.

10. **Penanganan Data yang Hilang:** Anda dapat mengelola data yang hilang dengan metode fillna(), dropna(), dan interpolate(), meningkatkan kualitas data Anda.

11. **Penggabungan dan Penghubungan Data:** Pandas memungkinkan penggabungan dan penghubungan data dari berbagai sumber berdasarkan kunci atau indeks.

12. **Konektivitas Data:** Pandas mendukung berbagai format file data, termasuk csv, xlsx, hdf5, dan banyak lagi.

Dengan Pandas, Anda dapat menjalankan analisis data dengan lebih efisien dan menghasilkan wawasan yang lebih dalam dari data Anda.

# 2. Pandas Series

Pandas Series adalah struktur data satu dimensi yang merupakan bagian penting dari pustaka Pandas. Ini mirip dengan array atau list dalam Python, tetapi memiliki keunggulan dalam integrasi dengan banyak fitur Pandas. Mari kita lihat beberapa operasi sederhana yang dapat kita lakukan dengan Pandas Series.

In [1]:
import pandas as pd

# Membuat Pandas Series dari list
data = [10, 20, 30, 40, 50]
series = pd.Series(data)
series

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [2]:
# Membuat Pandas Series dengan label kustom
data_dict = {'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}
custom_series = pd.Series(data_dict)
custom_series

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [3]:
# Operasi penambahan
result_add = series + 5
result_add

0    15
1    25
2    35
3    45
4    55
dtype: int64

In [4]:
# Operasi pengurangan
result_subtract = custom_series - 10
result_subtract

a     0
b    10
c    20
d    30
e    40
dtype: int64

In [5]:
# Operasi perkalian
result_multiply = series * 2
result_multiply

0     20
1     40
2     60
3     80
4    100
dtype: int64

In [6]:
# Operasi pembagian
result_divide = custom_series / 3
result_divide

a     3.333333
b     6.666667
c    10.000000
d    13.333333
e    16.666667
dtype: float64

In [7]:
max_value = series.max()  # Nilai maksimum dalam series
min_value = custom_series.min()  # Nilai minimum dalam custom_series
sum_values = series.sum()  # Jumlah semua nilai dalam series

print("Nilai Maksimum dalam series:", max_value)
print("Nilai Minimum dalam custom_series:", min_value)
print("Jumlah semua nilai dalam series:", sum_values)

Nilai Maksimum dalam series: 50
Nilai Minimum dalam custom_series: 10
Jumlah semua nilai dalam series: 150


# 3. Pandas DataFrame

Pandas DataFrame adalah salah satu struktur data paling penting yang ditawarkan oleh pustaka Pandas. Ini merupakan struktur data dua dimensi yang mirip dengan tabel dalam database atau lembar kerja Excel. DataFrame memungkinkan kita untuk menyimpan, mengelola, dan menganalisis data dalam bentuk yang lebih terstruktur dan mudah dimengerti. Mari kita lihat bagaimana bekerja dengan Pandas DataFrame.

In [3]:
import pandas as pd
# Membuat dictionary dengan data
data = {
    'Nama': ['Alice', 'Bob', 'Charlie', 'David'],
    'Usia': [25, 30, 22, 28],
    'Pekerjaan': ['Pengembang', 'Analisis Data', 'Desainer', 'Manajer']
}

# Membuat DataFrame dari dictionary
df = pd.DataFrame(data)
df

Unnamed: 0,Nama,Usia,Pekerjaan
0,Alice,25,Pengembang
1,Bob,30,Analisis Data
2,Charlie,22,Desainer
3,David,28,Manajer


In [5]:
# Mengakses baris pertama (indeks 0)
first_row = df.loc[0]
first_row

Nama              Alice
Usia                 25
Pekerjaan    Pengembang
Name: 0, dtype: object

In [6]:
# Mengakses kolom 'Nama'
names = df['Nama']
names

0      Alice
1        Bob
2    Charlie
3      David
Name: Nama, dtype: object

In [7]:
# Mengakses data pada baris ke-2 dan kolom 'Usia'
age_of_second_person = df.at[1, 'Usia']
age_of_second_person

30

In [8]:
# Mengambil baris dengan usia di atas 25
above_25 = df[df['Usia'] > 25]
above_25

Unnamed: 0,Nama,Usia,Pekerjaan
1,Bob,30,Analisis Data
3,David,28,Manajer


In [9]:
# Menghitung rata-rata usia
average_age = df['Usia'].mean()
average_age

26.25

In [10]:
# Menyimpan DataFrame ke file CSV
df.to_csv('data.csv', index=False)

In [12]:
# Memuat DataFrame dari file CSV
loaded_df = pd.read_csv('data.csv')
loaded_df

Unnamed: 0,Nama,Usia,Pekerjaan
0,Alice,25,Pengembang
1,Bob,30,Analisis Data
2,Charlie,22,Desainer
3,David,28,Manajer


# 4. Impor CSV and Excel data

Pustaka Pandas memungkinkan Anda mengimpor data dari berbagai sumber, seperti file CSV dan Excel. Ini memungkinkan Anda untuk membaca data secara efisien ke dalam Pandas DataFrame, yang memudahkan analisis dan manipulasi lebih lanjut. Mari kita jelajahi cara mengimpor data dari file CSV dan Excel menggunakan Pandas.

## 4.1. Mengimpor Data dari File CSV
Berikut adalah bagaimana Anda dapat mengimpor file CSV ke dalam DataFrame:

In [None]:
import pandas as pd
df_csv = pd.read_csv('data.csv')
df_csv

## 4.2. Menyesuaikan Pengimporan Pandas

Anda dapat menyesuaikan cara Pandas mengimpor data dengan menggunakan berbagai parameter. Misalnya, jika baris pertama dalam file CSV adalah baris header, Anda dapat mengaturnya dengan parameter `header`:

In [None]:
df_csv = pd.read_csv('data.csv', header=0)
df_csv

## 4.3. Mengimpor Data dari File Excel

Untuk mengimpor data dari file Excel, Anda harus menginstal pustaka tambahan `openpyxl` jika belum terinstal. Anda dapat melakukannya dengan perintah berikut:

```bash
pip install openpyxl
```

In [None]:
!pip install openpyxl

In [None]:
# Mengimpor data dari file Excel
df_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1')
df_excel

**Penyesuaian Pemilihan Lembar dalam Excel:**

Anda dapat menyesuaikan pemilihan lembar Excel dengan menggunakan parameter `sheet_name` saat mengimpor:

In [None]:
df_sheet2 = pd.read_excel('data.xlsx', sheet_name='Sheet2')
df_sheet2

# 5. Indexing dan Subsetting

Pustaka Pandas menyediakan berbagai cara untuk mengakses data dalam DataFrame, baik itu untuk memilih kolom, baris, atau kombinasi keduanya. Melalui berbagai teknik indeks dan subset, Anda dapat mengakses data yang diperlukan dengan tepat. Mari kita lihat bagaimana melakukan indeks dan subset data dalam Pandas.


## 5.1. Memilih Satu Kolom

In [1]:
import pandas as pd

# Membuat DataFrame contoh
data = {
    'Nama': ['Alice', 'Bob', 'Charlie', 'David'],
    'Usia': [25, 30, 22, 28],
    'Pekerjaan': ['Pengembang', 'Analisis Data', 'Desainer', 'Manajer']
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nama,Usia,Pekerjaan
0,Alice,25,Pengembang
1,Bob,30,Analisis Data
2,Charlie,22,Desainer
3,David,28,Manajer


In [16]:
# Memilih kolom 'Nama'
nama = df['Nama']
nama

0      Alice
1        Bob
2    Charlie
3      David
Name: Nama, dtype: object

## 5.2. Memilih Beberapa Kolom

Anda dapat memilih beberapa kolom dengan menyediakan daftar nama kolom yang diinginkan:

In [3]:
# Memilih kolom 'Nama' dan 'Usia'
nama_usia = df[['Nama', 'Usia']]
nama_usia

Unnamed: 0,Nama,Usia
0,Alice,25
1,Bob,30
2,Charlie,22
3,David,28


## 5.3. Memilih Baris melalui [ ]

Anda dapat memilih baris berdasarkan indeks numerik dengan menggunakan tanda kurung siku:

In [4]:
# Memilih baris ke-2
baris_ke_2 = df[1:2]
baris_ke_2

Unnamed: 0,Nama,Usia,Pekerjaan
1,Bob,30,Analisis Data


## 5.4. Memilih melalui .loc[] (Berdasarkan Label)

Anda dapat memilih baris berdasarkan label indeks menggunakan `.loc[]`:

In [5]:
# Memilih baris dengan label indeks 1
baris_label_1 = df.loc[1]
baris_label_1

Nama                   Bob
Usia                    30
Pekerjaan    Analisis Data
Name: 1, dtype: object

## 5.5. Memilih melalui .iloc[] (Berdasarkan Posisi)

Anda dapat memilih baris berdasarkan posisi numerik menggunakan `.iloc[]`:

In [6]:
# Memilih baris pada posisi indeks 2
baris_posisi_2 = df.iloc[2]
baris_posisi_2

Nama          Charlie
Usia               22
Pekerjaan    Desainer
Name: 2, dtype: object

## 5.6. Indeks Boolean

Anda dapat menggunakan indeks boolean untuk memilih baris berdasarkan kondisi tertentu:

In [7]:
# Memilih baris dengan usia di atas 25
diatas_25 = df[df['Usia'] > 25]
diatas_25

Unnamed: 0,Nama,Usia,Pekerjaan
1,Bob,30,Analisis Data
3,David,28,Manajer


# 6. Memanipulasi DataFrame dalam Pandas

Pustaka Pandas memungkinkan Anda untuk melakukan berbagai manipulasi pada DataFrame, seperti mentranspose, mengurutkan, menambah atau menghapus kolom, dan banyak lagi. Ini memberi Anda kemampuan untuk merubah dan memodifikasi data dengan fleksibilitas. Mari kita lihat cara-cara memanipulasi DataFrame dalam Pandas.

## 6.1. Transposisi dengan .T

Anda dapat mentransposisi DataFrame dengan menggunakan atribut `.T`:

In [27]:
import pandas as pd

# Membuat DataFrame contoh
data = {
    'Nama': ['Alice', 'Bob', 'Charlie', 'David'],
    'Usia': [25, 30, 22, 28],
    'Pekerjaan': ['Pengembang', 'Analisis Data', 'Desainer', 'Manajer']
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nama,Usia,Pekerjaan
0,Alice,25,Pengembang
1,Bob,30,Analisis Data
2,Charlie,22,Desainer
3,David,28,Manajer


In [28]:
# Melakukan transposisi DataFrame
transposed_df = df.T
transposed_df

Unnamed: 0,0,1,2,3
Nama,Alice,Bob,Charlie,David
Usia,25,30,22,28
Pekerjaan,Pengembang,Analisis Data,Desainer,Manajer


## 6.2. Metode .sort_index()

Anda dapat mengurutkan DataFrame berdasarkan indeks menggunakan metode `.sort_index()`:

In [29]:
# Mengurutkan DataFrame berdasarkan indeks
sorted_df = df.sort_index()
sorted_df

Unnamed: 0,Nama,Usia,Pekerjaan
0,Alice,25,Pengembang
1,Bob,30,Analisis Data
2,Charlie,22,Desainer
3,David,28,Manajer


## 6.3. Metode .sort_values()

Anda dapat mengurutkan DataFrame berdasarkan nilai kolom menggunakan metode `.sort_values()`:

In [30]:
# Mengurutkan DataFrame berdasarkan kolom 'Usia'
sorted_by_age = df.sort_values(by='Usia')
sorted_by_age

Unnamed: 0,Nama,Usia,Pekerjaan
2,Charlie,22,Desainer
0,Alice,25,Pengembang
3,David,28,Manajer
1,Bob,30,Analisis Data


## 6.4. Fungsi reindex()

Anda dapat mengubah ulang indeks DataFrame menggunakan fungsi `reindex()`:

In [31]:
# Mengubah ulang indeks DataFrame
reindexed_df = df.reindex([3, 2, 1, 0])
reindexed_df

Unnamed: 0,Nama,Usia,Pekerjaan
3,David,28,Manajer
2,Charlie,22,Desainer
1,Bob,30,Analisis Data
0,Alice,25,Pengembang


## 6.5. Menambah Kolom Baru

Anda dapat menambahkan kolom baru ke dalam DataFrame:

In [32]:
# Menambahkan kolom 'Alamat'
alamat = ['Jalan A', 'Jalan B', 'Jalan C', 'Jalan D']
df['Alamat'] = alamat
df

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat
0,Alice,25,Pengembang,Jalan A
1,Bob,30,Analisis Data,Jalan B
2,Charlie,22,Desainer,Jalan C
3,David,28,Manajer,Jalan D


## 6.6. Menghapus Kolom yang Ada

Anda dapat menghapus kolom yang sudah ada dari DataFrame:

In [33]:
# Menghapus kolom 'Pekerjaan'
df_dropped = df.drop('Pekerjaan', axis=1)
df_dropped

Unnamed: 0,Nama,Usia,Alamat
0,Alice,25,Jalan A
1,Bob,30,Jalan B
2,Charlie,22,Jalan C
3,David,28,Jalan D


## 6.7. Metode .at[] (Berdasarkan Label)

Anda dapat mengakses dan memodifikasi nilai dalam DataFrame berdasarkan label menggunakan metode `.at[]`:

In [34]:
# Mengakses dan mengubah nilai pada baris 1, kolom 'Nama'
df.at[1, 'Nama'] = 'Bob Smith'
df

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat
0,Alice,25,Pengembang,Jalan A
1,Bob Smith,30,Analisis Data,Jalan B
2,Charlie,22,Desainer,Jalan C
3,David,28,Manajer,Jalan D


## 6.8. Metode .iat[] (Berdasarkan Posisi)

Anda dapat mengakses dan memodifikasi nilai dalam DataFrame berdasarkan posisi numerik menggunakan metode `.iat[]`:

In [35]:
# Mengakses dan mengubah nilai pada baris 2, kolom 1
df.iat[2, 1] = 23
df

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat
0,Alice,25,Pengembang,Jalan A
1,Bob Smith,30,Analisis Data,Jalan B
2,Charlie,23,Desainer,Jalan C
3,David,28,Manajer,Jalan D


## 6.9. Pembaruan Kondisional Nilai

Anda dapat melakukan pembaruan kondisional terhadap nilai dalam DataFrame:

In [42]:
# Memperbarui usia Charlie menjadi 24 jika pekerjaannya adalah 'Desainer'
df.loc[df['Pekerjaan'] == 'Desainer', 'Usia'] = 24
df

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat,Usia_shifted
0,Alice,50,Pengembang,Jalan A,
1,Bob Smith,60,Analisis Data,Jalan B,50.0
2,Charlie,24,Desainer,Jalan C,60.0
3,David,56,Manajer,Jalan D,48.0


## 6.10. Metode dropna()

Anda dapat menghapus baris dengan nilai yang hilang menggunakan metode `.dropna()`:

In [37]:
# Menghapus baris dengan nilai yang hilang
df_cleaned = df.dropna()
df_cleaned

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat
0,Alice,25,Pengembang,Jalan A
1,Bob Smith,30,Analisis Data,Jalan B
2,Charlie,24,Desainer,Jalan C
3,David,28,Manajer,Jalan D


## 6.11: Metode fillna()

Anda dapat mengisi nilai yang hilang dengan nilai tertentu menggunakan metode `.fillna()`:

In [38]:
# Mengisi nilai yang hilang pada kolom 'Usia' dengan nilai 0
df_filled = df.fillna({'Usia': 0})
df_filled

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat
0,Alice,25,Pengembang,Jalan A
1,Bob Smith,30,Analisis Data,Jalan B
2,Charlie,24,Desainer,Jalan C
3,David,28,Manajer,Jalan D


## 6.12. Metode apply()

Anda dapat menerapkan fungsi khusus pada kolom atau baris DataFrame menggunakan metode `.apply()`:

In [39]:
# Menggandakan nilai pada kolom 'Usia'
df['Usia'] = df['Usia'].apply(lambda x: x * 2)
df

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat
0,Alice,50,Pengembang,Jalan A
1,Bob Smith,60,Analisis Data,Jalan B
2,Charlie,48,Desainer,Jalan C
3,David,56,Manajer,Jalan D


## 6.13. Fungsi shift()

Anda dapat menggeser nilai dalam DataFrame menggunakan fungsi `shift()`:

In [40]:
# Menggeser nilai pada kolom 'Usia' ke bawah
df['Usia_shifted'] = df['Usia'].shift(1)
df

Unnamed: 0,Nama,Usia,Pekerjaan,Alamat,Usia_shifted
0,Alice,50,Pengembang,Jalan A,
1,Bob Smith,60,Analisis Data,Jalan B,50.0
2,Charlie,48,Desainer,Jalan C,60.0
3,David,56,Manajer,Jalan D,48.0


# 7. EDA Statistik dengan Pandas

Pustaka Pandas memberikan kemampuan untuk menjelajahi data Anda secara statistik. Dengan menggunakan berbagai fungsi bawaan, Anda dapat dengan cepat mendapatkan wawasan tentang distribusi data, statistik rata-rata, deviasi standar, dan lainnya. Mari kita lihat beberapa cara melakukan analisis data eksploratif statistik dalam Pandas.

## 7.1. Fungsi info()
Fungsi `info()` memberikan ringkasan tentang DataFrame, termasuk informasi tentang jenis data, jumlah nilai non-null, dan penggunaan memori:

In [1]:
import pandas as pd

# Membuat DataFrame contoh
data = {
    'Nama': ['Alice', 'Bob', 'Charlie', 'David'],
    'Usia': [25, 30, 22, 27],
    'Pekerjaan': ['Pengembang', 'Analisis Data', 'Desainer', 'Manajer']
}
df = pd.DataFrame(data)

# Menampilkan informasi tentang DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nama       4 non-null      object
 1   Usia       4 non-null      int64 
 2   Pekerjaan  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


## 7.2: Fungsi describe()

Fungsi `describe()` memberikan statistik deskriptif tentang kolom numerik dalam DataFrame, seperti mean, deviasi standar, nilai minimum, dan lainnya:

In [2]:
# Menampilkan statistik deskriptif
deskripsi_statistik = df.describe()
deskripsi_statistik

Unnamed: 0,Usia
count,4.0
mean,26.0
std,3.366502
min,22.0
25%,24.25
50%,26.0
75%,27.75
max,30.0


## 7.3. Fungsi value_counts()

Fungsi `value_counts()` memberikan hitungan unik dari nilai dalam kolom:

In [3]:
# Menampilkan hitungan unik dalam kolom 'Pekerjaan'
hitungan_pekerjaan = df['Pekerjaan'].value_counts()
hitungan_pekerjaan

Pekerjaan
Pengembang       1
Analisis Data    1
Desainer         1
Manajer          1
Name: count, dtype: int64

## 7.4. Fungsi mean()

Fungsi `mean()` menghitung rata-rata dari nilai dalam kolom:

In [4]:
# Menghitung rata-rata usia
rata_usia = df['Usia'].mean()
print("Rata-rata Usia:", rata_usia)

Rata-rata Usia: 26.0


## 7.5. Fungsi std()

Fungsi `std()` menghitung deviasi standar dari nilai dalam kolom:

In [5]:
# Menghitung deviasi standar usia
deviasi_standar_usia = df['Usia'].std()
print("Deviasi Standar Usia:", deviasi_standar_usia)

Deviasi Standar Usia: 3.366501646120693


# 8. Filter DataFrame dalam Pandas

Filtering memungkinkan Anda untuk memilih subset dari data yang memenuhi kriteria tertentu. Pustaka Pandas menyediakan berbagai cara untuk melakukan filtering pada DataFrame. Mari kita lihat beberapa cara untuk melakukan filtering dalam Pandas.

## 8.1. Menggunakan Operator Perbandingan
Anda dapat menggunakan operator perbandingan seperti `==`, `>`, `<`, `>=`, dan `<=` untuk membuat kondisi filter:

In [1]:
import pandas as pd

# Membuat DataFrame contoh
data = {
    'Nama': ['Alice', 'Bob', 'Charlie', 'David'],
    'Usia': [25, 30, 22, 28],
    'Pekerjaan': ['Pengembang', 'Analisis Data', 'Desainer', 'Manajer']
}
df = pd.DataFrame(data)

# Menggunakan operator perbandingan untuk filtering
filtered_df = df[df['Usia'] > 25]
filtered_df

Unnamed: 0,Nama,Usia,Pekerjaan
1,Bob,30,Analisis Data
3,David,28,Manajer


## 8.2. Metode isin()

Anda dapat menggunakan metode `isin()` untuk memfilter berdasarkan beberapa nilai yang diberikan:

In [2]:
# Menggunakan metode isin() untuk filtering
pekerjaan_tertentu = ['Pengembang', 'Desainer']
filtered_by_pekerjaan = df[df['Pekerjaan'].isin(pekerjaan_tertentu)]
filtered_by_pekerjaan

Unnamed: 0,Nama,Usia,Pekerjaan
0,Alice,25,Pengembang
2,Charlie,22,Desainer


## 8.3: Metode query()

Metode `query()` memungkinkan Anda untuk mengekspresikan kondisi filtering menggunakan sintaks yang mirip SQL:

In [3]:
# Menggunakan metode query() untuk filtering
filtered_by_usia = df.query('Usia > 25')
filtered_by_usia

Unnamed: 0,Nama,Usia,Pekerjaan
1,Bob,30,Analisis Data
3,David,28,Manajer


## 8.4. Menggabungkan Kondisi Filtering

Anda dapat menggabungkan beberapa kondisi filtering menggunakan operator logika `&` (and) dan `|` (or):

In [4]:
# Menggabungkan kondisi filtering
filtered_combined = df[(df['Usia'] > 25) & (df['Pekerjaan'] != 'Analisis Data')]
filtered_combined

Unnamed: 0,Nama,Usia,Pekerjaan
3,David,28,Manajer


## 8.5. Menggunakan Metode loc[] dan iloc[]

Metode `loc[]` dan `iloc[]` juga dapat digunakan untuk filtering dengan mengatur kondisi pada baris dan kolom:

In [5]:
# Menggunakan metode loc[] untuk filtering
filtered_loc = df.loc[df['Usia'] > 25, ['Nama', 'Usia']]
filtered_loc

Unnamed: 0,Nama,Usia
1,Bob,30
3,David,28


## 8.6. Menggunakan Fungsi apply()

Anda dapat menggunakan fungsi `apply()` untuk menerapkan fungsi khusus pada setiap baris atau kolom dan mengembalikan hasil filtering:

In [6]:
# Menggunakan fungsi apply() untuk filtering
def filter_function(row):
    return row['Usia'] > 25 and 'Data' in row['Pekerjaan']

filtered_apply = df[df.apply(filter_function, axis=1)]
filtered_apply

Unnamed: 0,Nama,Usia,Pekerjaan
1,Bob,30,Analisis Data


# 9. Iteration dalam DataFrame Pandas

Iterasi dalam DataFrame Pandas memungkinkan Anda untuk melakukan pengulangan melalui baris atau kolom dalam DataFrame untuk melakukan berbagai tugas. Meskipun Pandas mendukung iterasi, sangat dianjurkan untuk menghindari iterasi sebisa mungkin dan lebih memilih operasi vektorisasi untuk kinerja yang lebih baik. Namun, ada situasi di mana iterasi diperlukan.

## 9.1. Iterasi melalui Baris
Anda dapat menggunakan metode `iterrows()` untuk melakukan iterasi melalui baris dalam DataFrame:

In [1]:
import pandas as pd

# Membuat DataFrame contoh
data = {
    'Nama': ['Alice', 'Bob', 'Charlie', 'David'],
    'Usia': [25, 30, 22, 28],
    'Pekerjaan': ['Pengembang', 'Analisis Data', 'Desainer', 'Manajer']
}
df = pd.DataFrame(data)

# Iterasi melalui baris dengan iterrows()
for index, row in df.iterrows():
    print(f"Index: {index}, Nama: {row['Nama']}, Usia: {row['Usia']}, Pekerjaan: {row['Pekerjaan']}")

Index: 0, Nama: Alice, Usia: 25, Pekerjaan: Pengembang
Index: 1, Nama: Bob, Usia: 30, Pekerjaan: Analisis Data
Index: 2, Nama: Charlie, Usia: 22, Pekerjaan: Desainer
Index: 3, Nama: David, Usia: 28, Pekerjaan: Manajer


## 9.2. Iterasi melalui Kolom

Anda juga dapat melakukan iterasi melalui kolom dalam DataFrame dengan mengakses kolom menggunakan nama.

    
Dalam kasus ini, Anda akan mendapatkan nilai dalam setiap kolom dalam bentuk Series.

In [2]:
# Iterasi melalui kolom
for column in df.columns:
    print(f"Nama Kolom: {column}")
    print(df[column])

Nama Kolom: Nama
0      Alice
1        Bob
2    Charlie
3      David
Name: Nama, dtype: object
Nama Kolom: Usia
0    25
1    30
2    22
3    28
Name: Usia, dtype: int64
Nama Kolom: Pekerjaan
0       Pengembang
1    Analisis Data
2         Desainer
3          Manajer
Name: Pekerjaan, dtype: object


## 9.3. Iterasi dengan itertuples()

Metode `itertuples()` adalah alternatif yang lebih efisien untuk melakukan iterasi melalui baris dalam DataFrame:

In [3]:
# Iterasi dengan itertuples()
for row in df.itertuples():
    print(f"Index: {row.Index}, Nama: {row.Nama}, Usia: {row.Usia}, Pekerjaan: {row.Pekerjaan}")

Index: 0, Nama: Alice, Usia: 25, Pekerjaan: Pengembang
Index: 1, Nama: Bob, Usia: 30, Pekerjaan: Analisis Data
Index: 2, Nama: Charlie, Usia: 22, Pekerjaan: Desainer
Index: 3, Nama: David, Usia: 28, Pekerjaan: Manajer


# 10. Menggabungkan, Menyisipkan, dan Menggabungkan DataFrame dalam Pandas

Dalam analisis data, seringkali Anda perlu menggabungkan atau menggabungkan beberapa DataFrame menjadi satu kesatuan untuk analisis yang lebih komprehensif. Pustaka Pandas menyediakan berbagai cara untuk melakukan operasi ini. Mari kita lihat bagaimana cara menggabungkan, menyisipkan, dan menggabungkan DataFrame dalam Pandas.

## 10.1. Menggabungkan DataFrames dengan merge()
Fungsi `merge()` memungkinkan Anda untuk menggabungkan DataFrames berdasarkan kolom yang bersama-sama. Ini mirip dengan operasi SQL JOIN:

In [1]:
import pandas as pd

# Membuat DataFrame contoh
data1 = {
    'ID': [1, 2, 3],
    'Nama': ['Alice', 'Bob', 'Charlie']
}
data2 = {
    'ID': [2, 3, 4],
    'Pekerjaan': ['Analisis Data', 'Desainer', 'Manajer']
}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
print(df1,'\n')
print(df2)

   ID     Nama
0   1    Alice
1   2      Bob
2   3  Charlie 

   ID      Pekerjaan
0   2  Analisis Data
1   3       Desainer
2   4        Manajer


In [2]:
# Menggabungkan DataFrames berdasarkan kolom 'ID'
merged_df = pd.merge(df1, df2, on='ID')
print(merged_df)

   ID     Nama      Pekerjaan
0   2      Bob  Analisis Data
1   3  Charlie       Desainer


## 10.2. Menggabungkan DataFrame dengan concat()

Fungsi `concat()` memungkinkan Anda menggabungkan beberapa DataFrames secara beruntun:

In [4]:
# Menggabungkan DataFrames secara beruntun
df_concatenated = pd.concat([df1, df2], ignore_index=True)
df_concatenated

Unnamed: 0,ID,Nama,Pekerjaan
0,1,Alice,
1,2,Bob,
2,3,Charlie,
3,2,,Analisis Data
4,3,,Desainer
5,4,,Manajer


In [6]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)


df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)


df3 = pd.DataFrame(
    {
        "A": ["A8", "A9", "A10", "A11"],
        "B": ["B8", "B9", "B10", "B11"],
        "C": ["C8", "C9", "C10", "C11"],
        "D": ["D8", "D9", "D10", "D11"],
    },
    index=[8, 9, 10, 11],
)


frames = [df1, df2, df3]

result = pd.concat(frames)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


## 10.3. Menggabungkan DataFrame dengan join()

Fungsi `join()` memungkinkan Anda menggabungkan DataFrames berdasarkan indeks:

In [5]:
# Menggabungkan DataFrames berdasarkan indeks
df1.set_index('ID', inplace=True)
df2.set_index('ID', inplace=True)
df_joined = df1.join(df2, how='inner')
df_joined

Unnamed: 0_level_0,Nama,Pekerjaan
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
2,Bob,Analisis Data
3,Charlie,Desainer


# 11. Time Series dalam Pandas

Time Series adalah serangkaian data yang diambil pada interval waktu tertentu. Pustaka Pandas menyediakan dukungan yang kuat untuk mengelola dan menganalisis data deret waktu. Mari kita lihat cara menggunakan Time Series dalam Pandas.

## 11.1. Indexing pada Pandas TimeSeries
Anda dapat membuat Time Series dengan menggunakan kolom waktu sebagai indeks:

In [2]:
import pandas as pd

# Membuat Time Series dengan indeks waktu
dates = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
data = [10, 15, 20, 25, 30, 35, 40, 45, 50, 55]
ts = pd.Series(data, index=dates)
ts

2023-01-01    10
2023-01-02    15
2023-01-03    20
2023-01-04    25
2023-01-05    30
2023-01-06    35
2023-01-07    40
2023-01-08    45
2023-01-09    50
2023-01-10    55
Freq: D, dtype: int64

## 11.2. Resampling pada Pandas TimeSeries

Anda dapat melakukan resampling pada Time Series untuk mengubah frekuensi datanya:

In [3]:
# Resampling Time Series
resampled_ts = ts.resample('W').sum()
resampled_ts

2023-01-01     10
2023-01-08    210
2023-01-15    105
Freq: W-SUN, dtype: int64

## 11.3. Manipulasi pada Pandas TimeSeries

Pustaka Pandas menyediakan berbagai fungsi untuk memanipulasi Time Series:

In [4]:
# Memotong Time Series berdasarkan rentang tanggal
subset_ts = ts['2023-01-03':'2023-01-08']
subset_ts

2023-01-03    20
2023-01-04    25
2023-01-05    30
2023-01-06    35
2023-01-07    40
2023-01-08    45
Freq: D, dtype: int64

In [5]:
# Menggunakan metode shift() untuk memindahkan data
shifted_ts = ts.shift(1)
shifted_ts

2023-01-01     NaN
2023-01-02    10.0
2023-01-03    15.0
2023-01-04    20.0
2023-01-05    25.0
2023-01-06    30.0
2023-01-07    35.0
2023-01-08    40.0
2023-01-09    45.0
2023-01-10    50.0
Freq: D, dtype: float64

In [6]:
# Menghitung perubahan persentase harian
daily_returns = ts.pct_change()
daily_returns

2023-01-01         NaN
2023-01-02    0.500000
2023-01-03    0.333333
2023-01-04    0.250000
2023-01-05    0.200000
2023-01-06    0.166667
2023-01-07    0.142857
2023-01-08    0.125000
2023-01-09    0.111111
2023-01-10    0.100000
Freq: D, dtype: float64