# Pengenalan Pandas

Pandas adalah library Python yang sangat powerful untuk analisis dan manipulasi data. Library ini menyediakan struktur data yang fleksibel dan tools yang efisien untuk bekerja dengan data terstruktur. Dalam notebook ini, kita akan mempelajari dasar-dasar Pandas dan bagaimana menggunakannya untuk analisis data.

## Apa yang akan kita pelajari?
1. Pengenalan DataFrame dan Series
2. Membaca dan menulis data
3. Operasi dasar pada DataFrame
4. Indexing dan selecting data
5. Manipulasi data dasar
6. Contoh aplikasi sederhana

Mari kita mulai dengan mengimport library yang diperlukan!

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Set tampilan untuk output yang lebih baik
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)

print("Pandas version:", pd.__version__)
print("NumPy version:", np.__version__)

Pandas version: 2.2.3
NumPy version: 2.2.5


# Pengenalan Pandas

Pandas adalah library Python yang sangat powerful untuk analisis dan manipulasi data. Library ini menyediakan struktur data yang fleksibel dan tools untuk bekerja dengan data terstruktur.

## Mengapa Pandas?
- Mudah menangani data yang hilang (missing data)
- Dapat melakukan reshape dataset
- Powerful untuk merge dan join dataset
- Memiliki tools untuk membaca dan menulis data dari berbagai format (CSV, Excel, SQL databases, dll)
- Memiliki fungsi agregasi dan operasi statistik yang lengkap

## Struktur Data Utama di Pandas
1. **Series**: Array 1-dimensi berlabel
2. **DataFrame**: Tabel 2-dimensi dengan baris dan kolom berlabel

In [4]:
# Membuat Pandas Series
import pandas as pd
import numpy as np

# Membuat series dari list
list_buah = ['Apel', 'Jeruk', 'Mangga', 'Pisang']
series_buah = pd.Series(list_buah)
print("Series dari list buah:")
print(series_buah)
print("\nTipe data:", type(series_buah))

# Membuat series dengan index kustom
nilai_siswa = pd.Series([85, 90, 78, 95], index=['Ani', 'Budi', 'Cici', 'Dodi'])
print("\nNilai siswa:")
print(nilai_siswa)

# Membuat series dari dictionary
dict_nilai = {'Matematika': 90, 'Fisika': 85, 'Kimia': 88}
series_nilai = pd.Series(dict_nilai)
print("\nNilai mata pelajaran:")
print(series_nilai)

Series dari list buah:
0      Apel
1     Jeruk
2    Mangga
3    Pisang
dtype: object

Tipe data: <class 'pandas.core.series.Series'>

Nilai siswa:
Ani     85
Budi    90
Cici    78
Dodi    95
dtype: int64

Nilai mata pelajaran:
Matematika    90
Fisika        85
Kimia         88
dtype: int64


## Membuat Pandas Series

Pada contoh di atas, kita telah membuat beberapa Pandas Series dengan cara yang berbeda:

1. **Series dari List**
   - Menggunakan list Python biasa (`list_buah`)
   - Series secara otomatis membuat index numerik (0, 1, 2, 3)
   - Tipe data series adalah object (karena berisi string)

2. **Series dengan Index Kustom**
   - Membuat series nilai siswa dengan nama siswa sebagai index
   - Data berupa nilai numerik (integer)
   - Index berupa string (nama siswa)

3. **Series dari Dictionary**
   - Mengkonversi dictionary Python menjadi Series
   - Key dictionary menjadi index Series
   - Value dictionary menjadi nilai Series

Perhatikan bahwa Series selalu memiliki index (label) untuk setiap elemennya, baik itu index default (numerik) atau index kustom yang kita tentukan.

In [5]:
# Menampilkan atribut dan operasi dasar Series
print("Index dari nilai_siswa:")
print(nilai_siswa.index)
print("\nNilai (values) dari nilai_siswa:")
print(nilai_siswa.values)

# Operasi statistik dasar
print("\nStatistik dasar nilai_siswa:")
print(f"Rata-rata nilai: {nilai_siswa.mean()}")
print(f"Nilai tertinggi: {nilai_siswa.max()}")
print(f"Nilai terendah: {nilai_siswa.min()}")

# Akses dan slicing data
print("\nNilai Budi:", nilai_siswa['Budi'])
print("\nNilai 2 siswa pertama:")
print(nilai_siswa[0:2])

# Operasi boolean indexing
print("\nSiswa dengan nilai >= 85:")
print(nilai_siswa[nilai_siswa >= 85])

Index dari nilai_siswa:
Index(['Ani', 'Budi', 'Cici', 'Dodi'], dtype='object')

Nilai (values) dari nilai_siswa:
[85 90 78 95]

Statistik dasar nilai_siswa:
Rata-rata nilai: 87.0
Nilai tertinggi: 95
Nilai terendah: 78

Nilai Budi: 90

Nilai 2 siswa pertama:
Ani     85
Budi    90
dtype: int64

Siswa dengan nilai >= 85:
Ani     85
Budi    90
Dodi    95
dtype: int64


### Atribut dan Operasi Dasar Pandas Series

Contoh di atas menunjukkan beberapa atribut dan operasi dasar yang dapat dilakukan pada Pandas Series:

1. **Mengakses Atribut Series**:
   - `.index`: Menampilkan index dari Series
   - `.values`: Menampilkan nilai (data) dari Series

2. **Operasi Statistik**:
   - `.mean()`: Menghitung rata-rata nilai
   - `.max()`: Mencari nilai tertinggi
   - `.min()`: Mencari nilai terendah

3. **Akses dan Slicing Data**:
   - Mengakses nilai tunggal menggunakan label index: `nilai_siswa['Budi']`
   - Slicing berdasarkan posisi: `nilai_siswa[0:2]` (mengambil 2 data pertama)

4. **Boolean Indexing**:
   - Memfilter data berdasarkan kondisi: `nilai_siswa[nilai_siswa >= 85]`
   - Menghasilkan Series baru yang hanya berisi data yang memenuhi kondisi

Perhatikan bahwa Series menyimpan tipe data yang konsisten (dalam contoh ini integer) dan mendukung berbagai operasi matematika dan statistik secara langsung.

In [6]:
# Operasi matematika pada Series
print("Menambah 5 poin ke semua nilai:")
print(nilai_siswa + 5)
print("\nMengalikan semua nilai dengan 1.1 (bonus 10%):")
print(nilai_siswa * 1.1)

# Operasi perbandingan
print("\nSiswa yang mendapat nilai A (>= 90):")
nilai_a = nilai_siswa[nilai_siswa >= 90]
print(nilai_a)

# Menghitung jumlah siswa yang lulus (nilai >= 75)
lulus = nilai_siswa[nilai_siswa >= 75]
print(f"\nJumlah siswa yang lulus: {len(lulus)} dari {len(nilai_siswa)} siswa")

# Mengurutkan nilai
print("\nNilai diurutkan dari tertinggi ke terendah:")
print(nilai_siswa.sort_values(ascending=False))

# Statistik deskriptif
print("\nStatistik deskriptif:")
print(nilai_siswa.describe())

Menambah 5 poin ke semua nilai:
Ani      90
Budi     95
Cici     83
Dodi    100
dtype: int64

Mengalikan semua nilai dengan 1.1 (bonus 10%):
Ani      93.5
Budi     99.0
Cici     85.8
Dodi    104.5
dtype: float64

Siswa yang mendapat nilai A (>= 90):
Budi    90
Dodi    95
dtype: int64

Jumlah siswa yang lulus: 4 dari 4 siswa

Nilai diurutkan dari tertinggi ke terendah:
Dodi    95
Budi    90
Ani     85
Cici    78
dtype: int64

Statistik deskriptif:
count     4.00000
mean     87.00000
std       7.25718
min      78.00000
25%      83.25000
50%      87.50000
75%      91.25000
max      95.00000
dtype: float64


### Operasi Lanjutan pada Pandas Series

Contoh di atas mendemonstrasikan beberapa operasi lanjutan yang dapat dilakukan pada Pandas Series:

1. **Operasi Matematika**
   - Penambahan skalar: Menambahkan nilai ke semua elemen Series (`+ 5`)
   - Perkalian skalar: Mengalikan semua elemen dengan suatu nilai (`* 1.1`)

2. **Operasi Perbandingan dan Filtering**
   - Menggunakan operator perbandingan (`>=`) untuk membuat filter boolean
   - Memfilter data berdasarkan kondisi tertentu (contoh: nilai >= 90 untuk nilai A)
   - Menghitung jumlah data yang memenuhi kriteria tertentu

3. **Pengurutan Data**
   - Menggunakan `.sort_values()` untuk mengurutkan data
   - Parameter `ascending=False` untuk mengurutkan dari nilai tertinggi ke terendah

4. **Statistik Deskriptif**
   Metode `.describe()` memberikan ringkasan statistik yang mencakup:
   - `count`: Jumlah data
   - `mean`: Rata-rata
   - `std`: Standar deviasi
   - `min`: Nilai minimum
   - `25%`: Kuartil pertama (Q1)
   - `50%`: Median/Kuartil kedua (Q2)
   - `75%`: Kuartil ketiga (Q3)
   - `max`: Nilai maksimum

Operasi-operasi ini sangat berguna dalam analisis data dan memungkinkan kita untuk dengan mudah melakukan manipulasi dan analisis statistik pada data dalam Series.

In [7]:
# Membuat Series dengan data string
nama_buah = pd.Series(['apel', 'jeruk', 'mangga', 'PISANG', 'Anggur'])
print("Series nama buah:")
print(nama_buah)
print("\nMengubah semua huruf menjadi kapital:")
print(nama_buah.str.upper())
print("\nMengubah semua huruf menjadi lowercase:")
print(nama_buah.str.lower())
print("\nMengubah huruf pertama menjadi kapital:")
print(nama_buah.str.title())

# Mencari panjang string
print("\nPanjang setiap string:")
print(nama_buah.str.len())

# Mencari buah yang mengandung huruf 'a'
print("\nBuah yang mengandung huruf 'a':")
print(nama_buah[nama_buah.str.contains('a')])

# Mengganti substring
print("\nMengganti 'a' dengan '@':")
print(nama_buah.str.replace('a', '@'))

Series nama buah:
0      apel
1     jeruk
2    mangga
3    PISANG
4    Anggur
dtype: object

Mengubah semua huruf menjadi kapital:
0      APEL
1     JERUK
2    MANGGA
3    PISANG
4    ANGGUR
dtype: object

Mengubah semua huruf menjadi lowercase:
0      apel
1     jeruk
2    mangga
3    pisang
4    anggur
dtype: object

Mengubah huruf pertama menjadi kapital:
0      Apel
1     Jeruk
2    Mangga
3    Pisang
4    Anggur
dtype: object

Panjang setiap string:
0    4
1    5
2    6
3    6
4    6
dtype: int64

Buah yang mengandung huruf 'a':
0      apel
2    mangga
dtype: object

Mengganti 'a' dengan '@':
0      @pel
1     jeruk
2    m@ngg@
3    PISANG
4    Anggur
dtype: object


# Operasi String pada Pandas Series

Pandas Series menyediakan berbagai metode untuk memanipulasi data string melalui aksesor `.str`. Berikut adalah beberapa operasi string yang sering digunakan:

1. **Mengubah Case (Huruf Besar/Kecil)**:
   - `.str.upper()`: Mengubah semua karakter menjadi huruf kapital
   - `.str.lower()`: Mengubah semua karakter menjadi huruf kecil
   - `.str.title()`: Mengubah huruf pertama setiap kata menjadi kapital

2. **Mengukur Panjang String**:
   - `.str.len()`: Menghitung jumlah karakter dalam setiap string

3. **Pencarian dan Filtering**:
   - `.str.contains(pat)`: Mencari string yang mengandung pola tertentu
   - Hasil pencarian dapat digunakan untuk filtering data

4. **Penggantian String**:
   - `.str.replace(pat, repl)`: Mengganti substring yang cocok dengan pola tertentu

Metode-metode ini sangat berguna untuk membersihkan dan memformat data teks dalam Series. Perhatikan bahwa operasi string ini hanya berfungsi pada Series yang berisi data string.

In [8]:
import pandas as pd

# Membuat Series dengan data string yang akan dimanipulasi
teks = pd.Series([
    'Python Programming',
    '  data science  ',
    'MACHINE-LEARNING',
    'artificial_intelligence',
    'Deep.Learning'
])

print("Series Original:")
print(teks)
print("\nMenghapus spasi di awal dan akhir:")
print(teks.str.strip())
print("\nMemisah string berdasarkan separator (spasi):")
print(teks.str.split(' '))
print("\nMengambil substring (3 karakter pertama):")
print(teks.str.slice(0, 3))
print("\nMengecek apakah dimulai dengan 'P':")
print(teks.str.startswith('P'))
print("\nMengecek apakah diakhiri dengan 'ing':")
print(teks.str.endswith('ing'))
print("\nMengganti karakter non-alfanumerik dengan spasi:")
print(teks.str.replace(r'[^a-zA-Z0-9]', ' ', regex=True).str.strip())

Series Original:
0         Python Programming
1             data science  
2           MACHINE-LEARNING
3    artificial_intelligence
4              Deep.Learning
dtype: object

Menghapus spasi di awal dan akhir:
0         Python Programming
1               data science
2           MACHINE-LEARNING
3    artificial_intelligence
4              Deep.Learning
dtype: object

Memisah string berdasarkan separator (spasi):
0        [Python, Programming]
1      [, , data, science, , ]
2           [MACHINE-LEARNING]
3    [artificial_intelligence]
4              [Deep.Learning]
dtype: object

Mengambil substring (3 karakter pertama):
0    Pyt
1      d
2    MAC
3    art
4    Dee
dtype: object

Mengecek apakah dimulai dengan 'P':
0     True
1    False
2    False
3    False
4    False
dtype: bool

Mengecek apakah diakhiri dengan 'ing':
0     True
1    False
2    False
3    False
4     True
dtype: bool

Mengganti karakter non-alfanumerik dengan spasi:
0         Python Programming
1               data 

### Operasi String Lanjutan di Pandas

Selain operasi dasar, Pandas menyediakan berbagai metode string lanjutan yang sangat berguna untuk manipulasi data teks:

1. **Menghapus Spasi**: 
   - `.str.strip()`: Menghapus spasi di awal dan akhir string
   - `.str.lstrip()`: Menghapus spasi di awal string
   - `.str.rstrip()`: Menghapus spasi di akhir string

2. **Memisah dan Menggabung String**:
   - `.str.split(pat)`: Memisah string menjadi list berdasarkan separator
   - `.str.join(sep)`: Menggabung elemen list menjadi string dengan separator

3. **Mengambil Substring**:
   - `.str.slice(start, stop)`: Mengambil bagian string dari indeks start hingga stop

4. **Pengecekan Awalan dan Akhiran**:
   - `.str.startswith(pat)`: Mengecek apakah string dimulai dengan pola tertentu
   - `.str.endswith(pat)`: Mengecek apakah string diakhiri dengan pola tertentu

5. **Regular Expression**:
   - `.str.replace(pat, repl, regex=True)`: Mengganti pola menggunakan regex
   - `.str.extract(pat)`: Mengekstrak pola yang cocok dengan regex

Operasi-operasi ini sangat berguna dalam pembersihan data (data cleaning) dan preprocessing teks sebelum analisis lebih lanjut.

In [9]:
import pandas as pd

# Membuat Series dengan data email dan nomor telepon
data = pd.Series([
    'user123@example.com',
    'contact@company.co.id',
    'john.doe@email.com',
    '+62-812-3456-7890',
    '081234567890',
    '(021) 555-1234'
])

print("Data Original:")
print(data)
print("\nMengekstrak username dari email:")
print(data.str.extract(r'(.+)@', expand=False))  # Mengambil bagian sebelum @

print("\nMengekstrak domain email:")
print(data.str.extract(r'@(.+)$', expand=False))  # Mengambil bagian setelah @

print("\nMengecek apakah string adalah email valid:")
print(data.str.match(r'^[\w\.-]+@[\w\.-]+\.\w+$'))

print("\nMemformat nomor telepon:")
# Menghapus karakter non-digit dan memformat ulang
clean_numbers = data.str.replace(r'[^\d]', '', regex=True)
print(clean_numbers.str.replace(r'(\d{4})(\d{4})(\d{4})', r'\1-\2-\3', regex=True))

Data Original:
0      user123@example.com
1    contact@company.co.id
2       john.doe@email.com
3        +62-812-3456-7890
4             081234567890
5           (021) 555-1234
dtype: object

Mengekstrak username dari email:
0     user123
1     contact
2    john.doe
3         NaN
4         NaN
5         NaN
dtype: object

Mengekstrak domain email:
0      example.com
1    company.co.id
2        email.com
3              NaN
4              NaN
5              NaN
dtype: object

Mengecek apakah string adalah email valid:
0     True
1     True
2     True
3    False
4    False
5    False
dtype: bool

Memformat nomor telepon:
0                123
1                   
2                   
3    6281-2345-67890
4     0812-3456-7890
5         0215551234
dtype: object


### Contoh Penggunaan String Operations dengan Regular Expression

Pada contoh di atas, kita menggunakan beberapa operasi string lanjutan dengan regular expression (regex) untuk mengolah data email dan nomor telepon:

1. **Ekstraksi Username Email**
   - Menggunakan pattern `(.+)@` untuk mengambil semua karakter sebelum tanda @
   - Tanda kurung `()` digunakan untuk mengelompokkan karakter yang akan diekstrak
   - `.+` berarti satu atau lebih karakter apapun

2. **Ekstraksi Domain Email**
   - Pattern `@(.+)$` mengambil semua karakter setelah @ sampai akhir string
   - `$` menandakan akhir string

3. **Validasi Email**
   - Pattern `^[\w\.-]+@[\w\.-]+\.\w+$` memastikan format email valid:
     - `^` menandakan awal string
     - `[\w\.-]+` berarti satu atau lebih karakter word (huruf, angka, underscore), titik, atau strip
     - `\w+` di akhir untuk domain level teratas (com, id, dll)

4. **Format Nomor Telepon**
   - Pertama membersihkan nomor dengan menghapus karakter non-digit menggunakan `[^\d]`
   - Kemudian memformat ulang dengan pattern `(\d{4})(\d{4})(\d{4})` untuk membuat format XXXX-XXXX-XXXX
   - `\1`, `\2`, `\3` merujuk pada grup yang ditangkap dalam tanda kurung

Perhatikan bahwa ketika pattern regex tidak cocok dengan string, hasilnya akan menjadi `NaN` (Not a Number).

In [10]:
import pandas as pd
import re

# Contoh teks dengan berbagai pola
teks = pd.Series([
    "Harga barang: Rp. 150.000,- per unit",
    "Kontak: (021) 555-1234 atau +62 812-3456-7890",
    "Website: https://www.example.com/path?param=123",
    "Hashtags: #python #datascience #pandas",
    "Suhu: 25°C atau 77°F",
    "ID Produk: ABC-123/456_789"
])

print("Data Original:")
print(teks)
print("\n")

# 1. Ekstraksi angka dari teks (termasuk desimal)
def ekstrak_angka(text):
    return re.findall(r'\d+(?:\.\d+)?', text)

print("Ekstraksi Angka:")
print(teks.apply(ekstrak_angka))
print("\n")

# 2. Ekstraksi hashtags
def ekstrak_hashtags(text):
    return re.findall(r'#\w+', text)

print("Ekstraksi Hashtags:")
print(teks.apply(ekstrak_hashtags))
print("\n")

# 3. Ekstraksi URL
def ekstrak_url(text):
    pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'
    matches = re.findall(pattern, text)
    return matches if matches else None

print("Ekstraksi URL:")
print(teks.apply(ekstrak_url))
print("\n")

# 4. Format nomor telepon Indonesia
def format_nomor_telepon(text):
    # Mencari pola nomor telepon
    pattern = r'(?:\+62|0)\s*(?:\d{2,3}[-\s]?)?\d{3,4}[-\s]?\d{3,4}[-\s]?\d{3,4}'
    matches = re.findall(pattern, text)
    
    if not matches:
        return None
    
    # Membersihkan format
    cleaned = []
    for match in matches:
        # Hapus semua karakter non-digit
        num = re.sub(r'\D', '', match)
        # Konversi awalan 0 ke +62
        if num.startswith('0'):
            num = '62' + num[1:]
        # Format: +62 xxx-xxxx-xxxx
        formatted = f"+{num[:2]} {num[2:5]}-{num[5:9]}-{num[9:]}"
        cleaned.append(formatted)
    
    return cleaned

print("Format Nomor Telepon:")
print(teks.apply(format_nomor_telepon))
print("\n")

# 5. Ekstrak nilai mata uang Rupiah
def ekstrak_rupiah(text):
    pattern = r'Rp\.?\s*\d+(?:\.\d{3})*(?:,\d+)?'
    matches = re.findall(pattern, text)
    return matches if matches else None

print("Ekstraksi Nilai Rupiah:")
print(teks.apply(ekstrak_rupiah))

Data Original:
0               Harga barang: Rp. 150.000,- per unit
1      Kontak: (021) 555-1234 atau +62 812-3456-7890
2    Website: https://www.example.com/path?param=123
3             Hashtags: #python #datascience #pandas
4                               Suhu: 25°C atau 77°F
5                         ID Produk: ABC-123/456_789
dtype: object


Ekstraksi Angka:
0                                [150.000]
1    [021, 555, 1234, 62, 812, 3456, 7890]
2                                    [123]
3                                       []
4                                 [25, 77]
5                          [123, 456, 789]
dtype: object


Ekstraksi Hashtags:
0                                  []
1                                  []
2                                  []
3    [#python, #datascience, #pandas]
4                                  []
5                                  []
dtype: object


Ekstraksi URL:
0                         None
1                         None
2    [https://www.e

# Contoh Operasi String Lanjutan dengan Regular Expression (Regex)

Pada contoh di atas, kita menggunakan regular expression untuk melakukan berbagai operasi pengolahan teks yang lebih kompleks. Mari kita bahas setiap fungsi dan pola regex yang digunakan:

### 1. Ekstraksi Angka (`ekstrak_angka`)
- Pattern: `r'\d+(?:\.\d+)?'`
- Komponen:
  - `\d+`: Satu atau lebih digit
  - `(?:\.\d+)?`: Optional desimal (non-capturing group)
- Mengekstrak semua angka dari teks, termasuk angka desimal

### 2. Ekstraksi Hashtags (`ekstrak_hashtags`)
- Pattern: `r'#\w+'`
- Komponen:
  - `#`: Karakter hashtag
  - `\w+`: Satu atau lebih karakter word (huruf, angka, underscore)
- Mengekstrak semua hashtag dari teks

### 3. Ekstraksi URL (`ekstrak_url`)
- Pattern: `r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'`
- Komponen:
  - `https?`: http atau https
  - `://`: Pemisah protokol
  - `(?:[-\w.]|(?:%[\da-fA-F]{2}))+`: Karakter valid untuk URL
- Mengekstrak URL lengkap dari teks

### 4. Format Nomor Telepon Indonesia (`format_nomor_telepon`)
- Pattern: `r'(?:\+62|0)\s*(?:\d{2,3}[-\s]?)?\d{3,4}[-\s]?\d{3,4}[-\s]?\d{3,4}'`
- Komponen:
  - `(?:\+62|0)`: Awalan +62 atau 0
  - `\s*`: Optional whitespace
  - `(?:\d{2,3}[-\s]?)?`: Optional kode area
  - `\d{3,4}[-\s]?\d{3,4}[-\s]?\d{3,4}`: Nomor telepon dengan pemisah
- Memformat nomor telepon ke format standar: +62 xxx-xxxx-xxxx

### 5. Ekstraksi Nilai Rupiah (`ekstrak_rupiah`)
- Pattern: `r'Rp\.?\s*\d+(?:\.\d{3})*(?:,\d+)?'`
- Komponen:
  - `Rp\.?`: "Rp" dengan optional titik
  - `\s*`: Optional whitespace
  - `\d+(?:\.\d{3})*`: Angka dengan pemisah ribuan
  - `(?:,\d+)?`: Optional desimal
- Mengekstrak nilai mata uang dalam format Rupiah

### Catatan Penting:
- Fungsi-fungsi di atas menggunakan pandas Series untuk memproses multiple string sekaligus
- Jika pola tidak ditemukan, fungsi akan mengembalikan None atau list kosong
- Beberapa fungsi melakukan pembersihan dan pemformatan tambahan setelah ekstraksi