# **Series** - Pandas Data Structure

---
## Intro


Struktur data (baik yang sederhana atau kompleks) dapat tersusun atas beberapa *array* berukuran **1 dimensi**. Dapat mengontrol dan mengoperasikan secara penuh struktur data ini, membuat kita dapat memaksimalkan pengolahan data dalam *data wrangling*
<br><br>
Dalam **Pandas**, struktur data terkecil ini dinamakan **Series**

<img src="https://drive.google.com/uc?export=view&id=1bWZ-ysctcAL-KvSdxp66F0f1J7-MQu2a" alt="Drawing" width= 750px;/>

<small>[Source](https://drive.google.com/file/d/1bWZ-ysctcAL-KvSdxp66F0f1J7-MQu2a/view?usp=sharing)</small>

* Secara teori, *Pandas Series* adalah *array* **1 dimensi** yang dapat menyimpan data dengan **tipe apapun**.
* Dalam Ms. Excel, 1 kolom merepresentasikan sebuah *series*.
* Maka, **Passenger ID**, **Survived**, atau **Name** merupakan contoh dari *Series*.

Kali ini, kita akan mempelajari beberapa hal sebagai berikut:
1. Membuat *Series*
2. Atribut dan *method* dari *Series*
3. Mengoperasikan *Series*

Sebelum melanjutkan, silahkan *import library Pandas* terlebih dahulu.

In [14]:
# import library pandas dan dipanggil dengan command 'pd'
import pandas as pd

---
## Membuat *Series*

Membuat *Pandas Series* dapat dilakukan dengan beberapa metode berikut:
1. Dari *Python List*
2. Dari *Python Dictionary*


---
1. *Series* dapat dibuat dari **Python List**

In [4]:
# List dengan tipe angka
list_angka = [1, 2.2, 3, 0.4, 5]

print(f"Series Angka = {list_angka}")
print(f"tipe objek   = {type(list_angka)}")

Series Angka = [1, 2.2, 3, 0.4, 5]
tipe objek   = <class 'list'>


In [5]:
# Series dari list_angka
series_angka = pd.Series(data=list_angka)
series_angka

0    1.0
1    2.2
2    3.0
3    0.4
4    5.0
dtype: float64

Gambar di atas adalah bentuk *Pandas Series* yang berisi *index*, *value*, dan *data type (dtype)*
<br><br>
* Angka `0, 1, 2, 3, 4` dinamakan **index** dari `series_angka`
* `1.0, 2.2, 3.0, 0.4, 5.0` adalah **value** dari `series_angka`
* `dtype` adalah tipe data dari `series_angka`. Dapat bernilai *int64*, *float64*, atau *custom* untuk data string/campuran.

Kita dapat mengganti **index** dari *Series* yang dibuat dengan menggunakan `pd.Series(data=InputData, index=InputIndex)`

In [6]:
# Index yang ingin kita gunakan
nama_index = ['a', 'b', 'c', 'd', 'e']

series_angka = pd.Series(data=list_angka, index=nama_index)
series_angka

a    1.0
b    2.2
c    3.0
d    0.4
e    5.0
dtype: float64

Panjang **Index** harus sama dengan panjang data input atau akan terjadi error

In [7]:
nama_index = ['a', 'b', 'c', 'd', 'e']

series_angka = pd.Series(data=list_angka, index=nama_index)
series_angka

a    1.0
b    2.2
c    3.0
d    0.4
e    5.0
dtype: float64

In [8]:
type(series_angka)

pandas.core.series.Series

Untuk mengakses **index** dari *series* dapat memanggil atribut `index` dari *Pandas Series*

In [None]:
series_angka.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

---
2. *Series* dapat dibuat dari **Python Dictionary**

In [None]:
# Buat dictionary
dict_kota = {"Jawa": ["Bandung", "Jakarta"],
             "Sumatera": ["Riau", "Bengkulu"]}

series_kota = pd.Series(data=dict_kota)
series_kota

Jawa        [Bandung, Jakarta]
Sumatera      [Riau, Bengkulu]
dtype: object

In [None]:
series_kota.index

Index(['Jawa', 'Sumatera'], dtype='object')

Terlihat **key** dari *dictionary* menjadi **index** dari *Series*

---
**Latihan**

1. Buatlah *series* 10 bilangan ganjil berurutan

In [46]:
## input jawaban anda disini

list_ganjil = [1,3,5,7,9,11,13,15,17,19]
pd_series = pd.Series(list_ganjil)
type(pd_series)

pandas.core.series.Series

2. Ambil index dari *series* berikut

In [26]:
# series gaji pegawai (dalam juta Rupiah)
series_gaji = pd.Series({"Ahmad": 19,
                         "Budi": 30,
                         "Broskuy": 20})

# Print index dari series_gaji
## input jawaban anda disini

---
## Atribut & *Method* *Series*

Mengacu pada [Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html), *Series* memiliki cukup banyak atribut & *methods*. Berikut adalah beberapa contoh atribut & *methods* yang sering digunakan

---
Beberapa atribut yang sering digunakan dalam *series* antara lain:

| Atribut | Fungsi |
| --- | --- |
| `dtype` | *return* tipe data dari *Series* |
| `index` | *return* *index* dari *Series* |
| `size` | *return* ukuran data dari *Series* |
| `values` | *return* values/nilai dari *Series* |

In [49]:
series_data = pd.Series(data=[1.2, 8.0, 9.0, 4.0, 4.0, 10.0], 
                        index=['a', 'b', 'c', 'd', 'e', 'f'])
series_data

a     1.2
b     8.0
c     9.0
d     4.0
e     4.0
f    10.0
dtype: float64

In [None]:
print("Berikut adalah atribut dari series_data\n")

# Mengecek tipe dari series_data
print(f"tipe     = {series_data.dtype}")

# Mengecek index dari series_data
print(f"index    = {list(series_data.index)}")

# Mengecek ukuran dari series_data
print(f"ukuran   = {series_data.size}")

# Mengecek values dari series_data
print(f"values   = {series_data.values}")

Berikut adalah atribut dari series_data

tipe     = float64
index    = ['a', 'b', 'c', 'd', 'e', 'f']
ukuran   = 6
values   = [ 1.2  8.   9.   4.   4.  10. ]


---
Beberapa *method* yang sering digunakan dalam *series* antara lain:

| *Method* | Fungsi |
| --- | --- |
| `.describe()` | *return* statistik dari *Series* |
| `.sum()` | *return* jumlah nilai semua data dari *Series* |
| `.mean()` | *return* rata-rata dari *Series* |
| `.median()` | *return* median dari *Series* |
| `.mode()` | *return* modus dari *Series* |
| `.count()` | *return* banyaknya data dari *Series* |
| `.unique()` | *return* array dari nilai unik pada *Series* |
| `.value_counts()` | *return* jumlah objek unik dari *Series* |

In [None]:
# Statistik dari series
series_data.describe()

count     6.000000
mean      6.033333
std       3.465064
min       1.200000
25%       4.000000
50%       6.000000
75%       8.750000
max      10.000000
dtype: float64

In [None]:
# Nilai unik dari series_data
print(f"Nilai unik = {series_data.unique()}")

# Banyak nilai unik dari series_data
print(f"Nilai unik = \n{series_data.value_counts()}")

Nilai unik = [ 1.2  8.   9.   4.  10. ]
Nilai unik = 
4.0     2
1.2     1
8.0     1
9.0     1
10.0    1
dtype: int64


---
## Operasi Dasar *Series*

Misal, kita ingin mengolah data populasi penduduk pada beberapa kota di Indonesia

In [32]:
# Data populasi, dalam satuan Juta penduduk, ref: Sensus BPS 2010
populasi = {"Jakarta": 9.6,
            "Surabaya": 2.7,
            "Medan": 2.1,
            "Bandung": 2.4,
            "Makassar": 1.3}

series_pop = pd.Series(populasi)
series_pop

Jakarta     9.6
Surabaya    2.7
Medan       2.1
Bandung     2.4
Makassar    1.3
dtype: float64

Untuk, **mengakses** data dari Series, dapat dilakukan dengan memanggil indeks *Series* (baik dalam bentuk Numerik ataupun Key). 

Misal kita ingin mendapat populasi kota Medan.

In [None]:
# Memanggil lewat indeks numerik
pop_medan = series_pop[2]
print(f"Populasi kota Medan = {pop_medan} juta penduduk")

# Memanggil lewat indeks langsung
pop_medan = series_pop["Medan"]
print(f"Populasi kota Medan = {pop_medan} juta penduduk")

Populasi kota Medan = 2.1 juta penduduk
Populasi kota Medan = 2.1 juta penduduk


Untuk **menambahkan**/**menghapus** data baru ke dalam *Series*, dapat dilakukan seperti menambahkan data baru pada *dictionary*

In [None]:
# Menambahkan data populasi kota Semarang
series_pop["Semarang"] = 1.5
print(series_pop)

Jakarta     9.6
Surabaya    2.7
Medan       2.1
Bandung     2.4
Makassar    1.3
Semarang    1.5
dtype: float64


In [None]:
# Menghapus data populasi kota Makassar
del series_pop["Makassar"]
print(series_pop)

Jakarta     9.6
Surabaya    2.7
Medan       2.1
Bandung     2.4
Semarang    1.5
dtype: float64


Bagaimana kalau kita ingin **meng-update** nilai baru populasi kota Surabaya?

Hal tersebut dapat dilakukan dengan cara mengakses data kota Surabaya dan *reassign* nilainya

In [11]:
series_pop["Surabaya"] = 3.4
print(series_pop)

Jakarta     9.6
Surabaya    3.4
Medan       2.1
Bandung     2.4
Makassar    1.3
dtype: float64


Terakhir, untuk mendapatkan jumlah total seluruh penduduk dari kota pada *Series* dapat dilakukan dengan *method* `.sum()`

In [None]:
total_penduduk = series_pop.sum()
print(f"Jumlah total penduduk adalah {total_penduduk} juta jiwa")

Jumlah total penduduk adalah 19.0 juta jiwa


---
**Latihan**

Menggunakan data kependudukan terakhir, lakukan:
1. *Update* populasi kota Semarang menjadi 2.4 juta jiwa penduduk

In [38]:
## input jawaban anda disini

series_pop['Semarang'] = 2.4
series_pop

Jakarta     9.6
Surabaya    2.7
Medan       2.1
Bandung     2.4
Makassar    1.3
Semarang    2.4
dtype: float64

2. Cari rata-rata penduduk dari kota yang ada pada *series*

In [39]:
## input jawaban anda disini

series_pop.mean()

3.4166666666666665