<h1 style="text-align: center;">Pengenalan Pustaka Pandas</h1>

# Persiapan

In [None]:
import numpy as np

Import `Matplotlib` (jika digunakan)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
import matplotlib as mpl
mpl.rcParams["figure.dpi"] = 150 # gunakan dpi yang lebih besar untuk mendapatkan gambar yang lebih besar

In [None]:
mpl.style.use("ggplot")

Tes plot data:

In [None]:
plt.clf()
plt.plot(np.random.rand(10), marker="o")
plt.title("Judul")
plt.xlabel("Label x")
plt.ylabel("Label y")
plt.grid()

In [1]:
import pandas as pd

In [2]:
pd.__version__

'0.24.2'

`Pandas` belum memiliki rilis major. Sebagian fitur yang ada mungkin akan berubah pada rilis versi selanjutnya.

# Objek dasar Pandas

Terdapat tiga objek dasar Pandas yaitu:
- `Series`
- `DataFrame`
- `Index`

## Objek `Series` pada Pandas

`Series` adalah array 1d dari suatu data dengan indeks.

`Series` dapat dibuat dari suatu `list`:

In [None]:
s1 = pd.Series([0.5, 0.6, 0.4, 0.8, 0.76])
s1

In [None]:
s2 = pd.Series(np.random.rand(5))
s2

`Series` terdiri dari barisan (*sequence*) nilai dan indeks yang dapat diakses dengan atribut `values` dan `index`.

Atribut `values` adalah objek array NumPy:

In [None]:
s1.values

Sedangkan atribut `index` objek yang mirip array dengan tipe `pd.Index`.

In [None]:
s1.index

In [None]:
type(s1.index)

### `Series` sebagai generalisasi dari array `NumPy`

Data pada `Series` dapat diakses seperti pada array atau `list` dengan menggunakan operator kurung siku.

In [None]:
s1[2]

In [None]:
s2[1:3]

Series memiliki banyak kemiripan dengan array NumPy. Perbedaannya adalah indeks pada array NumPy didefinisikan secara *implisit* sedangkan pada `Series` indeks didefinisikan secara *eksplisit* didefinisikan.

Indeks pada `Series` tidak harus berupa integer.

In [None]:
s1 = pd.Series([0.5, 0.6, 0.4, 0.8, 0.76], index=["a", "b", "c", "d", "e"])
s1

In [None]:
s1["a"]

In [None]:
s1[["b", "c"]]

Indeks pada `Series` tidak harus berurutan (untuk kasus indeks integer):

In [None]:
s1 = pd.Series([0.5, 0.6, 0.4, 0.8, 0.76], index=[3, 5, 7, 1, 4])
s1

### `Series` sebagai spesialisasi dari `dict`

In [None]:
populasi_dict = {
    "Banten" : 12448200,
    "DKI Jakarta" : 10374200,
    "Jawa Barat" : 48037600,
    "Jawa Tengah" : 34257900,
    "Jawa Timur" : 39293000,
}
populasi = pd.Series(populasi_dict)
populasi

In [None]:
populasi["DKI Jakarta"]

In [None]:
populasi["DKI Jakarta":"Jawa Timur"]

### Mengkonstruksi objek `Series`

Sintaks umum:
```
pd.Series(data, index=index)
```
di mana `index` adalah argumen opsional dan data
dapat berupa banyak objek.

Contoh `data` berupa list atau NumPy array dan `index` default berupa urutan integer:

In [None]:
pd.Series([2,4,5])

Data skalar, `index` diberikan:

In [None]:
pd.Series(123, index=[100, 200, 300])

`data` berupa `dict`, `index` diambil dari kunci `dict`:

In [None]:
pd.Series( {2: "Jojo", 1: "Joyo", 3: "Joko"} )

Hanya indeks tertentu yang digunakan:

In [None]:
pd.Series( {2: "Jojo", 1: "Joyo", 3: "Joko"}, index=[3,2] )

In [None]:
pd.Series( {2: "Jojo", 1: "Joyo", 3: "Joko"}, index=[2,3] )

## Objek `DataFrame`

### `DataFrame` sebagai generalisasi array `NumPy`

Sebagaimana `Series` dapat dianggap sebagai generalisasi dari array 1d `NumPy`, `DataFrame` dapat dianggap sebagai generalisasi dari array 2d `NumPy` dengan sistem indeks yang lebih fleksibel.

`DataFrame` dapat dibuat dari beberapa `Series` yang memiliki indeks bersama.

In [None]:
luas_dict = {
    "Banten" : 9662.92,
    "DKI Jakarta" : 664.01,
    "Jawa Barat" : 35377.76,
    "Jawa Tengah" : 32800.69,
    "Jawa Timur" : 47799.75
}
luas = pd.Series(luas_dict)
luas

Buat objek `DataFrame`:

In [None]:
provinsi = pd.DataFrame({"populasi" : populasi, "luas" : luas})
provinsi

Objek `DataFrame` memiliki atribut `index` dan `columns` yang dapat digunakan untuk mengakses indeks "baris" dan "kolom":

In [None]:
provinsi.index

In [None]:
provinsi.columns

### DataFrame sebagai dict khusus

Suatu objek `dict` memetakan sebuah kunci ke suatu nilai sedangkan objek `DataFrame` memetakan nama kolom ke suatu objek `Series`.

In [None]:
provinsi["luas"]

In [None]:
type(provinsi["luas"])

Contoh mengakses data pada `DataFrame`

In [None]:
provinsi["luas"]["Banten"]

### Membuat objek `DataFrame`

Objek `DataFrame` dapat diakses dari satu atau lebih objek `Series`. Contoh membuat objek `DataFrame` dari satu objek `Series`:

In [None]:
pd.DataFrame(provinsi["luas"])

Objek `DataFrame` dapat dikonstruksi dari `list` dari `dict`:

In [None]:
data = [{"a": i, "b": 2 * i} for i in range(3)]
print(data)
pd.DataFrame(data)

Jika beberapa kunci pada `dict` tidak ada, Pandas akan mengisinya dengan `NaN`:

In [None]:
list_of_dict = [{"a": 1, "b": 2}, {"b": 3, "c": 4}]
print(list_of_dict)
pd.DataFrame(list_of_dict)

Contoh membuat objek `DataFrame` dari `dict` dari `Series`

In [None]:
pd.DataFrame({"populasi": populasi, "luas": luas})

Objek `DataFrame` dapat dibuat dari array 2d `NumPy` dengan nama indeks dan nama kolom yang diberikan.

In [None]:
arr = np.random.rand(3,2)
pd.DataFrame(arr, columns=["kolom 1", "kolom 2"], index=["a", "b", "c"])

## Objek `Index`

`Index` dapat dianggap sebagai array immutable atau sebagai multi-himpunan (dapat berisi nilai yang berulang) berurut.

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

`Index` sangat mirip dengan array 1d `NumPy`:

In [None]:
ind[1]

In [None]:
ind[::-1]

Beberapa atribut dari `Index`:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

`Index` bersifat immutable:

```ipython
ind[1] = 99
```

```text
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-47-0b51fd5d9831> in <module>
----> 1 ind[1] = 99

~/miniconda3/lib/python3.7/site-packages/pandas/core/indexes/base.py in __setitem__(self, key, value)
   3936 
   3937     def __setitem__(self, key, value):
-> 3938         raise TypeError("Index does not support mutable operations")
   3939 
   3940     def __getitem__(self, key):

TypeError: Index does not support mutable operations

```


`Index` merupakan generalisasi dari `set`:

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
indA, indB

In [None]:
indA & indB # irisan (intersection)

In [None]:
indA | indB # gabungan (union)

In [None]:
indA ^ indB # xor?

# Seleksi Data

## Seleksi data pada `Series`

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=["a", "b", "c", "d"])
data

In [None]:
data["a"]

In [None]:
"b" in data

In [None]:
data.keys()

In [None]:
f = data.items()
print(type(f))
list(f)

Menambahkan data:

In [None]:
data["e"] = 1.25
data

In [None]:
data["a":"c"]

In [None]:
data[::-1]

In [None]:
data[(data > 0.3) & (data < 0.8)]

In [None]:
data[["a", "e"]]

### Indexer

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data[1]

In [None]:
data[1:3]

Explicit indexing: menggunakan atribut `loc`:

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

In [None]:
data.iloc[1:3]

In [None]:
data[1:3]

## Seleksi data pada `DataFrame`

In [None]:
populasi = pd.Series({
    "Banten" : 12448200,
    "DKI Jakarta" : 10374200,
    "Jawa Barat" : 48037600,
    "Jawa Tengah" : 34257900,
    "Jawa Timur" : 39293000,
})
luas = pd.Series({
    "Banten" : 9662.92,
    "DKI Jakarta" : 664.01,
    "Jawa Barat" : 35377.76,
    "Jawa Tengah" : 32800.69,
    "Jawa Timur" : 47799.75
})
data = pd.DataFrame({"luas" : luas, "populasi" : populasi})
data

In [None]:
data["luas"]

In [None]:
data.luas

In [None]:
data.luas is data["luas"]

In [None]:
data.index

Menambahkan data:

In [None]:
data["kepadatan"] = data["populasi"]/data["luas"]
data

In [None]:
for k, v in data["luas"].items():
    print(k, " ", v)

### DataFrame sebagai array 2d

In [None]:
data.values

In [None]:
data.values[:,1]

In [None]:
data.values[:,0]

In [None]:
data.T

In [None]:
data.values[0]

In [None]:
data["populasi"]

In [None]:
data.loc["Banten":"Jawa Tengah"]

In [None]:
data.iloc[1:3,1:2]

ix: DeprecatioWarning

In [None]:
data.ix[:3]

In [None]:
data.kepadatan > 1200

In [None]:
data[data.kepadatan > 1200]

# Menggabungkan data: `concat` dan `append`

Fungsi untuk membuat `DataFrame`:

In [None]:
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

In [None]:
df1 = make_df("ABCD", range(3))
df1

## Menggunakan `pd.concat`

In [None]:
ser1 = pd.Series(["A", "B", "C"], index=[1, 2, 3])
ser2 = pd.Series(["D", "E", "F"], index=[4, 5, 6])
pd.concat([ser1, ser2])

`pd.concat` tidak mengubah indeks, hasil penggabungan dapat memiliki indeks duplikat.

In [None]:
ser1 = pd.Series(["A", "B", "C"], index=[1, 2, 3])
ser2 = pd.Series(["D", "E", "F"], index=[4, 3, 6])
pd.concat([ser1, ser2])

In [None]:
df1 = make_df("AB", [1, 2])
df2 = make_df("AB", [3, 4])

In [None]:
df1

In [None]:
df2

In [None]:
pd.concat([df1, df2])

In [None]:
df1 = make_df("AB", [1, 2])
df2 = make_df("CD", [1, 2])
pd.concat([df1, df2], axis=1)

Dua `DataFrame` dengan beberapa kolom yang sama.

In [None]:
df1 = make_df("ABC", [1, 2])
df2 = make_df("BCD", [3, 4])

In [None]:
df1

In [None]:
df2

Menggabungkan hanya pada kolom yang sama

In [None]:
pd.concat([df1, df2], join="inner")

Menggabungkan hanya pada kolom tertentu saja

In [None]:
pd.concat([df1, df2], join_axes=[df1.columns])

## Menggunakan metode `append`

In [None]:
df1 = make_df("ABC", [1, 2])
df2 = make_df("ABC", [3, 4])

In [None]:
df1

In [None]:
df2

Buat `DataFrame` baru dengan menggabungkan `df1` dan `df2`:

In [None]:
df1.append(df2)

Metode `append` tidak mengubah `df1`:

In [None]:
df1