# PANDAS
Pandas merupakan toolkit yang powerfull sebagai alat analisis data dan struktur untuk bahasa pemrograman Python. Dengan menggunakan pandas kita dapat mengolah data dengan mudah, salah satu fiturnya adalah Dataframe. Dengan adanya fitur dataframe kita dapat membaca sebuah file dan menjadikannya tabble, kita juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. Banyak format file yang dapat dibaca menggunakan Pandas, seperti file .txt, .csv, .tsv dan lainnya.

Data dapat didownload dari https://data.go.id/dataset/data-kunjungan-daya-tarik-wisata-dki-jakarta

In [8]:
import pandas as pd

# Membaca data

In [33]:
df = pd.read_csv("data/Kunjungan-Daya-Tarik-Wisata-DKI-Jakarta-Januari-s-d-Desember-2014.csv")

📖  Dokumentasi `pandas.read_csv`: [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

- Untuk membaca file `json`:  [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

In [34]:
df

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
0,TIJA Ancol,Januari,2320962.0,0.0
1,TIJA Ancol,Februari,1623862.0,0.0
2,TIJA Ancol,Maret,3217037.0,0.0
3,TIJA Ancol,April,2704564.0,0.0
4,TIJA Ancol,Mei,2450321.0,0.0
...,...,...,...,...
163,Pelabuhan Sunda Kelapa,Agustus,6211.0,82.0
164,Pelabuhan Sunda Kelapa,September,4579.0,46.0
165,Pelabuhan Sunda Kelapa,Oktober,5059.0,59.0
166,Pelabuhan Sunda Kelapa,Nopember,3289.0,38.0


Dalam sebuah *file* CSV, masing-masing *field* tidak harus dipisahkan oleh tanda `,` (koma), melainkan bisa dengan pemisah-pemisah seperti:
- `;` (titik koma)
- `\t` (*tab*)
- `|` (*pipe*)


In [29]:
df = pd.read_csv("data/Kunjungan-Daya-Tarik-Wisata-DKI-Jakarta-Januari-s-d-Desember-2014.csv", sep=";")

Apabila kita ingin melihat data yang telah kita *load*, namun kita tidak perlu melihat semua datanya, kita dapat menggunakan `head()` yang akan memunculkan lima baris pertama:

In [35]:
df.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
0,TIJA Ancol,Januari,2320962.0,0.0
1,TIJA Ancol,Februari,1623862.0,0.0
2,TIJA Ancol,Maret,3217037.0,0.0
3,TIJA Ancol,April,2704564.0,0.0
4,TIJA Ancol,Mei,2450321.0,0.0


Apabila kita butuh untuk melihat lebih dari lima baris, atau bahkan kurang dari lima baris, kita dapat memasukkan angka jumlah baris yang ingin kita lihat:

In [36]:
df.head(10)

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
0,TIJA Ancol,Januari,2320962.0,0.0
1,TIJA Ancol,Februari,1623862.0,0.0
2,TIJA Ancol,Maret,3217037.0,0.0
3,TIJA Ancol,April,2704564.0,0.0
4,TIJA Ancol,Mei,2450321.0,0.0
5,TIJA Ancol,Juni,2602906.0,0.0
6,TIJA Ancol,Juli,2228686.0,0.0
7,TIJA Ancol,Agustus,2327176.0,0.0
8,TIJA Ancol,September,1776705.0,0.0
9,TIJA Ancol,Oktober,2394318.0,0.0


Kita juga dapat menggunakan `tail()` apabila ingin melihat baris-baris yang ada di urutan bawah.

In [37]:
df.tail()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
163,Pelabuhan Sunda Kelapa,Agustus,6211.0,82.0
164,Pelabuhan Sunda Kelapa,September,4579.0,46.0
165,Pelabuhan Sunda Kelapa,Oktober,5059.0,59.0
166,Pelabuhan Sunda Kelapa,Nopember,3289.0,38.0
167,Pelabuhan Sunda Kelapa,Desember,5862.0,150.0


Struktur data di pandas secara garis besar diimplementasikan sebagai salah satu dari dua kelas berikut:
- `DataFrame`: bisa dianggap sebagai sebuah tabel data relasional dengan baris-baris (*rows*) dan kolom-kolom (*columns*)
- `Series`: sebuah kolom. Sebuah DataFrame memiliki satu atau lebih `Series`.

![Series vs DataFrame](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)
[*Source*](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)

Dengan menggunakan `type()`, fungsi dari Python yang dapat digunakan untuk mengecek tipe dari sebuah variabel, kita dapat melihat bahwa tipe dari variabel `df` adalah DataFrame.

In [38]:
type(df)

pandas.core.frame.DataFrame

# Mengakses data

## Mengakses kolom

In [39]:
df["nama_destinasi_wisata"]

0                  TIJA Ancol
1                  TIJA Ancol
2                  TIJA Ancol
3                  TIJA Ancol
4                  TIJA Ancol
                ...          
163    Pelabuhan Sunda Kelapa
164    Pelabuhan Sunda Kelapa
165    Pelabuhan Sunda Kelapa
166    Pelabuhan Sunda Kelapa
167    Pelabuhan Sunda Kelapa
Name: nama_destinasi_wisata, Length: 168, dtype: object

Dengan menggunakan `type()`, kita dapat melihat bahwa tipe dari kolom `df["wilayah"]` adalah Series.

In [40]:
type(df["nama_destinasi_wisata"])

pandas.core.series.Series

Melihat nilai-nilai unik dari kolom **wilayah**:

In [41]:
df["nama_destinasi_wisata"].unique()

array(['TIJA Ancol', 'Taman Mini Indonesia Indah',
       'Taman Marga Satwa Ragunan', 'Monumen Nasional', 'Museum Nasional',
       'Museum Satria Mandala', 'Museum Sejarah Jakarta',
       'Museum Tekstil', 'Museum Bahari', 'Museum Seni Rupa dan Keramik',
       'Museum Wayang', "Museum Joang '45",
       'Taman Arkeologi Pulau Onrust', 'Pelabuhan Sunda Kelapa'],
      dtype=object)

Apabila kita ingin mengecek kolom apa saja yang ada di DataFrame kita:

In [42]:
df.columns

Index(['nama_destinasi_wisata', 'bulan', 'wisnus', 'wisman'], dtype='object')

## Mengakses baris

- `iloc` - *input* berupa posisi (hanya menerima integer)
- `loc` -  *input* berupa label (tidak harus integer, bisa saja string apabila label-nya merupakan sebuah string)
- `ix` - *deprecated*

### iloc

Untuk mendemonstrasikan perbedaan antara `loc` dan `iloc`, kita akan membuat satu DataFrame baru di variabel `df_shuffled` yang merupakan DataFrame `df` yang urutannya diacak:

In [51]:
import numpy as np

df_shuffled = df.reindex(np.random.permutation(df.index))

In [52]:
df.head(3)

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
0,TIJA Ancol,Januari,2320962.0,0.0
1,TIJA Ancol,Februari,1623862.0,0.0
2,TIJA Ancol,Maret,3217037.0,0.0


In [55]:
df_shuffled.head(3)

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
153,Taman Arkeologi Pulau Onrust,Oktober,2554.0,14.0
120,Museum Wayang,Januari,23332.0,3193.0
55,Museum Nasional,Agustus,15367.0,0.0


Dengan kode di bawah ini, kita akan mengambil data baris pertama dari DataFrame `df_shuffled`:

In [56]:
df_shuffled.iloc[0]

nama_destinasi_wisata    Taman Arkeologi Pulau Onrust
bulan                                         Oktober
wisnus                                           2554
wisman                                             14
Name: 153, dtype: object

⚠️ Python menghitung dari 0, sehingga apabila kita ingin mengambil data di baris pertama, maka posisinya adalah posisi ke-0.

Meskipun indeks-nya adalah 153, namun data tersebut tetap terambil karena **posisi**-nya ada di baris pertama DataFrame. Apabila kita mencoba untuk mengambil data di baris ke-153 (posisi ke-152), yang muncul adalah baris di posisi tersebut, bukan baris dengan indeks 153.

In [57]:
df_shuffled.iloc[152]

nama_destinasi_wisata    Pelabuhan Sunda Kelapa
bulan                                  Desember
wisnus                                     5862
wisman                                      150
Name: 167, dtype: object

Pada contoh di atas, baris yang muncul adalah baris dengan indeks 167. Ternyata, setelah diacak, baris dengan indeks 167 menempati baris ke-153.

### loc

`loc` mengambil baris berdasarkan indeks.

In [60]:
df_shuffled.head(3)

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
153,Taman Arkeologi Pulau Onrust,Oktober,2554.0,14.0
120,Museum Wayang,Januari,23332.0,3193.0
55,Museum Nasional,Agustus,15367.0,0.0


In [61]:
df_shuffled.loc[0]

nama_destinasi_wisata     TIJA Ancol
bulan                        Januari
wisnus                   2.32096e+06
wisman                             0
Name: 0, dtype: object

Pada contoh di atas, kita tidak mendapatkan data di baris ke-0, melainkan baris dengan indeks 0.

Apabila kita ingin mendapatkan baris dengan indeks 95:

In [62]:
df_shuffled.loc[95]

nama_destinasi_wisata    Museum Tekstil
bulan                          Desember
wisnus                            12404
wisman                                0
Name: 95, dtype: object

⚠️ Indeks bukan merupakan posisi. Baris dengan indeks 95 akan benar-benar memiliki indeks 95, sehingga tidak perlu dikurangi lagi. Apabila kita coba kode berikut:

In [63]:
df_shuffled.loc[94]

nama_destinasi_wisata    Museum Tekstil
bulan                          Nopember
wisnus                             6974
wisman                               72
Name: 94, dtype: object

Kita akan mendapatkan baris dengan indeks 94.

### Latihan
Bagaimana cara agar kita bisa mendapatkan data di kolom "wisnus" yang ada di baris kelima dari dataframe `df` (yang belum di-*shuffle*)?

In [65]:
df.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
0,TIJA Ancol,Januari,2320962.0,0.0
1,TIJA Ancol,Februari,1623862.0,0.0
2,TIJA Ancol,Maret,3217037.0,0.0
3,TIJA Ancol,April,2704564.0,0.0
4,TIJA Ancol,Mei,2450321.0,0.0


#### Solusi

Ingat bahwa di Python, indeks dimulai dari hitungan 0, jadi untuk mengambil baris kelima kita harus menggunakan indeks = 4.

In [66]:
df.iloc[4]

nama_destinasi_wisata     TIJA Ancol
bulan                            Mei
wisnus                   2.45032e+06
wisman                             0
Name: 4, dtype: object

In [67]:
df["wisnus"].iloc[4]

2450321.0

## Mengakses sebagian data (range)

In [68]:
["nama_destinasi_wisata", "bulan", "wisnus"]

['nama_destinasi_wisata', 'bulan', 'wisnus']

In [69]:
subset_df = df[["nama_destinasi_wisata", "bulan", "wisnus"]]

In [70]:
subset_df.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus
0,TIJA Ancol,Januari,2320962.0
1,TIJA Ancol,Februari,1623862.0
2,TIJA Ancol,Maret,3217037.0
3,TIJA Ancol,April,2704564.0
4,TIJA Ancol,Mei,2450321.0


In [98]:
selected_columns = ["nama_destinasi_wisata", "bulan", "wisman"]

In [99]:
subset_df_2 = df[selected_columns]

In [100]:
subset_df_2.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
0,TIJA Ancol,Januari,0.0
1,TIJA Ancol,Februari,0.0
2,TIJA Ancol,Maret,0.0
3,TIJA Ancol,April,0.0
4,TIJA Ancol,Mei,0.0


Mengambil baris-baris dengan indeks 100, 112, dan 150:

In [101]:
subset_rows = df.loc[[100, 112, 150]]

In [102]:
subset_rows.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
100,Museum Bahari,Mei,1134.0,307.0
112,Museum Seni Rupa dan Keramik,Mei,6443.0,103.0
150,Taman Arkeologi Pulau Onrust,Juli,650.0,12.0


In [105]:
subset = df.loc[:, selected_columns]

In [106]:
subset

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
0,TIJA Ancol,Januari,0.0
1,TIJA Ancol,Februari,0.0
2,TIJA Ancol,Maret,0.0
3,TIJA Ancol,April,0.0
4,TIJA Ancol,Mei,0.0
...,...,...,...
163,Pelabuhan Sunda Kelapa,Agustus,82.0
164,Pelabuhan Sunda Kelapa,September,46.0
165,Pelabuhan Sunda Kelapa,Oktober,59.0
166,Pelabuhan Sunda Kelapa,Nopember,38.0


In [113]:
subset = df.loc[108:119, selected_columns]

In [114]:
subset

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
108,Museum Seni Rupa dan Keramik,Januari,44.0
109,Museum Seni Rupa dan Keramik,Februari,80.0
110,Museum Seni Rupa dan Keramik,Maret,625.0
111,Museum Seni Rupa dan Keramik,April,81.0
112,Museum Seni Rupa dan Keramik,Mei,103.0
113,Museum Seni Rupa dan Keramik,Juni,0.0
114,Museum Seni Rupa dan Keramik,Juli,0.0
115,Museum Seni Rupa dan Keramik,Agustus,76.0
116,Museum Seni Rupa dan Keramik,September,95.0
117,Museum Seni Rupa dan Keramik,Oktober,72.0


Memunculkan seluruh baris dengan bulan januari:

In [115]:
subset = df.loc[df["bulan"] == 'Januari', selected_columns]

In [116]:
subset.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
0,TIJA Ancol,Januari,0.0
12,Taman Mini Indonesia Indah,Januari,0.0
24,Taman Marga Satwa Ragunan,Januari,0.0
36,Monumen Nasional,Januari,1967.0
48,Museum Nasional,Januari,0.0


Pastikan bahwa di dalam *dataframe* kita, hanya ada bulan Januari:

In [117]:
subset["bulan"].unique()

array(['Januari'], dtype=object)

In [118]:
subset["bulan"].nunique()

1

Memunculkan baris-baris dengan *field* "wisnus" yang kosong:

In [119]:
df[df["wisnus"].isnull()].head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman


Memunculkan baris-baris dengan *field* "wisnus" yang tidak kosong:

In [123]:
df[~df["wisnus"].isnull()].head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
0,TIJA Ancol,Januari,2320962.0,0.0
1,TIJA Ancol,Februari,1623862.0,0.0
2,TIJA Ancol,Maret,3217037.0,0.0
3,TIJA Ancol,April,2704564.0,0.0
4,TIJA Ancol,Mei,2450321.0,0.0


### Latihan
1. Bagaimana caranya agar kita dapat mengambil data dari baris ke-100 sampai baris terakhir untuk kolom nama_destinasi_wisata, bulan, wisman?
2. Bagaimana kita bisa mendapatkan baris untuk bulan Januari, Februari, dan Maret untuk kolom Bulan, target?
3. Bagaimana kita bisa mendapatkan baris untuk wisata yang ada di Monumen pada bulan Oktober s/d Desember?


#### Hint

Untuk nomor 2, kita bisa menggunakan operator logika:
- `&` untuk `dan`
- `|` untuk `atau`

#### Solusi 1

In [124]:
selected_cols = ["nama_destinasi_wisata", "bulan", "wisman"]
subset = df[selected_cols].iloc[99:]

In [125]:
subset

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
99,Museum Bahari,April,331.0
100,Museum Bahari,Mei,307.0
101,Museum Bahari,Juni,302.0
102,Museum Bahari,Juli,343.0
103,Museum Bahari,Agustus,980.0
...,...,...,...
163,Pelabuhan Sunda Kelapa,Agustus,82.0
164,Pelabuhan Sunda Kelapa,September,46.0
165,Pelabuhan Sunda Kelapa,Oktober,59.0
166,Pelabuhan Sunda Kelapa,Nopember,38.0


#### Solusi 2

In [126]:
subset = df.loc[((df["bulan"] == 'Januari') | (df["bulan"] == 'Februari') | (df["bulan"] == 'Maret')), selected_cols]

In [128]:
subset

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
0,TIJA Ancol,Januari,0.0
1,TIJA Ancol,Februari,0.0
2,TIJA Ancol,Maret,0.0
12,Taman Mini Indonesia Indah,Januari,0.0
13,Taman Mini Indonesia Indah,Februari,0.0
14,Taman Mini Indonesia Indah,Maret,0.0
24,Taman Marga Satwa Ragunan,Januari,0.0
25,Taman Marga Satwa Ragunan,Februari,0.0
26,Taman Marga Satwa Ragunan,Maret,128.0
36,Monumen Nasional,Januari,1967.0


In [129]:
subset = df.loc[df["bulan"].isin(['Januari', 'Februari', 'Maret']), selected_cols]

In [130]:
subset.head()

Unnamed: 0,nama_destinasi_wisata,bulan,wisman
0,TIJA Ancol,Januari,0.0
1,TIJA Ancol,Februari,0.0
2,TIJA Ancol,Maret,0.0
12,Taman Mini Indonesia Indah,Januari,0.0
13,Taman Mini Indonesia Indah,Februari,0.0


#### Solusi 3

In [131]:
nama_destinasi_wisata = ["Museum Nasional", "Museum Satria Mandala", "Museum Sejarah Jakarta", "Museum Tekstil", "Museum Bahari", "Museum Seni Rupa dan Keramik", "Museum Wayang", "Museum Joang '45"]
bulan = ["Oktober", "November", "Desember"]

df[df["nama_destinasi_wisata"].isin(nama_destinasi_wisata) & df["bulan"].isin(bulan)]

Unnamed: 0,nama_destinasi_wisata,bulan,wisnus,wisman
57,Museum Nasional,Oktober,21677.0,0.0
59,Museum Nasional,Desember,33926.0,0.0
69,Museum Satria Mandala,Oktober,3179.0,0.0
71,Museum Satria Mandala,Desember,3712.0,0.0
81,Museum Sejarah Jakarta,Oktober,0.0,0.0
83,Museum Sejarah Jakarta,Desember,0.0,0.0
93,Museum Tekstil,Oktober,12735.0,64.0
95,Museum Tekstil,Desember,12404.0,0.0
105,Museum Bahari,Oktober,1479.0,338.0
107,Museum Bahari,Desember,2314.0,862.0


# Mengeksplor Data
Langkah ini penting karena ketika kita memasukkan data baru, sering kali pandas membacanya dengan cara yang tidak sesuai dengan yang kita inginkan (misalnya ada baris yang terpotong, atau separator-nya tidak tepat).

In [132]:
df.shape

(168, 4)

In [133]:
df.describe()

Unnamed: 0,wisnus,wisman
count,168.0,168.0
mean,249233.2,514.958333
std,687290.3,1127.802109
min,0.0,0.0
25%,2230.0,0.0
50%,8331.5,31.5
75%,88368.75,313.0
max,4426896.0,5403.0


In [134]:
df["nama_destinasi_wisata"].describe()

count                              168
unique                              14
top       Taman Arkeologi Pulau Onrust
freq                                12
Name: nama_destinasi_wisata, dtype: object

In [135]:
df["nama_destinasi_wisata"].unique()

array(['TIJA Ancol', 'Taman Mini Indonesia Indah',
       'Taman Marga Satwa Ragunan', 'Monumen Nasional', 'Museum Nasional',
       'Museum Satria Mandala', 'Museum Sejarah Jakarta',
       'Museum Tekstil', 'Museum Bahari', 'Museum Seni Rupa dan Keramik',
       'Museum Wayang', "Museum Joang '45",
       'Taman Arkeologi Pulau Onrust', 'Pelabuhan Sunda Kelapa'],
      dtype=object)

In [136]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168 entries, 0 to 167
Data columns (total 4 columns):
nama_destinasi_wisata    168 non-null object
bulan                    168 non-null object
wisnus                   168 non-null float64
wisman                   168 non-null float64
dtypes: float64(2), object(2)
memory usage: 5.4+ KB


Tipe-tipe data di pandas:

![Pandas data type](https://pbpython.com/images/pandas_dtypes.png)
[*Source*](https://pbpython.com/pandas_dtypes.html)

## Mengganti tipe kolom

In [144]:
df["wisman"] = df["wisman"].astype("int")

In [145]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168 entries, 0 to 167
Data columns (total 4 columns):
nama_destinasi_wisata    168 non-null object
bulan                    168 non-null object
wisnus                   168 non-null float64
wisman                   168 non-null int32
dtypes: float64(1), int32(1), object(2)
memory usage: 4.7+ KB


In [148]:
df = pd.read_csv("data/Kunjungan-Daya-Tarik-Wisata-DKI-Jakarta-Januari-s-d-Desember-2014.csv", 
                 sep=";",
                 dtype={"nama_destinasi_wisata": str, "bulan": str})

In [149]:
df.head()

Unnamed: 0,"nama_destinasi_wisata,bulan,wisnus,wisman"
0,"TIJA Ancol,Januari,2320962.0,0.0"
1,"TIJA Ancol,Februari,1623862.0,0.0"
2,"TIJA Ancol,Maret,3217037.0,0.0"
3,"TIJA Ancol,April,2704564.0,0.0"
4,"TIJA Ancol,Mei,2450321.0,0.0"


In [151]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168 entries, 0 to 167
Data columns (total 1 columns):
nama_destinasi_wisata,bulan,wisnus,wisman    168 non-null object
dtypes: object(1)
memory usage: 1.4+ KB


# *Checkpoint*
Sekarang kita sudah belajar cara:
- Memasukkan data csv ke dalam program kita untuk diolah lebih lanjut (`read_csv`)
- Merubah tipe kolom
- Mengakses kolom, baris tertentu sesuai perintah (`loc`, `iloc`)
- Mengeksplor data (`shape`, `info`, `describe`, `unique`, `nunique`)
- Memilih sebagian data (mengombinasikan `loc`, logika operator )


![alt text](https://media0.giphy.com/media/11sBLVxNs7v6WA/giphy.gif?cid=790b76115d44252537325577555e8107&rid=giphy.gif)
