# Dasar-Dasar Modul Pandas

![](https://hackernoon.com/hn-images/0*Xhz01Vby2rg86xZj)





Pada tutorial kali ini, kita akan belajar dasar-dasar modul pandas. Padas merupakan sebuah modul python yang dapat kita gunakan untuk melakukan manipulasi data.

Adapun yang akan diperlajari dalam tutorial ini, antara lain:

1. Dataframe
2. *Import* data
3. Menggabungkan data
4. *Reshaping* dan *Pivoting*
5. Transformasi data
7. Aggregasi data
8. *Export* data

Untuk cara instalasi modul pandas, jalankan perintah berikut:

In [1]:
!pip3 install pandas
!pip3 install numpy
!pip install psycopg2



Untuk memuat modulnya jalankan sintaks berikut:

In [2]:
import pandas as pd
import numpy as np

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 1 Dataframe






Dataframe merupakan struktur data seperti sebuah tabel atau *spreadsheet*. Dataframe dapat pula dikatakan sebagai sebuah koleksi dari baris dan kolom, dimana tiap kolom dapat memiliki sebuah jenis data yang dapat berbeda dengan jenis data kolom lainnya. Struktur sebuah dataframe ditampilkan dalam gambar berikut:

![](https://www.w3resource.com/w3r_images/pandas-data-structure.svg)

### 1.1 Membuat Dataframe

Terdapat berbagai macam cara untuk membuat sebuah dataframe. Cara yang paling umum digunakan adalah dengan membentuk sebuah objek dictionary (*keys and values obejct*) dengan panjang *values* yang sama. Cara lainnya adalah dengan menggunakan Numpy arrays dengan panjang yang sama.


In [None]:
data = {'kota': ['Surabaya','Surabaya','Surabaya', 'Jakarta','Jakarta'],
        'tahun': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 2, 2.3, 5, 5.3]}

frame = pd.DataFrame(data)

In [None]:
# cek dataframe
frame

Unnamed: 0,kota,tahun,pop
0,Surabaya,2000,1.5
1,Surabaya,2001,2.0
2,Surabaya,2002,2.3
3,Jakarta,2001,5.0
4,Jakarta,2002,5.3


Dataframe dapat pula dibuat dengan menyuplai dictionary dan nama kolom yang diinginkan pada dataframe tersebut. Selain itu, kita dapat pula menambahkan index yang dapat berfungsi sebagai pembeda pada tiap baris data.

In [None]:
frame2 = pd.DataFrame(data, columns= ['kota', 'tahun', 'pop'],
                      index= ['satu', 'dua', 'tiga', 'empat', 'lima'])

In [None]:
frame2

Unnamed: 0,kota,tahun,pop
satu,Surabaya,2000,1.5
dua,Surabaya,2001,2.0
tiga,Surabaya,2002,2.3
empat,Jakarta,2001,5.0
lima,Jakarta,2002,5.3


### 1.2 Subset Dataframe

Terkadang kita hanya tertarik melakukan analisis pada sebagian data yang kita inginkan. Untuk melakukannya, kita seringkali hanya mengambil sebagian kolom atau baris dari data. Untuk itu, kita perlu belajar melakukan proses subset pada dataframe.

#### Subset Kolom

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

In [None]:
# ambil kolom nama kota
frame2['kota']

satu     Surabaya
dua      Surabaya
tiga     Surabaya
empat     Jakarta
lima      Jakarta
Name: kota, dtype: object

In [None]:
# atau
frame2.kota

satu     Surabaya
dua      Surabaya
tiga     Surabaya
empat     Jakarta
lima      Jakarta
Name: kota, dtype: object

In [None]:
# ambil kolom tahun dan populasi
frame2[["tahun","pop"]]

Unnamed: 0,tahun,pop
satu,2000,1.5
dua,2001,2.0
tiga,2002,2.3
empat,2001,5.0
lima,2002,5.3


In [None]:
# ambil kolom dengan indeks ke-0
frame2.iloc[:,0]


satu     Surabaya
dua      Surabaya
tiga     Surabaya
empat     Jakarta
lima      Jakarta
Name: kota, dtype: object

#### Subset Baris

![](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)

In [None]:
# filter baris dengan kota Surabaya
frame2[frame2['kota']=="Surabaya"]

Unnamed: 0,kota,tahun,pop
satu,Surabaya,2000,1.5
dua,Surabaya,2001,2.0
tiga,Surabaya,2002,2.3


In [None]:
# filter baris ke 0-3
frame2.iloc[0:4,:]

Unnamed: 0,kota,tahun,pop
satu,Surabaya,2000,1.5
dua,Surabaya,2001,2.0
tiga,Surabaya,2002,2.3
empat,Jakarta,2001,5.0


#### Subset Baris dan Kolom

![](https://pandas.pydata.org/docs/_images/03_subset_columns_rows1.svg)

In [None]:
# filter kolom kota dan pop dengan pop >= 5
frame2.loc[frame2['pop']>= 5, ['kota', 'pop']]

Unnamed: 0,kota,pop
empat,Jakarta,5.0
lima,Jakarta,5.3


### 1.3 Menambahkan Kolom

![](https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg)

In [None]:
# menambahkan kolom jawa_timur
is_jawatimur = ['TRUE', 'TRUE', 'TRUE', 'FALSE', 'FALSE']

frame2['jawa_timur'] = is_jawatimur
frame2

Unnamed: 0,kota,tahun,pop,jawa_timur
satu,Surabaya,2000,1.5,True
dua,Surabaya,2001,2.0,True
tiga,Surabaya,2002,2.3,True
empat,Jakarta,2001,5.0,False
lima,Jakarta,2002,5.3,False


## 2 Import Data




### 2.1 Membaca File Text

Pandas memiliki sejumlah fungsi yang dapat kita gunakan untuk membaca file text dalam berbagai ekstensi. Fungsi-fungsi yang dapat kita gunakan adalah sebagai berikut:

| Fungsi       | Deskripsi                    |
|:-------------|:-----------------------------|
| `read_csv`   | membaca file, url, atau objek yang menggunakan koma sebagai pemisah datanya|
| `read_table` | membaca file, url, atau objek yang menggunakan tab (`\t`) sebagai pemisah datanya|
| `read_fwf` | membaca data dengan format *fixed-width column* |
| `read_clipboard` | versi lain dari `read_table` yang dapat digunakan untuk membaca data dari *clipboard*. Berguna untuk mengkonversi tabel yang ada pada sebuah halaman web |

Dataset yang akan dibaca dalam tutorial kali ini adalah dataset `Stackoverflow`. Dataset ini telah dibagi ke dalam 3 buah file yang akan membantu kita nantinya untuk memahami proses *join* dan *merging* data pada tahapan berikutnya. Dataset yang digunakan memiliki 5594 baris dan 21 kolom. Untuk informasi lebih lanjut, pembaca dapat mengunjungi tautan [berikut](https://insights.stackoverflow.com/survey/).

In [None]:
data1 = pd.read_csv("/content/drive/My Drive/Colab Notebooks/dataset/stackoverflow_left.csv")
data2 = pd.read_csv("/content/drive/My Drive/Colab Notebooks/dataset/stackoverflow_right.csv")
data3 = pd.read_csv("/content/drive/My Drive/Colab Notebooks/dataset/stackoverflow_bottom.csv")

FileNotFoundError: ignored

Untuk mengecek 5 observasi teratas pada masing-masing data, gunakan *method* `head`.

In [None]:
data3.head()

Untuk mengecek 5 observasi terbawah, gunakan method `tail`

In [None]:
data3.tail()

NameError: ignored

Lebih jauh kita dapat mengecek struktur data pada dataframe menggunakan method `info`.

In [None]:
data3.info()

NameError: ignored

Untuk melihat ringkasan data numerik pada masing-masing kolom, jalankan method `describe`.

In [None]:
data3.describe()

NameError: ignored

### 2.2 Membaca File JSON

JSON (*JavaScript Object Notation*) merupakan format standard pengiriman data oleh HTTP *request* antara web browser dengan aplikasi lainnya. Format atau file JSON akan kita temui saat kita berinteraksi dengan API. Struktur JSON mirip dengan dictionary yang ada pada python dengan key dan value yang saling berpasangan yang mewakili tiap baris dalam sebuah tabel data.

Untuk memulai latihan, pertama-tama kita akan membuat file sebuah file JSON yang akan kita baca.

In [None]:
import json

# index type orientation
obj1 = """
{"0":{"Product":"Desktop Computer","Price":700},
"1":{"Product":"Tablet","Price":250},
"2":{"Product":"iPhone","Price":800},
"3":{"Product":"Laptop","Price":1200}}
"""

# value orientation
obj2 = """
[["Desktop Computer",700],
["Tablet",250],
["iPhone",800],
["Laptop",1200]]
"""

# column orientation
obj3 = """
{"Product":{"0":"Desktop Computer","1":"Tablet","2":"iPhone","3":"Laptop"},
"Price":{"0":700,"1":250,"2":800,"3":1200}}
"""

Untuk memuat sebuah objek JSON  ke dalam python, gunakan fungsi `loads`.

In [None]:
result = json.loads(obj3)
result

{'Price': {'0': 700, '1': 250, '2': 800, '3': 1200},
 'Product': {'0': 'Desktop Computer',
  '1': 'Tablet',
  '2': 'iPhone',
  '3': 'Laptop'}}

Untuk mengkonversi objek `result` menjadi dataframe, jalankan sintaks berikut:

In [None]:
data_json1 = pd.DataFrame(result)
data_json1

Unnamed: 0,Product,Price
0,Desktop Computer,700
1,Tablet,250
2,iPhone,800
3,Laptop,1200


Kita dapat langsung membaca file JSON tanpa perlu menggunakan fungsi `load`. Pandas menyediakan fungsi `read_json` untuk membaca file JSON. Argumen tambahan yang diperlukan adalah menspesifikasikan lokasi file json yang hendak dibaca

In [None]:
data_json1 = pd.read_json(obj1, orient="index")
data_json1

Unnamed: 0,Product,Price
0,Desktop Computer,700
1,Tablet,250
2,iPhone,800
3,Laptop,1200


Kita akan mencoba menggunakan object JSON yang lebih rumit dibanding sebelumnya. Pada contoh kali ini, kita akan coba membaca dataset USDA Food Database.

Kita akan coba membaca object tersebut dan melihat output yang dihasilkan.

In [None]:
result = json.load(open("/content/drive/My Drive/Colab Notebooks/dataset/database.json"))
result[0]

NameError: ignored

In [None]:
data = pd.DataFrame(result)

NameError: ignored

In [None]:
data

Unnamed: 0,Product,Price
0,Desktop Computer,700
1,Tablet,250
2,iPhone,800
3,Laptop,1200


Berdasarkan output yang dihasilkan, terdapat *nested value* pada kolom ke-0. Untuk mengatasi hal tersebut, kita perlu melakukan normalisasi dataframe tersebut.

In [None]:
portion = pd.json_normalize(result, record_path="portions", meta = ["id",	"description",	"tags",	"manufacturer",	"group"	], record_prefix="portions_")
portion

KeyError: ignored

In [None]:
nutrient = pd.json_normalize(result, record_path="nutrients", meta = ["id",	"description",	"tags",	"manufacturer",	"group"	], record_prefix="nutrient_")
nutrient

KeyError: ignored

### 2.3 Membaca Data dari Database Relasional

Salah satu sumber data yang akan sering ditemui adalah database. Database terbagi atas dua jenis, yaitu: database relasional dan database non-relasional.

Pada materi kali ini, kita akan belajar cara membaca data dari database relasional. Langkah pertama yang perlu dilakukan adalah membuat tabel database relasional.

In [None]:
import sqlite3

# membuat tabel
query = """
CREATE TABLE test
(provinsi VARCHAR(20), kota VARCHAR(20),
populasi REAL, luas INTEGER
);"""

# membangun koneksi
con = sqlite3.connect(':memory:')
con.execute(query)
con.commit()

Selanjutnya kita perlu mengisi nilai pada tabel yang telah dibuat.

In [None]:
data = [('Jawa Barat', 'Bandung', 3.1, 2),
        ('Jawa Timur', 'Surabaya', 4.1, 3),
        ('Jakarta', 'Jakarta', 6, 3)]
query = "INSERT INTO test VALUES(?, ?, ?, ?)"

con.executemany(query, data)
con.commit()

Kita dapat menggunakan fungsi `DataFrame` untuk melakukan query pada database yang telah dibuat dan mengembalikan outputnya ke dalam bentuk dataframe.

In [None]:
# melakukan query data
query = """
SELECT * FROM test
"""
cursor = con.execute(query)

data_sql = pd.DataFrame(cursor.fetchall(), columns=["provinsi", "kota", "pop", "area"])

In [None]:
data_sql

Unnamed: 0,provinsi,kota,pop,area
0,Jawa Barat,Bandung,3.1,2
1,Jawa Timur,Surabaya,4.1,3
2,Jakarta,Jakarta,6.0,3
3,Jawa Barat,Bandung,3.1,2
4,Jawa Timur,Surabaya,4.1,3
5,Jakarta,Jakarta,6.0,3


Cara lain yang dapat digunakan adalah dengan menggunakan fungsi `read_frame` dari pandas.

In [None]:
pd.read_sql_query(query, con)

Unnamed: 0,provinsi,kota,populasi,luas
0,Jawa Barat,Bandung,3.1,2
1,Jawa Timur,Surabaya,4.1,3
2,Jakarta,Jakarta,6.0,3
3,Jawa Barat,Bandung,3.1,2
4,Jawa Timur,Surabaya,4.1,3
5,Jakarta,Jakarta,6.0,3


In [None]:
# menutup koneksi
con.close()

#### SQLite Database

Setelah kita belajar mengambil data dari database yang telah kita buat sendiri, sekarang kita akan belajar cara untuk mengambil data dari sebuah file. Langkah pertama yang perlu dilakukan adalah membangun koneksi dengan database.

In [None]:
# membangun koneksi
con = sqlite3.connect('/content/drive/My Drive/Colab Notebooks/dataset/chinook.db')

Skema relasi objek database relasional digambarkan sebagai berikut:

![](https://cdn.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color-768x386.jpg)

Untuk mengecek tabel yang tersedia dalam database, jalankan perintah berikut:

In [None]:
# cek nama tabel tersedia
query = """
SELECT name FROM sqlite_master WHERE type='table'
"""
cursor = con.execute(query)

# cetak nama tabel
print(cursor.fetchall())

ProgrammingError: ignored

Sekarang, kita akan mencoba untuk melakukan query untuk nama album yang dikelurakan oleh masing-masing artis. Untuk melakukannya, kita perlu mengambil dua buah tabel, yaitu: `artists` dan `albums` dan menggabungkan dua tabel tersebut.

In [None]:
# melakukan query data
query = """
SELECT artists.Name, albums.Title 
FROM artists 
INNER JOIN albums
ON artists.ArtistId = albums.ArtistId
"""
cursor = con.execute(query)

pd.read_sql_query(query, con)

ProgrammingError: ignored

In [None]:
# menutup koneksi
con.close()

#### PostgreSQL Database

Sebelumnya kita telah belajar mengambil data dari sebuah file database, sekarang kita akan belajar mengambil data dari sebuah server database. Kali ini, kita akan menggunakan sebuah modul, yaitu: SQLAlchemy untuk terhubung ke server.

Secara umum untuk tersambung ke  database menggunakan  modul SQLAlchemy, kita perlu membuat engine menggunakan format berikut:

```
dialect+driver://username:password@host:port/database
```

**Keterangan**:
* Dialect : DBMS yang akan digunakan. DBMS yang tersedia, antara lain:
  + mysql 
  + postgresql
  + oracle
  + firebird
  + microsoft sql server
* Driver : driver yang digunakan sesuai dengan DBMS yang dipilih. Daftar driver yang tersedia ditampilkan pada tabel berikut:

| Database               | DBAPI Driver                                      |
|:-----------------------|:--------------------------------------------------|
| MySQL                  | PyMySQL, MySQL-Connector, CyMySQL, MySQL-Python (default)|
| PostgreSQL             | psycopg2 (default), pg8000, |
| Microsoft SQL Server   | PyODBC (default), pymssql |
| Oracle                 | cx-Oracle (default) |
| Firebird               | fdb (default), kinterbasdb   |


Berikut adalah perintah yang digunakan untuk terhubung ke server:

In [None]:
from sqlalchemy import  create_engine

engine = create_engine("postgresql+psycopg2://technaut:technaut@latihan.cys7x9qalyhl.ap-northeast-2.rds.amazonaws.com/postgres")
con = engine.connect()

print(con)

<sqlalchemy.engine.base.Connection object at 0x7f89f55075f8>


Database yang akan kita gunakan adalah database `dvdrental`. Skema ER dari database relasional ditampilkan pada gambar berikut:

![](https://sp.postgresqltutorial.com/wp-content/uploads/2018/03/dvd-rental-sample-database-diagram.png)

Untuk mengecek tabel yang tersedia dalam database, jalankan perintah berikut:

In [None]:
table_names = engine.table_names()
print(table_names)

['actor', 'store', 'address', 'category', 'city', 'country', 'customer', 'film_actor', 'film_category', 'inventory', 'language', 'rental', 'staff', 'payment', 'film']


Berikut adalah contoh cara melakukan query dan menyimpannya ke dalam dataframe.

In [None]:
query = """
SELECT LHS.customer_id AS customer_id, LHS.store_id AS store_id, LHS.first_name AS first_name, 
  LHS.last_name AS last_name, LHS.email AS email, LHS.address_id AS address_id, 
  RHS.address AS address, RHS.address2 AS address2
FROM customer AS LHS
LEFT JOIN address AS RHS
ON (LHS.address_id = RHS.address_id)
"""

df = pd.read_sql_query(query, engine)
df

Unnamed: 0,customer_id,store_id,first_name,last_name,email,address_id,address,address2
0,524,1,Jared,Ely,jared.ely@sakilacustomer.org,530,1003 Qinhuangdao Street,
1,1,1,Mary,Smith,mary.smith@sakilacustomer.org,5,1913 Hanoi Way,
2,2,1,Patricia,Johnson,patricia.johnson@sakilacustomer.org,6,1121 Loja Avenue,
3,3,1,Linda,Williams,linda.williams@sakilacustomer.org,7,692 Joliet Street,
4,4,2,Barbara,Jones,barbara.jones@sakilacustomer.org,8,1566 Inegl Manor,
...,...,...,...,...,...,...,...,...
594,595,1,Terrence,Gunderson,terrence.gunderson@sakilacustomer.org,601,844 Bucuresti Place,
595,596,1,Enrique,Forsythe,enrique.forsythe@sakilacustomer.org,602,1101 Bucuresti Boulevard,
596,597,1,Freddie,Duggan,freddie.duggan@sakilacustomer.org,603,1103 Quilmes Boulevard,
597,598,1,Wade,Delvalle,wade.delvalle@sakilacustomer.org,604,1331 Usak Boulevard,


In [None]:
con.close()

## 3 Menggabungkan Data

Dalam melakukan analisis data, kita seringkali memerlukan data dari sumber lain untuk memperkaya hasil analisis data kita. Untuk itu, pada bagian ini kita akan belajar menggabungkan data dari sumber yang berbeda.

### 3.1 Merging

Fungsi `merge` dapat digunakan untuk melakukan *column join* berdasarkan kolom kunci dari kedua data. Macam-macam proses join yang  dapat dilakukan divisualisasikan dalam gambar berikut:

![](https://lh3.googleusercontent.com/proxy/EtaMOGviUBb15H1GBshCyI5qrDJUMecc_y9vpE8ZThpho4GQqEln91Yqqekw_3KrC2ZLlCudzNdZ4bj4MWyR5G0YMoaMruRvbPX7JF1iQ2a-1ZOs3HhGBwUmdc1iAN7v-uhPP2Oc2ocmGNBcULPv1kpP--8ElR1SI3yqBg)

Argumen dari fungsi `merge` yang akan kita gunakan diringkas dalam tabel berikut;

| Argumen       | Deskrpsi                                             |
|:--------------|:-----------------------------------------------------|
| left          | dataframe yang akan digabungkan pada sebelah kiri    |
| right         | dataframe yang akan digabungkan pada sebelah kanan   |
| how           | tipe join yang digunakan 'inner', 'outer', 'left', dan 'right' |
| on            | nama kolom yang menjadi kolom kunci join. Kolom harus sama-sama dimiliki oleh dua buah tabel dengan nama yang sama |
| left_on       | kolom sebelah kiri yang digunakan sebagai kolom kunci|
| right_on      | kolom sebelah kana yang digunakan sebagai kolom kunci|
| left_index    | menggunakan indeks tabel kiri sebagai kunci join     |
| right_index   | menggunakan indeks tabel kanan sebagai kunci join    |
| sort          | mengurutkan data yang telah digabungkan secara *lexicograph* berdasarkan kolom kunci|




Berikut adalah contoh *left join* `data1` dan `data2`:

In [None]:
join = pd.merge(data1, data2,
                how='left', on='ID')

join.head()

NameError: ignored

Proses tersebut divisualisasikan pada gambar di bawah ini:

![](https://pandas.pydata.org/docs/_images/08_merge_left.svg)

### 3.2 Concatenating

Berbeda dengan proses *merging* atau *joining*, *concatenanting* menambahkan baris data berdasarkan data baru yang memiliki nama kolom yang sama. Ini berguna untuk menggabungkan data yang diukur secara periodik. *Concatenating* dilakukan menggunakan fungsi `concat`. Visualisasi proses ini ditampilkan dalam gambar berikut:

![](https://pandas.pydata.org/docs/_images/08_concat_row1.svg)


Pada contoh berikut, kita akan belajar melakukan *concatenating* menggunakan dataset `join` (dataset hasil join) dan dataset `data3`.



In [None]:
full_data = pd.concat([join, data3])

full_data.head()

NameError: ignored

## 4 Reshaping dan Pivoting

Pada bagian ini kita akan belajar melakukan proses *reshaping* dan *pivoting* dataframe.

### 4.1 Reshaping

Terdapat dua buah method yang akan dibahas pada sub bahasan ini, antara lain:

* `stack` : operasi ini akan merotasi atau melakukan pivot terhadap kolom sehingga menjadi baris.
* `unstack` : operasi ini adalah kebalikan dari operasi `stack`

In [None]:
# membuat dataset sederhana
data = pd.DataFrame({'one' : [0,1],
      'two' : [2,3],
      'three' : [4,5]},
    index=pd.Index(['Ohio', 'Colorado'], name='state'))
data

Unnamed: 0_level_0,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,2,4
Colorado,1,3,5


In [None]:
# stack
result = data.stack()
result

state          
Ohio      one      0
          two      2
          three    4
Colorado  one      1
          two      3
          three    5
dtype: int64

In [None]:
# unstack
result.unstack()

Unnamed: 0_level_0,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,2,4
Colorado,1,3,5


### 4.2 Pivoting

Terdapat dua buah jenis pivot yang akan dipelajari dalam sub bahasan kali ini, antara lain:

* *pivot long* : merubah dataframe *wide format* menjadi *long format* (jumlah kolom lebih sedikit, namun jumlah baris lebih besar)
* *pivot_wide* : kebalikan dari *pivot long*


#### Pivot Long

![](https://pandas.pydata.org/docs/_images/07_melt1.svg)

In [None]:
pv_long = full_data.melt(id_vars=full_data.iloc[:,0:9], var_name="Job")
pv_long

NameError: ignored

#### Pivot Wide

![](https://pandas.pydata.org/docs/_images/07_pivot.svg)

In [None]:
pv_wide = pv_long.pivot(index = 'ID', 
              columns='Job',
              values = 'value')
pv_wide

NameError: ignored

## 5 Transformasi Data

Pada materi ini, kita akan belajar untuk melakukan transformasi pada dataframe yang telah kita miliki. Transformasi yang akan dipelajari meliputi:

1. Membuang duplikasi data
2. Diskretisasi dan binning
3. Deteksi dan melakukan filter outlier

#### 5.1 Membuang Duplikasi Data

Untuk mengecek apakah pada dataframe terdapat duplikasi data, kita dapat menggunakan method `duplicated`

In [None]:
# cek duplikat
pv_long.iloc[:,:9].duplicated()

NameError: ignored

Untuk membuang duplikat tersebut, kita dapat menggunakan method `drop_duplicates`.

In [None]:
# membuang dupliksi data
pv_wide2 = pv_long.iloc[:,:9].drop_duplicates()

# melakukan merging data
pd.merge(pv_wide2, pv_wide, how = "left", on = "ID")

### 5.2 Diskretisasi dan Binning

Diskretisasi merupakan sebuah proses mengelompokkan data kontinu ke dalam sejumlah bin untuk dianalisa lebih lanjut. Misalkan kita ingin membuat variabel baru yang mengklasifikasikan perusahaan berdasarkan jumlah karyawannya. Berikut adalah sintaks yang digunakan:

In [None]:
# membuat bin
bin = [0, 500, 1000, 15000]
# membuat label
label = ['kecil', 'sedang', 'besar']
# diskretisasi variabel
pd.cut(full_data['CompanySizeNumber'], bin, labels = label)

Binning dalam proses diskretisasi dapat pula menggunakan pengelompokan berdasarkan jumlah kuantil yang kita spesifikasikan.

In [None]:
pd.qcut(full_data['CompanySizeNumber'],3, labels=label)

### 5.3 Deteksi dan Melakukan Filter Outlier

Melakukan filter terhadap nilai outlier merupakan aktivitas yang akan sering kita temui saat kita akan melakukan analisis data. Filter oulier akan dapat membantu kita dalam meningkatkan akuras sebuah model atau guna memenuhi asumsi dalam uji statistik.

In [None]:
# ambil kolom salary
salary = full_data['Salary']

salary.describe()

In [None]:
salary.plot.box()

In [None]:
# filter salary > 175000
salary[salary>175000].plot.box()

## 6 Aggregasi Data

Agggregasi data merupakan tahapan memecah data menjadi beberapa grup, melakukan operasi pada tiap grup, dan menggabungkan hasil yang telah diperoleh. Aggregasi data dapat pula disebut sebagai operasi *split*, *apply*, dan *combine* yang merujuk dari ketiga proses yang terjadi. Secara visual, aggregasi data dapat dilihat melalui visualisasi berikut:

![](https://pandas.pydata.org/docs/_images/06_groupby1.svg)

In [None]:
# menghitung nilai median salary tiap negara
grouped = full_data.groupby('Country', as_index=False)
grouped['Salary'].mean()

Untuk menambahkan kolom ringkasan lainnya, kita dapat menggunakan method `agg`

In [None]:
grouped['Salary'].agg(['mean', 'std', 'median'])

Fungsi statistika lainnya yang dapat digunakan utnuk melakukan aggregasi antara lain:

| Fungsi        | Deskripsi                                    |
|:--------------|:---------------------------------------------|
| count         | jumlah baris tanpa missing value pada kolom  |
| sum           | jumlah nilai sebuah kolom                    |
| median        | nilai median sebuah kolom                    |
| std, var      | simpangan baku dan varians                   |
| min, max      | nilai minimum dan maksimum kolom             |
| prod          | nilai produk dari kolom                      |
| first, last   | nilai pertama dan terakhir sebuah kolom      |

## 7 Eksport Data

Data yang telah melalui proses pembersihan dapat disimpan ke dalam format `csv` untuk dapat digunakan kembali.

In [None]:
full_data.to_csv("stackoverflow.csv")

## 8. Referensi

Untuk memperdalam pemahaman pembaca, silahkan mempelajari tautan berikut:

1. [Dokumentasi Pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#min-tut-01-tableoriented)
2. [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)