# Data Processing with Pandas

[Pandas](http://pandas.pydata.org/) adalah library untuk pengolahan dan analisis data di Python.
Sedikit berbeda dengan Numpy yang fokus di operasi array multidimensi dan aljabar linear, Pandas lebih populer untuk keperluan data (pre)processing, I/O, dan analisis.

Pada bagian ini, kita akan membahas beberapa fitur yang cukup umum digunakan.

Sebagai contoh, telah tersedia dua dataset dalam dua format yang berbeda.

- csv, `transactions.csv`
- sqlite database, `db.sqlite` dan data transaksi disimpan dalam tabel `transactions`

Pandas sendiri tidak terbatas pada dua format tersebut, Pandas mendukung format data dalam bentuk text file (contoh: csv, html, json), excel, relational database (contoh: MySQL, SQLite), Google Big Query, Stata, dan masih banyak lagi.
Lebih lengkapnya bisa dilihat di sini [https://pandas.pydata.org/pandas-docs/stable/io.html](https://pandas.pydata.org/pandas-docs/stable/io.html)


In [None]:
# untuk bisa menggunakan pandas, kita perlu import library-nya
import pandas as pd
import numpy as np

## Load Data From .csv File

In [None]:
# data yang telah diload akan disimpan dalam sebuah dataframe
data = pd.read_csv("transactions.csv", delimiter=",")
print(type(data))

## Load Data From Database

Sebagai contoh, kita akan menggunakan database [SQLite](https://sqlite.org/index.html).

In [None]:
# pertama, kita harus import library sqlite3
import sqlite3


# buat koneksi ke database
connection = sqlite3.connect("db.sqlite")

# query ke database
# referensi: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql_query.html#pandas.read_sql_query
data = pd.read_sql_query("SELECT * FROM transactions", connection)

# tutup koneksi ke databse
connection.close()

## Show the Data

In [None]:
# show first n data
data.head(7)

## Data Summary


In [None]:
data.describe()

## Missing Values

In [None]:
# check missing value per kolom
data.isnull().sum()

In [None]:
# hapus row yang mengandung missing value
data.dropna()

In [None]:
# mengisi nilai missing value dengan suatu nilai
# data.fillna(0)
data.amount.fillna(0)

## Values as Numpy Matrix

In [None]:
data.fillna(0).values.astype(np.int)

## Column Selection

In [None]:
data[["id", "amount"]]

## Row Selection

In [None]:
row = data.iloc[0, :]
row

In [None]:
print(row.id)
print(row.amount)
print(row.num_products)

## Remove Columns

In [None]:
# menghapus kolom sesuai dengan nama kolom
# axis=1
data.drop(["num_products"], axis=1)

## Remove Rows

In [None]:
# menghapus kolom sesuai dengan index baris
# axis=0
data.drop([0, 1], axis=0)

## Concatenate Dataframes

In [None]:
# concat secara horizontal
# axis = 1
pd.concat([data, data], axis=1)

In [None]:
# concat secara vertical
# axis = 0
pd.concat([data, data], axis=0)