In [None]:
!whoami

In [None]:
!hostname

In [None]:
!pwd

In [None]:
! date

# Python for Processing and Analyzing Data - Pandas

Pandas adalah sebuah paket library pada python yang digunakan untuk mempermudah dalam mengolah dan menganalisa data-data terstruktur. Pandas merupakan paket penting yang wajib diketahui untuk seorang data engineer, data analyst dan data scientist jika ingin mengolah dan manganalisa data menggunakan python. Jika kamu telah terbiasa menggunakan SQL, maka tidak akan sulit untuk membiasakan diri menggunakan fungsi-fungsi pada Pandas.

Panda memiliki format data yang sering digunakan, disebut DataFrame. Pandas DataFrame adalah struktur data 2 Dimensi. Data distrukturisasi seperti tabel yang berisi baris dan kolom, sehingga mudah untuk melakukan queri atau mengakses data tersebut. Baris merepresentasikan record dan kolom merepresentasikan field.

In [None]:
import sys

print(sys.version)

## Import Paket Pandas


In [None]:
import pandas as pd

print('Pandas version: {}'.format(pd.__version__))

## Membaca File csv

Dataset yang akan digunakan adalah dataset yang sederhana, sehungga lebih mudah untuk memahami Pandas. Data diambil dari Badan Pusat Statistik (bps.go.id). Dataset tersebut memuat beberapa informasi tentang provinsi di Indonesia pada tahun 2015. 

File dataset yang digunakan adalah **data-provinsi-2015.csv** dan dapat didownload pada [github](https://raw.githubusercontent.com/project303/dataset/master/data-province-2015.cvs)

In [None]:
url = "https://raw.githubusercontent.com/project303/dataset/master/data-province-2015.cvs"
df = pd.read_csv(url, sep='\t')

## Sample Data

In [None]:
df.head()

Dataset ini memiliki 10 kolom:

1.   province: nama provinsi di Indonesia
2.   rainfall: jumah curah hujan dalam mm yang diambil dari stasiun pengamatan yang dimiliki BMKG
3.   rainy_day: jumlah hari terjadinya hujan dalam setahun
4.   expenses_food_urban: rata-rata pengeluaran perkapita dalam sebulan untuk makanan di perkotaan
5.   expenses_other_urban: rata-rata pengeluaran perkapita dalam sebulan untuk barang non makanan di perkotaan
6.   expenses_food_rural: rata-rata pengeluaran perkapita dalam sebulan untuk makanan di pedesaan
7.   expense_other_rural: rata-rata pengeluaran perkapita dalam sebulan untuk barang non makanan di pedesaan
8.   unemployment: persentase angka pengangguran bulan agustus
9.   time_zone: klasifikasi zona waktu
10.   island: nama pulau

In [None]:
df.head(10)

In [None]:
df.tail()

Fungsi **sample()** pada Pandas dapat digunakan jika kita ingin menampilkan dataframe secara acak. Misalkan menampilkan 10 dataframe secara acak

In [None]:
df.sample(10)

Jika ingin menampilkan seluruh data yang ada dalam DataFrame

In [None]:
df

## Jumlah Data

Untuk memperoleh informasi jumlah records pada setiap kolom menggunakan perintah **count()**

In [None]:
df.count()

Cara lain untuk menampilkan jumlah record adalah dengan menggunakan property **shape**

In [None]:
df.shape[0]

## Informasi Struktur Data

Property **shape** dapat digunakan untuk mengetahui dimensi dari dataframe

In [None]:
df.shape

Property DataFrame lainnya adalah **dtypes**, yang dapat digunakan untuk melihat struktur dari data

In [None]:
df.dtypes

Informasi lebih detail mengenai struktur DataFrame dapat dilihat menggunakan fungsi **info()**

In [None]:
df.info()

## Informasi Statistik

Informasi statistik untuk setiap kolom seperti nilai minimum, nilai maksimum, standar deviasi, rata-rata dan sebagainya, dapat ditampilkan dengan mengikuti perintah berikut

In [None]:
df.describe(include='all')

## Menampilkan Kolom

In [None]:
df[['province', 'unemployment', 'expenses_food_urban']].head()

## Memfilter Data

In [None]:
df[(df.island == "Sumatera")].head()

In [None]:
df[(df.island == "Sumatera") & (df.unemployment < 5)]

Penulisan dengan cara yang berbeda tetapi memiliki hasil yang sama

In [None]:
df[(df['island'] == "Sumatera") & (df['unemployment'] < 5)].head()

Fungsi **isin()** dapat digunakan untuk memfilter kolom jika nilainya ditentukan dalam bentuk list/daftar. Misalnya, kami ingin menampilkan provinsi di Sumatera dan pulau Kalimantan yang memiliki tingkat pengangguran kurang dari 5

In [None]:
df[  (df['island'].isin(['Sumatera', 'Kalimantan'])) 
   & (df['unemployment'] < 5)
  ]

Untuk penyataan negasi atau NOT menggunakan tanda **~**

In [None]:
df[  ~(df['island'].isin(['Sumatera', 'Kalimantan'])) 
   & (df['unemployment'] < 5)
  ].head()

Untuk mempermudah, dapat digunakan variabel baru untuk menampung hasil dari filtering

In [None]:
df2 = df[  ~(df['island'].isin(['Sumatera', 'Kalimantan']))
   & (df['unemployment'] < 5)
  ]

In [None]:
df2.sample(5)

## Mengurutkan data

Fungsi **sort_values()** digunakan untuk melakukan pengurutan data berdasarkan dengan kolom yang disebutkan mulai dari nilai terkecil. Perintah berikut untuk menampilkan data diurutkan berdasarkan kolom **rainfall** 

In [None]:
df.sort_values('rainfall').head()

Atau menggunakan data yang telah difilter sebelumnya

In [None]:
df2.sort_values('rainfall').head(5)

Unuk mengurutkan data dimulai dari nilai terbesar, maka parameter **ascending** diberi nilai **False**

In [None]:
df.sort_values('rainfall', ascending=False).head()

Jika ingin mengurutkan data dengan menggunakan lebih dari satu kolom maka perlu ditentukan daftar nama kolom, misalkan mengurutkan berdasarkan kolom **rainfall** dan **rainy_day**, dapat dilakukan seperti berikut

In [None]:
df.sort_values(['rainfall', 'rainy_day' ]).head()

Setiap kolom juga dapat memiliki tipe pengurutannya masing-masing, misalkan **time_zone diurutkan secara DESC** dan **rainy_day secara ASC**

In [None]:
df.sort_values(['time_zone', 'rainy_day'], ascending=[0, 1]).head(10)

ASC : mengurutkan dengan nilai terbesar lebih dahulu

DESC: mengurutkan dengan nilai terkecil lebih dahulu

Jika ingin menampilkan hanya kolom **time_zone, rainy_day, province, dan island**

In [None]:
df[['time_zone', 'rainy_day', 'province', 'island']]\
    .sort_values(['time_zone', 'rainy_day'], ascending=[0, 1])\
    .head(10)

## Summarising Data

fungsi count() digunakan untuk menghitung jumlah record untuk setiap kolom.

In [None]:
df.count()

Untuk menghitung jumlah record pada sebuah kolom dapat menggunakan perintah berikut

In [None]:
df.rainfall.count()

atau dapat juga ditulis seperti berikut

In [None]:
df['rainfall'].count()

Fungsi lain seperti **sum(), min(), max(), mean()** dan lain-lain, hampir sama cara penggunaannya

In [None]:
df.sum()

Penggunaan lain dari fungsi statistik dapat dilihat sebagai berikut:

In [None]:
print('Total rainfall \t\t:', df.rainfall.sum())
print('Minimum rainfall value \t:', df.rainfall.min())
print('Maximum rainfall value \t:', df.rainfall.max())
print('Average rainfall value \t:', df.rainfall.mean())

## Grouping

Pandas memiliki fungsi **groupby()** untuk melakukan perhitungan kelompok berdasarkan nilai unik sesuai kolom yang dipilih.

In [None]:
df.groupby('time_zone').count()

Jika ingin hannya menampilkan kolom tertentu, dapat dituliskan sepeti berikut

In [None]:
df.groupby("time_zone")["province"].count()

Fungsi summary lain seperti **sum, min, max, mean, first,** ataupun **last** dapat digunakan pada fungsi **groupby()** untuk mendapatkan nilai statistik setiap kelompok. Misalkan kita ingin mendapatkan nilai yang pertama untuk setiap time_zone

In [None]:
df.groupby('time_zone').first()

Menghitung rata-rata rainfall untuk setiap time_zone

In [None]:
df.groupby('time_zone')[['rainfall']].mean()

Fungsi **groupby()** dapat digabungkan dengan fungsi **agg()**. Sebagai contoh, mengihtung rata-rata rainfall untuk setiap time_zone

In [None]:
df.groupby('time_zone').agg(avg_rainfall=('rainfall', 'mean'))

In [None]:
df.groupby('time_zone').agg(
    avg_rainfall=('rainfall', 'mean'),
    max_rainfall=('rainfall', 'max'),
    min_rainfall=('rainfall', 'min'))

Perhitungan aggregasi untuk kolom yang berbeda

In [None]:
df.groupby('time_zone').agg(
    avg_rainfall=('rainfall', 'mean'),
    min_rainy_day=('rainy_day', 'min'),
    max_rainy_day=('rainy_day', 'max'))

Supaya kolom time_zone tidak ditampilkan sebagai index, maka parameter **as_index** diset **False**

In [None]:
df.groupby('time_zone', as_index=False).agg(
    avg_rainfall=('rainfall', 'mean'),
    min_rainy_day=('rainy_day', 'min'),
    max_rainy_day=('rainy_day', 'max'))

## Transformasi Kolom

In [None]:
df['expenses_urban'] = df['expenses_food_urban'] + df['expenses_other_urban']

df[['province', 'island', 'expenses_urban', 'expenses_food_urban', 'expenses_other_urban']].head()

In [None]:
df.count()

Untuk melakukan penghapusan kolom dapat dilakukan dengan perintah **drop()**

In [None]:
df = df.drop(columns=['expenses_urban'])

In [None]:
df.count()

Merubah nama kolom, misalkan kedalam bahasa Indonesia

In [None]:
df.rename(
            columns={"province": "propinsi", "rainfall": "curah_hujan"},
            inplace = True)

df.count()

## Join Dengan Data Referensi

In [None]:
time_zone_data = {
        'time_zone': [1, 2, 3],
        'name_zone': ['WIB', 'WITA', 'WIT']}

time_zone_df = pd.DataFrame(time_zone_data, columns = ['time_zone', 'name_zone'])


In [None]:
time_zone_df

Pada contoh ini akan mentransformasikan **time_zone** pada dataframe **df** dengan menambahkan kolom baru yaitu **name_zone**. Fungsi yang digunakan adalah merge dengan parameter **how='left'**. Artinya adalah kita akan melakukan **left join** antara **df** dan **time_zone_df**

In [None]:
result_df = pd.merge(df, time_zone_df, on='time_zone', how='left')

In [None]:
result_df[['propinsi', 'curah_hujan', 'time_zone', 'name_zone']].head()

## Data Visualisasi

In [None]:
%matplotlib inline

Untuk memvisualisasikan DataFrame kedalam bentuk grafik, dapat menggunakan fungsi **plot()**, yang secara default menggunakan **matplotlib**

In [None]:
result_df.plot(x="propinsi", y="curah_hujan", rot=90, figsize=(10,5))

Fungsi **plot()** juga dapat digabungkan dengan fungsi-fungsi aggregasi atau summary

In [None]:
result_df.groupby(['time_zone', 'name_zone'], as_index=False).agg(avg_rainfall=('curah_hujan', 'mean'))\
    .plot(x="time_zone", y="avg_rainfall")

Data ditampilkan dalam bentuk grafik batang

In [None]:
result_df.groupby(['time_zone', 'name_zone'], as_index=False).agg(avg_rainfall=('curah_hujan', 'mean'))\
    .plot(x="name_zone", y="avg_rainfall", kind="bar")