# Pandas

pandas adalah paket Python open source yang menyediakan struktur data yang cepat, fleksibel, dan ekspresif yang dirancang untuk membuat bekerja dengan data "relasional" atau "berlabel" menjadi mudah dan intuitif.

Cakupan bahasan sebagai berikut:
* Series
* DataFrame
* Baca dan Tulis Data dari File (Dataset)
* Dasar Statistik pada DataFrame
* Menampilkan Data
* Mengambil Data Berdasarkan Pilihan Label
* Boolean Indexing
* Dasar Operasi pada Pandas
* Menangani Data yang Hilang
* Penerapan apply() dan map() pada Element, kolom atau DataFrame
* Menggabungkan Data
* Menggabungkan Data dengan Bentuk SQL Query
* Grouping
* Pivot Tables

In [7]:
import pandas as pd
import numpy as np

## Series

Ini adalah objek 1 dimensi yang mirip dengan kolom dalam spreadsheet atau tabel SQL. Secara default, setiap item akan diberi label indeks dari 0 hingga N.

In [10]:
# # membuat series
s = pd.Series([1,2,3,np.nan,5,6], index=['A','B','C','D','E','F'])
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


In [11]:

sample_dict = {'A':1,'B':2,'C':3,'D':np.nan,'E':5,'F':6}
print(sample_dict)

s = pd.Series(sample_dict)
print(s)   

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}
A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


## DataFrame

Ini adalah objek 2 dimensi yang mirip dengan spreadsheet atau tabel SQL. Ini adalah objek panda yang paling umum digunakan.

In [12]:
data = {'Gender': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Age': [25, 27, 25]}

# ingin mengurutkan kolom  berdasarkan parameter
df = pd.DataFrame(data, columns=['Emp_ID','Gender','Age'])
df

Unnamed: 0,Emp_ID,Gender,Age
0,E01,F,25
1,E02,M,27
2,E03,M,25


## Baca dan Tulis Data dari File (Dataset)

Kita akan fokus untuk pembacaan data dari jenis file dibawah ini.
* csv
* .txt
* Excel


Catatan: Write akan secara default menimpa file yang ada dengan nama yang sama

In [17]:
# baca file csv
df=pd.read_csv('dataset/mtcars.csv')


# menyimpan data ke csv, index = False tidak ada menulis nomor baris
df.to_csv('dataset/mtcars_new.csv', index=False)

In [18]:
df

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [19]:
# baca .txt file
df=pd.read_csv('dataset/mtcars.txt', sep='\t')

# simpan ke .txt, index = False tidak akan menulis nomor baris
df.to_csv('dataset/mtcars_new.txt', sep='\t', index=False)

In [20]:
df

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [21]:
# baca file Excel
df=pd.read_excel('dataset/mtcars.xlsx','Sheet2')

df.to_excel('dataset/mtcars_new.xlsx',sheet_name='Sheet1', index = False)


In [22]:
df

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


## Dasar Statistik pada DataFrame

`describe()` - akan mengembalikan statistik cepat seperti count, mean, std, min, first quartile, median, third quartile, max pada setiap kolom DataFrame

In [23]:
# Summary statistics untuk dataframe

df = pd.read_csv('dataset/iris.csv')
df.describe()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [24]:
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [25]:
df.tail()


Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


### Covariance

Covariance merupakan salah satu teknik dasar untuk memahami hubungan antara dua variabel. Bilangan Covariance positif antara dua variabel berarti keduanya berhubungan positif, sedangkan bilangan Covariance negatif berarti variabel-variabel tersebut berbanding terbalik. Kelemahan utama kovarians adalah bahwa hal itu menjelaskan kepada kita tingkat hubungan positif atau negatif antara variabel.

Implementasinya menggunakan `cov()`.

In [26]:
# covariance: Ini mengembalikan co-variance antara kolom yang sesuai
df.cov()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
Sepal.Length,0.685694,-0.042434,1.274315,0.516271
Sepal.Width,-0.042434,0.189979,-0.329656,-0.121639
Petal.Length,1.274315,-0.329656,3.116278,1.295609
Petal.Width,0.516271,-0.121639,1.295609,0.581006


### Korelasi

Korelasi adalah teknik lain yang paling umum digunakan untuk menentukan hubungan antara dua variabel. Korelasi akan menjelaskan apakah variabel berhubungan positif atau berbanding terbalik, juga angka menunjukkan sejauh mana variabel cenderung bergerak bersama.

Ketika kita mengatakan bahwa dua item berkorelasi berarti bahwa perubahan dalam satu item mempengaruhi perubahan pada item lain. Korelasi selalu berkisar antara -1 dan 1. Misalnya, Jika dua item memiliki korelasi 0,6 (60%) berarti perubahan satu item menghasilkan perubahan positif 60% ke item lain.

Implementasinya menggunakan `corr()`.

In [27]:
df.corr()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
Sepal.Length,1.0,-0.11757,0.871754,0.817941
Sepal.Width,-0.11757,1.0,-0.42844,-0.366126
Petal.Length,0.871754,-0.42844,1.0,0.962865
Petal.Width,0.817941,-0.366126,0.962865,1.0


## Menampilkan Data

Eksplorasi bagaimana menampilkan data.

In [29]:
# menampilkan semua
df

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [31]:
df.head(n=2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [32]:
df.tail(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [33]:
df.dtypes

Sepal.Length    float64
Sepal.Width     float64
Petal.Length    float64
Petal.Width     float64
Species          object
dtype: object

In [34]:
# tampilkan semua kolom
print('Column Names : ', df.columns)

Column Names :  Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')


In [35]:
# tampilkan semua Index
print('Index Names : ', df.index)

Index Names :  RangeIndex(start=0, stop=150, step=1)


In [37]:
# menampilkan nilai dataframe
print(df['Sepal.Length'].values)
print(df.values)

[5.1 4.9 4.7 4.6 5.  5.4 4.6 5.  4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.4 5.1
 5.7 5.1 5.4 5.1 4.6 5.1 4.8 5.  5.  5.2 5.2 4.7 4.8 5.4 5.2 5.5 4.9 5.
 5.5 4.9 4.4 5.1 5.  4.5 4.4 5.  5.1 4.8 5.1 4.6 5.3 5.  7.  6.4 6.9 5.5
 6.5 5.7 6.3 4.9 6.6 5.2 5.  5.9 6.  6.1 5.6 6.7 5.6 5.8 6.2 5.6 5.9 6.1
 6.3 6.1 6.4 6.6 6.8 6.7 6.  5.7 5.5 5.5 5.8 6.  5.4 6.  6.7 6.3 5.6 5.5
 5.5 6.1 5.8 5.  5.6 5.7 5.7 6.2 5.1 5.7 6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3
 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 6.5 7.7 7.7 6.  6.9 5.6 7.7 6.3 6.7 7.2
 6.2 6.1 6.4 7.2 7.4 7.9 6.4 6.3 6.1 7.7 6.3 6.4 6.  6.9 6.7 6.9 5.8 6.8
 6.7 6.7 6.3 6.5 6.2 5.9]
[[5.1 3.5 1.4 0.2 'setosa']
 [4.9 3.0 1.4 0.2 'setosa']
 [4.7 3.2 1.3 0.2 'setosa']
 [4.6 3.1 1.5 0.2 'setosa']
 [5.0 3.6 1.4 0.2 'setosa']
 [5.4 3.9 1.7 0.4 'setosa']
 [4.6 3.4 1.4 0.3 'setosa']
 [5.0 3.4 1.5 0.2 'setosa']
 [4.4 2.9 1.4 0.2 'setosa']
 [4.9 3.1 1.5 0.1 'setosa']
 [5.4 3.7 1.5 0.2 'setosa']
 [4.8 3.4 1.6 0.2 'setosa']
 [4.8 3.0 1.4 0.1 'setosa']
 [4.3 3.0 1.1 0.1 'setosa']

In [38]:
# menampilkan nilai unique dari kolom
df['Species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [39]:
#Mengurutkan data dataframe
df.sort_values(by = ['Species', 'Sepal.Length'], ascending=[True, True])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
13,4.3,3.0,1.1,0.1,setosa
8,4.4,2.9,1.4,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa
...,...,...,...,...,...
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica


In [40]:
# Menampilkan data dengan spesifik kolom
df['Species']

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Species, Length: 150, dtype: object

In [41]:
# memilih sejumlah baris
df[0:3]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


## Mengambil Data Berdasarkan Pilihan Label 

* `loc`: bekerja dengan indek
* `iloc`: bekerja dengan posisi
* `ix`: You can get data from dataframe without it being in the index
* `iat`: Mengambil nilai skalar

In [42]:
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [44]:
# ambil data berdasrkan index
print(df.loc[0:2])

#ambil data dengan index dari label kolom
print(df.loc[0:3, ['Species','Petal.Width']])

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
  Species  Petal.Width
0  setosa          0.2
1  setosa          0.2
2  setosa          0.2
3  setosa          0.2


In [45]:
# ambil data dengan posisi
print(df.iloc[0:2])

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa


In [46]:
# Seleksi berdasrkan posisi antar baris yang diberikan sebagai rentang
df.iloc[0:2,0:3] # keluarkan 2 baris dan 3 kolom

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,5.1,3.5,1.4
1,4.9,3.0,1.4


In [47]:
# seleksi berdasrakan posisi antar nomor baris tertentu yang diberikan
df.iloc[[1,2,4],[0,2]] # keluarkan baris ke 1,2 dan 4 serta kolom dari index ke 0 dan 2

Unnamed: 0,Sepal.Length,Petal.Length
1,4.9,1.4
2,4.7,1.3
4,5.0,1.4


In [48]:
print(df.iloc[5,[1,2]]) #ambil baris ke 5 dari kolom index ke 1 dan 2

Sepal.Width     3.9
Petal.Length    1.7
Name: 5, dtype: object


In [49]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,140,141,142,143,144,145,146,147,148,149
Sepal.Length,5.1,4.9,4.7,4.6,5.0,5.4,4.6,5.0,4.4,4.9,...,6.7,6.9,5.8,6.8,6.7,6.7,6.3,6.5,6.2,5.9
Sepal.Width,3.5,3.0,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,...,3.1,3.1,2.7,3.2,3.3,3.0,2.5,3.0,3.4,3.0
Petal.Length,1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,...,5.6,5.1,5.1,5.9,5.7,5.2,5.0,5.2,5.4,5.1
Petal.Width,0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,...,2.4,2.3,1.9,2.3,2.5,2.3,1.9,2.0,2.3,1.8
Species,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,...,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica


## Boolean Indexing

In [50]:
df[df['Sepal.Length'] > 7.5] # sepal length dgn nilai diatas 7.5

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
105,7.6,3.0,6.6,2.1,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
131,7.9,3.8,6.4,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica


In [51]:
# Filter data berdasar beberapa kondisi nilai pada satu kolom
df[df['Species'].isin(['versicolor','virginica'])]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [52]:
# Filter data berdasar beberapa kondisi pada beberapa kolom menggunakan operator AND
df[(df['Sepal.Length']>7.5) & (df['Sepal.Width']>3)]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
117,7.7,3.8,6.7,2.2,virginica
131,7.9,3.8,6.4,2.0,virginica


In [53]:
# Filter data berdasar beberapa kondisi pada beberapa kolom menggunakan operator OR
df[(df['Sepal.Length']>7.5) | (df['Sepal.Width']>3)]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
...,...,...,...,...,...
140,6.7,3.1,5.6,2.4,virginica
141,6.9,3.1,5.1,2.3,virginica
143,6.8,3.2,5.9,2.3,virginica
144,6.7,3.3,5.7,2.5,virginica


## Dasar Operasi pada Pandas

In [54]:
# Convert string to datetime series
date_strings = ('2022-02-01','2022-02-02','2022-02-03','2022-02-04')

pd.to_datetime(pd.Series(date_strings))

0   2022-02-01
1   2022-02-02
2   2022-02-03
3   2022-02-04
dtype: datetime64[ns]

In [55]:
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [59]:
# Mengganti spesifik nama kolom
df.rename(columns={'Sepal.Length':'Sepal_Length'}, inplace=True)

# Mengganti semua nama kolom
df.rename(columns={'Sepal.Length':'Sepal_Length', 'Sepal.Width':'Sepal_Width'}, inplace=True)
df

Unnamed: 0,Sepal_Length,Sepal_Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [63]:
# Hapus duplikasi
raw_data = {'first_name': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'last_name': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'age': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age'])
print(df)
print('----------------')
print(df.duplicated())
print('----------------')
print(df.drop_duplicates())
print('----------------')

  first_name last_name  age
0        Amy   Jackson   42
1        Amy         J   42
2      Jason    Miller   36
3       Nick    Milner   24
4    Stephen         L   24
5        Amy         J   42
----------------
0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool
----------------
  first_name last_name  age
0        Amy   Jackson   42
1        Amy         J   42
2      Jason    Miller   36
3       Nick    Milner   24
4    Stephen         L   24
----------------


In [69]:
# Membuat kolom baru dari kolom yg ada
df['age_plus_5'] = df['age'] + 5
print(df)

# Membuat kolom baru dari 2 elemen kolom
df['full_name'] = df['first_name'] + '_' + df['last_name']
print(df)

# Menambhakan list untuk kolom baru pada dataframe
df['gender'] = pd.Series(['F','F','M','M','M','F'])
print(df)

  first_name last_name  age  age_plus_5     full_name
0        Amy   Jackson   42          47   Amy_Jackson
1        Amy         J   42          47         Amy_J
2      Jason    Miller   36          41  Jason_Miller
3       Nick    Milner   24          29   Nick_Milner
4    Stephen         L   24          29     Stephen_L
5        Amy         J   42          47         Amy_J
  first_name last_name  age  age_plus_5     full_name
0        Amy   Jackson   42          47   Amy_Jackson
1        Amy         J   42          47         Amy_J
2      Jason    Miller   36          41  Jason_Miller
3       Nick    Milner   24          29   Nick_Milner
4    Stephen         L   24          29     Stephen_L
5        Amy         J   42          47         Amy_J
  first_name last_name  age  age_plus_5     full_name gender
0        Amy   Jackson   42          47   Amy_Jackson      F
1        Amy         J   42          47         Amy_J      F
2      Jason    Miller   36          41  Jason_Miller      M


## Menangani Data yang Hilang

pandas secara umum menggunakan nilai np.nan untuk mewakili data yang hilang. Ini secara default tidak termasuk dalam perhitungan.

In [70]:
df.head()

Unnamed: 0,first_name,last_name,age,age_plus_5,full_name,gender
0,Amy,Jackson,42,47,Amy_Jackson,F
1,Amy,J,42,47,Amy_J,F
2,Jason,Miller,36,41,Jason_Miller,M
3,Nick,Milner,24,29,Nick_Milner,M
4,Stephen,L,24,29,Stephen_L,M


In [72]:
#set data hilang pada tabel
df.iloc[4,2] = np.nan # insert nilai baru nan kedalam baris ke 4 dan kolom ke 2
print('---------with NA"s-------')
print(df)
print('---------After dropping  NA"s-------')
print(df.dropna())

---------with NA"s-------
  first_name last_name   age  age_plus_5     full_name gender
0        Amy   Jackson  42.0          47   Amy_Jackson      F
1        Amy         J  42.0          47         Amy_J      F
2      Jason    Miller  36.0          41  Jason_Miller      M
3       Nick    Milner  24.0          29   Nick_Milner      M
4    Stephen         L   NaN          29     Stephen_L      M
5        Amy         J  42.0          47         Amy_J      F
---------After dropping  NA"s-------
  first_name last_name   age  age_plus_5     full_name gender
0        Amy   Jackson  42.0          47   Amy_Jackson      F
1        Amy         J  42.0          47         Amy_J      F
2      Jason    Miller  36.0          41  Jason_Miller      M
3       Nick    Milner  24.0          29   Nick_Milner      M
5        Amy         J  42.0          47         Amy_J      F


In [74]:
# set data hilang pada tabel
df.iloc[4,2] = np.nan
print('---------with NA"s-------')
print(df)
print('---------After replacing  NA"s-------')
print(df.fillna(value=0))

---------with NA"s-------
  first_name last_name   age  age_plus_5     full_name gender
0        Amy   Jackson  42.0          47   Amy_Jackson      F
1        Amy         J  42.0          47         Amy_J      F
2      Jason    Miller  36.0          41  Jason_Miller      M
3       Nick    Milner  24.0          29   Nick_Milner      M
4    Stephen         L   NaN          29     Stephen_L      M
5        Amy         J  42.0          47         Amy_J      F
---------After replacing  NA"s-------
  first_name last_name   age  age_plus_5     full_name gender
0        Amy   Jackson  42.0          47   Amy_Jackson      F
1        Amy         J  42.0          47         Amy_J      F
2      Jason    Miller  36.0          41  Jason_Miller      M
3       Nick    Milner  24.0          29   Nick_Milner      M
4    Stephen         L   0.0          29     Stephen_L      M
5        Amy         J  42.0          47         Amy_J      F


In [75]:
# set data hilang pada tabel
df.iloc[4,2] = np.nan
print('---------with NA"s-------')
print(df)
print('---------Missing value flag-------')
pd.isnull(df)

---------with NA"s-------
  first_name last_name   age  age_plus_5     full_name gender
0        Amy   Jackson  42.0          47   Amy_Jackson      F
1        Amy         J  42.0          47         Amy_J      F
2      Jason    Miller  36.0          41  Jason_Miller      M
3       Nick    Milner  24.0          29   Nick_Milner      M
4    Stephen         L   NaN          29     Stephen_L      M
5        Amy         J  42.0          47         Amy_J      F
---------Missing value flag-------


Unnamed: 0,first_name,last_name,age,age_plus_5,full_name,gender
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,True,False,False,False
5,False,False,False,False,False,False


In [78]:
# Ganti semua nilai hilang untuk kolom tertentu dengan mean/rata2
mean = df['age'].mean()
df['age'].fillna(mean)

0    42.0
1    42.0
2    36.0
3    24.0
4    37.2
5    42.0
Name: age, dtype: float64

In [79]:
# Ganti nilai yang hilang dengan pengamatan valid terakhir. Ini berguna dalam skenario deret waktu.
# Misalnya jika Anda memiliki data suhu, Anda mungkin ingin mengisi nilai yang hilang 
# dengan jam sebelumnya (atau terakhir) yang tersedia daripada dengan rata-rata 
# karena suhu mungkin tidak berubah secara drastis dibandingkan dengan jam sebelumnya

# Ada dua metode:
# pad / ffill - forward fill
# bfill / backfill - backward fill

# batasan: Jika metode ditentukan, ini adalah jumlah maksimum nilai NaN berturut-turut 
#untuk diisi maju/mundur

In [83]:
df.iloc[4,2] = np.nan
print(df)
df.fillna(method='backfill', inplace=True, limit = 1)
df

  first_name last_name   age  age_plus_5     full_name gender
0        Amy   Jackson  42.0          47   Amy_Jackson      F
1        Amy         J  42.0          47         Amy_J      F
2      Jason    Miller  36.0          41  Jason_Miller      M
3       Nick    Milner  24.0          29   Nick_Milner      M
4    Stephen         L   NaN          29     Stephen_L      M
5        Amy         J  42.0          47         Amy_J      F


Unnamed: 0,first_name,last_name,age,age_plus_5,full_name,gender
0,Amy,Jackson,42.0,47,Amy_Jackson,F
1,Amy,J,42.0,47,Amy_J,F
2,Jason,Miller,36.0,41,Jason_Miller,M
3,Nick,Milner,24.0,29,Nick_Milner,M
4,Stephen,L,42.0,29,Stephen_L,M
5,Amy,J,42.0,47,Amy_J,F


## Penerapan apply() dan map() pada Element, kolom atau DataFrame

In [84]:
df

Unnamed: 0,first_name,last_name,age,age_plus_5,full_name,gender
0,Amy,Jackson,42.0,47,Amy_Jackson,F
1,Amy,J,42.0,47,Amy_J,F
2,Jason,Miller,36.0,41,Jason_Miller,M
3,Nick,Milner,24.0,29,Nick_Milner,M
4,Stephen,L,42.0,29,Stephen_L,M
5,Amy,J,42.0,47,Amy_J,F


In [85]:
# np.cumsum : Mengembalikan jumlah kumulatif elemen di sepanjang sumbu tertentu
df.apply(np.cumsum) # sum sesuai banyaknya index

Unnamed: 0,first_name,last_name,age,age_plus_5,full_name,gender
0,Amy,Jackson,42.0,47,Amy_Jackson,F
1,AmyAmy,JacksonJ,84.0,94,Amy_JacksonAmy_J,FF
2,AmyAmyJason,JacksonJMiller,120.0,135,Amy_JacksonAmy_JJason_Miller,FFM
3,AmyAmyJasonNick,JacksonJMillerMilner,144.0,164,Amy_JacksonAmy_JJason_MillerNick_Milner,FFMM
4,AmyAmyJasonNickStephen,JacksonJMillerMilnerL,186.0,193,Amy_JacksonAmy_JJason_MillerNick_MilnerStephen_L,FFMMM
5,AmyAmyJasonNickStephenAmy,JacksonJMillerMilnerLJ,228.0,240,Amy_JacksonAmy_JJason_MillerNick_MilnerStephen...,FFMMMF


In [86]:
# Map : ini mengulangi setiap elemen dari series
df['age'].map(lambda x: 1+x) # ini akan menambahkan konstanta 1 ke setiap elemen kolom

0    43.0
1    43.0
2    37.0
3    25.0
4    43.0
5    43.0
Name: age, dtype: float64

In [89]:
func = lambda x: x+1

df_filtered = df.iloc[:,2:4]
print("------ Before applyMap ------")
print(df_filtered)
print("------ After applyMap ------")
print(df_filtered.applymap(func))

------ Before applyMap ------
    age  age_plus_5
0  42.0          47
1  42.0          47
2  36.0          41
3  24.0          29
4  42.0          29
5  42.0          47
------ After applyMap ------
    age  age_plus_5
0  43.0          48
1  43.0          48
2  37.0          42
3  25.0          30
4  43.0          30
5  43.0          48


## Menggabungkan Data


Pandas memiliki fungsionalitas yang kaya seperti operasi himpunan aljabar dan operasi gabungan database relasi, untuk menggabungkan beberapa seri, DataFrames

In [90]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Jason', 'Andy', 'Allen', 'John', 'Amy'], 
        'last_name': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'first_name', 'last_name'])
print("----df_1----")
print(df_1)

----df_1----
  emp_id first_name last_name
0      1      Jason    Larkin
1      2       Andy     Jacob
2      3      Allen         A
3      4       John        AA
4      5        Amy   Jackson


In [91]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'first_name': ['James', 'Shize', 'Kim', 'Jose'], 
        'last_name': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'first_name', 'last_name'])
print(df_2)

  emp_id first_name  last_name
0      4      James  Alexander
1      5      Shize       Suma
2      6        Kim       Mike
3      7       Jose          G


In [97]:
# dengan concat
df = pd.concat([df_1, df_2])
print(df)

# dengan append
print(df_1.append(df_2))


  emp_id first_name  last_name
0      1      Jason     Larkin
1      2       Andy      Jacob
2      3      Allen          A
3      4       John         AA
4      5        Amy    Jackson
0      4      James  Alexander
1      5      Shize       Suma
2      6        Kim       Mike
3      7       Jose          G
  emp_id first_name  last_name
0      1      Jason     Larkin
1      2       Andy      Jacob
2      3      Allen          A
3      4       John         AA
4      5        Amy    Jackson
0      4      James  Alexander
1      5      Shize       Suma
2      6        Kim       Mike
3      7       Jose          G


In [98]:
# Gabungkan dua dataframe disepanjang kolom
print(pd.concat([df_1, df_2], axis=1))

  emp_id first_name last_name emp_id first_name  last_name
0      1      Jason    Larkin      4      James  Alexander
1      2       Andy     Jacob      5      Shize       Suma
2      3      Allen         A      6        Kim       Mike
3      4       John        AA      7       Jose          G
4      5        Amy   Jackson    NaN        NaN        NaN


In [99]:
# gabungkan dua dataframe berdasarkan nilai emp_id
# dalam hal ini hanya emp_id yang ada di kedua rabel yang akan diganbugnkan
print(pd.merge(df_1, df_2, on='emp_id'))

  emp_id first_name_x last_name_x first_name_y last_name_y
0      4         John          AA        James   Alexander
1      5          Amy     Jackson        Shize        Suma


## Menggabungkan Data dengan Bentuk SQL Query

Topik bahasan:
* Left Join
* Riht Join
* Inner Join
* Outer Join

### Left Join

Left join menghasilkan tabel output yang berisi kumpulan record lengkap dari Tabel A, dan hanya record yang cocok di Tabel B. Jika tidak ada kecocokan, sisi kanan akan berisi null.

Catatan: Perhatikan bahwa kita dapat menambahkan sufiks untuk menghindari duplikat, jika tidak disediakan maka secara otomatis menambahkan x ke Tabel A dan y ke Tabel B 

In [100]:
print(df_1)
print(df_2)

  emp_id first_name last_name
0      1      Jason    Larkin
1      2       Andy     Jacob
2      3      Allen         A
3      4       John        AA
4      5        Amy   Jackson
  emp_id first_name  last_name
0      4      James  Alexander
1      5      Shize       Suma
2      6        Kim       Mike
3      7       Jose          G


In [102]:
# Left Join
print(pd.merge(df_1, df_2, on='emp_id', how='left'))

# tambahkan sufiks untuk menduplikasi nama kolom dari kedua tabel
print(pd.merge(df_1, df_2, on='emp_id', how='left', suffixes=('_left','_right')))

  emp_id first_name_x last_name_x first_name_y last_name_y
0      1        Jason      Larkin          NaN         NaN
1      2         Andy       Jacob          NaN         NaN
2      3        Allen           A          NaN         NaN
3      4         John          AA        James   Alexander
4      5          Amy     Jackson        Shize        Suma
  emp_id first_name_left last_name_left first_name_right last_name_right
0      1           Jason         Larkin              NaN             NaN
1      2            Andy          Jacob              NaN             NaN
2      3           Allen              A              NaN             NaN
3      4            John             AA            James       Alexander
4      5             Amy        Jackson            Shize            Suma


### Right Join

Right join -  menghasilkan tabel output dengan kumpulan record lengkap dari Tabel B, dan record yang cocok dari Tabel A. Jika tidak ada kecocokan, sisi kiri akan berisi null. 

In [103]:
# right Join
print(pd.merge(df_1, df_2, on='emp_id', how='right'))

  emp_id first_name_x last_name_x first_name_y last_name_y
0      4         John          AA        James   Alexander
1      5          Amy     Jackson        Shize        Suma
2      6          NaN         NaN          Kim        Mike
3      7          NaN         NaN         Jose           G


### Inner Join

Inner join menghasilkan tabel output yang hanya berisi kumpulan record yang cocok di Tabel A dan Tabel B.

In [104]:
# inner Join
print(pd.merge(df_1, df_2, on='emp_id', how='inner'))

  emp_id first_name_x last_name_x first_name_y last_name_y
0      4         John          AA        James   Alexander
1      5          Amy     Jackson        Shize        Suma


### Outer Join

Juga dikenal sebagai full outer join akan menghasilkan tabel output yang berisi kumpulan semua record di Tabel A dan Tabel B, dengan record yang cocok dari kedua sisi. Jika tidak ada kecocokan, sisi yang hilang akan berisi null.

In [106]:
# outer Join
pd.merge(df_1, df_2, on='emp_id', how='outer')

Unnamed: 0,emp_id,first_name_x,last_name_x,first_name_y,last_name_y
0,1,Jason,Larkin,,
1,2,Andy,Jacob,,
2,3,Allen,A,,
3,4,John,AA,James,Alexander
4,5,Amy,Jackson,Shize,Suma
5,6,,,Kim,Mike
6,7,,,Jose,G


In [107]:
# Gabungkan data berdasar index
pd.merge(df_1, df_2, right_index=True, left_index=True)

Unnamed: 0,emp_id_x,first_name_x,last_name_x,emp_id_y,first_name_y,last_name_y
0,1,Jason,Larkin,4,James,Alexander
1,2,Andy,Jacob,5,Shize,Suma
2,3,Allen,A,6,Kim,Mike
3,4,John,AA,7,Jose,G


## Grouping

Panda "group by" akan memungkinkan kita untuk mencapai hal di bawah ini:

* Menerapkan fungsi agregasi ke setiap grup secara mandiri
* Berdasarkan beberapa kriteria, bagi data menjadi beberapa kelompok
* Menggabungkan hasil "group by" ke dalam struktur data 

In [109]:
df = pd.DataFrame({'Name' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'State' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Grade':['A','A','B','A','C','B','C','A'],
                   'Age' : np.random.uniform(24, 50, size=8),
                   'Salary' : np.random.uniform(3000, 5000, size=8),})
df

Unnamed: 0,Name,State,Grade,Age,Salary
0,jack,SFO,A,41.693549,4879.767644
1,jane,SFO,A,24.288306,4662.476513
2,jack,NYK,B,37.852238,4789.344424
3,jane,CA,A,25.004826,4381.527346
4,jack,NYK,C,26.061937,4345.311508
5,jane,NYK,B,38.328703,3615.190154
6,jack,SFO,C,32.467033,4833.142498
7,jane,CA,A,30.38257,4730.09538


In [115]:
df.groupby('Name').sum()

Unnamed: 0_level_0,Age,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
jack,138.074757,18847.566074
jane,118.004405,17389.289393


In [116]:
# # Temukan usia dan gaji maksimal berdasar nama dan negara
# Anda dapat menggunakan agrgat min max mean count dsb

df.groupby(['Name','State']).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,Grade,Age,Salary
Name,State,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
jack,NYK,C,37.852238,4789.344424
jack,SFO,C,41.693549,4879.767644
jane,CA,A,30.38257,4730.09538
jane,NYK,B,38.328703,3615.190154
jane,SFO,A,24.288306,4662.476513


## Pivot Tables

Pandas menyediakan fungsi 'pivot_table' untuk membuat tabel pivot gaya spreadsheet MS-Excel. Ini dapat mengambil argumen berikut: 

*	data: DataFrame object
*	values: column to aggregate
*	index: row labels
*	columns: column labels
*	aggfunc: fungsi agregasi yang akan digunakan pada nilai, defaultnya adalah NumPy.mean 

In [117]:
df

Unnamed: 0,Name,State,Grade,Age,Salary
0,jack,SFO,A,41.693549,4879.767644
1,jane,SFO,A,24.288306,4662.476513
2,jack,NYK,B,37.852238,4789.344424
3,jane,CA,A,25.004826,4381.527346
4,jack,NYK,C,26.061937,4345.311508
5,jane,NYK,B,38.328703,3615.190154
6,jack,SFO,C,32.467033,4833.142498
7,jane,CA,A,30.38257,4730.09538


In [119]:
# berdasarkan state dan nama, temukan usia rata-rata untuk setiap kelas
pd.pivot_table(df, values='Age', index=['State', 'Name'], columns=['Grade'])

Unnamed: 0_level_0,Grade,A,B,C
State,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,jane,27.693698,,
NYK,jack,,37.852238,26.061937
NYK,jane,,38.328703,
SFO,jack,41.693549,,32.467033
SFO,jane,24.288306,,
