# Pandas

In [5]:
import numpy as np
import pandas as pd

# A. Missing Data

### Missing data adalah data yang tidak ada. Pada pandas biasanya ditandai NaN (Not a Number)
### Missing data bisa menyebabkan masalah pada analisis dan penggunaan algoritma machine learning.
### Karenanya penting untuk selalu mengecek apakah data kita memiliki missing data dan untuk menangani missing data sesuai keperluan

In [9]:
df = pd.DataFrame({
    'Jakarta':[100,200,np.nan],
    'Bandung':[500,np.nan, np.nan],
    'Bekasi':[100,200,300]
})

df

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200
2,,,300


# dropna() method: menghapus data kosong

In [10]:
# menghapus semua baris yg memiliki missing data
df.dropna() # default axis=0

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100


In [11]:
# menghapus semua kolom yg memiliki missing data
df.dropna(axis=1)

Unnamed: 0,Bekasi
0,100
1,200
2,300


In [12]:
# thresh (threshold): batas minimal data yg bukan NaN
df.dropna(thresh=2)

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200


In [14]:
df.dropna(thresh=3)

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100


In [19]:
# axis='columns' untuk kolom dan axis='rows' untuk baris
df.dropna(axis='rows',thresh=3)

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100


In [17]:
# axis=1 adalah kolom
# thresh=3 adalah kolom mana yg punya data bukan Nan minimal 3 value
df.dropna(axis=1,thresh=3)

Unnamed: 0,Bekasi
0,100
1,200
2,300


# isna() method untuk ngecek missing data

In [20]:
df.isna()

Unnamed: 0,Jakarta,Bandung,Bekasi
0,False,False,False
1,False,True,False
2,True,True,False


In [22]:
# cek apakah dalam suatu kolom ada missing data nya 
df.isna().any()

Jakarta     True
Bandung     True
Bekasi     False
dtype: bool

In [21]:
# jumlah missing data dalam setiap kolom
df.isna().sum()

Jakarta    1
Bandung    2
Bekasi     0
dtype: int64

# fillna() : mengisi data kosong

In [24]:
# mengisi missing data dengan suatu value
df.fillna(value=3333)

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,3333.0,200
2,3333.0,3333.0,300


In [25]:
# mengisi missing data pada kolom 'Jakarta' dgn value rata2 kolom 'Jakarta'
df['Jakarta'].fillna(value = df['Jakarta'].mean())

0    100.0
1    200.0
2    150.0
Name: Jakarta, dtype: float64

In [26]:
# beda cara penulisan, tapi tidak disarankan, karena takut nama kolom ada spasinya, atau nama kolom sama dgn nama fungsi
df.Jakarta.fillna(value = df.Jakarta.mean())

0    100.0
1    200.0
2    150.0
Name: Jakarta, dtype: float64

In [94]:
# missing data pada row 1 Bandung, diisi dengan rata2 nilai Bekasi
df.iloc[1:2, 1:3].fillna(value = df['Bekasi'].mean())

Unnamed: 0,Bandung,Bekasi
1,200.0,200


# Merge, Join, Concatenate

In [43]:
df_A = pd.DataFrame({'Jakarta': [1, 2, 3, 4],
                    'Bandung' : [5, 6, 7, 8],
                     'Bekasi' : [1, 2, 3, 4],
                     'BSD' : [5, 6, 7, 8]},
                    index = [0, 1, 2, 3])

df_B = pd.DataFrame({'Jakarta': [1, 2, 3, 4],
                    'Bandung' : [5, 6, 7, 8],
                     'Bekasi' : [1, 2, 3, 4],
                     'BSD' : [5, 6, 7, 8]},
                    index = [4, 5, 6, 7])

df_C = pd.DataFrame({'Jakarta': [1, 2, 3, 4],
                    'Bandung' : [5, 6, 7, 8],
                     'Bekasi' : [1, 2, 3, 4],
                     'BSD' : [5, 6, 7, 8]},
                    index = [8, 9, 10, 11])

df_D = pd.DataFrame({'Jakarta': [9, 10, 11, 12],
                    'Bandung' : [5, 6, 7, 8],
                     'Bekasi' : [1, 2, 3, 4],
                     'BSD' : [5, 6, 7, 8]},
                    index = [0, 1, 2, 3])

# perhatikan! indexnya berbeda pada setiap dataframe 

In [44]:
df_A

Unnamed: 0,Jakarta,Bandung,Bekasi,BSD
0,1,5,1,5
1,2,6,2,6
2,3,7,3,7
3,4,8,4,8


In [45]:
df_B

Unnamed: 0,Jakarta,Bandung,Bekasi,BSD
4,1,5,1,5
5,2,6,2,6
6,3,7,3,7
7,4,8,4,8


In [46]:
df_C

Unnamed: 0,Jakarta,Bandung,Bekasi,BSD
8,1,5,1,5
9,2,6,2,6
10,3,7,3,7
11,4,8,4,8


# concatenate

In [47]:
pd.concat([df_B,df_A,df_C])
# concat(): dataframe yg kita punya akan ditempel/disusun
# perhatikan urutannya dataframe mana yg mau disusun duluan
# defaultnya axis=0, menyusun ke bawah

Unnamed: 0,Jakarta,Bandung,Bekasi,BSD
4,1,5,1,5
5,2,6,2,6
6,3,7,3,7
7,4,8,4,8
0,1,5,1,5
1,2,6,2,6
2,3,7,3,7
3,4,8,4,8
8,1,5,1,5
9,2,6,2,6


In [48]:
pd.concat([df_B,df_A,df_C],axis=1)
# axis=1 menyusun ke samping sesuai index

Unnamed: 0,Jakarta,Bandung,Bekasi,BSD,Jakarta.1,Bandung.1,Bekasi.1,BSD.1,Jakarta.2,Bandung.2,Bekasi.2,BSD.2
0,,,,,1.0,5.0,1.0,5.0,,,,
1,,,,,2.0,6.0,2.0,6.0,,,,
2,,,,,3.0,7.0,3.0,7.0,,,,
3,,,,,4.0,8.0,4.0,8.0,,,,
4,1.0,5.0,1.0,5.0,,,,,,,,
5,2.0,6.0,2.0,6.0,,,,,,,,
6,3.0,7.0,3.0,7.0,,,,,,,,
7,4.0,8.0,4.0,8.0,,,,,,,,
8,,,,,,,,,1.0,5.0,1.0,5.0
9,,,,,,,,,2.0,6.0,2.0,6.0


In [49]:
pd.concat([df_A,df_D],axis=1)
# axis=1 menyusun ke samping sesuai index yg sama

Unnamed: 0,Jakarta,Bandung,Bekasi,BSD,Jakarta.1,Bandung.1,Bekasi.1,BSD.1
0,1,5,1,5,9,5,1,5
1,2,6,2,6,10,6,2,6
2,3,7,3,7,11,7,3,7
3,4,8,4,8,12,8,4,8


# Merging

**Type of merge to be performed**

-        left: use only keys from left frame, similar to a SQL left outer join; preserve key order.

-        right: use only keys from right frame, similar to a SQL right outer join; preserve key order.

-        outer: use union of keys from both frames, similar to a SQL full outer join; sort keys lexicographically.

-        inner: use intersection of keys from both frames, similar to a SQL inner join; preserve the order of the left keys.


In [58]:
kiri = pd.DataFrame({
    'kunci' : ['A', 'B', 'C', 'E'],
    'Jakarta': [1, 2, 3, 4],
    'BSD': [5, 6, 7, 8]
})

kanan = pd.DataFrame({
    'kunci' : ['A', 'B', 'C', 'D'],
    'Bekasi': [1, 2, 3, 4],
    'Bandung': [5, 6, 7, 8]
})


In [59]:
kiri

Unnamed: 0,kunci,Jakarta,BSD
0,A,1,5
1,B,2,6
2,C,3,7
3,E,4,8


In [60]:
kanan

Unnamed: 0,kunci,Bekasi,Bandung
0,A,1,5
1,B,2,6
2,C,3,7
3,D,4,8


In [63]:
# inner: mengambil irisan himpunan kiri dan kanan
pd.merge(kiri, kanan, how='inner', on='kunci', indicator=True)

Unnamed: 0,kunci,Jakarta,BSD,Bekasi,Bandung,_merge
0,A,1,5,1,5,both
1,B,2,6,2,6,both
2,C,3,7,3,7,both


In [64]:
# outer: mengambil semuanya kiri dan kanan
pd.merge(kiri, kanan, how='outer', on='kunci', indicator=True)

Unnamed: 0,kunci,Jakarta,BSD,Bekasi,Bandung,_merge
0,A,1.0,5.0,1.0,5.0,both
1,B,2.0,6.0,2.0,6.0,both
2,C,3.0,7.0,3.0,7.0,both
3,E,4.0,8.0,,,left_only
4,D,,,4.0,8.0,right_only


In [65]:
# left: mengambil himpunan kiri
pd.merge(kiri, kanan, how='left', on='kunci', indicator=True)

Unnamed: 0,kunci,Jakarta,BSD,Bekasi,Bandung,_merge
0,A,1,5,1.0,5.0,both
1,B,2,6,2.0,6.0,both
2,C,3,7,3.0,7.0,both
3,E,4,8,,,left_only


In [66]:
# right: mengambil himpunan kanan
pd.merge(kiri, kanan, how='right', on='kunci', indicator=True)

Unnamed: 0,kunci,Jakarta,BSD,Bekasi,Bandung,_merge
0,A,1.0,5.0,1,5,both
1,B,2.0,6.0,2,6,both
2,C,3.0,7.0,3,7,both
3,D,,,4,8,right_only


# Join

### mirip merge, tapi berdasarkan index dan cara penulisannya sedikit berbeda
### defaultnya left join

In [68]:
Budi = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                   index = ['K0', 'K1', 'K2'])

Andi = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                     'D': ['D0', 'D2', 'D3']},
                   index = ['K0', 'K2', 'K3'])


In [69]:
Budi

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [70]:
Andi

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [71]:
Budi.join(Andi)
# dataframe right bergabung dgn left, dan mengikuti indexnya left 
# (left:Budi, right:Andi)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [72]:
Andi.join(Budi)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


In [73]:
Andi.join(Budi, how='right')

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K1,,,A1,B1
K2,C2,D2,A2,B2


In [74]:
Andi.join(Budi, how='outer')

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K1,,,A1,B1
K2,C2,D2,A2,B2
K3,C3,D3,,


In [75]:
Andi.join(Budi, how='inner')

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2


# D. Operation

In [78]:
df

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200
2,,,300


In [76]:
# menampilkan ada kolom apa saja
df.columns

Index(['Jakarta', 'Bandung', 'Bekasi'], dtype='object')

In [77]:
# menampilkan index
df.index

RangeIndex(start=0, stop=3, step=1)

In [79]:
# mengurutkan berdasarkan value suatu kolom
df.sort_values(by='Bekasi')

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200
2,,,300


In [80]:
# mengurutkan berdasarkan value suatu kolom dari besar ke kecil
df.sort_values(by='Bekasi', ascending='False')

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200
2,,,300


In [82]:
# cek missing data 
df.isnull()

Unnamed: 0,Jakarta,Bandung,Bekasi
0,False,False,False
1,False,True,False
2,True,True,False


In [83]:
# cek missing data 
df.isna()

Unnamed: 0,Jakarta,Bandung,Bekasi
0,False,False,False
1,False,True,False
2,True,True,False


In [84]:
# menjumlahkan missing data 
df.isna().sum()

Jakarta    1
Bandung    2
Bekasi     0
dtype: int64

# Saving Data

In [90]:
df

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200
2,,,300


In [91]:
# to_csv untuk menyimpan dataframe ke file csv setelah dibersihkan
df.to_csv('tes.csv')

In [92]:
df2 = pd.read_csv('tes.csv')
df2

Unnamed: 0.1,Unnamed: 0,Jakarta,Bandung,Bekasi
0,0,100.0,500.0,100
1,1,200.0,,200
2,2,,,300


In [89]:
df.to_csv('tes2.csv', index=False)
# index=False untuk menghilangkan index, agar saat diread, indexnya ga muncul sebagai kolom baru

In [93]:
df3 = pd.read_csv('tes2.csv')
df3

Unnamed: 0,Jakarta,Bandung,Bekasi
0,100.0,500.0,100
1,200.0,,200
2,,,300
