## Sekilas tentang duplikat data

__Duplikat data__ adalah baris data yang memiliki nilai yang sama baik itu untuk seluruh kolom ataupun untuk salah satu kolom saja, misalnya ada dua orang yang memiliki ID yang sama.

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset)'>ILPD (Indian Liver Patient Dataset)</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. Age: Age of the patient
2. Gender: Gender of the patient
3. TB: Total Bilirubin
4. DB: Direct Bilirubin
5. Alkphos: Alkaline Phosphotase
6. Sgpt: Alamine Aminotransferase
7. Sgot: Aspartate Aminotransferase
8. TP: Total Protiens
9. ALB: Albumin
10. A/G Ratio: Albumin and Globulin Ratio
11. Selector field used to split the data into two sets (labeled by the experts)

Seperti biasa <i>import</i> Pandas terlebih dahulu kemudian <i>load</i> dataset ke dalam dataframe Pandas menggunakan <code>read_csv()</code>. Karena dataset tersebut belum memiliki <i>header</i>, ada baiknya tambahkan dahulu <i>header</i> sesuai dengan informasi atribut di atas untuk tiap kolom.

In [None]:
import pandas as pd
import numpy as np

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [None]:
column_names = ['Age','Gender','Total Bilirubin','Direct Bilirubin','Alkaline Phosphotase','SGPT','SGOT','Total Protein',
                'Albumin','Albumin and Globulin Ratio','Class']

df = pd.read_csv('Indian-Liver-Patient-Dataset-(ILPD).csv', names=column_names)
df.head()

Unnamed: 0,Age,Gender,Total Bilirubin,Direct Bilirubin,Alkaline Phosphotase,SGPT,SGOT,Total Protein,Albumin,Albumin and Globulin Ratio,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1


## Mengidentifikasi duplikat data

Ada dua makna duplikat data, yaitu baris data yang secara keseluruhan sama dengan baris lainnya dan juga baris data yang memiliki nilai yang sama dengan baris lainnya hanya pada kolom tertentu.

### Menemukan duplikat data berdasarkan semua kolom

Untuk menemukan duplikat data pada dataframe, gunakan fungsi <code>duplicated()</code>. Perhatikan kode berikut.

In [None]:
# Menemukan duplikat data berdasarkan semua kolom

df.duplicated().values.any()

True

Tambahkan <code>values.any()</code> setelah <code>duplicated()</code> untuk menghasilkan nilai __Boolean__ yang menjawab apakah ada duplikat data di dataframe __df__. Output dari kode di atas adalah __True__ yang artinya ada data duplikat pada dataframe tersebut.

Jika hanya menggunakan <code>duplicated()</code>, maka yang akan menghasilkan nilai Boolean untuk tiap baris data seperti di bawah ini.

In [None]:
# Menemukan duplikat data untuk tiap baris data

df.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
578    False
579    False
580    False
581    False
582    False
Length: 583, dtype: bool

Lalu bagaimana jika ingin melihat data yang duplikat tersebut? Perhatikan kode berikut.

In [None]:
# Menampilkan data duplikat

df[df.duplicated(keep=False)]

Unnamed: 0,Age,Gender,Total Bilirubin,Direct Bilirubin,Alkaline Phosphotase,SGPT,SGOT,Total Protein,Albumin,Albumin and Globulin Ratio,Class
18,40,Female,0.9,0.3,293,232,245,6.8,3.1,0.8,1
19,40,Female,0.9,0.3,293,232,245,6.8,3.1,0.8,1
25,34,Male,4.1,2.0,289,875,731,5.0,2.7,1.1,1
26,34,Male,4.1,2.0,289,875,731,5.0,2.7,1.1,1
33,38,Female,2.6,1.2,410,59,57,5.6,3.0,0.8,2
34,38,Female,2.6,1.2,410,59,57,5.6,3.0,0.8,2
54,42,Male,8.9,4.5,272,31,61,5.8,2.0,0.5,1
55,42,Male,8.9,4.5,272,31,61,5.8,2.0,0.5,1
61,58,Male,1.0,0.5,158,37,43,7.2,3.6,1.0,1
62,58,Male,1.0,0.5,158,37,43,7.2,3.6,1.0,1


Ada beberapa baris data yang memiliki nilai yang sama persis untuk semua kolomnya, baris 18 dan 19, 25 dan 26, dan sebagainya.

Parameter <code>keep=False</code> akan menampilkan semua baris data yang sama seperti di atas, misalnya baris 18 dan 19 yang memiliki nilai yang sama akan ditampilkan semuanya. 

Jika hanya ingin menampilkan data kedua yang duplikat saja, dalam hal ini baris 19, 26, 34, dan sebagainya, berikan nilai <code>keep='first'</code>.

In [None]:
# Contoh penggunaan keep='first'

df[df.duplicated(keep='first')]

Unnamed: 0,Age,Gender,Total Bilirubin,Direct Bilirubin,Alkaline Phosphotase,SGPT,SGOT,Total Protein,Albumin,Albumin and Globulin Ratio,Class
19,40,Female,0.9,0.3,293,232,245,6.8,3.1,0.8,1
26,34,Male,4.1,2.0,289,875,731,5.0,2.7,1.1,1
34,38,Female,2.6,1.2,410,59,57,5.6,3.0,0.8,2
55,42,Male,8.9,4.5,272,31,61,5.8,2.0,0.5,1
62,58,Male,1.0,0.5,158,37,43,7.2,3.6,1.0,1
106,36,Male,5.3,2.3,145,32,92,5.1,2.6,1.0,2
108,36,Male,0.8,0.2,158,29,39,6.0,2.2,0.5,2
138,18,Male,0.8,0.2,282,72,140,5.5,2.5,0.8,1
143,30,Male,1.6,0.4,332,84,139,5.6,2.7,0.9,1
158,72,Male,0.7,0.1,196,20,35,5.8,2.0,0.5,1


Jika hanya ingin menampilkan data pertama yang duplikat saja, dalam hal ini baris 18, 25, 33, dan sebagainya, berikan nilai <code>keep='last'</code>.

In [None]:
# Contoh penggunaan keep='last'

df[df.duplicated(keep='last')]

Unnamed: 0,Age,Gender,Total Bilirubin,Direct Bilirubin,Alkaline Phosphotase,SGPT,SGOT,Total Protein,Albumin,Albumin and Globulin Ratio,Class
18,40,Female,0.9,0.3,293,232,245,6.8,3.1,0.8,1
25,34,Male,4.1,2.0,289,875,731,5.0,2.7,1.1,1
33,38,Female,2.6,1.2,410,59,57,5.6,3.0,0.8,2
54,42,Male,8.9,4.5,272,31,61,5.8,2.0,0.5,1
61,58,Male,1.0,0.5,158,37,43,7.2,3.6,1.0,1
105,36,Male,5.3,2.3,145,32,92,5.1,2.6,1.0,2
107,36,Male,0.8,0.2,158,29,39,6.0,2.2,0.5,2
137,18,Male,0.8,0.2,282,72,140,5.5,2.5,0.8,1
142,30,Male,1.6,0.4,332,84,139,5.6,2.7,0.9,1
157,72,Male,0.7,0.1,196,20,35,5.8,2.0,0.5,1


### Menemukan duplikat data berdasarkan kolom tertentu

Untuk contoh ini rasanya kurang pas jika memakai dataset di atas, jadi buat dataframe baru saja agar lebih mudah dipahami seperti di bawah ini.

In [None]:
# Membuat dataframe df_student

student = {'Name': ['David', 'Jessica', 'Mark', 'David', 'Sophia', 'Alice', 'Arthur'], 
           'Age': [23, 27, 19, 25, 24, 26, 27],
           'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Male']}

df_student = pd.DataFrame(student)
df_student

Unnamed: 0,Name,Age,Gender
0,David,23,Male
1,Jessica,27,Female
2,Mark,19,Male
3,David,25,Male
4,Sophia,24,Female
5,Alice,26,Female
6,Arthur,27,Male


Karena ini merupakan dataframe sederhana, dapat dengan mudah menemukan data dengan nilai yang sama bukan?! Misalnya pada kolom <code>Name</code> kita tahu ada dua data dengan nama __David__. 

Namun, jika datanya ratusan atau bahkan ribuan, kita tentu akan memerlukan fungsi <code>duplicated()</code> untuk menemukannya. Perhatikan kode berikut.

In [None]:
# Menemukan duplikat data pada kolom Name

df_student[df_student.duplicated(subset='Name', keep=False)]

Unnamed: 0,Name,Age,Gender
0,David,23,Male
3,David,25,Male


atur parameter <code>keep</code> untuk menandakan yang mana yang dianggap data duplikat. 

Jika <code>keep='first'</code> maka yang dianggap data duplikat adalah yang setelah data pertama yang ditemukan. 

Jika <code>keep='last'</code> maka yang dianggap data duplikat adalah selain data terakhir yang ditemukan.

In [None]:
# contoh keep='first'

df_student[df_student.duplicated(subset='Name', keep='first')]

Unnamed: 0,Name,Age,Gender
3,David,25,Male


In [None]:
# contoh keep='last'

df_student[df_student.duplicated(subset='Name', keep='last')]

Unnamed: 0,Name,Age,Gender
0,David,23,Male


## Menghapus duplikat data

Untuk menghapus duplikat data gunakan fungsi <code>drop_duplicates()</code> yang ada di Python. Penggunaannya mirip dengan fungsi <code>duplicated()</code> di atas.

### Menghapus duplikat data berdasarkan semua kolom

Misalnya akan menghapus data duplikat setelah data pertama yang ditemukan, jadi kita menggunakan <code>keep='first'</code>.

In [None]:
df_drop = df.drop_duplicates(keep='first')
df_drop.head(20)

Unnamed: 0,Age,Gender,Total Bilirubin,Direct Bilirubin,Alkaline Phosphotase,SGPT,SGOT,Total Protein,Albumin,Albumin and Globulin Ratio,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1
5,46,Male,1.8,0.7,208,19,14,7.6,4.4,1.3,1
6,26,Female,0.9,0.2,154,16,12,7.0,3.5,1.0,1
7,29,Female,0.9,0.3,202,14,11,6.7,3.6,1.1,1
8,17,Male,0.9,0.3,202,22,19,7.4,4.1,1.2,2
9,55,Male,0.7,0.2,290,53,58,6.8,3.4,1.0,1


indeks 19 sudah tidak ada. Sebelumnya indeks 18 dan 19 memiliki nilai yang sama persis. Begitu juga dengan data duplikat lainnya sudah tidak ada di dataframe.

Mari cek lagi.

In [None]:
# Mengecek keberadaan data duplikat

df_drop.duplicated().values.any()

False

Karena sudah dihapus sekarang sudah bernilai __False__.

Setelah penghapusan dataframe <code>df_drop</code> di atas indeksnya menjadi tidak terurut karena ada yang terloncat. Untuk mengatasinya, gunakan <code>reset_index()</code> dengan memberi parameter <code>drop=True</code> agar indeks sebelumnya terhapus</code>. Perhatikan kode berikut.

In [None]:
# mereset indeks

df_drop = df_drop.reset_index(drop=True)
df_drop.head(20)

Unnamed: 0,Age,Gender,Total Bilirubin,Direct Bilirubin,Alkaline Phosphotase,SGPT,SGOT,Total Protein,Albumin,Albumin and Globulin Ratio,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1
5,46,Male,1.8,0.7,208,19,14,7.6,4.4,1.3,1
6,26,Female,0.9,0.2,154,16,12,7.0,3.5,1.0,1
7,29,Female,0.9,0.3,202,14,11,6.7,3.6,1.1,1
8,17,Male,0.9,0.3,202,22,19,7.4,4.1,1.2,2
9,55,Male,0.7,0.2,290,53,58,6.8,3.4,1.0,1


### Menghapus duplikat data berdasarkan kolom tertentu

gunakan fungsi <code>drop_duplicates()</code> dengan memberikan parameter <code>subset</code>. Perhatikan kode di bawah ini.

In [None]:
# Menghapus data duplikat pada kolo Name

df_drop_student = df_student.drop_duplicates(subset='Name', keep='first')
df_drop_student.head(10)

Unnamed: 0,Name,Age,Gender
0,David,23,Male
1,Jessica,27,Female
2,Mark,19,Male
4,Sophia,24,Female
5,Alice,26,Female
6,Arthur,27,Male


Sekarang nama __David__ hanya ada satu yakni pada indeks 0, sementara yang berada pada indeks 3 sudah dihapus.

Lalu reset indeksnya agar terurut lagi.

In [None]:
# Mereset indeks

df_drop_student = df_drop_student.reset_index(drop=True)
df_drop_student

Unnamed: 0,Name,Age,Gender
0,David,23,Male
1,Jessica,27,Female
2,Mark,19,Male
3,Sophia,24,Female
4,Alice,26,Female
5,Arthur,27,Male




---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


