# Analisa Data Dengan Python (Pandas DataFrame)

# Pengenalan Pandas

- ![image.png](attachment:image.png)


# Pengenalan Pandas
- pandas adalah paket/modul Python yang menyediakan struktur data dengan cepat, fleksibel, dan ekspresif.
- pandas dirancang untuk dapat mengolah dan menangani data-data yang bersifat data "relasional" atau "berlabel" menjadi mudah dan intuitif. 
- pandas sangat cocok untuk berbagai jenis data, diantaranya:
1. Data tabular dengan kolom yang diketik secara heterogen, seperti dalam tabel SQL atau spreadsheet Excel
2. Data deret waktu terurut dan tidak terurut (tidak harus frekuensi tetap).
3. Data matriks (diketik secara homogen atau heterogen) dengan label baris dan kolom
4. Bentuk lain dari kumpulan data observasi/statistik.

# Installasi
- secara default saat menginstall Anaconda, paket/modul pandas & numpy sudah terinstall
- ![image.png](attachment:image.png)


# Membuat DataFrame 
- Pandas adalah alat yang tepat untuk menangani dan mengolah data tabular, seperti data yang disimpan di spreadsheet atau database, pandas akan membantu menjelajahi, membersihkan, dan memproses data Anda.
* Terdapat 2 struktur data di pandas yaitu:
1. Data Series merupakan 1D berlabel array yang diketik secara homogen
2. DataFrame merupakan Struktur data tabular berlabel 2D atau lebih yang dapat diubah ukurannya dengan kolom yang berpotensi diketik secara heterogen.

- Didalam pandas, satu tabel data disebut sebuah dataframe
![image.png](attachment:image.png)

Membuat DataFrame Series (1 dimensi)
- Dataframe Series adalah array berlabel satu dimensi yang mampu menampung semua tipe data (bilangan bulat, string, angka floating point, objek Python, dll.)
- sintaks dasar pembuatan dataframe series
![image.png](attachment:image.png)

## DataSeries (1 Dimensi)

In [3]:
# untuk dapat menggunakan pandas & numpy, terlebih dahulu kita harus mengimportnya kedalaman struktur kode terlebih dahulu
import pandas as pd
import numpy as np

In [4]:
#membuat series(dataframe 1dimensi)
usia = pd.Series([22, 35, 58], name="Usia")
usia

0    22
1    35
2    58
Name: Usia, dtype: int64

In [5]:
usia.max()

58

In [15]:
usia[:1]

0    22
Name: Usia, dtype: int64

In [5]:
# membuat data series dengan menggunakan index dan nama kolom
pd.Series(data=[500,300,1000,200], index=['Kol','Bayam','Kentang','Tauge'], name='Sayuran')

Kol         500
Bayam       300
Kentang    1000
Tauge       200
Name: Sayuran, dtype: int64

## DataFrame (2 Dimensi)

In [7]:
#membuat dataframe 2 dimensi dengan tipe data list
list_df=pd.DataFrame([["k01","Deni","Jakarta",13],
                ["k02","Ani","BSD",45],
                ["k03","Jeni","Pamulang",20],
                ["k04","Alam","Tangerang",11],
                ["k05","Lala","Tangsel",3]],
               columns=["Id","Nama","Alamat","Pembelian"])
list_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Tangsel,3


In [8]:
#mengakses dataframe berdasarkan kolom
list_df["Nama"]

0    Deni
1     Ani
2    Jeni
3    Alam
4    Lala
Name: Nama, dtype: object

In [9]:
#membuat dataframe 2 dimensi dengan tipe data dictionary
df1=pd.DataFrame({
    "Id": ["k01","k02","k03", "k04", "k05"],
    "Nama": ["Deni","Ani","Jeni", "Alam", "Lala"],
    "Alamat": ["Jakarta","BSD","Pamulang","Tangerang","Tangsel"],
    "Pembelian": [13,45,20,11,3]
})
df1

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Tangsel,3


In [36]:
#membuat dataframe 2 dimensi dengan tipe data dictionary
#biasa digunakan untuk membuat sebuah dataframe dengan tipe data yang berbeda
Dict1_df = pd.DataFrame(
    {
        "angka": 1.0,
        "waktu": pd.Timestamp("20230102"),
        "bil_pecahan": pd.Series(1.6, index=list(range(4)), dtype="float32"),
        "nump_array": np.array([3] * 4, dtype="int32"),
        "kategori": pd.Categorical(["test", "train", "test", "train"]),
        "string": "foo",
    }
)
Dict1_df

Unnamed: 0,angka,waktu,bil_pecahan,nump_array,kategori,string
0,1.0,2023-01-02,1.6,3,test,foo
1,1.0,2023-01-02,1.6,3,train,foo
2,1.0,2023-01-02,1.6,3,test,foo
3,1.0,2023-01-02,1.6,3,train,foo


In [50]:
#membuat dataframe 2 dimensi dengan tipe data dictionary
#membuat indexing di dataframe 2 dimensi
dict2_df=pd.DataFrame(
    {'Roti': ['suka','suka'],
     'Kopi':['suka','tidak suka']},
    index=['Alex','Rina'])
dict2_df

Unnamed: 0,Roti,Kopi
Alex,suka,suka
Rina,suka,tidak suka


In [40]:
Dict_df2.dtypes

angka                 float64
waktu          datetime64[ns]
bil_pecahan           float32
nump_array              int32
kategori             category
string                 object
dtype: object

In [10]:
#membuat dataframe 2 dimensi dengan tipe data numpy array
df2=pd.DataFrame(np.array([["k01","Deni","Jakarta",13],
                ["k02","Ani","BSD",45],
                ["k03","Jeni","Pamulang",20],
                ["k04","Alam","Tangerang",11],
                ["k05","Lala","Tangsel",3]]),
               columns=["Id","Nama","Alamat","Pembelian"])
df2

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Tangsel,3


## CSV (Comma Separated Value)
- File teks yang menggunakan koma untuk memisahkan nilai dari kolom yang berbeda 
- format pertukaran data umum yang didukung secara luas oleh aplikasi konsumen, bisnis, dan ilmiah. 
- Di antara kegunaannya yang paling umum adalah memindahkan data tabular.
- CSV mengacu kepada RFC 4180 (atau standar lainnya) karena begitu banyak program mendukung variasi format CSV untuk impor data.
- Apa yang membuat CSV lebih populer daripada excel?
1. Lebih cepat 
2. Berukuran lebih kecil#menyimpan data kedalam file CSV
makanandf.to_csv('./simpandata/makanan.csv')
3. Skema sederhana
4. Lebih mudah dibaca manusia daripada JSON atau XML
5. Sangat mudah ditangani (dipahami oleh hampir semua perangkat lunak, bahkan di Excel)

In [11]:
#menyimpan data kedalam file CSV dan excel
df2.to_csv('./simpandata/data1.csv')
df2.to_excel("data1.xlsx", index=False)

In [12]:
# membaca/menampilkan data csv
data_df=pd.read_csv('./simpandata/data1.csv')
data_df

Unnamed: 0.1,Unnamed: 0,Id,Nama,Alamat,Pembelian
0,0,k01,Deni,Jakarta,13
1,1,k02,Ani,BSD,45
2,2,k03,Jeni,Pamulang,20
3,3,k04,Alam,Tangerang,11
4,4,k05,Lala,Tangsel,3


In [13]:
#menampilkan data/file excel
data1_df=pd.read_excel('data1.xlsx')
data1_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Tangsel,3


# Operasi Dasar
### Extracting Data

In [14]:
#mengganti index dengan kolom Id
data3=data1_df.set_index('Id').head()

In [15]:
data3

Unnamed: 0_level_0,Nama,Alamat,Pembelian
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
k01,Deni,Jakarta,13
k02,Ani,BSD,45
k03,Jeni,Pamulang,20
k04,Alam,Tangerang,11
k05,Lala,Tangsel,3


In [16]:
data1_df.set_index('Id',inplace=True)

In [17]:
data1_df

Unnamed: 0_level_0,Nama,Alamat,Pembelian
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
k01,Deni,Jakarta,13
k02,Ani,BSD,45
k03,Jeni,Pamulang,20
k04,Alam,Tangerang,11
k05,Lala,Tangsel,3


In [18]:
# Mengembalikan perubahan index (jika terjadi kesalahan)
data1_df.reset_index().head()

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Tangsel,3


In [19]:
#menampilkan informasi tentang data 
data1_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, k01 to k05
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nama       5 non-null      object
 1   Alamat     5 non-null      object
 2   Pembelian  5 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 160.0+ bytes


In [20]:
#menampilkan informasi statistik dari kolom data numerik
data1_df.describe()

Unnamed: 0,Pembelian
count,5.0
mean,18.4
std,16.056151
min,3.0
25%,11.0
50%,13.0
75%,20.0
max,45.0


In [21]:
#menampilkan nama kolom
data1_df.columns

Index(['Nama', 'Alamat', 'Pembelian'], dtype='object')

In [22]:
#menampilkan dimensi dari data
data1_df.shape

(5, 3)

In [23]:
data1_df.shape[0]

5

In [28]:
#Nilai kolom tertentu
#data1_df["Nama"]
data1_df[["Nama","Pembelian"]]

Id
k01    Deni
k02     Ani
k03    Jeni
k04    Alam
k05    Lala
Name: Nama, dtype: object

In [29]:
#menampilkan bari awal dari data
data1_df.head(2)

Unnamed: 0_level_0,Nama,Alamat,Pembelian
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
k01,Deni,Jakarta,13
k02,Ani,BSD,45


In [30]:
#menampilkan baris awal dari data
data1_df.tail(2)

Unnamed: 0_level_0,Nama,Alamat,Pembelian
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
k04,Alam,Tangerang,11
k05,Lala,Tangsel,3


In [32]:
#menampilkan baris dari data secara random
data1_df.sample(3)

Unnamed: 0_level_0,Nama,Alamat,Pembelian
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
k02,Ani,BSD,45
k05,Lala,Tangsel,3
k04,Alam,Tangerang,11


# Filtering Data
### Mengakses Data pada DataFrame
- Dapat dilakukan dengan beberapa cara, yaitu:
- Mengakses data berdasarkan index baris-index kolom
- Mengakses data berdasarkan index baris-label kolom (fungsi .loc() atau .at())
- Mengakses data berdasarkan label kolom-kriteria
- Mengakses data berdasarkan label kolom-kriteria .And()
- Mengakses data berdasarkan label kolom-kriteria .or()

### 1. Mengakses data menggunakan index (baris), method (iloc) atau at()¶
- mendahulukan index baris baru kemudian kolom

In [78]:
# mengakses data pada index baris ke 2
print(data1_df)
print(data1_df.columns)
data1_df.iloc[2]

   Nama  Pembelian     Alamat
0  Deni         13    Jakarta
1   Ani         45        BSD
2  Jeni         20   Pamulang
3  Alam         11  Tangerang
4  Lala          3    Tangsel
Index(['Nama', 'Pembelian', 'Alamat'], dtype='object')


Nama             Jeni
Pembelian          20
Alamat       Pamulang
Name: 2, dtype: object

In [86]:
# mengakses data pada index baris ke 2 dan 5 pada semua kolom
# menggunakan operasi slicing(irisan)
data1_df.iloc[2:5,:]

Unnamed: 0,Nama,Pembelian,Alamat
2,Jeni,20,Pamulang
3,Alam,11,Tangerang
4,Lala,3,Tangsel


In [92]:
data1_df.iat[2,2]

'Pamulang'

In [87]:
# mengakses data pada semua index baris pada kolom ke 0
# menggunakan operasi slicing(irisan)
data1_df.iloc[:,0]

0    Deni
1     Ani
2    Jeni
3    Alam
4    Lala
Name: Nama, dtype: object

In [71]:
# mengakses data pada index baris ke 2 dan 5 pada kolom ke 2
# menggunakan operasi slicing(irisan)
data1_df.iloc[2:5,:1]

Unnamed: 0,Nama
2,Jeni
3,Alam
4,Lala


In [81]:
# mengakses data pada index baris ke 2 dan 5 pada kolom ke 2
# menggunakan operasi slicing(irisan)
data1_df.iloc[2:5,1:3]

Unnamed: 0,Pembelian,Alamat
2,20,Pamulang
3,11,Tangerang
4,3,Tangsel


In [85]:
# mengakses data pada index baris ke 2 dan 5 pada kolom ke 2
# menggunakan operasi slicing(irisan)
data1_df.iloc[[0,2,4],[0,2]]

Unnamed: 0,Nama,Alamat
0,Deni,Jakarta
2,Jeni,Pamulang
4,Lala,Tangsel


### 2. Mengakses data menggunakan label kolom-index (baris)
- mengakses data berdasarkan pada label pada kolom
- dilakukan dengan fungsi loc() dan at()

In [95]:
# menampilkan data dalam 1 kolom
data1_df.loc[:,"Nama"]

0    Deni
1     Ani
2    Jeni
3    Alam
4    Lala
Name: Nama, dtype: object

In [101]:
# menampilkan data secara spesifik (dalam baris ke i dan kolom ke j)
data1_df.loc[3,"Nama"]

'Alam'

In [100]:
# # menampilkan data secara spesifik (dalam baris ke i dan kolom ke j)
data1_df.at[3,"Nama"]

'Alam'

In [97]:
# menampilkan sejumlah data secara spesifik (dalam baris ke i-z dan kolom ke j)
data1_df.loc[1:4,"Nama"]

1     Ani
2    Jeni
3    Alam
4    Lala
Name: Nama, dtype: object

In [None]:
### Filter Data dengan menggunakan kondisi/kriteria

In [108]:
data1_df[df["Pembelian"] > 20]

Unnamed: 0,Nama,Pembelian,Alamat
1,Ani,45,BSD


In [None]:
### Filter Data dengan menggunakan kondisi/kriteria menggunakan fungsi AND (&)
- menampilkan data ketika kedua kondisi bernilai TRUE

In [120]:
data1_df.loc[(data1_df['Pembelian'] >= 13)&(data1_df['Alamat'] == 'Jakarta')].head()

Unnamed: 0,Nama,Pembelian,Alamat
0,Deni,13,Jakarta


In [None]:
### Filter Data dengan menggunakan kondisi/kriteria menggunakan fungsi OR
- menampilkan data ketika salah satu dari dua kondisi bernilai TRUE

In [121]:
data1_df.loc[(data1_df['Pembelian'] >= 13)|(data1_df['Alamat'] == 'Jakarta')].head()

Unnamed: 0,Nama,Pembelian,Alamat
0,Deni,13,Jakarta
1,Ani,45,BSD
2,Jeni,20,Pamulang


### Sorting (Mengurutkan) Data

In [154]:
# sorting data berdasarkan kolom secara ascending
data1_df.sort_values(by='Pembelian')

Unnamed: 0,Nama,Pembelian,Alamat
4,Lala,3,Tangsel
3,Alam,11,Tangerang
0,Deni,13,Jakarta
2,Jeni,20,Pamulang
1,Ani,45,BSD


In [153]:
# sorting data berdasarkan kolom secara descending
data1_df.sort_values(by='Pembelian', ascending=False)

Unnamed: 0,Nama,Pembelian,Alamat
1,Ani,45,BSD
2,Jeni,20,Pamulang
0,Deni,13,Jakarta
3,Alam,11,Tangerang
4,Lala,3,Tangsel


In [155]:
#sorting data menggunakan 2 kolom
data1_df.sort_values(by=['Nama','Pembelian'])

Unnamed: 0,Nama,Pembelian,Alamat
3,Alam,11,Tangerang
1,Ani,45,BSD
0,Deni,13,Jakarta
2,Jeni,20,Pamulang
4,Lala,3,Tangsel


# Cleaning Data (Mengenali & Menangani Outliers & Missing Values Pada Data)

In [261]:
#membuat dataframe 2 dimensi dengan tipe data dictionary
MissV_df=pd.DataFrame({
    "Id": ["k01","k02","k03", "k04", "k05", "k06"],
    "Nama": ["Deni","Ani","Jeni", "Alam", "Lala", "Caca"],
    "Alamat": ["Jakarta","BSD","Pamulang","Tangerang","Pamulang",np.nan],
    "Pembelian": [13,45,2000,11,np.nan,np.nan]
})
MissV_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13.0
1,k02,Ani,BSD,45.0
2,k03,Jeni,Pamulang,2000.0
3,k04,Alam,Tangerang,11.0
4,k05,Lala,Pamulang,
5,k06,Caca,,


##### 1. Check Missing Value
- Merupakan data-data yang tidak memiliki nilai (tidak tersedia nilaiya)
- Biasa terjadi akibat adanya kesalahan input, cacat software ataupun gangguan jaringan
- Biasa terjadi pada tipe data numerik dan kategori(nominal)

In [240]:
#memeriksa data yang memiliki nilai pada dataframe perkolom
pd.isna(MissV_df["Pembelian"])

0    False
1    False
2    False
3    False
4     True
5     True
Name: Pembelian, dtype: bool

In [241]:
#memeriksa data yang memiliki nilai pada dataframe secara menyeluruh
MissV_df.notna()
#MissV_df.notna().sum()

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,True,False
5,True,True,False,False


In [242]:
#memeriksa data yang tidak memiliki nilai/tidak tersedia(missing values) pada dataframe
#MissV_df.isna()
MissV_df.isna().sum()

Id           0
Nama         0
Alamat       1
Pembelian    2
dtype: int64

# Menangani Missing Value
- Dengan menggantikan nilainya dengan nilai nol (0)
- Dengan menggantikan nilainya dengan nilai statistik (mean atau median)
- Dengan menggantikan nilainya dengan mode contoh
- Dengan menghapus baris yang tidak memiliki nilai (isna)

In [243]:
# Menggantikan nilainya dengan nilai nol (0)
MissV_df["Pembelian"]=MissV_df["Pembelian"].fillna(0)
MissV_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13.0
1,k02,Ani,BSD,45.0
2,k03,Jeni,Pamulang,2000.0
3,k04,Alam,Tangerang,11.0
4,k05,Lala,Pamulang,0.0
5,k06,Caca,,0.0


In [244]:
# Menggantikan nilainya dengan nilai mean(rata-rata)
MissV_df.describe()
#MissV_df["Pembelian"]=MissV_df["Pembelian"].fillna(MissV_df["Pembelian"].mean())
#MissV_df

Unnamed: 0,Pembelian
count,6.0
mean,344.833333
std,811.030805
min,0.0
25%,2.75
50%,12.0
75%,37.0
max,2000.0


In [262]:
# Menggantikan nilainya dengan nilai median(nilai Q2/tengah)
MissV_df["Pembelian"]=MissV_df["Pembelian"].fillna(MissV_df["Pembelian"].median())
MissV_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13.0
1,k02,Ani,BSD,45.0
2,k03,Jeni,Pamulang,2000.0
3,k04,Alam,Tangerang,11.0
4,k05,Lala,Pamulang,29.0
5,k06,Caca,,29.0


In [250]:
# Menggantikan nilainya dengan nilai mode
MissV_df["Alamat"]=MissV_df["Alamat"].fillna(MissV_df["Alamat"].mode()[0])
MissV_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13.0
1,k02,Ani,BSD,45.0
2,k03,Jeni,Pamulang,2000.0
3,k04,Alam,Tangerang,11.0
4,k05,Lala,Pamulang,29.0
5,k06,Caca,Pamulang,29.0


In [152]:
MissV_df.dropna()

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13.0
1,k02,Ani,BSD,45.0
2,k03,Jeni,Pamulang,20.0
3,k04,Alam,Tangerang,11.0


##### 2. Check Outliers
- Merupakan nilai-nilai yang tidak lazim/logis
- Biasa terjadi akibat adanya kesalahan input, cacat software ataupun gangguan jaringan
- Biasa terjadi pada tipe data numerik

In [251]:
# Dengan menggunakan Z-score
import scipy.stats as stats
MissV_df[(np.abs(stats.zscore(MissV_df["Pembelian"])) >=2)]

Unnamed: 0,Id,Nama,Alamat,Pembelian
2,k03,Jeni,Pamulang,2000.0


In [254]:
# Dengan Menggunakan Inter Quartil Rate
q1 = MissV_df["Pembelian"].quantile(0.25)
q3 = MissV_df["Pembelian"].quantile(0.75)

iqr = q3-q1 #Interquartile range
fence_low  = q1-1.5*iqr
fence_high = q3+1.5*iqr

MissV_df.loc[(MissV_df["Pembelian"] < fence_low) | (MissV_df["Pembelian"] > fence_high)]

Unnamed: 0,Id,Nama,Alamat,Pembelian
2,k03,Jeni,Pamulang,2000.0


### Menghapus Outliers

In [264]:
# Menghapus outliers dengan fungsi Z-Score
df_clean = MissV_df[(np.abs(stats.zscore(MissV_df["Pembelian"])) <2)]
df_clean

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13.0
1,k02,Ani,BSD,45.0
3,k04,Alam,Tangerang,11.0
4,k05,Lala,Pamulang,29.0
5,k06,Caca,,29.0


In [None]:
# Menghapus outliers dengan fungsi IQR
df_clean =MissV_df.loc[(MissV_df["Pembelian"] >= fence_low) & (MissV_df["Pembelian"] <= fence_high)]
df_clean

# Check  Data Duplikat
- dilakukan untuk menghindari beban kerja akibat redudansi data
- biasanya terjadi karena adanya masalah koneksi jaringan ataupun kesalahan input
- efektif dilakukan untuk menangani jumlah data yang besar

In [272]:
dup_df=pd.DataFrame({
    "Id": ["k01","k02","k03", "k04", "k05", "k06", "k02"],
    "Nama": ["Deni","Ani","Jeni", "Alam", "Lala", "Caca","Ani"],
    "Alamat": ["Jakarta","BSD","Pamulang","Tangerang","Pamulang","Pamulang","BSD"],
    "Pembelian": [13,45,20,11,20,13,45]
})
dup_df

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Pamulang,20
5,k06,Caca,Pamulang,13
6,k02,Ani,BSD,45


In [274]:
#memeriksa data yang duplikat 
dup_df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [275]:
#memeriksa jumlah data yang duplikat 
dup_df.duplicated().sum()

1

In [277]:
# Menangani & Menghapus data duplikat
dup_df.drop_duplicates()

Unnamed: 0,Id,Nama,Alamat,Pembelian
0,k01,Deni,Jakarta,13
1,k02,Ani,BSD,45
2,k03,Jeni,Pamulang,20
3,k04,Alam,Tangerang,11
4,k05,Lala,Pamulang,20
5,k06,Caca,Pamulang,13
