# Data Cleaning and Preprocessing with Pandas

## Handling Duplicate Data

In [1]:
import pandas as pd

# Membuat DataFrame dengan data duplikat
data = {'Nama': ['Andi', 'Budi', 'Cindy', 'Andi', 'Budi'],
        'Nilai': [85, 90, 92, 88, 90]}

df = pd.DataFrame(data)

# Mendeteksi data duplikat
print(df.duplicated())

# Menghapus data duplikat
df.drop_duplicates(inplace=True)
print(df)


0    False
1    False
2    False
3    False
4     True
dtype: bool
    Nama  Nilai
0   Andi     85
1   Budi     90
2  Cindy     92
3   Andi     88


## Data Normalization and Scaling

In [2]:
# Membuat DataFrame dengan data yang perlu dinormalisasi
data = {'Nilai': [85, 90, 92, 88, 95]}

df = pd.DataFrame(data)

# Normalisasi data menggunakan Min-Max scaling
df_normalized = (df - df.min()) / (df.max() - df.min())
print(df_normalized)


   Nilai
0    0.0
1    0.5
2    0.7
3    0.3
4    1.0


## Dealing with Outliers


In [3]:
import numpy as np

# Membuat DataFrame dengan data yang mengandung outliers
data = {'Nilai': [85, 90, 92, 88, 200]}

df = pd.DataFrame(data)

# Mendeteksi outliers menggunakan z-score
z_scores = np.abs((df - df.mean()) / df.std())
outliers = df[z_scores > 1].dropna()
print("Outliers:")
print(outliers)

# Menghapus outliers
df_no_outliers = df[z_scores <= 1].dropna()
print("Data tanpa outliers:")
print(df_no_outliers)


Outliers:
   Nilai
4  200.0
Data tanpa outliers:
   Nilai
0   85.0
1   90.0
2   92.0
3   88.0
