# Preparing and Cleaning Data

*Oleh: Rosihan Ari Yuana, S. Si, M. Kom*

Diberikan dataset daftar transfer pemain bola termahal dunia dari musim 2000-2001 hingga 2018-2019.

## Preparing Data

### Importing Data

In [None]:
import pandas as pd
namaFile = "d:football.csv"
data = pd.read_csv(namaFile)
data.head()

### Selecting Data

Data hasil import menggunakan Pandas seperti di atas bertipe DataFrame. DataFrame merupakan tipe data dinamis yang tersusun atas baris dan kolom (seperti tabel). Angka 0, 1 dst yang ada di sebelah kiri merupakan indeks baris. Sedangkan bagian paling atas memiliki nama kolom (column names).

In [None]:
# mengakses data pada baris index tertentu
data.loc[3]

In [None]:
# mengakses 5 data pertama pada kolom tertentu
data['Name'][:5]

In [None]:
# memilih data dari beberapa kolom
data = data.filter(items=['Name', 'Position', 'Age', 'Transfer_fee'])
data.head()

### Combining Data

In [None]:
ListUmur = []
for umur in data['Age']:
    if umur > 30:
        ListUmur.append('Old')
    else:
        ListUmur.append('Young')
data['Age Status'] = ListUmur
data.head()

### Transforming Data

In [None]:
# sebelum transformasi

import matplotlib.pyplot as plt
plt.hist(data['Age'], 20)
plt.show()

In [None]:
# transforming data

from sklearn import preprocessing
import numpy as np

age_array = np.array(data['Age'])
normalized_age = preprocessing.normalize([age_array])
data['Norm Age'] = normalized_age[0]
data.head()

In [None]:
# setelah transformasi

import matplotlib.pyplot as plt
plt.hist(data['Norm Age'], 20)
plt.show()

## Cleaning Data

### Finding NaN Value (Missing Value)

In [None]:
data[data['Transfer_fee'].isnull()]

### Handling NaN Value (Missing Value)

In [None]:
# menghapus baris yang mengandung null
data1 = data.dropna(axis=0, how='any')
# cek data null
data1[data1['Transfer_fee'].isnull()]

In [None]:
# mengganti data null pada 'Transfer_fee' dengan rata2nya
data2 = data.fillna(data['Transfer_fee'].mean())
# cek data null
data2[data2['Transfer_fee'].isnull()]

In [None]:
# cek data pada baris ke 4539 yang tadinya null pada kolom Transfer_fee
data2.loc[4539]

### Identifying Outliers (Pencilan)

In [None]:
# mengidentifikasi outliers via scatter plot

import matplotlib.pyplot as plt
plt.scatter(data['Age'], data['Transfer_fee'])
plt.xlabel('Age')
plt.ylabel('Transfer Fee')
plt.xlim(-1, 50)
plt.ylim(-1e7, 2.5e8)
plt.show()

### Handling Outliers

In [None]:
# memilih data yang tidak mengandung outliers
import numpy as np

meanTransferFee = data['Transfer_fee'].mean()
stdTransferFee = data['Transfer_fee'].std()
meanAge = data['Age'].mean()
stdAge = data['Age'].std()

dataClean = data[(np.abs((data['Transfer_fee']-meanTransferFee)/stdTransferFee) <= 3) 
                 & (np.abs((data['Age']-meanAge)/stdAge) <= 3)]

In [None]:
# scatter plot setelah menghilangkan outliers

import matplotlib.pyplot as plt
plt.scatter(dataClean['Age'], dataClean['Transfer_fee'])
plt.xlabel('Age')
plt.ylabel('Transfer Fee')
plt.xlim(-1, 50)
plt.ylim(-1e7, 2.5e8)
plt.show()

## Latihan Project

- Importlah file weight-height.csv
- Pilihlah kolom Gender, Height (dalam inch), dan Weight (dalam pound)
- Lakukan cleaning data dengan menghilangkan data null pada kedua kolom tersebut
- Lakukan cleaning data terhadap outlier yang ada
- Dari data hasil cleaning, buat kolom baru 'BBI' yang isinya merupakan berat badan idealnya

**Rumus BBI:**
- wanita: (tinggi badan - 100) - (15% x (tinggi badan - 100))
- pria: (tinggi badan - 100) - (10% x (tinggi badan -100))

Keterangan untuk hitung BBI:
- Tinggi badan dalam cm (1 inch = 2.54 cm)
- Berat badan dalam Kg (1 pound = 0.45 kg)