# Pandas - Data Preposesing

In [2]:
import pandas as pd
import numpy as np

## Data Formatting

### 1. Importing Data

In [3]:
df = pd.read_csv('telco_customer_churn.csv')

In [4]:
df

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.30,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.70,151.65,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,6840-RESVB,Male,0,Yes,Yes,24,Yes,Yes,DSL,Yes,...,Yes,Yes,Yes,Yes,One year,Yes,Mailed check,84.80,1990.5,No
7039,2234-XADUH,Female,0,Yes,Yes,72,Yes,Yes,Fiber optic,No,...,Yes,No,Yes,Yes,One year,Yes,Credit card (automatic),103.20,7362.9,No
7040,4801-JZAZL,Female,0,Yes,Yes,11,No,No phone service,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.60,346.45,No
7041,8361-LTMKD,Male,1,Yes,No,4,Yes,Yes,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Mailed check,74.40,306.6,Yes


### Checking Column Types

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


Data Type 'object' berarti kolom tersebut berisi 'string' (teks). Data type 'int64' berarti kolom tersebut berisi bilangan bulat, tanpa desimal. Selain itu, data type 'float64' berarti kolom tersebut berisi bilangan desimal.

Sekilas, sepertinya dataset kita baik-baik saja. Semua kolom tidak memiliki missing value (Jika ada missing value, pasti ada kolom yang tidak tertulis 7043 non-null). Namun, jika melihat lebih dalam, kolom TotalCharges yang seharusnya merupakan obyek float64 (karena merupakan angka), tercatat sebagai object. Ini mesti diperbaiki.

In [6]:
df['TotalCharges'].astype('float64')

ValueError: could not convert string to float: ' '

Ternyata, terdapat error yang menyatakan tidak bisa mengkonversi string menjadi float. Berarti, di antara 7043 data tersebut, ada beberapa row yang memiliki TotalCharges sebagai string. Tugas kita adalah mencarinya.

In [7]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

Langkah di atas artinya memaksa untuk mengubah semua anggota TotalCharges ke dalam numerik. Jika error, maka dia akan diubah menjadi Null.

In [8]:
df[df['TotalCharges'].isnull()]

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
488,4472-LVYGI,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,...,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,,No
753,3115-CZMZD,Male,0,No,Yes,0,Yes,No,No,No internet service,...,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,,No
936,5709-LVOEQ,Female,0,Yes,Yes,0,Yes,No,DSL,Yes,...,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,,No
1082,4367-NUYAO,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,...,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,,No
1340,1371-DWPAZ,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,...,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,,No
3331,7644-OMVMY,Male,0,Yes,Yes,0,Yes,No,No,No internet service,...,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.85,,No
3826,3213-VVOLG,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,...,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,,No
4380,2520-SGTTA,Female,0,Yes,Yes,0,Yes,No,No,No internet service,...,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,,No
5218,2923-ARZLG,Male,0,Yes,Yes,0,Yes,No,No,No internet service,...,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,,No
6670,4075-WKNIU,Female,0,Yes,Yes,0,Yes,Yes,DSL,No,...,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,,No


Terdapat 11 row yang sekarang menunjukkan adanya Null atau missing value

### 3. Check Duplicates

In [9]:
df = pd.DataFrame({
    "cust_id": ["C1", "C2", "C3", "C4", "C5", "C6", "C7", "C8", "C9", "C10", "C7"],
    "item_bought": [10,7,5,4,10000, 10, 5, 5, 7, 4, 5],
    "city": ["Bandung", "Jakarta", "Bogor", "Tangerang", "BANDUNG", "Bgr", "Bogor", "BGR", "bdg", "Jakarta", "Bogor"]
    })

df

Unnamed: 0,cust_id,item_bought,city
0,C1,10,Bandung
1,C2,7,Jakarta
2,C3,5,Bogor
3,C4,4,Tangerang
4,C5,10000,BANDUNG
5,C6,10,Bgr
6,C7,5,Bogor
7,C8,5,BGR
8,C9,7,bdg
9,C10,4,Jakarta


In [12]:
# Check duplicates
df.duplicated().sum()

1

In [13]:
# Handle duplicates dengan menghapus data
df.drop_duplicates()

Unnamed: 0,cust_id,item_bought,city
0,C1,10,Bandung
1,C2,7,Jakarta
2,C3,5,Bogor
3,C4,4,Tangerang
4,C5,10000,BANDUNG
5,C6,10,Bgr
6,C7,5,Bogor
7,C8,5,BGR
8,C9,7,bdg
9,C10,4,Jakarta


### 4. Check Different Formats

In [35]:

df

Unnamed: 0,cust_id,item_bought,city
0,C1,10,Bandung
1,C2,7,Jakarta
2,C3,5,Bogor
3,C4,4,Tangerang
4,C5,10000,BANDUNG
5,C6,10,Bgr
6,C7,5,Bogor
7,C8,5,BGR
8,C9,7,bdg
9,C10,4,Jakarta


In [16]:
pd.unique(df['city'])

array(['Bandung', 'Jakarta', 'Bogor', 'Tangerang'], dtype=object)

Jika melihat dataframe di atas, kolom city memiliki format nama kota yang berbeda-beda (contoh: Bandung sebagai bdg, BANDUNG. Bogor sebagai Bgr, BGR)

Ini perlu kita atasi dengan cara menyeragamkan data-data yang memiliki arti sama namun dalam bentuk berbeda.

In [15]:

df['city'] = df['city'].replace({'BANDUNG': 'Bandung', 'bdg': 'Bandung', 'Bgr': 'Bogor', 'BGR': 'Bogor'})

df

Unnamed: 0,cust_id,item_bought,city
0,C1,10,Bandung
1,C2,7,Jakarta
2,C3,5,Bogor
3,C4,4,Tangerang
4,C5,10000,Bandung
5,C6,10,Bogor
6,C7,5,Bogor
7,C8,5,Bogor
8,C9,7,Bandung
9,C10,4,Jakarta


## Handling Missing Value

In [17]:
df = pd.read_csv('titanic_dataset.csv')
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- PassengerID: nomor ID dari setiap penumpang, hanya tanda pengenal saja
- Survived: 0 berarti 'tidak selamat', 1 berarti 'selamat'
- Pclass: kelas tiket, 1 = kelas 1 (paling mewah), 2 = kelas 2, 3 = - kelas 3 (paling rendah)
- Sex: jenis kelamin
- Age: usia
- SibSp: berapa banyak sibling/spouses yang ikut serta di dalam Titanic
- Parch: berapa banyak parents/children yang ikut serta di dalam Titanic
- Ticket: nomor tiket
- Fare: uang yang dibayarkan (biaya) untuk perjalanan
- Cabin: nomor kabin
- Embarked: kota keberangkatan, C = Cherbourg, Q = Queenstown, S = - Southampton

Dapat kita lihat dari df.info() bahwa terdapat 3 kolom dengan missing values, yaitu Age, Embarked, dan Cabin.


Rule Of Thumb: Ask The Data Provider!

Jika teman-teman sekalian sudah bekerja menjadi Data Scientist, maka hal pertama yang harus dilakukan ketika menemukan missing values adalah mengkonfirmasikannya kepada pemberi datanya (bisa berupa Business Stakeholder, atau Data Engineer). Bisa saja data yang hilang itu diakibatkan oleh adanya kesalahan dalam proses ingestion, sehingga mereka dapat mengetahui adanya gangguan dalam sistem.

Atau, bisa saja data yang hilang itu terjadi akibat error dalam 'saving the file', dan semestinya data tersebut ada di file originalnya (dengan demikian, mereka dapat mengambil file original tersebut dan memberikannya ke Data Scientist).

Intinya, jika ada missing values, kita semestinya mengkomunikasikan hal ini kepada stakeholder yang memberikan kita dataset tersebut, dan meluruskan apa yang harus dilakukan. Jika memang tidak ada yang dapat dilakukan, maka barulah kita dapat mencoba beberapa opsi yang akan kita pelajari di bawah ini.

#### Method 1: Drop the Column

Jika kolom tersebut memiliki banyak missing values (lebih dari 50-60%), maka sulit rasanya bisa mendapatkan metode imputasi yang akurat. Apalagi, jika kolom tersebut dirasa memiliki informasi yang minim.

Jika hal ini terjadi, maka hal yang dapat dilakukan adalah menghilangkan seluruh kolom (tidak menggunakan kolom tersebut dalam EDA / Modelling). Hal ini yang akan kita lakukan kepada kolom Cabin.

In [19]:
df.drop('Cabin', axis = 'columns', inplace = True)

In [20]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked'],
      dtype='object')


#### Method 2: Remove the Rows

Apabila missing values kurang dari 50%, maka hal yang dapat dilakukan adalah menghilangkan semua baris dengan missing values. Ini adalah metode yang paling 'mudah', namun memiliki beberapa konsekuensi:

- Kehilangan informasi dari kolom lain yang penting (dalam kebanyakan kasus, baris yang dihilangkan itu sebenarnya tidak bermasalah di kolom-kolom lain)
- Dataset size menjadi sedikit, bila yang dihilangkan cukup banyak

In [21]:

df_update = df.dropna(axis = 0).reset_index(drop = True)

In [22]:
df_update.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 712 entries, 0 to 711
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Name         712 non-null    object 
 4   Sex          712 non-null    object 
 5   Age          712 non-null    float64
 6   SibSp        712 non-null    int64  
 7   Parch        712 non-null    int64  
 8   Ticket       712 non-null    object 
 9   Fare         712 non-null    float64
 10  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 61.3+ KB


#### Method 3: Mengisi dengan Mean/Median dan Modus
Metode imputasi dengan mean/median dan modus adalah salah satu metode pengisian nilai missing-values. Dalam kasus ini, missing values tidak dihilangkan, namun dicoba dicari nilai-nilai yang 'masuk akal' untuk mengisi values-values yang hilang ini.

Untuk kolom numerik, biasanya diisi dengan:

- mean, jika kolom tidak memiliki outlier
- median, jika kita tidak bisa meyakinkan bahwa kolom tersebut tidak memiliki outlier

Untuk kolom kategorikal, biasanya diisi dengan modus (nilai yang paling sering muncul).

In [23]:
df_update = df.copy()
df_update['Age'] = df_update['Age'].fillna(df_update['Age'].median())
df_update['Embarked'] = df_update['Embarked'].fillna(df_update['Embarked'].mode()[0])

In [24]:

df['Age'].median()

28.0

In [25]:
df_update.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 76.7+ KB


## Data Binning

In [27]:
df_titanic = df_update.copy()

df_titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


Kita bisa menggunakan apply untuk mengaplikasikan suatu fungsi terhadap sebuah kolom di dataframe. Contoh, kita ingin membuat sebuah kolom baru berisi pengelompokkan usia sebagai berikut:

- Usia 0 - 10: Kids
- Usia 10 - 20: Teens
- Usia 20 - 30: Young Adult
- Usia 30 - 50: Adult
- Usia >50: Old

In [28]:
def age_classifier(x):
    if x < 11:
        return 'Kid'
    elif x < 21:
        return 'Teen'
    elif x < 31:
        return 'Young Adult'
    elif x < 51:
        return 'Adult'
    else:
        return 'Old'

In [29]:
df_titanic['AgeClass'] = df_titanic['Age'].apply(age_classifier)

In [30]:
df_titanic.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,AgeClass
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,S,Adult
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,S,Young Adult
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,S,Young Adult
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,S,Young Adult
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,Q,Adult
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,S,Young Adult
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,S,Teen
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.45,S,Young Adult
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C,Young Adult
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,Q,Adult
