# Data Science in Telco: Data Cleansing

<p><b>About :</b> -</p>

<p><b>Course :</b> <a href=https://academy.dqlab.id/main/package/practice/247?pf=0>Data Science in Telco: Data Cleansing</a></p>

<h2>Module Content:</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#pendahuluan">Pendahuluan</a></li>
        <li><a href="#import-library-dan-load-dataset">Import Library dan Load Dataset</a></li>
        <li><a href="#validitas-id-pelanggan">Mencari Validitas ID Number Pelanggan</a></li>
        <li><a href="#mengatasi-missing-values">Mengatasi Missing Values</a></li>
        <li><a href="#mengatasi-outlier">Mengatasi Outlier</a></li>
        <li><a href="#menstandarisasi-nilai">Menstandarisasi Nilai</a></li>
    </ul>
</div>

<h2><a name="pendahuluan"></a>Chapter 1: Pendahuluan</h2>

Siapkan data sekaligus membuat model prediksi yang tepat untuk menentukan pelanggan akan berhenti berlangganan (churn) atau tidak dengan melakukan Data Prepocessing (Data Cleansing) untuk bulan Juni 2020.

Langkah yang akan dilakukan adalah:
<ol>
    <li>Mencari ID pelanggan (Nomor telphone) yang valid</li>
    <li>Mengatasi data-data yang masih kosong (Missing Values)</li>
    <li>Mengatasi Nilai-Nilai Pencilan (Outlier) dari setiap Variable</li>
    <li>Menstandarisasi Nilai dari Variable</li>
</ol>

<h2><a name="import-library-dan-load-dataset"></a>Chapter 2: Import Library dan Load Dataset</h2>

<h3><a name="library"></a>Library</h3>

Library yang akan digunakan untuk membantu melakukan proses analisa data:

<ol>
    <li><b>Pandas</b>, (Python for Data Analysis) library Python yang fokus untuk proses analisis data seperti manipulasi data, persiapan data, dan pembersihan data.</li>
    <li><b>Matplotlib</b>, library Python yang fokus pada visualisasi data seperti membuat plot grafik. Matplotlib dapat digunakan dalam skrip Python, Python dan IPython shell, server aplikasi web, dan beberapa toolkit graphical user interface (GUI) lainnya.</li>
    <li><b>Seaborn</b>, memperkenalkan tipe plot tambahan dan membuat plot Matplotlib tradisional terlihat sedikit lebih cantik.</li>
</ol>

<h3><a name="dataset"></a>Dataset</h3>

Source : https://storage.googleapis.com/dqlab-dataset/dqlab_telco.csv

Detail informasi dataset:
    <li><code>UpdatedAt</code> Periode of Data taken</li>
    <li><code>customerID</code> Customer ID</li>
    <li><code>gender</code> Whether the customer is a male or a female (Male, Female)</li>
    <li><code>SeniorCitizen</code> Whether the customer is a senior citizen or not (1, 0)</li>
    <li><code>Partner</code> Whether the customer has a partner or not (Yes, No)</li>
    <li><code>Dependents</code> Whether the customer has dependents or not (Yes, No)</li>
    <li><code>tenure</code> Number of months the customer has stayed with the company</li>
    <li><code>PhoneService</code> Whether the customer has a phone service or not (Yes, No)</li>
    <li><code>MultipleLines</code> Whether the customer has multiple lines or not (Yes, No, No phone service)</li>
    <li><code>InternetService</code> Customer’s internet service provider (DSL, Fiber optic, No)</li>
    <li><code>OnlineSecurity</code> Whether the customer has online security or not (Yes, No, No internet service)</li>
    <li><code>OnlineBackup</code> Whether the customer has online backup or not (Yes, No, No internet service)</li>
    <li><code>DeviceProtection</code> Whether the customer has device protection or not (Yes, No, No internet service)</li>
    <li><code>TechSupport</code> Whether the customer has tech support or not (Yes, No, No internet service)</li>
    <li><code>StreamingTV</code> Whether the customer has streaming TV or not (Yes, No, No internet service)</li>
    <li><code>StreamingMovies</code> Whether the customer has streaming movies or not (Yes, No, No internet service)</li>
    <li><code>Contract</code> The contract term of the customer (Month-to-month, One year, Two year)</li>
    <li><code>PaperlessBilling</code> Whether the customer has paperless billing or not (Yes, No)</li>
    <li><code>PaymentMethod</code> The customer’s payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic))</li>
    <li><code>MonthlyCharges</code> The amount charged to the customer monthly</li>
    <li><code>TotalCharges</code> The total amount charged to the customer</li>
    <li><code>Churn</code> Whether the customer churned or not (Yes or No)</li>

In [75]:
#import library
import pandas as pd
pd.options.display.max_columns = 50 # mempermudah penampilan row data

#import dataset
df_load = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqlab_telco.csv')

#Tampilkan jumlah baris dan kolom
print(df_load.shape)

#Jumlah ID yang unik
print(df_load.customerID.nunique())

#Tampilkan 5 data teratas
df_load.head()

(7113, 22)
7017


Unnamed: 0,UpdatedAt,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,202006,45759018157,Female,0,Yes,No,1.0,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,202006,45557574145,Male,0,No,No,34.0,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,202006,45366876421,Male,0,No,No,2.0,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,202006,45779536532,Male,0,No,No,45.0,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,202006,45923787906,Female,0,No,No,2.0,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


<h2><a name="validitas-id-pelanggan"></a>Chapter 3: Mencari Validitas ID Number Pelanggan</h2>

<h4>Memfilter ID Number Pelanggan dengan Format Tertentu</h4>

Mencari format ID Number (Phone Number) Pelanggan customerID yang benar, dengan kriteria:

<ul>
    <li>Panjang karakter adalah 11-12.</li>
    <li>Terdiri dari Angka Saja, tidak diperbolehkan ada karakter selain angka</li>
    <li>Diawali dengan angka 45 2 digit pertama.</li>
</ul>

Gunakan fungsi <code>count()</code> untuk menghitung banyaknya rows Customer ID, atau juga bisa menggunakan <code>str.match()</code> & <code>regex</code> untuk mencocokan dengan kriteria diatas. Jangan lupa gunakan <code>astype()</code> untuk merubah tipe datanya yang semula numeric.

In [76]:
df_load['valid_id'] = df_load['customerID'].astype(str).str.match(r'(45\d{9,10})')
df_load = (df_load[df_load['valid_id'] == True]).drop('valid_id', axis = 1)
print('Hasil jumlah ID Customer yang terfilter adalah',df_load['customerID'].count())

Hasil jumlah ID Customer yang terfilter adalah 7006


<h4>Memfilter Duplikasi ID Number Pelanggan</h4>

Memastikan bahwa tidak ada Id Number pelanggan yang duplikat. Biasanya duplikasi ID number ini tipenya:

<ul>
    <li>Duplikasi dikarenakan inserting melebihi satu kali dengan nilai yang sama tiap kolomnya</li>
    <li>Duplikasi dikarenakan inserting beda periode pengambilan data</li>
</ul>

Gunakan hasil dari pengolahan di tahap sebelumnya df_load untuk di olah di tahap ini. Gunakan fungsi <code>drop_duplicates()</code> untuk menghapus duplikasi rows, dan gunakan <code>sort_valus()</code> untuk mengecek pengambilan data terakhir

In [77]:
# drop duplicate rows
df_load.drop_duplicates()

# drop duplicate sorted by 'UpdatedAt'
df_load = df_load.sort_values('UpdatedAt', ascending=False).drop_duplicates(['customerID'])
print('Hasil jumlah ID Customer yang sudah dihilangkan duplikasinya (distinct) adalah', df_load['customerID'].count())

Hasil jumlah ID Customer yang sudah dihilangkan duplikasinya (distinct) adalah 6993


<b>Kesimpulan:</b> Validitas dari ID Number pelanggan sangat diperlukan untuk memastikan bahwa data yang kita ambil sudah benar. Berdasarkan hasil tersbut, terdapat perbedaan jumlah nomor ID dari data pertama kali di load sampai dengan hasil akhir. Jumlah row data ketika pertama kali di load ada sebanyak <b>7113</b> rows dan 22 coloumns dengan 7017 jumlah ID yang Unique. Kemudian setelah di cek validitas dari ID pelanggan, maka tersisa <b>6993</b> rows data.

<h2><a name="mengatasi-missing-values"></a>Chapter 4: Mengatasi Missing Values</h2>

Selanjutnya kita akan menghapus Rows dari data-data yang tidak terdeteksi apakah dia churn atau tidak. Di asumsikan data modeller hanya mau menerima data yang benar ada flag churn nya atau tidak.

Gunakan <code>isnull()</code> digunakan untuk mendeteksi missing values dan <code>dropna()</code> untuk menghapus data yang missing values

In [78]:
print('Total missing values data dari kolom Churn', df_load['Churn'].isnull().sum())

# Dropping all Rows with spesific column (churn)
df_load.dropna(subset=['Churn'], inplace=True)
print('Total Rows dan kolom Data setelah dihapus data Missing Values adalah', df_load.shape)

Total missing values data dari kolom Churn 43
Total Rows dan kolom Data setelah dihapus data Missing Values adalah (6950, 22)


Selain dengan mengapus rows dari data, menangani missing values bisa menggunakan nilai tertentu. Diasumsikan data modeller meminta pengisian missing values dengan kriteria berikut:

<ul>
    <li>Tenure pihak data modeller meminta setiap rows yang memiliki missing values untuk Lama berlangganan di isi dengan 11</li>
    <li>Variable yang bersifat numeric selain Tenure di isi dengan median dari masing-masing variable tersebut</li>
</ul>

Tentukan :

<ul>
    <li>Apakah masih ada data yang missing values</li>
    <li>Jumlah Missing Values dari masing-masing variable</li>
    <li>Tangani Missing Valuesnya</li>
</ul>

In [80]:
print('Status Missing Values:', df_load.isnull().values.any())
print('\nJumlah Missing Values masing-masing kolom, adalah:')
print(df_load.isnull().sum().sort_values(ascending=False))

Status Missing Values: True

Jumlah Missing Values masing-masing kolom, adalah:
tenure              99
MonthlyCharges      26
TotalCharges        15
UpdatedAt            0
DeviceProtection     0
PaymentMethod        0
PaperlessBilling     0
Contract             0
StreamingMovies      0
StreamingTV          0
TechSupport          0
OnlineBackup         0
customerID           0
OnlineSecurity       0
InternetService      0
MultipleLines        0
PhoneService         0
Dependents           0
Partner              0
SeniorCitizen        0
gender               0
Churn                0
dtype: int64


In [81]:
#handling missing values Tenure fill with 11
df_load['tenure'].fillna(11, inplace=True)

#Handling missing values num vars (except Tenure)
cols = [cname for cname in df_load.columns if df_load[cname].dtype == 'float64']
for col_name in cols[1:]:
    df_load[col_name].fillna(df_load[col_name].median(), inplace=True)

print('Jumlah Missing Values setelah di imputer datanya, adalah:')
print(df_load.isnull().sum().sort_values(ascending=False))

Jumlah Missing Values setelah di imputer datanya, adalah:
UpdatedAt           0
customerID          0
TotalCharges        0
MonthlyCharges      0
PaymentMethod       0
PaperlessBilling    0
Contract            0
StreamingMovies     0
StreamingTV         0
TechSupport         0
DeviceProtection    0
OnlineBackup        0
OnlineSecurity      0
InternetService     0
MultipleLines       0
PhoneService        0
tenure              0
Dependents          0
Partner             0
SeniorCitizen       0
gender              0
Churn               0
dtype: int64


<b>Kesimpulan:</b> Setelah kita analisis lebih lanjut, ternyata masih ada Missing Values dari data yang kita sudah validkan Id Number pelanggannya. Missing values terdapat pada kolom <code>Churn</code>, <code>tenure</code>, <code>MonthlyCharges</code> & <code>TotalCharges</code>. Setelah kita tangani dengan cara penghapusan rows dan pengisian rows dengan nilai tertentu, terbukti sudah tidak ada missing values lagi pada data, terbukti dari jumlah missing values masing-masing variable yang bernilai 0. Selanjutnya kita akan melakukan penanganan pencilan (Outlier)

<h2><a name="mengatasi-outlier"></a>Chapter 5: Mengatasi Outlier</h2>

<h2><a name="menstandarisasi-nilai"></a>Chapter 6: Menstandarisasi Nilai</h2>

<h3><a name="modeling-dengan-feature-engineering"></a>Modeling dengan Feature Engineering</h3>

Sebelum mulai membuat model, kita bagi kembali dataset kita menjadi train dan test.

In [48]:
df_train = df_all.loc[:890]
df_test = df_all.loc[891:]
dfs = [df_train, df_test]

Selanjutnya adalah transformasi data dengan <code>LabelEncoder</code> untuk data” yang bersifat <b>non-numeric</b>, tujuannya adalah melakukan encoding [0-n] untuk data kategorikal. Contohnya Sex, akan diubah menjadi 0 dan 1, laki-laki dan perempuan.

In [49]:
non_numeric_features = ['Embarked', 'Sex', 'Title', 'Family_Size_Grouped', 'Age', 'Fare']

for df in dfs:
    for feature in non_numeric_features:        
        df[feature] = LabelEncoder().fit_transform(df[feature])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[feature] = LabelEncoder().fit_transform(df[feature])


Transformasi berikutnya adalah ubah feature <b>kategori</b> menjadi one hot, dengan <code>OneHotEncoder</code>. Akan menghasilkan beberapa kolom tergantung banyaknya kategori.

Contohnya Pclass akan menjadi 3 kolom Pclass_1, Pclass_2, dan Pclass_3. Isinya adalah 0 dan 1 tergantung kategori orang tersebut

In [50]:
cat_features = ['Pclass', 'Sex', 'Embarked', 'Title', 'Family_Size_Grouped']
encoded_features = []

for df in dfs:
    for feature in cat_features:
        encoded_feat = OneHotEncoder().fit_transform(df[feature].values.reshape(-1, 1)).toarray()
        n = df[feature].nunique()
        cols = ['{}_{}'.format(feature, n) for n in range(1, n + 1)]
        encoded_df = pd.DataFrame(encoded_feat, columns=cols)
        encoded_df.index = df.index
        encoded_features.append(encoded_df)

df_train = pd.concat([df_train, *encoded_features[:5]], axis=1)
df_test = pd.concat([df_test, *encoded_features[5:]], axis=1)

Drop kolom-kolom yang tidak kita perlukan, atau yang sudah kita encode sebelumnya

In [51]:
df_all = concat_df(df_train, df_test)
drop_cols = ['Cabin', 'Embarked', 'Family_Size', 'Family_Size_Grouped', 'Survived', 
             'Name', 'PassengerId', 'Pclass', 'Sex', 'Ticket', 'Title']

df_all.drop(columns=drop_cols, inplace=True)
df_all.head()

Unnamed: 0,Age,Embarked_1,Embarked_2,Embarked_3,Family_Size_Grouped_1,Family_Size_Grouped_2,Family_Size_Grouped_3,Family_Size_Grouped_4,Fare,Is_Married,...,Pclass_2,Pclass_3,Sex_1,Sex_2,SibSp,Ticket_Frequency,Title_1,Title_2,Title_3,Title_4
0,2,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0,0,...,0.0,1.0,0.0,1.0,1,1,0.0,0.0,0.0,1.0
1,7,1.0,0.0,0.0,0.0,0.0,0.0,1.0,11,1,...,0.0,0.0,1.0,0.0,1,2,0.0,0.0,1.0,0.0
2,4,0.0,0.0,1.0,1.0,0.0,0.0,0.0,3,0,...,0.0,1.0,1.0,0.0,0,1,0.0,0.0,1.0,0.0
3,7,0.0,0.0,1.0,0.0,0.0,0.0,1.0,10,1,...,0.0,0.0,1.0,0.0,1,2,0.0,0.0,1.0,0.0
4,7,0.0,0.0,1.0,1.0,0.0,0.0,0.0,3,0,...,0.0,1.0,0.0,1.0,0,1,0.0,0.0,0.0,1.0


In [55]:
df_all.columns

Index(['Age', 'Embarked_1', 'Embarked_2', 'Embarked_3',
       'Family_Size_Grouped_1', 'Family_Size_Grouped_2',
       'Family_Size_Grouped_3', 'Family_Size_Grouped_4', 'Fare', 'Is_Married',
       'Parch', 'Pclass_1', 'Pclass_2', 'Pclass_3', 'Sex_1', 'Sex_2', 'SibSp',
       'Ticket_Frequency', 'Title_1', 'Title_2', 'Title_3', 'Title_4'],
      dtype='object')

Bagi kembali data menjadi train dan test, juga tentukan nilai X dan y untuk digunakan pada proses modeling.

In [56]:
X_train = StandardScaler().fit_transform(df_train.drop(columns=drop_cols))
y_train = df_train['Survived'].values
X_test = StandardScaler().fit_transform(df_test.drop(columns=drop_cols))

print('X_train shape: {}'.format(X_train.shape))
print('y_train shape: {}'.format(y_train.shape))
print('X_test shape: {}'.format(X_test.shape))

X_train shape: (891, 22)
y_train shape: (891,)
X_test shape: (418, 22)


Selanjutnya proses modeling, kita akan menggunakan <code>RandomForestClassifier</code> dari SkLearn dan menghitung akurasi menggunakan <code>cross_val_score</code>.

In [59]:
random_forest = RandomForestClassifier(criterion='gini', 
                                       n_estimators=1100,
                                       max_depth=5,
                                       min_samples_split=4,
                                       min_samples_leaf=5,
                                       max_features='auto',
                                       oob_score=True,
                                       random_state=50)
random_forest.fit(X_train, y_train)

scores = cross_val_score(random_forest, X_train, y_train, cv=10, scoring = "accuracy")
print("Scores:", scores)
print("Mean:", scores.mean())
print("Standard Deviation:", scores.std())

Scores: [0.83333333 0.87640449 0.76404494 0.87640449 0.84269663 0.80898876
 0.82022472 0.78651685 0.87640449 0.85393258]
Mean: 0.8338951310861423
Standard Deviation: 0.03719055862675359


Hasil <b>akurasi</b> dengan menggunakan feature dari <b>feature engineering</b> adalah sekitar <b>0.833</b>.

<h3><a name="modeling-tanpa-feature-engineering"></a>Modeling Tanpa Feature Engineering</h3>

In [60]:
df_all = concat_df(df_train, df_test)
drop_cols = ['Cabin', 'Embarked', 'Family_Size', 'Family_Size_Grouped', 'Survived',
             'Name', 'PassengerId', 'Pclass', 'Sex', 'Ticket', 'Title',
             'Family_Size_Grouped_1', 'Family_Size_Grouped_2', 'Family_Size_Grouped_3', 'Family_Size_Grouped_4',
             'Ticket_Frequency', 'Title_1', 'Title_2', 'Title_3', 'Title_4', 'Is_Married']

df_all.drop(columns=drop_cols, inplace=True)

df_all.head()

Unnamed: 0,Age,Embarked_1,Embarked_2,Embarked_3,Fare,Parch,Pclass_1,Pclass_2,Pclass_3,Sex_1,Sex_2,SibSp
0,2,0.0,0.0,1.0,0,0,0.0,0.0,1.0,0.0,1.0,1
1,7,1.0,0.0,0.0,11,0,1.0,0.0,0.0,1.0,0.0,1
2,4,0.0,0.0,1.0,3,0,0.0,0.0,1.0,1.0,0.0,0
3,7,0.0,0.0,1.0,10,0,1.0,0.0,0.0,1.0,0.0,1
4,7,0.0,0.0,1.0,3,0,0.0,0.0,1.0,0.0,1.0,0


In [61]:
X_train = StandardScaler().fit_transform(df_train.drop(columns=drop_cols))
y_train = df_train['Survived'].values
X_test = StandardScaler().fit_transform(df_test.drop(columns=drop_cols))

print('X_train shape: {}'.format(X_train.shape))
print('y_train shape: {}'.format(y_train.shape))
print('X_test shape: {}'.format(X_test.shape))

X_train shape: (891, 12)
y_train shape: (891,)
X_test shape: (418, 12)


In [62]:
random_forest = RandomForestClassifier(criterion='gini', 
                                       n_estimators=1100,
                                       max_depth=5,
                                       min_samples_split=4,
                                       min_samples_leaf=5,
                                       max_features='auto',
                                       oob_score=True,
                                       random_state=50)
random_forest.fit(X_train, y_train)

scores = cross_val_score(random_forest, X_train, y_train, cv=10, scoring = "accuracy")
print("Scores:", scores)
print("Mean:", scores.mean())
print("Standard Deviation:", scores.std())

Scores: [0.8        0.79775281 0.75280899 0.86516854 0.85393258 0.79775281
 0.79775281 0.76404494 0.86516854 0.79775281]
Mean: 0.8092134831460674
Standard Deviation: 0.037541543709642765


Akurasi yang dihasilkan dengan feature engineering lebih tinggi sekitar 0.2 , artinya fitur yang kita buat dapat menaikkan 2% akurasi model. Ini adalah salah satu kegunaan dari Feature Engineering.

<b style="color:red">Note:</b> Akurasi ini tidak absolut dan dapat berubah, tergantung dari banyak factor, termasuk dari parameter yang dimasukkan. Fitur yang kita buat pun dapat menjadi buruk juga tergantung tipe model yang digunakan.

<h3><a name="kesimpulan"></a>Kesimpulan</h3>

Hasil perbandingan dari 2 model tersebut seperti di bawah ini:

<img src="Resources/perbandingan_model.png" width=70%>

<b>Konklusi:</b>
<ul>
    <li>Feature Engineering mengharuskan kita membuat banyak ide fitur dari data yang sudah ada.</li>
    <li>Biasanya yang dapat kita lakukan adalah, penggabungan (grouping), ekstraksi fitur (seperti Title yang didapat dari nama orang), dan masih banyak lagi.</li>
    <li>Jangan malas untuk melakukan feature engineering dan mencoba segala sesuatu yang ada di pikiran kita. Barangkali ini dapat meningkatkan akurasi model kita.</li>
</ul>