# **Data Science in Telco: Data Cleansing** 

## Tugas dan Langkah

Sebagai seorang data scientist, kamu diminta untuk menyiapkan data sebelum di lakukan permodelan.

Pada tugas kali ini, kamu akan melakukan Data Prepocessing (Data Cleansing) bulan lalu, yakni Juni 2020.

*Langkah yang akan dilakukan adalah,*

*   Mencari ID pelanggan (Nomor telphone) yang valid

*   Mengatasi data-data yang masih kosong (Missing Values)

*   Mengatasi Nilai-Nilai Pencilan (Outlier) dari setiap Variable

*   Menstandarisasi Nilai dari Variable


## **Library yang Digunakan**

Pada analisis kali ini, akan digunakan beberapa package yang membantu kita dalam melakukan analisis data,


### **Pandas**
Pandas (Python for Data Analysis) adalah library Python yang fokus untuk proses analisis data seperti manipulasi data, persiapan data, dan pembersihan data.

*  read_csv() digunakan untuk membaca file csv
*  str.match() digunakan untuk mencocokan dengan karakter tertentu
*  drop() digunakan untuk menghapus
*  count() digunakan untuk mengitung masing-masing variable
*  drop_duplicates() digunakan untuk menghapus data duplicate rows
*  fillna() digunakan untuk mengisi dengan nilai tertentu
*  quantile() digunakan untuk melihat quantile ke tertentu
*  mask() menganti nilai tertentu jika kondisi memenuhi
*  astype() merunubah tipe data
*  value_counts() digunakan untuk mengitung unik dari kolom
*  sort_values() digunakan untuk sort values
*  isnull() digunakan untuk mendeteksi missing values
*  dropna() digunakan untuk menghapus missing values
*  replace() digunakan untuk mengganti nilai
### **Matplotlib**
Matplotlib adalah library Python yang fokus pada visualisasi data seperti membuat plot grafik. Matplotlib dapat digunakan dalam skrip Python, Python dan IPython shell, server aplikasi web, dan beberapa toolkit graphical user interface (GUI) lainnya.

* figure() digunakan untuk membuat figure gambar baru
### **Seaborn**
Seaborn membangun di atas Matplotlib dan memperkenalkan tipe plot tambahan. Ini juga membuat plot Matplotlib tradisional Anda terlihat sedikit lebih cantik

* box_plot() digunakan untuk membuat box plot

### **Data yang DIgunakan**

Untuk Dataset yang digunakan sudah disediakan dalam format csv, silahkan baca melalui fungsi pandas di python df_load = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/dqlab_telco.csv')

 
*Untuk detil datanya adalah sebagai berikut:*


*   UpdatedAt Periode of Data taken
*   customerID Customer ID
*  gender Whether the customer is a male or a female (Male, Female)
*  SeniorCitizen Whether the customer is a senior citizen or not (1, 0)
*  Partner Whether the customer has a partner or not (Yes, No)
*  Dependents Whether the customer has dependents or not (Yes, No)
*  tenure Number of months the customer has stayed with the company
*  PhoneService Whether the customer has a phone service or not (Yes, No)
*  MultipleLines Whether the customer has multiple lines or not (Yes, No, No * phone service)
*  InternetService Customer’s internet service provider (DSL, Fiber optic, No)
*  OnlineSecurity Whether the customer has online security or not (Yes, No, No internet service)
*  OnlineBackup Whether the customer has online backup or not (Yes, No, No internet service)
*  DeviceProtection Whether the customer has device protection or not (Yes, No, No internet service)
*  TechSupport Whether the customer has tech support or not (Yes, No, No internet service)
*  StreamingTV Whether the customer has streaming TV or not (Yes, No, No internet service)
*  StreamingMovies Whether the customer has streaming movies or not (Yes, No, No internet service)
*  Contract The contract term of the customer (Month-to-month, One year, Two year)
*  PaperlessBilling Whether the customer has paperless billing or not (Yes, No)
*  PaymentMethod The customer’s payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic))
*  MonthlyCharges The amount charged to the customer monthly
*  TotalCharges The total amount charged to the customer
*  Churn Whether the customer churned or not (Yes or No)

### **Import Library dan Dataset**
Berdasarkan penjelasan mengenai library dan dataset yang akan digunakan, sekarang hal pertama yang akan kita lakukan adalah melakukan import library dan dataset ke dalam workspace kita.

Setelah dataset di-import ke dalam workspace, tampilkan jumlah kolom dan baris dari data set dengan menggunakan .shape dan print 5 baris teratas dengan menggunakan head() dan carilah ada berapa nilai customerID yang bersifat unique dengan menggunakan .unique



```
import pandas as pd
pd.options.display.max_columns = 50

df_load = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/dqlab_telco.csv')
```

Notes :

1. pd.options.display.max_columns = 50 digunakan untuk mempermudah penampilan row data

2. Simpan dataset ke dalam variabel df_load

In [2]:
import pandas as pd 
pd.options.display.max_columns = 50
# importing data service 
df_load = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/dqlab_telco.csv')
print(df_load.shape)
print(df_load.head())
print(df_load['customerID'].nunique())

(7113, 22)
   UpdatedAt   customerID  gender  SeniorCitizen Partner Dependents  tenure  \
0     202006  45759018157  Female              0     Yes         No     1.0   
1     202006  45557574145    Male              0      No         No    34.0   
2     202006  45366876421    Male              0      No         No     2.0   
3     202006  45779536532    Male              0      No         No    45.0   
4     202006  45923787906  Female              0      No         No     2.0   

  PhoneService     MultipleLines InternetService OnlineSecurity OnlineBackup  \
0           No  No phone service             DSL             No          Yes   
1          Yes                No             DSL            Yes           No   
2          Yes                No             DSL            Yes          Yes   
3           No  No phone service             DSL            Yes           No   
4          Yes                No     Fiber optic             No           No   

  DeviceProtection TechSupport St

### **Memfilter ID Number Pelanggan Format Tertentu**
Mencari format ID Number (Phone Number) Pelanggan customerID yang benar, dengan kriteria:

* Panjang karakter adalah 11-12.
* Terdiri dari Angka Saja, tidak diperbolehkan ada karakter selain angka
* Diawali dengan angka 45 2 digit pertama.
 
Gunakan fungsi count() untuk menghitung banyaknya rows Customer ID, anda juga bisa menggunakan str.match() & regex untuk mencocokan dengan kriteria diatas. Jangan lupa gunakan astype() untuk merubah tipe datanya yang semula numeric

**Notes : Buat kolom bantuan baru dengan nama valid_id**

Hasil yang diharapkan adalah sebagai berikut.

`Hasil jumlah ID Customer yang terfilter adalah 7006`

In [3]:
df_load['valid_id'] = df_load['customerID'].astype(str).str.match(r'(45\d{9,10})')

print(df_load)
df_load = df_load[df_load['valid_id']==True].drop('valid_id',axis =1 )
print('Hasil jumlah ID Customer yang terfilter adalah',df_load['customerID'].count())
print(df_load.columns)

      UpdatedAt   customerID  gender  SeniorCitizen Partner Dependents  \
0        202006  45759018157  Female              0     Yes         No   
1        202006  45557574145    Male              0      No         No   
2        202006  45366876421    Male              0      No         No   
3        202006  45779536532    Male              0      No         No   
4        202006  45923787906  Female              0      No         No   
...         ...          ...     ...            ...     ...        ...   
7108     202006  45117219093    Male              0     Yes        Yes   
7109     202006  45564915800  Female              0      No         No   
7110     202006  45655964195    Male              0      No         No   
7111     202006  45899251814    Male              0      No         No   
7112     202006  45427332508  Female              0      No        Yes   

      tenure PhoneService     MultipleLines InternetService OnlineSecurity  \
0        1.0           No  No pho

### **Memfilter Duplikasi ID Number Pelanggan**
Memastikan bahwa tidak ada Id Number pelanggan yang duplikat. Biasanya duplikasi ID number ini tipenya:

* Duplikasi dikarenakan inserting melebihi satu kali dengan nilai yang sama tiap kolomnya
* Duplikasi dikarenakan inserting beda periode pengambilan data

Gunakan hasil dari pengolahan di tahap sebelumnya df_load untuk di olah di tahap ini. Gunakan fungsi `drop_duplicates()` untuk menghapus duplikasi rows, dan gunakan `sort_valus()` untuk mengecek pengambilan data terakhir
Berikut adalah hasil jumlah Customer ID :


```
Hasil jumlah ID Customer yang sudah dihilangkan duplikasinya (distinct) adalah 6993
```




In [4]:
df_load.drop_duplicates()
df_load = df_load.sort_values('UpdatedAt',ascending=False).drop_duplicates(['customerID'])

print('Hasil jumlah ID Customer yang sudah dihilangkan duplikasinya adalah',df_load['customerID'].count())

Hasil jumlah ID Customer yang sudah dihilangkan duplikasinya adalah 6993


### **Kesimpulan**

Validitas dari ID Number pelanggan sangat diperlukan untuk memastikan bahwa data yang kita ambil sudah benar. Berdasarkan hasil tersbut, terdapat perbedaan jumlah nomor ID dari data pertama kali di load sampai dengan hasil akhir. Jumlah row data ketika pertama kali di load ada sebanyak 7113 rows dan 22 coloumns dengan 7017 jumlah ID yang Unique. Kemudian setelah di cek validitas dari ID pelanggan, maka tersisa 6993 rows data

### **Mengatasi Missing Values dengan Penghapusan Rows**
Selanjutnya kita akan menghapus Rows dari data-data yang tidak terdeteksi apakah dia churn atau tidak. Di asumsikan data modeller hanya mau menerima data yang benar ada flag churn nya atau tidak.

Gunakan isnull() digunakan untuk mendeteksi missing values dan dropna() untuk menghapus data yang missing values

Berikut adalah hasil yang diharapkan :
* Total missing values data dari kolom Churn 43
* Total Rows dan kolom Data setelah dihapus data Missing Values adalah (6950, 22)


In [22]:
print("Total missing values data dari kolom Churn ",df_load['Churn'].isnull().sum())
df_load.dropna(subset = ['Churn'], inplace=True)
print("Total Rows dan kolom Data setelah dihapus data Missing Values adalah", df_load.shape)


Total missing values data dari kolom Churn  0
Total Rows dan kolom Data setelah dihapus data Missing Values adalah (6950, 22)
