# Prediksi Loyalitas Pelanggan
- Dataset yang akan kita gunakan adalah:
- Telco Customer Churn dari Kaggle: https://www.kaggle.com/blastchar/telco-customer-churn
- Loyalitas pelanggan adalah salah satu masalah terbesar dalam industri telekomunikasi.

## Dataset Telecom
- Adalah kumpulan data pelanggan yang menunjukkan apakah pelanggan tersebut memutuskan hubungan dengan operator seluler tertentu atau tidak.
- Dataset ini digunakan untuk mengembangkan model prediksi Loyalitas/churn (berhenti berlangganan) yang dapat membantu operator seluler dalam memprediksi pelanggan yang mungkin akan berhenti berlangganan.

# IMPORT MODUL

In [1]:
# mengimport paket/modul yang dibutuhkan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
import seaborn as sns

sns.set(style = 'white')

- pandas: digunakan untuk memanipulasi dan menganalisis data, terutama untuk membaca, menulis, dan mengubah format data.
- numpy: digunakan untuk melakukan operasi numerik pada data, terutama array dan matriks.
- matplotlib.pyplot: digunakan untuk membuat visualisasi grafik dan plot dari data, seperti scatter plot, line plot, dan histogram.
- matplotlib.ticker: digunakan untuk memformat dan menentukan tampilan sumbu pada plot.
- seaborn: digunakan untuk membuat visualisasi grafik yang lebih kompleks dan informatif, terutama untuk eksplorasi data dan analisis statistik.

- sns.set(style = 'white'). Pengaturan ini digunakan untuk mengatur tampilan visualisasi agar lebih menarik dan mudah dibaca. Pada kode tersebut, tampilan visualisasi akan menggunakan warna latar putih (white) sebagai dasar

# IMPORT DATASET
- gunakan dataset (customer_churn.csv) yang akan di analisa dan visualisasikan

# Analisa Data
- lakukan analisa untuk mendapatkan informasi terkait dengan dimensi dataset, feature dan tipe data didalam dataset

# Melihat Statistik Data
1. lakukan secara menyeluruh pada sebuah dataframe untuk mendapatkan informasi summary/ringkasan statistik dari dataframe
2. lakukan pada setiap kolom untuk mendapatkan informasi secara detail untuk setiap kolom/feature

# Menampilkan Data Unique
- dilakukan untuk melihat/menampilkan kategori data yang terdapat pada sebuah kolom/feature yang berifat kategorikal/ordinal

# Uraikan secara detail terkait dengan informasi didalam Dataset
- Dataset ini terdiri dari 7043 baris dan 21 kolom yang berisi informasi pelanggan, termasuk kolom target "Churn" yang menunjukkan apakah pelanggan tersebut berhenti berlangganan atau tidak.
1. customerID : ID unik untuk setiap pelanggan
2. gender : Jenis kelamin pelanggan (Male/Female)
3. SeniorCitizen : Menunjukkan apakah pelanggan adalah warga lanjut usia atau tidak (1, 0)
4. Partner : Menunjukkan apakah pelanggan memiliki pasangan atau tidak (Yes, No)
5. Dependents : Menunjukkan apakah pelanggan memiliki tanggungan atau tidak (Yes, No)
6. tenure : Menunjukkan berapa lama pelanggan telah menjadi pelanggan operator seluler (dalam bulan)
7. PhoneService : Menunjukkan apakah pelanggan menggunakan layanan telepon atau tidak (Yes, No)
8. MultipleLines : Menunjukkan apakah pelanggan memiliki beberapa garis atau tidak (Yes, No, No phone service)
9. InternetService : Menunjukkan jenis layanan internet yang digunakan pelanggan (DSL, Fiber optic, No)
10. OnlineSecurity : Menunjukkan apakah pelanggan memiliki keamanan online atau tidak (Yes, No, No internet service)
11. OnlineBackup : Menunjukkan apakah pelanggan memiliki cadangan online atau tidak (Yes, No, No internet service)
12. DeviceProtection : Menunjukkan apakah pelanggan memiliki perlindungan perangkat atau tidak (Yes, No, No internet service)
13. TechSupport : Menunjukkan apakah pelanggan memiliki dukungan teknis atau tidak (Yes, No, No internet service)
14. StreamingTV : Menunjukkan apakah pelanggan memiliki layanan TV streaming atau tidak (Yes, No, No internet service)
15. StreamingMovies : Menunjukkan apakah pelanggan memiliki layanan streaming film atau tidak (Yes, No, No internet service)
16. Contract : Menunjukkan jenis kontrak pelanggan (Month-to-month, One year, Two year)
17. PaperlessBilling : Menunjukkan apakah pelanggan menggunakan pembayaran tanpa kertas atau tidak (Yes, No)
18. PaymentMethod : Menunjukkan metode pembayaran yang digunakan pelanggan (Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic))
19. MonthlyCharges : Menunjukkan biaya bulanan yang dikenakan pada pelanggan
20. TotalCharges : Menunjukkan total biaya yang dikenakan pada pelanggan
21. Churn : Menunjukkan apakah pelanggan berhenti berlangganan atau tidak (Yes, No)

# Cek Missing Value, Outlier & Duplikat Data

### Berikan uraikan jelas terkait dengan data yang Missing Value, Outlier & Duplikat

# Korelasi Antar Setiap Feature Atau Kolom
- Digunakan untuk melihat hubungan atau kolerasi sebuah feature/atribut/kolom terhadapat label/class/target output yang diharapkan

In [None]:
#jika dibutuhkan untuk konversi tipe data
# konversi kolom "TotalCharges" dalam dataframe df menjadi tipe data numerik. 
# Penggunaan errors='coerce' berfungsi untuk mengonversi nilai yang tidak dapat diubah menjadi NaN (Not a Number)
# kemudian diisi dengan nilai kosong. Dalam hal ini, jika nilai dalam kolom "TotalCharges" tidak dapat dikonversi menjadi numerik
# maka nilainya akan diganti menjadi NaN.
df.TotalCharges = pd.to_numeric(df.TotalCharges, errors='coerce')
# menghitung jumlah nilai kosong (missing values) dalam setiap kolom dari dataframe df.
# Fungsi isnull() akan menghasilkan dataframe yang memiliki nilai True pada setiap sel yang kosong dan False pada setiap sel yang berisi nilai.
# Kemudian, dengan menggunakan fungsi sum() pada dataframe tersebut, akan dihitung jumlah nilai True dalam setiap kolom, 
# sehingga dapat diketahui jumlah nilai kosong dalam setiap kolom dari dataframe df.
df.isnull().sum()

### Ubah bentuk data pada Class/Label Churn

# Visualisasi Data
- Visualisasi data adalah proses menggunakan elemen visual seperti diagram, grafik, atau peta untuk merepresentasikan data , Dengan kata lain, ini adalah proses mengubah data hasil analisis menjadi gambaran visual berupa bagan, peta, grafik, dan banyak lainnya.
- modul/library yang populer digunakan untuk visualisasi data dalam python adalah Matplotlib dan seaborn

# Visualisasikan Korelasi antar Feature Dengan grafik batang dan Heatmap

### Berikan Penjelasan terkait dengan Visualisasi dari Korelasi antar feature

# Eksplorasi Data
- Untuk lebih memahami pola dalam data dan berpotensi membentuk beberapa hipotesis.

# Distribusi Data Class/Label Pelanggan Churn pada dataset

- Berikan penjelasan terkait dengan visualisasi data tersebut

A.) Korelasi Positif
- 1. lakukan visualisasi untuk memahami distribusi feature/kolom/variabel korelasi Positif terhadap class/label, dengan visualisasi Univariate (1 peubah)
- 2. lakukan Visualisasi Bivariate atau Multivariate (pilih salah satunya), untuyk memahami distribusi data yang memiliki korelasi fositif dengan yang memiliki korelasi negatif

- Berikan penjelasan terkait dengan visualisasi data tersebut

- Berikan penjelasan terkait dengan visualisasi data tersebut

C.) Distribusi feature/kolom terhadap class/label (churn)  
- 1. dilakukan untuk memahami Distribusi feature/kolom yang memiliki korelasi positif terhadap class/label (churn)
- 2. dilakukan untuk memahami Distribusi feature yang memiliki korelasi negatif terhadap class/label (churn)

### Distribusi feature/kolom yang memiliki korelasi positif terhadap class/label (churn)

- Berikan Penjelasan Terkait dengan visualisasi dari distribusi Data tersebut

### Distribusi feature/kolom yang memiliki korelasi negatif terhadap class/label (churn)

- Berikan Penjelasan Terkait dengan visualisasi dari distribusi Data tersebut

## Berikan Kesimpulan Dari Analisa dan Visualisasi Data yang telah dilakukan
