# Analisis Paket Prabayar Telekomunikasi Megaline

Anda bekerja sebagai analis untuk operator telekomunikasi Megaline. Perusahaan tersebut menawarkan kliennya dua paket prabayar, Surf dan Ultimate. Departemen periklanan ingin mengetahui paket prabayar mana yang menghasilkan lebih banyak pendapatan untuk menyesuaikan anggaran iklan.

## Tujuan

Proyek ini berfokus pada analisis awal paket-paket prabayar berdasarkan sampel klien yang berukuran relatif kecil. Terdapat 500 data klien Megaline pada tahun 2018. Data dianalisis perilaku klien dan ditenentukan paket prabayar yang lebih banyak pendapatan.

### Deskripsi Paket Prabayar

Catatan: Megaline membulatkan detik ke menit, serta membulatkan megabita ke gigabita. Untuk panggilan, setiap panggilan individual dibulatkan ke atas: bahkan jika panggilan tersebut berlangsung hanya satu detik, ia akan dihitung sebagai satu menit. Untuk lalu lintas web, setiap sesi web tidak dibulatkan ke atas. Akan tetapi, total untuk sebulan dibulatkan ke atas. Jika seorang pengguna menghabiskan 1025 megabita bulan ini, maka ia akan dikenai biaya untuk 2 gigabita.

**Surf**
1. Biaya bulanan: $20
2. 500 menit durasi panggilan per bulan, 50 SMS, dan 15 GB data
3. Setelah melebihi batas paket, akan dikenakan:
   * 1 menit: 3 sen
   * 1 SMS: 3 sen
   * 1 GB data: $10

**Ultimate**
1. Biaya bulanan: $70
2. 3000 menit durasi panggilan per bulan, 1000 SMS, dan 30 GB data
3. Setelah melebihi batas paket, akan dikenakan:
   * 1 menit: 1 sen
   * 1 SMS: 1 sen
   * 1 GB data: $7


### Tahapan

Data tentang paket-paket prabayar Megaline disimpan dalam file:
* `/datasets/megaline_calls.csv`
* `/datasets/megaline_internet.csv`
* `/datasets/megaline_messages.csv`
* `/datasets/megaline_plans.csv`
* `/datasets/megaline_users.csv`.

Tidak ada informasi terkait kualitas data tersebut, sehingga perlu dilakukan pemeriksaan terlebih dahulu sebelum menguji hipotesis.

Proyek ini terdiri dari 3 tahap:

1. Pra-pemrosesan Data
2. Analisis Data Exploratif (EDA)
3. Analisis Data Statistik


## 1. Pra-pemrosesan Data

**Import *library* yang dibutuhkan:**

In [2]:
# Import library
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

### 1.1. Memuat Data

In [3]:
# Try and except datasets
try:
    data_calls = pd.read_csv('megaline_calls.csv')
    data_internet = pd.read_csv('megaline_internet.csv')
    data_messages = pd.read_csv('megaline_messages.csv')
    data_plans = pd.read_csv('megaline_plans.csv')
    data_users = pd.read_csv('megaline_users.csv')
except:
    data_calls = pd.read_csv('/datasets/megaline_calls.csv')
    data_internet = pd.read_csv('/datasets/megaline_internet.csv')
    data_messages = pd.read_csv('/datasets/megaline_messages.csv')
    data_plans = pd.read_csv('/datasets/megaline_plans.csv')
    data_users = pd.read_csv('/datasets/megaline_users.csv')

### 1.2. Mengeksplorasi Data Awal

#### **Data Users** (data pengguna)

In [4]:
data_users

Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date
0,1000,Anamaria,Bauer,45,"Atlanta-Sandy Springs-Roswell, GA MSA",2018-12-24,ultimate,
1,1001,Mickey,Wilkerson,28,"Seattle-Tacoma-Bellevue, WA MSA",2018-08-13,surf,
2,1002,Carlee,Hoffman,36,"Las Vegas-Henderson-Paradise, NV MSA",2018-10-21,surf,
3,1003,Reynaldo,Jenkins,52,"Tulsa, OK MSA",2018-01-28,surf,
4,1004,Leonila,Thompson,40,"Seattle-Tacoma-Bellevue, WA MSA",2018-05-23,surf,
...,...,...,...,...,...,...,...,...
495,1495,Fidel,Sharpe,67,"New York-Newark-Jersey City, NY-NJ-PA MSA",2018-09-04,surf,
496,1496,Ariel,Shepherd,49,"New Orleans-Metairie, LA MSA",2018-02-20,surf,
497,1497,Donte,Barrera,49,"Los Angeles-Long Beach-Anaheim, CA MSA",2018-12-10,ultimate,
498,1498,Scot,Williamson,51,"New York-Newark-Jersey City, NY-NJ-PA MSA",2018-02-04,surf,


**Deskripsi data_users**: 


- `user_id` — ID pengguna
- `first_name` — nama depan pengguna
- `last_name` — nama belakang pengguna
- `age`  — usia pengguna (tahun)
- `city` — kota tempat tinggal pengguna
- `reg_date` — tanggal mulai berlangganan (dd, mm, yy)
- `plan` — nama paket telepon
- `churn_date` — tanggal pengguna berhenti menggunakan layanan (jika nilainya hilang atau tidak ada, berarti paket layanan sedang digunakan saat data ini dibuat)

In [5]:
# Check data info
data_users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    int64 
 1   first_name  500 non-null    object
 2   last_name   500 non-null    object
 3   age         500 non-null    int64 
 4   city        500 non-null    object
 5   reg_date    500 non-null    object
 6   plan        500 non-null    object
 7   churn_date  34 non-null     object
dtypes: int64(2), object(6)
memory usage: 31.4+ KB


In [6]:
# Check unique data from 'churn_date'
print(data_users['churn_date'].unique())

[nan '2018-12-18' '2018-11-16' '2018-09-07' '2018-12-30' '2018-10-07'
 '2018-12-31' '2018-11-24' '2018-11-11' '2018-12-12' '2018-11-14'
 '2018-12-27' '2018-11-29' '2018-12-22' '2018-11-30' '2018-10-13'
 '2018-07-31' '2018-12-15' '2018-12-19' '2018-10-03' '2018-10-22'
 '2018-08-16' '2018-12-26' '2018-09-01' '2018-11-21' '2018-08-19'
 '2018-12-10' '2018-09-17' '2018-11-18' '2018-09-18']


In [7]:
# Check duplicated data
data_users.duplicated().sum()

0

**Kesimpulan sementara:**

* kolom `churn_date` memiliki nilai yang hilang. Nilai yang hilang tersebut dikarenakan pengguna masih berlangganan.
* `data_users` tidak memiliki duplikat.

#### **Data Calls** (data panggilan)

In [8]:
data_calls

Unnamed: 0,id,user_id,call_date,duration
0,1000_93,1000,2018-12-27,8.52
1,1000_145,1000,2018-12-27,13.66
2,1000_247,1000,2018-12-27,14.48
3,1000_309,1000,2018-12-28,5.76
4,1000_380,1000,2018-12-30,4.22
...,...,...,...,...
137730,1499_199,1499,2018-11-21,8.72
137731,1499_200,1499,2018-10-20,10.89
137732,1499_201,1499,2018-09-21,8.12
137733,1499_202,1499,2018-10-10,0.37


**Deskripsi data_calls**: 

- `id` — ID sesi web unik
- `user_id`  — ID pengguna yang melakukan panggilan
- `call_date` — tanggal panggilan
- `duration` — durasi panggilan (dalam menit)

In [9]:
# Check data info
data_calls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137735 entries, 0 to 137734
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id         137735 non-null  object 
 1   user_id    137735 non-null  int64  
 2   call_date  137735 non-null  object 
 3   duration   137735 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 4.2+ MB


In [10]:
# Check duplicated data
data_calls.duplicated().sum()

0

**Kesimpulan sementara:**

* dataset `data_calls` sudah bersih, tanpa nilai hilang dan tanpa duplikat.

#### **Data Messages** (data SMS):


In [11]:
data_messages

Unnamed: 0,id,user_id,message_date
0,1000_125,1000,2018-12-27
1,1000_160,1000,2018-12-31
2,1000_223,1000,2018-12-31
3,1000_251,1000,2018-12-27
4,1000_255,1000,2018-12-26
...,...,...,...
76046,1497_526,1497,2018-12-24
76047,1497_536,1497,2018-12-24
76048,1497_547,1497,2018-12-31
76049,1497_558,1497,2018-12-24


**Deskripsi data_messages**: 

- `id` — ID SMS unik
- `user_id` — ID pengguna yang mengirim SMS
- `message_date` — tanggal SMS dikirim

In [12]:
# Check data info
data_messages.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76051 entries, 0 to 76050
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            76051 non-null  object
 1   user_id       76051 non-null  int64 
 2   message_date  76051 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.7+ MB


In [13]:
# Check duplicated data
data_users.duplicated().sum()

0

**Kesimpulan sementara:**

* dataset `data_messages` sudah bersih, tanpa nilai hilang dan tanpa duplikat.

#### **Data Internet** (data sesi web)

In [14]:
data_internet

Unnamed: 0,id,user_id,session_date,mb_used
0,1000_13,1000,2018-12-29,89.86
1,1000_204,1000,2018-12-31,0.00
2,1000_379,1000,2018-12-28,660.40
3,1000_413,1000,2018-12-26,270.99
4,1000_442,1000,2018-12-27,880.22
...,...,...,...,...
104820,1499_215,1499,2018-10-20,218.06
104821,1499_216,1499,2018-12-30,304.72
104822,1499_217,1499,2018-09-22,292.75
104823,1499_218,1499,2018-12-07,0.00


**Deskripsi data_internet**: 

- `id` — ID sesi web unik
- `user_id`  — ID pengguna
- `session_date ` — tanggal sesi web
- `mb_used ` — volume data yang dihabiskan selama sesi (dalam megabita)

In [15]:
# Check data info
data_internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104825 entries, 0 to 104824
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   id            104825 non-null  object 
 1   user_id       104825 non-null  int64  
 2   session_date  104825 non-null  object 
 3   mb_used       104825 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 3.2+ MB


In [16]:
# Check duplicated data
data_calls.duplicated().sum()

0

**Kesimpulan sementara:**

* dataset `data_internet` sudah bersih, tanpa nilai hilang dan tanpa duplikat.

#### **Data Plans** (data paket telepon)

In [17]:
data_plans

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name
0,50,15360,500,20,10,0.03,0.03,surf
1,1000,30720,3000,70,7,0.01,0.01,ultimate


**Deskripsi data_plans**: 

- `messages_included`  — alokasi SMS bulanan
- `mb_per_month_included` — alokasi volume data bulanan (dalam megabita)
- `minutes_included` — alokasi menit panggilan bulanan
- `usd_monthly_fee` — biaya bulanan dalam dolar AS
- `usd_per_gb` — harga per ekstra gigabita data jika telah melebihi batas alokasi paket (1 GB = 1024 megabita)
- `usd_per_message` — harga per SMS jika telah melebihi batas alokasi paket
- `usd_per_minute` — harga per menit jika telah melebihi batas alokasi paket (misalnya, jika paket memiliki alokasi 100 menit, maka penggunaan mulai dari menit ke-101 akan dikenakan biaya)
- `plan_name` — nama paket telepon

In [18]:
# Check data info
data_plans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   messages_included      2 non-null      int64  
 1   mb_per_month_included  2 non-null      int64  
 2   minutes_included       2 non-null      int64  
 3   usd_monthly_pay        2 non-null      int64  
 4   usd_per_gb             2 non-null      int64  
 5   usd_per_message        2 non-null      float64
 6   usd_per_minute         2 non-null      float64
 7   plan_name              2 non-null      object 
dtypes: float64(2), int64(5), object(1)
memory usage: 256.0+ bytes


In [19]:
# Check duplicated data
data_plans.duplicated().sum()

0

**Kesimpulan sementara:**

* dataset `data_plans` sudah bersih, tanpa nilai hilang dan tanpa duplikat.