# <b>Provider Segmentation</b>
STATEMENT: Here, our supply comes from service providers who decide to give their service booking on our platform. Unlike traditional service providers, these service are vary among each provider that are available to customers, therefore, service cannot be provide all year-round. Our service providers are people, with different earnings objectives and schedule constraints — leading to different <b>levels of availability</b> to service provider. <b>Understanding these differences is a key input into how we develop our products, campaigns, and operations.</b>

In [None]:
#!/usr/bin/env python3
# Christopher French
# 650510714
# availability
# 229496 Sec DS

## <b>Provider Dataset</b>

We'll use booking_raw.csv to simulate as a dataset for provider_segmentation first.

### <b>Importing Dataset</b>

In [1]:
import pandas as pd
import numpy as np
import datetime
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [2]:
# show all columns
pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

In [3]:
data = pd.read_csv('booking_raw.csv')
data

Unnamed: 0,booking_id,user_id,is_new_customer,user_place_id,place_size,service_name,sub_service_name,extra_service,province,district,booking_date,cleaning_date,is_sameday,work_hour,additional_hour,total_price,discount_cost,credit_discount_cost,promo_code,discount_pct,booking_status,cancel_reason,professional_id,selected_professional_id,is_new_professional,rating,problem,is_claimed_booking
0,23,31251,1,0,คอนโด 1 ห้องนอน (ไม่เกิน 40 ตร.ม.),บริการทำความสะอาด,,,เชียงใหม่,,2016-03-23 08:50:10,2016-03-26 13:00:00,0,2.0,0.0,400.0,0.0,0.0,,,เสร็จสิ้น,,8,0,1,4.0,,0
1,24,3,1,0,คอนโด 1 ห้องนอน (ไม่เกิน 50 ตร.ม.),บริการทำความสะอาด,,,เชียงใหม่,,2016-03-24 21:14:38,2016-03-28 13:00:00,0,2.5,0.0,500.0,0.0,0.0,,,เสร็จสิ้น,,5,0,1,,,0
2,25,3,0,0,คอนโด 1 ห้องนอน (ไม่เกิน 50 ตร.ม.),บริการทำความสะอาด,,,เชียงใหม่,,2016-03-26 20:56:23,2016-03-31 17:00:00,0,2.5,0.0,500.0,0.0,0.0,,,เสร็จสิ้น,,7,0,0,5.0,,0
3,26,3,0,0,คอนโด 1 ห้องนอน (ไม่เกิน 40 ตร.ม.),บริการทำความสะอาด,,,เชียงใหม่,,2016-03-26 20:58:36,2016-03-31 13:00:00,0,2.0,0.0,400.0,0.0,0.0,,,เสร็จสิ้น,,7,0,0,5.0,,0
4,27,3,0,0,คอนโด 1 ห้องนอน (ไม่เกิน 50 ตร.ม.),บริการทำความสะอาด,,,เชียงใหม่,,2016-03-26 21:04:26,2016-04-01 13:00:00,0,2.5,0.0,500.0,0.0,0.0,,,เสร็จสิ้น,,8,0,0,5.0,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1135055,250401ZPCC,206782,0,296240,คอนโด 1 ห้องนอน (ไม่เกิน 40 ตร.ม.),บริการทำความสะอาด,,,กรุงเทพ และปริมณฑล,เขตพระโขนง,2025-05-08 15:07:28,2025-05-14 14:00:00,0,2.0,0.0,520.0,26.0,0.0,PACK_5,5.0,รอเข้าให้บริการ,,11886,0,0,,,0
1135056,250508042C,232646,0,155725,คอนโด 1 ห้องนอน (ไม่เกิน 40 ตร.ม.),บริการทำความสะอาดห้องน้ำ,2 ห้องน้ำ (30-40 ตร.ม.),,กรุงเทพ และปริมณฑล,เขตวัฒนา,2025-05-08 15:08:58,2025-06-07 10:00:00,0,2.0,0.0,500.0,30.0,0.0,Mayday5,6.0,ยังไม่มีคุณแม่บ้านกดรับงาน,,0,11292,0,,,0
1135057,250508ZGX6,232646,0,155725,คอนโด 1 ห้องนอน (ไม่เกิน 40 ตร.ม.),บริการทำความสะอาดห้องน้ำ,2 ห้องน้ำ (30-40 ตร.ม.),,กรุงเทพ และปริมณฑล,เขตวัฒนา,2025-05-08 15:09:45,2025-06-21 10:00:00,0,2.0,0.0,500.0,30.0,0.0,Mayday5,6.0,ยังไม่มีคุณแม่บ้านกดรับงาน,,0,11292,0,,,0
1135058,2505085NC4,173130,0,104775,บ้าน 1 ชั้น (ไม่เกิน 100 ตร.ม.),บริการทำความสะอาด,,,กรุงเทพ และปริมณฑล,เขตบางแค,2025-05-08 15:10:08,2025-05-10 09:30:00,0,2.0,0.0,520.0,0.0,0.0,,,ยังไม่มีคุณแม่บ้านกดรับงาน,,0,12414,0,,,0


In [4]:
data.service_name.unique()

array(['บริการทำความสะอาด', 'บริการรีดผ้า', 'บริการทำความสะอาดห้องน้ำ',
       'บริการล้างแอร์'], dtype=object)

### <b>Data Preprocessing & EDA</b>

In [4]:
data.shape

(1135060, 28)

In [6]:
data.columns

Index(['booking_id', 'user_id', 'is_new_customer', 'user_place_id',
       'place_size', 'service_name', 'sub_service_name', 'extra_service',
       'province', 'district', 'booking_date', 'cleaning_date', 'is_sameday',
       'work_hour', 'additional_hour', 'total_price', 'discount_cost',
       'credit_discount_cost', 'promo_code', 'discount_pct', 'booking_status',
       'cancel_reason', 'professional_id', 'selected_professional_id',
       'is_new_professional', 'rating', 'problem', 'is_claimed_booking'],
      dtype='object')

In [7]:
data.dtypes

booking_id                   object
user_id                       int64
is_new_customer               int64
user_place_id                 int64
place_size                   object
service_name                 object
sub_service_name             object
extra_service                object
province                     object
district                     object
booking_date                 object
cleaning_date                object
is_sameday                    int64
work_hour                   float64
additional_hour             float64
total_price                 float64
discount_cost               float64
credit_discount_cost        float64
promo_code                   object
discount_pct                float64
booking_status               object
cancel_reason                object
professional_id               int64
selected_professional_id      int64
is_new_professional           int64
rating                      float64
problem                      object
is_claimed_booking          

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1135060 entries, 0 to 1135059
Data columns (total 28 columns):
 #   Column                    Non-Null Count    Dtype  
---  ------                    --------------    -----  
 0   booking_id                1135060 non-null  object 
 1   user_id                   1135060 non-null  int64  
 2   is_new_customer           1135060 non-null  int64  
 3   user_place_id             1135060 non-null  int64  
 4   place_size                1109181 non-null  object 
 5   service_name              1135060 non-null  object 
 6   sub_service_name          26417 non-null    object 
 7   extra_service             38345 non-null    object 
 8   province                  1135060 non-null  object 
 9   district                  1055083 non-null  object 
 10  booking_date              1135060 non-null  object 
 11  cleaning_date             1122742 non-null  object 
 12  is_sameday                1135060 non-null  int64  
 13  work_hour                 1

In [9]:
data.nunique()

booking_id                  1134293
user_id                      153632
is_new_customer                   2
user_place_id                222487
place_size                        8
service_name                      4
sub_service_name                  7
extra_service                     6
province                          3
district                        123
booking_date                 936000
cleaning_date                 73129
is_sameday                        2
work_hour                        23
additional_hour                  15
total_price                     427
discount_cost                   936
credit_discount_cost            581
promo_code                    21399
discount_pct                     23
booking_status                    5
cancel_reason                     7
professional_id                7289
selected_professional_id       5701
is_new_professional               2
rating                           10
problem                          38
is_claimed_booking          