# การจัดกลุ่ม Package ของลูกค้า Residential
## เพื่อกำหนดกลุ่มเป้าหมายในการจัดการ

In [17]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from matplotlib.font_manager import fontManager

pd.options.display.float_format = '{:,.2f}'.format
# ปิดการแสดงคำเตือน SettingWithCopyWarning ชั่วคราว
pd.options.mode.chained_assignment = None  # ปิดการแสดงคำเตือน


# import matplotlib as mpl

# Add font to font manager
fontManager.addfont('/Users/seal/Documents/GitHub/hackathon-nt-2024/fonts/Sarabun/Sarabun-Regular.ttf')
# Set the font for your plot
plt.rcParams['font.family'] = 'Sarabun'
# Set font size for all plot elements
plt.rcParams['font.size'] = 12
# mpl.rc("font", family="Sarabun", size=24)

## อ่านข้อมูลจาก billing ซึ่งมีข้อมูล package ที่ลูกค้าใช้อยู่

In [18]:
df = pd.read_csv("CONTRACT_PACKAGE_NAME_20240605.csv")

## ดูประเภทลูกค้า

In [19]:
# Assuming you have a DataFrame called df
unique_values = df['ACCOUNT_TYPE'].unique()

print(unique_values)

['Residential - Normal' 'Business - SME (CSC/YorTor)' 'TOT Internal Users'
 'Corporate - Key Account (JorKorBor)'
 'Business - Key Account (JorKorBor)' 'NPO' 'Residential - Foreigner'
 'Residential - TOT Staff' 'Government - Not Elected' 'State Enterprise'
 'Corporate - Global' 'Corporate (CSC/YorTor)' 'Government'
 'High Ranking Govt Official' 'Residential - Monk' 'Royal Family'
 'TOT WiFi' 'Grateful Person' 'SBU' 'TOT Public Telephone'
 'Public Affairs - NTSC Not Sponsored' 'Public Affairs - NTSC Sponsored'
 'Transfer bill to NT1' 'Government - Organization' 'VIP Royal Family']


## เลือกเฉพาะลูกค้า Residential

In [20]:
df_target = df[df['ACCOUNT_TYPE'] == 'Residential - Normal']
df_target

Unnamed: 0,ACCOUNT_NO,TEL_NO,ACCOUNT_TYPE,PRODUCT DESC,CONTRACRT NAME TH,CONTRACT TYPE
0,5500885738,024213143,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ IP Phone,5401560001
1,5500885738,2420J3128,Residential - Normal,Fiber 2U,NT ValueMAX Fiber 1000Mb/300Mb_ลูกค้าเดิม (น.)...,6401060004
2,5500885750,022166095,Residential - Normal,Normal telephone,ค่าบำรุงรักษาคู่สายโทรศัพท์ ประเภท 1,5400010001
6,5500885984,024903579,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ IP Phone,6001620002
7,5500885984,2415J1856,Residential - Normal,Fiber 2U,Fiber 2U 2Mb/512Kb,6001620001
...,...,...,...,...,...,...
1544810,104531506827,026161361,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ ประเภท 1,5400010001
1544815,104531507240,028931787,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ ประเภท 1,5400010001
1544817,104531507387,028950285,Residential - Normal,Normal telephone,Wireless Net เน็ตพร้อมโทร (น.) 2565,6500210001
1544818,104531507387,028950285,Residential - Normal,IP Phone,Wireless Net เน็ตพร้อมโทร (น.) 2565,6500210001


### จัดการข้อมูลที่ไม่ได้ระบุประเภท package

In [21]:
df_target['CONTRACRT NAME TH'] = df_target['CONTRACRT NAME TH'].fillna("")

# ทำการแบ่งหมวดหมู่ package
1. Preprocess the text data: Convert the text in the "CONTRACRT NAME TH" column into numerical vectors using techniques like TF-IDF.
2. Apply a clustering algorithm: Use K-means or another clustering algorithm to cluster the data into different categories.
3. Assign cluster labels: Use the resulting cluster labels as the new "CATEGORY" column.

In [25]:

# Convert the text data into numerical vectors using TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(df_target['CONTRACRT NAME TH'])

# Apply K-means clustering
num_clusters = 15  # Adjust the number of clusters as needed, ปรับตัวเลขตามต้องการ ความเหมาะสมอยู่ที่ทดสอบแล้วดูผลลัพธ์
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
kmeans.fit(tfidf_matrix)

# Assign cluster labels as the new "CATEGORY" column
df_target['CATEGORY'] = kmeans.labels_ + 1  # Adding 1 to start categories from 1

# Display the resulting DataFrame
df_target

Unnamed: 0,ACCOUNT_NO,TEL_NO,ACCOUNT_TYPE,PRODUCT DESC,CONTRACRT NAME TH,CONTRACT TYPE,CATEGORY
0,5500885738,024213143,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ IP Phone,5401560001,2
1,5500885738,2420J3128,Residential - Normal,Fiber 2U,NT ValueMAX Fiber 1000Mb/300Mb_ลูกค้าเดิม (น.)...,6401060004,5
2,5500885750,022166095,Residential - Normal,Normal telephone,ค่าบำรุงรักษาคู่สายโทรศัพท์ ประเภท 1,5400010001,2
6,5500885984,024903579,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ IP Phone,6001620002,2
7,5500885984,2415J1856,Residential - Normal,Fiber 2U,Fiber 2U 2Mb/512Kb,6001620001,4
...,...,...,...,...,...,...,...
1544810,104531506827,026161361,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ ประเภท 1,5400010001,2
1544815,104531507240,028931787,Residential - Normal,IP Phone,ค่าบำรุงรักษาคู่สายโทรศัพท์ ประเภท 1,5400010001,2
1544817,104531507387,028950285,Residential - Normal,Normal telephone,Wireless Net เน็ตพร้อมโทร (น.) 2565,6500210001,3
1544818,104531507387,028950285,Residential - Normal,IP Phone,Wireless Net เน็ตพร้อมโทร (น.) 2565,6500210001,3


In [26]:
# Group by CATEGORY
grouped_df = df_target.groupby('CATEGORY').apply(lambda x: x).reset_index(drop=True)
grouped_df

  grouped_df = df_target.groupby('CATEGORY').apply(lambda x: x).reset_index(drop=True)


Unnamed: 0,ACCOUNT_NO,TEL_NO,ACCOUNT_TYPE,PRODUCT DESC,CONTRACRT NAME TH,CONTRACT TYPE,CATEGORY
0,5501098541,3526J5542,Residential - Normal,Fiber 2U,Fiber 2U 300Mb/300Mb เน็ตเซฟเซฟ V2,6301450002,1
1,5501100849,3535J6150,Residential - Normal,Fiber 2U,Fiber 2U 300Mb/300Mb เน็ตเซฟเซฟ V2,6301450002,1
2,104532382643,3435J9274,Residential - Normal,Fiber 2U,Fiber 2U 300Mb/300Mb เน็ตเซฟเซฟ V2,6301450002,1
3,104532383603,3435J9268,Residential - Normal,Fiber 2U,Fiber 2U 300Mb/300Mb เน็ตเซฟเซฟ V2,6301450002,1
4,104532383616,3435J9264,Residential - Normal,Fiber 2U,Fiber 2U 300Mb/300Mb เน็ตเซฟเซฟ V2,6301450002,1
...,...,...,...,...,...,...,...
597988,610364059,2215I1450,Residential - Normal,nt NET PLAY iptv,NT ValueMAX Fiber,6400950016,5
597989,623303298,2215I1477,Residential - Normal,nt NET PLAY iptv,NT ValueMAX Fiber,6400950024,5
597990,5500789158,2215I1462,Residential - Normal,nt NET PLAY iptv,NT ValueMAX Fiber,6400950024,5
597991,104529780616,2372I4379,Residential - Normal,nt NET PLAY iptv,NT ValueMAX Fiber 300Mb/300Mb Bundle IPTV + Ac...,6401070001,5


# นำผลลัพธ์ไปใช้งาน

In [27]:
grouped_df.to_excel("/Users/seal/Documents/GitHub/hackathon-nt-2024/datasets/data/Billing/PACKAGE_CATEGORY_20240605.xlsx", index=False)