In [1]:
import numpy as np 
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder

## Utils

In [2]:
def convert_category_into_integer(df: pd.DataFrame, columns: list):
    """
    주어진 DataFrame의 특정 열들을 범주형에서 정수형으로 변환합니다.
    
    Parameters:
    - df (pd.DataFrame): 변환할 데이터프레임
    - columns (list): 범주형에서 정수형으로 변환할 열 이름의 리스트
    
    Returns:
    - pd.DataFrame: 변환된 데이터프레임
    - dict: 각 열에 대해 적합한 LabelEncoder 객체를 포함하는 딕셔너리
    """
    label_encoders = {}  # 각 열의 LabelEncoder 객체를 저장할 딕셔너리입니다.
    
    for column in columns:
        # 각 열에 대해 LabelEncoder 객체를 생성합니다.
        label_encoder = LabelEncoder()
        
        # LabelEncoder를 사용하여 해당 열의 범주형 데이터를 정수형으로 변환합니다.
        df.loc[:, column] = label_encoder.fit_transform(df[column])
        
        # 변환된 LabelEncoder 객체를 딕셔너리에 저장합니다.
        label_encoders.update({column: label_encoder})
    
    # 변환된 데이터프레임과 LabelEncoder 객체를 포함하는 딕셔너리를 반환합니다.
    return df, label_encoders


## Load Data

In [3]:
data = pd.read_csv('../day36/data/train.csv')
data

Unnamed: 0,CustomerID,Churn,MonthlyRevenue,MonthlyMinutes,TotalRecurringCharge,DirectorAssistedCalls,OverageMinutes,RoamingCalls,PercChangeMinutes,PercChangeRevenues,...,ReferralsMadeBySubscriber,IncomeGroup,OwnsMotorcycle,AdjustmentsToCreditRating,HandsetPrice,MadeCallToRetentionTeam,CreditRating,PrizmCode,Occupation,MaritalStatus
0,3000002,Yes,24.00,219.0,22.0,0.25,0.0,0.0,-157.0,-19.0,...,0,4,No,0,30,Yes,1-Highest,Suburban,Professional,No
1,3000010,Yes,16.99,10.0,17.0,0.00,0.0,0.0,-4.0,0.0,...,0,5,No,0,30,No,4-Medium,Suburban,Professional,Yes
2,3000014,No,38.00,8.0,38.0,0.00,0.0,0.0,-2.0,0.0,...,0,6,No,0,Unknown,No,3-Good,Town,Crafts,Yes
3,3000022,No,82.28,1312.0,75.0,1.24,0.0,0.0,157.0,8.1,...,0,6,No,0,10,No,4-Medium,Other,Other,No
4,3000026,Yes,17.14,0.0,17.0,0.00,0.0,0.0,0.0,-0.2,...,0,9,No,1,10,No,1-Highest,Other,Professional,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51042,3399958,Yes,,,,,,,,,...,0,6,No,0,60,No,1-Highest,Suburban,Other,Yes
51043,3399974,No,95.17,1745.0,85.0,0.99,45.0,4.7,122.0,15.9,...,0,9,No,1,60,No,3-Good,Other,Other,No
51044,3399978,Yes,,,,,,,,,...,0,7,No,1,80,No,5-Low,Other,Clerical,No
51045,3399990,No,,,,,,,,,...,0,9,No,0,30,No,5-Low,Other,Other,No


## 데이터 확인

In [4]:
data.dtypes

CustomerID                     int64
Churn                         object
MonthlyRevenue               float64
MonthlyMinutes               float64
TotalRecurringCharge         float64
DirectorAssistedCalls        float64
OverageMinutes               float64
RoamingCalls                 float64
PercChangeMinutes            float64
PercChangeRevenues           float64
DroppedCalls                 float64
BlockedCalls                 float64
UnansweredCalls              float64
CustomerCareCalls            float64
ThreewayCalls                float64
ReceivedCalls                float64
OutboundCalls                float64
InboundCalls                 float64
PeakCallsInOut               float64
OffPeakCallsInOut            float64
DroppedBlockedCalls          float64
CallForwardingCalls          float64
CallWaitingCalls             float64
MonthsInService                int64
UniqueSubs                     int64
ActiveSubs                     int64
ServiceArea                   object
H

In [5]:
# 컬럼 이름과 의미를 담은 데이터
col_data = {
    'Column': ['CustomerID', 'Churn', 'MonthlyRevenue', 'MonthlyMinutes', 'TotalRecurringCharge', 
               'DirectorAssistedCalls', 'OverageMinutes', 'RoamingCalls', 'PercChangeMinutes', 
               'PercChangeRevenues', 'DroppedCalls', 'BlockedCalls', 'UnansweredCalls', 
               'CustomerCareCalls', 'ThreewayCalls', 'ReceivedCalls', 'OutboundCalls', 'InboundCalls', 
               'PeakCallsInOut', 'OffPeakCallsInOut', 'DroppedBlockedCalls', 'CallForwardingCalls', 
               'CallWaitingCalls', 'MonthsInService', 'UniqueSubs', 'ActiveSubs', 'ServiceArea', 
               'Handsets', 'HandsetModels', 'CurrentEquipmentDays', 'AgeHH1', 'AgeHH2', 
               'ChildrenInHH', 'HandsetRefurbished', 'HandsetWebCapable', 'TruckOwner', 'RVOwner', 
               'Homeownership', 'BuysViaMailOrder', 'RespondsToMailOffers', 'OptOutMailings', 
               'NonUSTravel', 'OwnsComputer', 'HasCreditCard', 'RetentionCalls', 'RetentionOffersAccepted', 
               'NewCellphoneUser', 'NotNewCellphoneUser', 'ReferralsMadeBySubscriber', 'IncomeGroup', 
               'OwnsMotorcycle', 'AdjustmentsToCreditRating', 'HandsetPrice', 'MadeCallToRetentionTeam', 
               'CreditRating', 'PrizmCode', 'Occupation', 'MaritalStatus'],
    'Meaning': ['고객 ID', '이탈 여부', '월간 수익', '월간 사용 시간', '총 정기 요금', 
                '상담사 도움 통화 수', '초과 사용 시간', '로밍 통화 수', '통화 시간 변화율', 
                '수익 변화율', '끊긴 전화 수', '차단된 전화 수', '응답하지 않은 전화 수', 
                '고객센터 통화 수', '3자 통화 수', '수신 전화 수', '발신 전화 수', '수신 전화 수', 
                '피크 시간대 통화 수', '비 피크 시간대 통화 수', '끊기거나 차단된 전화 수', 
                '착신 전환된 전화 수', '통화 대기 중 전화 수', '서비스 가입 기간', '고유 가입자 수', 
                '활성 가입자 수', '서비스 지역', '사용 핸드셋 수', '핸드셋 모델 종류', 
                '현재 장비 사용 기간', '가구 첫 번째 구성원 나이', '가구 두 번째 구성원 나이', 
                '가구 내 어린이 수', '재생 핸드셋 여부', '웹 사용 가능한 핸드셋 여부', 
                '트럭 소유 여부', 'RV 소유 여부', '주택 소유 여부', '우편 주문 구매 여부', 
                '우편 제안 응답 여부', '우편 광고 수신 거부 여부', '미국 외 여행 여부', 
                '컴퓨터 소유 여부', '신용카드 소유 여부', '유지 관리 팀과 통화 수', 
                '유지 관리 제안 수락 여부', '새 휴대폰 사용자 여부', '새 휴대폰 사용자가 아닌지 여부', 
                '추천한 가입자 수', '소득 그룹', '오토바이 소유 여부', '신용 등급 조정 여부', 
                '핸드셋 가격', '유지 관리 팀 통화 여부', '신용 등급', '프리즘 코드', '직업', 
                '결혼 여부']
}

col_info_df = pd.DataFrame(col_data)
col_info_df

Unnamed: 0,Column,Meaning
0,CustomerID,고객 ID
1,Churn,이탈 여부
2,MonthlyRevenue,월간 수익
3,MonthlyMinutes,월간 사용 시간
4,TotalRecurringCharge,총 정기 요금
5,DirectorAssistedCalls,상담사 도움 통화 수
6,OverageMinutes,초과 사용 시간
7,RoamingCalls,로밍 통화 수
8,PercChangeMinutes,통화 시간 변화율
9,PercChangeRevenues,수익 변화율


In [6]:
# 각 컬럼에 있는 고유한 값 확인

for column in data.columns:
    print(f"Column: {column}")
    print(data[column].unique())
    print("-" * 50)

Column: CustomerID
[3000002 3000010 3000014 ... 3399978 3399990 3399994]
--------------------------------------------------
Column: Churn
['Yes' 'No']
--------------------------------------------------
Column: MonthlyRevenue
[ 24.    16.99  38.   ...  27.11 534.93 109.96]
--------------------------------------------------
Column: MonthlyMinutes
[ 219.   10.    8. ... 3360. 4719. 2437.]
--------------------------------------------------
Column: TotalRecurringCharge
[ 22.  17.  38.  75.  52.  30.  66.  35.  25.  85.  37.  60.  70. 100.
  50.  55.  68.  20.  45. 150.  83.  19.  71.  15.  58.  89.  95.  78.
  80.  77. 183. 213.  87.  27. 108.  32.  59.   5.  40.  10. 105. 107.
  74.  nan 102. 140.  63.  93. 202.  49.  48.  81.  57.  24.  21.  47.
  97. 160. 110.  82.  42.  36. 115.  76.   7. 200. 207.  31.  92. 101.
  91.  90.  62. 300.  56. 121.  99.   8.   9.  79.  67.  73.  84.  65.
  43.  61. 120.  18.  53.  12.  64.  11.  41.  44.  86.  88. 210. 106.
  54.  13.  29.  34.   0. 155.  98

In [7]:
# 같은 customer ID를 가지는 여러 데이터 있는지 확인 (중복 확인)

print("중복데이터 확인", data.duplicated().sum())
print("같은 customer id를 가지는 다른 데이터 존재?", len(data.CustomerID), len(set(data.CustomerID)))

중복데이터 확인 0
같은 customer id를 가지는 다른 데이터 존재? 51047 51047


### NaN 값 처리

In [8]:
# 각 column 별 nan 값 확인 
data.isna().sum()

CustomerID                     0
Churn                          0
MonthlyRevenue               156
MonthlyMinutes               156
TotalRecurringCharge         156
DirectorAssistedCalls        156
OverageMinutes               156
RoamingCalls                 156
PercChangeMinutes            367
PercChangeRevenues           367
DroppedCalls                   0
BlockedCalls                   0
UnansweredCalls                0
CustomerCareCalls              0
ThreewayCalls                  0
ReceivedCalls                  0
OutboundCalls                  0
InboundCalls                   0
PeakCallsInOut                 0
OffPeakCallsInOut              0
DroppedBlockedCalls            0
CallForwardingCalls            0
CallWaitingCalls               0
MonthsInService                0
UniqueSubs                     0
ActiveSubs                     0
ServiceArea                   24
Handsets                       1
HandsetModels                  1
CurrentEquipmentDays           1
AgeHH1    

In [9]:
# 고객 당 nan column의 수 확인
total_column_len = len(data.columns)

data['nan_column_counts'] = data.isna().sum(axis=1)
data['nan_columns_percentage'] = data['nan_column_counts'] / total_column_len
nan_per_customer = data.filter(items=['CustomerID', 'nan_column_counts', 'nan_columns_percentage'])
display(nan_per_customer.sort_values(by=['nan_column_counts'], ascending=False))

nan_per_customer.nan_column_counts.value_counts().sort_index()

Unnamed: 0,CustomerID,nan_column_counts,nan_columns_percentage
50954,3399258,10,0.172414
51024,3399814,10,0.172414
51036,3399898,10,0.172414
50961,3399314,10,0.172414
51046,3399994,8,0.137931
...,...,...,...
17186,3134654,0,0.000000
17187,3134658,0,0.000000
17188,3134666,0,0.000000
17189,3134670,0,0.000000


nan_column_counts
0     49752
1        24
2      1112
3         1
4         2
8       152
10        4
Name: count, dtype: int64

In [10]:
# 한 고객당 2개 초과하여 feature 값이 존재하지 않는 경우 nan 값을 가지는 경우 제거
data = data[data['nan_column_counts'] <= 2]
data = data.drop(columns=['nan_column_counts', 'nan_columns_percentage'])

In [11]:
# nan 값을 가지는 column 확인 
data.isna().sum().sort_values(ascending=False)

AgeHH1                       903
AgeHH2                       903
PercChangeRevenues           209
PercChangeMinutes            209
ServiceArea                   24
HandsetWebCapable              0
TruckOwner                     0
RVOwner                        0
HasCreditCard                  0
HandsetRefurbished             0
Homeownership                  0
BuysViaMailOrder               0
RespondsToMailOffers           0
OptOutMailings                 0
NonUSTravel                    0
ChildrenInHH                   0
OwnsComputer                   0
CustomerID                     0
RetentionCalls                 0
NewCellphoneUser               0
NotNewCellphoneUser            0
ReferralsMadeBySubscriber      0
IncomeGroup                    0
OwnsMotorcycle                 0
AdjustmentsToCreditRating      0
HandsetPrice                   0
MadeCallToRetentionTeam        0
CreditRating                   0
PrizmCode                      0
Occupation                     0
RetentionO

In [12]:
# 각 컬럼별 nan 값 확인
# nan_cols = ['AgeHH1', 'AgeHH2', 'PercChangeRevenues', 'PercChangeMinutes', 'ServiceArea']

# ServiceArea 확인
print(data.ServiceArea.unique()) 

# ServiceArea가 nan 값인 경우는 기존 포멧과 동일하게 'NODATA000'으로 치환
data['ServiceArea'] = data['ServiceArea'].fillna('NODATA000')

['SEAPOR503' 'PITHOM412' 'MILMIL414' 'OKCTUL918' 'OKCOKC405' 'SANMCA210'
 'SLCSLC801' 'LOULOU502' 'KCYKCK913' 'KCYNEW316' 'KCYKCM816' 'DENDEN303'
 'PHICTR610' 'OKCLRK501' 'OMADES515' 'SANAUS512' 'KCYWIC316' 'INDIND317'
 'SLCPRO801' 'OMALNC402' 'NSHNSH615' 'OMAOMA402' 'PHXTUC520' 'DALDAL214'
 'DALDTN940' 'DALFTW817' 'SANSAN210' 'NYCMAN917' 'NOLKEN504' 'MINMIN612'
 'NNYROC716' 'PHIARD610' 'NYCQUE917' 'DENBOU303' 'BOSBOS617' 'PHXPHX602'
 'NNYBUF716' 'NNYSYR315' 'STLSTL314' 'PHIPHI215' 'DETTOL419' 'SEABLV425'
 'MIAMIA305' 'PHICHC215' 'SEASEA206' 'BIRBIR205' 'MIADFD954' 'LOUNAL812'
 'MIADEL561' 'MIAFTL954' 'SEASPO509' 'SEATAC253' 'SFRSAC916' 'MIANDA305'
 'MINSTP612' 'MIAHWD954' 'NYCBRO917' 'PHIJEN215' 'OMACDR319' 'MIAWPB561'
 'SEAOLY360' 'PITBUT412' 'SEAEVE425' 'PHIMER609' 'SEACDA208' 'HARHAR860'
 'SFRSFR415' 'SFROAK510' 'SFRSCL408' 'NNYALB518' 'STLCOL618' 'NYCNEW201'
 'SFRPAL650' 'DETDET313' 'DETROS810' 'NYCNEW908' 'NYCNAS516' 'NSHCOL615'
 'PITGRE412' 'SEABEA503' 'NYCSUF516' 'MIAMAR305' 'H

In [13]:
# 각 컬럼별 nan 값 확인
# nan_cols = ['AgeHH1', 'AgeHH2', 'PercChangeRevenues', 'PercChangeMinutes', 'ServiceArea']

# AgeHH1, AgeHH2 nan 값 개수 같음 -> 관계 확인
tmp_agehh = data.filter(items=['CustomerID', 'AgeHH1', 'AgeHH2', 'ChildrenInHH', 'MaritalStatus'])

# AgeHH1이 nan일 때, AgeHH2도 nan인지 확인
# len이 903, 따라서 AgeHH1이 nan일 때 AgeHH2도 nan 임
print("AgeHH1과 AgeHH2가 동시에 nan인 row 수: ", len(tmp_agehh[(tmp_agehh['AgeHH1'].isna()) & (tmp_agehh['AgeHH2'].isna())])) 

# 최빈값 확인 
# print(train_data['AgeHH1'].value_counts()) # 최빈값 0
# print(train_data['AgeHH2'].value_counts()) # 최빈값 0

# AgeHH1, AgeHH2 모두 최빈값으로 대체 
data['AgeHH1'] = data['AgeHH1'].fillna(0)
data['AgeHH2'] = data['AgeHH2'].fillna(0)

AgeHH1과 AgeHH2가 동시에 nan인 row 수:  903


In [14]:
# 각 컬럼별 nan 값 확인
# nan_cols = ['AgeHH1', 'AgeHH2', 'PercChangeRevenues', 'PercChangeMinutes', 'ServiceArea']

# PercChangeRevenues, PercChangeMinutes nan 값 개수 같음 -> 관계 확인
# PercChangeRevenues = 전월 대비 수익 변화
# PercChangeMinutes = 통화 변화 ? 

# len이 209, 따라서 PercChangeRevenues이 nan일 때 PercChangeMinutes도 nan 임
print("PercChangeRevenues PercChangeMinutes 동시에 nan인 row 수: ", 
      len(data[(data['PercChangeRevenues'].isna()) & (data['PercChangeMinutes'].isna())]))

# 최빈값 확인
print("PercChangeRevenues 최빈값:", data.PercChangeRevenues.value_counts().index[0]) # 0이 최빈값
print("PercChangeMinutes 최빈값:", data.PercChangeMinutes.value_counts().index[0]) # 0이 최빈값

# PercChangeRevenues, PercChangeMinutes 모두 최빈값으로 대체
data['PercChangeRevenues'] = data['PercChangeRevenues'].fillna(0)
data['PercChangeMinutes'] = data['PercChangeMinutes'].fillna(0)

PercChangeRevenues PercChangeMinutes 동시에 nan인 row 수:  209
PercChangeRevenues 최빈값: 0.0
PercChangeMinutes 최빈값: 0.0


#### 기타 처리

In [15]:
# CreditRating 숫자-카테고리 식이어서 숫자만 남김 

print(sorted(data['CreditRating'].unique()))
data['CreditRating'] = data['CreditRating'].apply(lambda x: int(x[0]))

['1-Highest', '2-High', '3-Good', '4-Medium', '5-Low', '6-VeryLow', '7-Lowest']


### 데이터 저장

In [16]:
# data.to_csv('./day36/data/nan_filtered_train_data.csv')