In [61]:
import pandas as pd
import numpy as np

## **기초 전처리**

### **데이터를 받을 때 같이 온 가이드라인** ###

#### **settop.csv** ####
1. df1의 상향파워1 column는 의미없는 값 -> 제거
2. 상향파워2, 상향SNR, 하향SNR의 0값은 제외
3. df1에서 같은 시간에 동일한 셋탑박스에서 online 상태와 offline 상태가 동시에 발생하는 경우 -> offline 우선

#### **장애내역.csv** ####
1. df2의 J로 시작하는 셋탑박스 데이터가 df1에는 존재하지 않음 -> 제거
 


In [62]:
# 데이터 불러오기, 중복행 제거, 측정시간을 날짜 열 지정

data = pd.read_csv("s3://outlierhunters/원본데이터/settop.csv", parse_dates=['측정시간'], encoding = 'cp949').drop_duplicates()

data

Unnamed: 0,측정시간,온오프라인여부,상향파워1,상향파워2,상향SNR,하향파워,하향SNR,셀번호
0,2024-04-11 20:15:00,offline,,,,,,YSWS2-6
1,2024-04-11 20:15:00,offline,,,,,,YSJSC2005
2,2024-04-11 20:15:00,offline,,,,,,YSWS0165
3,2024-04-11 20:15:00,offline,,,,,,YSWS2-5
4,2024-04-11 20:15:00,offline,,,,,,YSMY0028
...,...,...,...,...,...,...,...,...
2708814,2024-04-24 10:10:00,online,0.0,49.0,31.0,-7.0,38.0,YSWS0285
2708815,2024-04-24 10:10:00,online,0.0,43.0,34.0,-2.0,38.0,YSWS0179
2708816,2024-04-24 10:10:00,w-online,0.0,43.0,30.0,2.0,39.0,YSSRAP1-11A
2708817,2024-04-24 10:10:00,w-online,0.0,41.0,31.0,11.0,43.0,YSWS5-8


In [63]:
# 측정시간, 셀번호로 정렬

data = data.sort_values(['셀번호','측정시간'])

In [64]:
data

Unnamed: 0,측정시간,온오프라인여부,상향파워1,상향파워2,상향SNR,하향파워,하향SNR,셀번호
223969,2024-04-01 00:40:00,online,0.0,34.0,34.0,6.0,37.0,YSDG0009
224496,2024-04-01 01:00:00,online,0.0,0.0,18.0,0.0,0.0,YSDG0009
234053,2024-04-01 01:30:00,offline,,,,,,YSDG0009
234293,2024-04-01 01:30:00,online,1.0,47.0,36.0,-2.0,38.0,YSDG0009
234533,2024-04-01 01:40:00,online,-5.0,46.0,27.0,-2.0,37.0,YSDG0009
...,...,...,...,...,...,...,...,...
801989,2024-05-01 23:00:00,online,0.0,44.0,24.0,-5.0,40.0,
801999,2024-05-01 23:00:00,online,0.0,52.0,23.0,4.0,42.0,
802007,2024-05-01 23:00:00,online,-2.0,41.0,27.0,0.0,42.0,
802053,2024-05-01 23:00:00,w-online,1.0,37.0,33.0,8.0,35.0,


In [65]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1399544 entries, 223969 to 802085
Data columns (total 8 columns):
 #   Column   Non-Null Count    Dtype         
---  ------   --------------    -----         
 0   측정시간     1399544 non-null  datetime64[ns]
 1   온오프라인여부  1399395 non-null  object        
 2   상향파워1    1320282 non-null  float64       
 3   상향파워2    1313717 non-null  float64       
 4   상향SNR    1273756 non-null  float64       
 5   하향파워     1313696 non-null  float64       
 6   하향SNR    1313717 non-null  float64       
 7   셀번호      1308372 non-null  object        
dtypes: datetime64[ns](1), float64(5), object(2)
memory usage: 96.1+ MB


In [66]:
data.describe()

Unnamed: 0,측정시간,상향파워1,상향파워2,상향SNR,하향파워,하향SNR
count,1399544,1320282.0,1313717.0,1273756.0,1313696.0,1313717.0
mean,2024-04-16 04:46:29.075227904,-0.1264919,42.1908,30.65526,1.438984,38.09249
min,2024-04-01 00:20:00,-20.0,-11.0,-62.0,-214.0,0.0
25%,2024-04-08 08:25:00,0.0,38.0,29.0,-2.0,37.0
50%,2024-04-15 20:55:00,0.0,43.0,31.0,1.0,39.0
75%,2024-04-23 22:00:00,0.0,47.0,34.0,6.0,41.0
max,2024-05-01 23:00:00,13.0,62.0,45.0,842.0,51.0
std,,1.639532,8.771848,4.659996,6.78806,6.115164


In [67]:
# 온오프라인여부 컬럼 소문자화
# offline, Offline이 존재하기 때문

data['온오프라인여부'] = data['온오프라인여부'].str.lower()

# NaN값을 제외한 값들 중 offline이 아닌 경우 모두 online으로 변경  NaN값인 경우 online으로 사용
data['온오프라인여부'] = data['온오프라인여부'].apply(lambda x: 'online' if x not in ['online', 'offline', np.NaN] else x)


In [68]:
# 셀번호, 측정시간 NaN값인 경우 삭제

data = data.dropna(subset = '셀번호')
data = data.dropna(subset = '측정시간')


In [69]:
# total_num = 셋탑박스 별 존재하는 측정시간의 개수
# cum_num = 중복된 측정시간의 개수
# 이 때 두 값은 모두 측정시간 기준 누적된 개수임
# 예를 들어 A 셋탑박스의 2024-04-03 10:00에 대한 total_num은 이 때 까지의 A 셋탑박스의 총 측정시간 개수, cum_num은 그 중 시간이 중복되어 여러 데이터가 존재하는 측정시간의 개수

data = data.reset_index(drop = True)


group_1 = data.groupby(['셀번호', '측정시간'])

# 새로운 컬럼 초기화
data['total_num'] = 0
data['cum_num'] = 0

# 그룹별로 'total_num'과 'cum_num' 계산
total_num_list = []
cum_num_list = []
previous_name = None
i = 0
j = 0

for name, group in group_1:
    # name의 셀번호, 측정시간 입력받음
    cell_number, measurement_time = name

    # 이전의 셀번호와 현재 셀번호가 다르다면 값을 초기화
    if cell_number != previous_name:
        i = 0
        j = 0
        previous_name = cell_number
    
    # total_num은 측정시간의 전체 개수 이므로 하나씩 추가
    j += 1
    
    # list에 group의 개수만큼 j값 저장
    total_num_list.extend([j] * len(group))
    
    # 같은 측정시간에 여러개의 데이터가 존재하는 경우 i 추가
    if len(group) > 1:
        i += 1
    # list에 group의 개수만큼 i값 저장
    cum_num_list.extend([i] * len(group))

# 계산된 값들을 데이터프레임에 반영
data['total_num'] = total_num_list
data['cum_num'] = cum_num_list

### **중복되는 데이터의 경우 처리** ###
1. 피쳐 별 분산 확인
2. 합치는 기준 선정(평균, 최빈 등)

In [70]:
# 측정시간, 셀번호가 동일한 경우 분산 값 확인
grouped = data.groupby(['측정시간', '셀번호'])

a = []
b = []
c = []
d = []
e = []
f = []
g = []


for name, group in grouped:
    if 'offline' in group['온오프라인여부'].values:
        cond_off = group.loc[group['온오프라인여부'] == 'offline']
        a.append(name[1])
        b.append(name[0])
        c.append('offline')
        d.append(cond_off['상향파워2'].var())
        e.append(cond_off['상향SNR'].var())
        f.append(cond_off['하향파워'].var())
        g.append(cond_off['하향SNR'].var())
    else:
        a.append(name[1])
        b.append(name[0])
        c.append('online')
        d.append(group['상향파워2'].var())
        e.append(group['상향SNR'].var())
        f.append(group['하향파워'].var())
        g.append(group['하향SNR'].var())


var_df1 = pd.DataFrame({'셀번호': a, '측정시간': b, '온오프라인여부' : c, '상향파워2' : d, '상향SNR' : e, '하향파워' : f, '하향SNR' : g})

In [71]:
var_df1.describe()

Unnamed: 0,측정시간,상향파워2,상향SNR,하향파워,하향SNR
count,681075,216653.0,212936.0,216653.0,216653.0
mean,2024-04-16 06:12:57.614800640,60.593568,10.345291,37.489991,23.625764
min,2024-04-01 00:20:00,0.0,0.0,0.0,0.0
25%,2024-04-08 11:15:00,8.0,0.5,5.333333,0.5
50%,2024-04-15 22:15:00,22.75641,2.0,18.0,2.0
75%,2024-04-23 21:30:00,50.0,8.0,40.514706,4.5
max,2024-05-01 23:00:00,2112.5,4512.5,24420.5,1300.5
std,,156.892562,38.903431,297.494878,109.374683


75%의 값과 max값을 비교해보면 큰 차이가 나는 것을 알 수 있음
즉 분산이 큰 경우 매우 크고 대체로 작음
따라서 매우 큰 값들은 최빈값으로, 나머지는 평균으로 합쳐 줌 -> 값들의 특색을 살리기 위해

In [72]:
# 중복된 경우를 합쳐 새로운 df 생성
#  
a = []
b = []
c = []
d = []
e = []
f = []
g = []
h = []
i = []
j = []
k = []

group_1 = data.groupby(['셀번호', '측정시간'])

for name, group in group_1:
    # 측정시간, 셀번호, total_num, cum_num은 셀번호, 측정시간이 동일할 경우 모두 동일하기 때문에 바로 리스트에 저장
    a.append(group['측정시간'].iloc[0])
    h.append(group['셀번호'].iloc[0])
    j.append(group['total_num'].iloc[0])
    k.append(group['cum_num'].iloc[0])

    # 가이드라인에 따르면, on/off가 동시에 존재하는 경우 offline을 우선으로 봐야함 따라서 offline이 존재하는 경우 group에서 off라인 행만 추출
    if 'offline' in group['온오프라인여부'].values:
        cond_off = group.loc[group['온오프라인여부'] == 'offline']
        # 온오프라인여부 열은 offline으로 입력
        b.append('offline')

        # 데이터가 여러개인 경우
        if len(cond_off) > 1:
                # 각 피쳐들의 분산이 100이 넘어가는 경우 = 동일한 시간이지만 값의 차이가 큰 경우 -> 최빈값으로 값을 선택
                if cond_off['상향파워2'].var() > 100:
                    # 이 때 최빈값이 NaN값인 경우 오류가 발생하여 try문으로 해결
                    try:
                        d.append(cond_off['상향파워2'].mode()[0])
                    except:
                        d.append(np.NAN)
                else:
                    d.append(cond_off['상향파워2'].mean())

                if cond_off['상향SNR'].var() > 100:
                    try:
                        e.append(cond_off['상향SNR'].mode()[0])
                    except:
                        e.append(np.NAN)
                else:
                    e.append(cond_off['상향SNR'].mean())

                if cond_off['하향파워'].var() > 100:
                    try:
                        f.append(cond_off['하향파워'].mode()[0])
                    except:
                        f.append(np.NAN)
                else:
                    f.append(cond_off['하향파워'].mean())

                if cond_off['하향SNR'].var() > 100:
                    try:
                        g.append(cond_off['하향SNR'].mode()[0])
                    except:
                        g.append(np.NAN)
                else:
                    g.append(cond_off['하향SNR'].mean())

        # 데이터가 하나인 경우는 그 값만 가져오면 됨
        else:
            d.append(cond_off['상향파워2'].iloc[0])
            e.append(cond_off['상향SNR'].iloc[0])
            f.append(cond_off['하향파워'].iloc[0])
            g.append(cond_off['하향SNR'].iloc[0])
            
    # offline행이 존재하지 않는 경우
    else:
        b.append('onlie')

        if len(group) > 1:
                if group['상향파워2'].var() > 100:
                    try:
                        d.append(group['상향파워2'].mode()[0])
                    except:
                        d.append(np.NAN)
                else:
                    d.append(group['상향파워2'].mean())

                if group['상향SNR'].var() > 100:
                    try:
                        e.append(group['상향SNR'].mode()[0])
                    except:
                        e.append(np.NAN)
                else:
                    e.append(group['상향SNR'].mean())

                if group['하향파워'].var() > 100:
                    try:
                        f.append(group['하향파워'].mode()[0])
                    except:
                        f.append(np.NAN)
                else:
                    f.append(group['하향파워'].mean())

                if group['하향SNR'].var() > 100:
                    try:
                        g.append(group['하향SNR'].mode()[0])
                    except:
                        g.append(np.NAN)
        
                else:
                    g.append(group['하향SNR'].mean())

        else:
            d.append(group['상향파워2'].iloc[0])
            e.append(group['상향SNR'].iloc[0])
            f.append(group['하향파워'].iloc[0])
            g.append(group['하향SNR'].iloc[0])
    

newdata = pd.DataFrame({'측정시간': a, '온오프라인여부': b, '상향파워2' : d, '상향SNR' : e, '하향파워' : f, '하향SNR' : g, '셀번호' : h, 'total_num' : j, 'cum_num' : k})


In [73]:
# 상향파워2, 상향SNR, 하향SNR 0인 경우 삭제
newdata[['상향파워2', '상향SNR', '하향SNR']] = newdata[['상향파워2', '상향SNR', '하향SNR']].replace(0, np.nan)

In [74]:
# 셋탑박스마다 데이터의 수 가 다르기 때문에 total_num을 cum_num으로 나누어서 비율을 확인함
newdata['cum_rate'] = newdata['cum_num'] / newdata['total_num']

In [75]:
# 총 셋탑박스의 개수 확인
data['셀번호'].nunique()

815

In [76]:
# 하나의 셋탑박스 데이터를 가져와서 시간 텀 확인
newdata[newdata['셀번호']=='YSHSHFC0009'][newdata['측정시간'] > '2024-04-18 02:00'].sort_values('측정시간', ascending=True)[:30]

  newdata[newdata['셀번호']=='YSHSHFC0009'][newdata['측정시간'] > '2024-04-18 02:00'].sort_values('측정시간', ascending=True)[:30]


Unnamed: 0,측정시간,온오프라인여부,상향파워2,상향SNR,하향파워,하향SNR,셀번호,total_num,cum_num,cum_rate
146320,2024-04-18 02:25:00,onlie,43.0,30.0,-13.0,32.0,YSHSHFC0009,1080,333,0.308333
146321,2024-04-18 02:35:00,onlie,,30.0,0.0,,YSHSHFC0009,1081,333,0.308048
146322,2024-04-18 02:45:00,onlie,45.0,31.0,-13.0,32.0,YSHSHFC0009,1082,333,0.307763
146323,2024-04-18 02:55:00,offline,,,,,YSHSHFC0009,1083,334,0.308403
146324,2024-04-18 03:05:00,onlie,38.0,32.4,2.6,35.2,YSHSHFC0009,1084,335,0.309041
146325,2024-04-18 10:35:00,offline,,,,,YSHSHFC0009,1085,335,0.308756
146326,2024-04-18 10:45:00,onlie,,33.0,,,YSHSHFC0009,1086,335,0.308471
146327,2024-04-18 11:05:00,onlie,,24.0,,,YSHSHFC0009,1087,335,0.308188
146328,2024-04-18 12:25:00,onlie,43.0,28.0,-16.0,30.0,YSHSHFC0009,1088,335,0.307904
146329,2024-04-18 12:35:00,onlie,43.0,33.0,-16.0,30.0,YSHSHFC0009,1089,335,0.307622


In [77]:
# 장애내역csv 불러오기 및 셀번호 J인 경우 삭제
data2 = pd.read_csv("s3://outlierhunters/원본데이터/장애내역.csv", encoding='cp949')
data2 = data2[~data2['셀번호'].str.startswith('J')]

# 인덱스 초기화
data2.reset_index(drop = False, inplace = True)

In [78]:
# 장애가 발생한 셋탑박스의 개수 확인
data2['셀번호'].nunique()

108

In [79]:
# 장애가 발생한 셋탑박스 셀번호를 저장
avail_cells= data2['셀번호'].unique()

In [80]:
# 전체 기록 데이터 중 장애가 발생한 데이터만 남김
avail_data = newdata[newdata['셀번호'].isin(avail_cells)]

In [81]:
# NaN값 존재하는 행 제거
avail_data.dropna(inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avail_data.dropna(inplace = True)


In [82]:
avail_data

Unnamed: 0,측정시간,온오프라인여부,상향파워2,상향SNR,하향파워,하향SNR,셀번호,total_num,cum_num,cum_rate
5284,2024-04-01 03:20:00,onlie,43.0,36.0,10.0,40.0,YSDG10-1,1,0,0.000000
5286,2024-04-01 03:40:00,onlie,43.0,35.0,10.0,40.0,YSDG10-1,3,0,0.000000
5288,2024-04-02 13:20:00,onlie,49.0,36.0,3.5,39.5,YSDG10-1,5,1,0.200000
5290,2024-04-02 13:40:00,onlie,49.0,35.0,3.5,39.5,YSDG10-1,7,3,0.428571
5291,2024-04-02 21:10:00,onlie,43.0,36.0,9.0,41.0,YSDG10-1,8,3,0.375000
...,...,...,...,...,...,...,...,...,...,...
681068,2024-05-01 18:40:00,onlie,46.0,34.0,2.0,40.0,YSYW0107,1775,602,0.339155
681070,2024-05-01 19:50:00,onlie,43.0,32.0,0.0,38.0,YSYW0107,1777,603,0.339336
681071,2024-05-01 20:00:00,onlie,46.0,30.0,5.0,39.0,YSYW0107,1778,603,0.339145
681073,2024-05-01 21:50:00,onlie,50.0,30.5,-5.5,38.5,YSYW0107,1780,604,0.339326


In [83]:
# 저장
avail_data.to_csv("avail_data.csv", encoding='cp949', index=0)
data2.to_csv("장애내역_수정.csv", encoding='cp949', index=0)