In [109]:
# 가중치 적용
# 월별 raw data에서 300가지 경우의 수에 대해(자치구, 성별, 연령대)
# 금융 서비스 월별 사용일수 => 월 전체 평균으로 각 월별 사용일수를 나눈다. => 가중치 생성
# 자치구, 성별, 연령대, 월을 선택했을 때, 가중치에 따라 같은 자치구, 성별, 연령대이더라도 월별로 다른 추천이 생성될 수 있음

In [110]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [111]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [112]:
# 한글 문제
# matplotlit의 기본 폰트에서 한글 지원되지 않기 때문에
# matplotlib의 폰트 변경 필요
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False
path = "c:/Windows/Fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname=path).get_name()
rc('font', family=font_name)

In [113]:
# 파일 경로
file_path = "./data/2023.{}월_29개 통신정보.xlsx"

# 1월부터 9월까지의 데이터를 읽어오는 리스트 생성
dataframes = []
for month in range(1, 10):
    df = pd.read_excel(file_path.format(month))
    df['월'] = month  # '월' column 생성
    dataframes.append(df)

# 각 데이터프레임을 하나로 합치기
combined_df = pd.concat(dataframes)
combined_df = combined_df.reset_index(drop=True)

In [114]:
# 전처리 함수
def preprocessing(df):
    df['성별'].replace({1:'M', 2:'F'}, inplace=True)  # 성별 변환
    df['연령대'] = df['연령대']//10 * 10  # 10단위 연령대로 적용
#     df.drop(df[df['연령대']==70].index, inplace=True)  # 70대 index 제거
    df = df.reset_index()

    # 사용할 columns
    df = df[['자치구','월','성별','연령대','총인구수',
                                  # 가나다 순
                                 '게임 서비스 사용일수', '금융 서비스 사용일수','배달 서비스 사용일수','쇼핑 서비스 사용일수',
                                  # 여가관련(3개)
                                 '동영상/방송 서비스 사용일수','넷플릭스 사용일수','유튜브 사용일수']]
    return df

In [115]:
preprocessing(combined_df)

Unnamed: 0,자치구,월,성별,연령대,총인구수,게임 서비스 사용일수,금융 서비스 사용일수,배달 서비스 사용일수,쇼핑 서비스 사용일수,동영상/방송 서비스 사용일수,넷플릭스 사용일수,유튜브 사용일수
0,종로구,1,M,20,221.44,69.81,81.09,12.60,83.08,30.60,-0.08,0.26
1,종로구,1,M,20,321.00,72.64,113.63,18.46,151.29,31.67,-0.08,0.27
2,종로구,1,M,30,349.00,59.81,133.88,19.83,174.28,33.28,-0.08,0.12
3,종로구,1,M,30,353.00,58.60,133.99,19.23,177.48,33.21,-0.14,0.05
4,종로구,1,M,40,420.00,55.35,136.57,16.22,171.28,32.63,-0.18,0.01
...,...,...,...,...,...,...,...,...,...,...,...,...
91579,강동구,9,F,50,2325.00,40.50,84.88,11.44,135.39,22.82,-0.54,-0.14
91580,강동구,9,F,60,1646.00,38.92,59.13,10.42,96.59,20.32,-0.61,-0.15
91581,강동구,9,F,60,1122.00,37.71,48.08,7.50,78.19,17.37,-0.62,-0.18
91582,강동구,9,F,70,840.73,31.99,30.39,8.75,47.82,13.78,-0.64,-0.26


In [43]:
month = preprocessing(combined_df)
month = month.groupby(['자치구', '성별', '월', '연령대'])['총인구수', '게임 서비스 사용일수', '금융 서비스 사용일수','배달 서비스 사용일수','쇼핑 서비스 사용일수', '동영상/방송 서비스 사용일수','넷플릭스 사용일수','유튜브 사용일수'].sum()
month = month.reset_index()
month = month.sort_values(by=['자치구', '성별', '연령대', '월'])
month.to_excel('./by_month.xlsx')

  month = month.groupby(['자치구', '성별', '월', '연령대'])['총인구수', '게임 서비스 사용일수', '금융 서비스 사용일수','배달 서비스 사용일수','쇼핑 서비스 사용일수', '동영상/방송 서비스 사용일수','넷플릭스 사용일수','유튜브 사용일수'].sum()


In [92]:
month = pd.read_excel('./by_month.xlsx')

In [91]:
weight = pd.DataFrame()

month = month[['자치구','성별','연령대','월',
                                  # 가나다 순
                                 '게임 서비스 사용일수', '금융 서비스 사용일수','배달 서비스 사용일수','쇼핑 서비스 사용일수',
                                  # 여가관련(3개)
                                 '동영상/방송 서비스 사용일수','넷플릭스 사용일수','유튜브 사용일수']]

for i in range(300):
    case = month.iloc[0 + 9*i :9 + 9*i]
    region = case.loc[9*i, '자치구']
    sex = case.loc[9*i, '성별']
    age = case.loc[9*i, '연령대']
    
    # 각 서비스 컬럼에 가중치 적용
    game = case['게임 서비스 사용일수']
    game_sum = game.mean()
    case['게임 서비스 사용일수'] = game / game_sum
    
    finance = case['금융 서비스 사용일수']
    finance_sum = finance.mean()
    case['금융 서비스 사용일수'] = finance / finance_sum
    
    delivery = case['배달 서비스 사용일수']
    delivery_sum = delivery.mean()
    case['배달 서비스 사용일수'] = delivery / delivery_sum
    
    shopping = case['쇼핑 서비스 사용일수']
    shopping_sum = shopping.mean()
    case['쇼핑 서비스 사용일수'] = shopping / shopping_sum
    
    video = case['동영상/방송 서비스 사용일수']
    video_sum = video.mean()
    case['동영상/방송 서비스 사용일수'] = video / video_sum
    
    netflix = case['넷플릭스 사용일수']
    netflix_sum = netflix.mean()
    case['넷플릭스 사용일수'] = netflix / netflix_sum
    
    youtube = case['유튜브 사용일수']
    youtube_sum = youtube.mean()
    case['유튜브 사용일수'] = youtube / youtube_sum

    weight = pd.concat([weight, case])
    
    # case.to_excel(f'./weight/{region}_{sex}_{age}_월별_서비스.xlsx')
# weight.to_excel('./weight/01_월별_서비스_가중치.xlsx')
weight

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case['게임 서비스 사용일수'] = game / game_sum
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case['금융 서비스 사용일수'] = finance / finance_sum
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  case['배달 서비스 사용일수'] = delivery / delivery_sum
A value is trying to be set on a copy of a slice from a DataFrame.
Try using 

Unnamed: 0,자치구,성별,연령대,월,게임 서비스 사용일수,금융 서비스 사용일수,배달 서비스 사용일수,쇼핑 서비스 사용일수,동영상/방송 서비스 사용일수,넷플릭스 사용일수,유튜브 사용일수
0,강남구,F,20,1,0.983431,0.847129,0.953657,0.916877,0.688411,0.566225,1.016611
1,강남구,F,20,2,0.935434,0.805586,0.916714,0.865927,0.640251,0.572185,1.034200
2,강남구,F,20,3,0.960575,0.844267,0.944625,0.896904,0.674200,0.336755,0.981434
3,강남구,F,20,4,0.984004,0.909118,1.020241,0.937418,0.914344,0.485762,0.999023
4,강남구,F,20,5,1.054522,1.031959,1.122909,1.048639,1.206475,0.610927,1.023647
...,...,...,...,...,...,...,...,...,...,...,...
2695,중랑구,M,70,5,1.044831,0.988514,1.142412,0.960099,1.114192,0.993466,1.000095
2696,중랑구,M,70,6,1.034955,1.012365,0.889992,1.093252,1.015371,1.003106,1.002648
2697,중랑구,M,70,7,1.038954,1.067741,1.042309,1.162081,1.039975,1.002624,0.999243
2698,중랑구,M,70,8,1.000237,1.089633,0.986195,1.157368,1.109267,1.002624,0.997541


In [106]:
data = pd.read_excel('./region_age_sex_month_services.xlsx')
data

Unnamed: 0.1,Unnamed: 0,자치구,연령대,성별,월,게임 서비스 사용일수,금융 서비스 사용일수,배달 서비스 사용일수,쇼핑 서비스 사용일수,동영상/방송 서비스 사용일수,넷플릭스 사용일수,유튜브 사용일수
0,0,강남구,20,F,1,-0.622545,0.147355,0.656832,0.277327,0.145569,0.817553,0.979137
1,1,강남구,20,F,2,-0.592161,0.140129,0.631388,0.261917,0.135385,0.826159,0.996077
2,2,강남구,20,F,3,-0.608076,0.146857,0.650612,0.271286,0.142564,0.486229,0.945257
3,3,강남구,20,F,4,-0.622907,0.158137,0.702692,0.283541,0.193343,0.701375,0.962197
4,4,강남구,20,F,5,-0.667548,0.179505,0.773405,0.317181,0.255116,0.882097,0.985913
...,...,...,...,...,...,...,...,...,...,...,...,...
2695,2695,중랑구,70,M,5,-1.074782,-1.527896,-0.469623,-1.530503,-1.566405,-1.320178,-1.609804
2696,2696,중랑구,70,M,6,-1.064623,-1.564761,-0.365858,-1.742764,-1.427475,-1.332989,-1.613914
2697,2697,중랑구,70,M,7,-1.068737,-1.650352,-0.428472,-1.852485,-1.462066,-1.332348,-1.608434
2698,2698,중랑구,70,M,8,-1.028909,-1.684190,-0.405405,-1.844972,-1.559480,-1.332348,-1.605694


In [108]:
service_columns = ['게임 서비스 사용일수', '금융 서비스 사용일수', '쇼핑 서비스 사용일수',
                   '동영상/방송 서비스 사용일수', '유튜브 사용일수', '넷플릭스 사용일수',
                   '배달 서비스 사용일수']

df = pd.DataFrame()

df['자치구'] = data['자치구']
df['연령대'] = data['연령대']
df['성별'] = data['성별']
df['월'] = data['월']
df['1'] = 'service 1'
df['2'] = 'service 2'
df['3'] = 'service 3'
df['4'] = 'service 4'
df['5'] = 'service 5'
df['6'] = 'service 6'
df['7'] = 'service 7'

for i in range(2700):
    row = data.loc[[i]]
    priority = []
    for col in service_columns:
        priority.append([float(row[col]), col])
    priority = pd.DataFrame(priority)
    priority = priority.sort_values(by = 0, ascending=False)
    priority = priority.reset_index(drop=True)
    
    df.loc[i, '1'] = priority.loc[0][1][:-5]
    df.loc[i, '2'] = priority.loc[1][1][:-5]
    df.loc[i, '3'] = priority.loc[2][1][:-5]
    df.loc[i, '4'] = priority.loc[3][1][:-5]
    df.loc[i, '5'] = priority.loc[4][1][:-5]
    df.loc[i, '6'] = priority.loc[5][1][:-5]
    df.loc[i, '7'] = priority.loc[6][1][:-5]

df.to_excel('./zvalue_month.xlsx')