In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 한글 문제
# matplotlit의 기본 폰트에서 한글 지원되지 않기 때문에
# matplotlib의 폰트 변경 필요
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False
path = "c:/Windows/Fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname=path).get_name()
rc('font', family=font_name)

In [3]:
# 셀 자동 펼치기
from IPython.display import display, Javascript

# 모든 출력을 펼치는 JavaScript 코드
javascript = """
IPython.OutputArea.prototype._should_scroll = function(lines) {
    return false;
}
"""

# JavaScript 코드 실행
display(Javascript(javascript))

<IPython.core.display.Javascript object>

### 월별 파일 합치기

In [None]:
# 파일 경로
file_path = "./data/2023.{}월_29개 통신정보.xlsx"

# 1월부터 9월까지의 데이터를 읽어오는 리스트 생성
dataframes = []
for month in range(1, 10):
    df = pd.read_excel(file_path.format(month))
    df['월'] = month  # '월' column 생성
    dataframes.append(df)

# 각 데이터프레임을 하나로 합치기
combined_df = pd.concat(dataframes)
combined_df = combined_df.reset_index(drop=True)

In [None]:
# 전처리 함수
def preprocessing(df):
    df['성별'].replace({1:'M', 2:'F'}, inplace=True)  # 성별 변환
    df['연령대'] = df['연령대']//10 * 10  # 10단위 연령대로 적용
#     df.drop(df[df['연령대']==70].index, inplace=True)  # 70대 index 제거
    df = df.reset_index()
    
    # 사용할 columns
    df = df[['자치구','월','성별','연령대','총인구수',
                                  # 가나다 순
                                 '게임 서비스 사용일수', '금융 서비스 사용일수','배달 서비스 사용일수','쇼핑 서비스 사용일수',
                                  # 여가관련(3개)
                                 '동영상/방송 서비스 사용일수','넷플릭스 사용일수','유튜브 사용일수']]
    return df

In [None]:
preprocessing(combined_df)

In [None]:
combined_df = preprocessing(combined_df)
combined_df.to_excel('./data/month_service_pop.xlsx')

In [None]:
# data 불러오기
data = pd.read_excel('./data/month_service_pop.xlsx', index_col=0)

In [None]:
# 각 서비스 사용일수 groupby해서 평균 구하기
month_sv = data.groupby(['자치구','연령대','성별','월'])
game = month_sv['게임 서비스 사용일수'].mean()
finance = month_sv['금융 서비스 사용일수'].mean()
delivery = month_sv['배달 서비스 사용일수'].mean()
shopping = month_sv['쇼핑 서비스 사용일수'].mean()
etc_ott = month_sv['동영상/방송 서비스 사용일수'].mean()
netflix = month_sv['넷플릭스 사용일수'].mean()
youtube = month_sv['유튜브 사용일수'].mean()
total_pop = month_sv['총인구수'].mean()

In [None]:
game.head()

In [None]:
# 데이터프레임으로 변환
game = game.to_frame().reset_index()
finance = finance.to_frame().reset_index()
delivery = delivery.to_frame().reset_index()
shopping = shopping.to_frame().reset_index()
etc_ott = etc_ott.to_frame().reset_index()
netflix = netflix.to_frame().reset_index()
youtube = youtube.to_frame().reset_index()
total_pop = total_pop.to_frame().reset_index()

In [None]:
game.head()

In [None]:
# 엑셀 파일로 출력
game.to_excel('./data/game.xlsx')
finance.to_excel('./data/finance.xlsx')
delivery.to_excel('./data/delivery.xlsx')
shopping.to_excel('./data/shopping.xlsx')
etc_ott.to_excel('./data/etc_ott.xlsx')
netflix.to_excel('./data/netflix.xlsx')
youtube.to_excel('./data/youtube.xlsx')
total_pop.to_excel('./data/total_pop.xlsx')

### 시각화
- 예시로 각 서비스별 **강남구 20대 F(여자)** 의 월별 데이터만 시각화

In [None]:
# # 게임서비스
# game = pd.read_excel('./data/game.xlsx')
# game_ex = game[(game['자치구']=='강남구') & (game['연령대']==20) & (game['성별']=='F')]
# game_ex.plot(x='월',y='게임 서비스 사용일수')
# plt.title('월별 게임 서비스 사용일수 변화', pad=15, size=15)
    
# # 금융서비스
# finance = pd.read_excel('./data/finance.xlsx')
# finance_ex = finance[(finance['자치구']=='강남구') & (finance['연령대']==20) & (finance['성별']=='F')]
# finance_ex.plot(x='월',y='금융 서비스 사용일수')
# plt.title('월별 금융 서비스 사용일수 변화', pad=15, size=15)

# # 배달서비스
# delivery = pd.read_excel('./data/delivery.xlsx')
# delivery_ex = delivery[(delivery['자치구']=='강남구') & (delivery['연령대']==20) & (delivery['성별']=='F')]
# delivery_ex.plot(x='월',y='배달 서비스 사용일수')
# plt.title('월별 배달 서비스 사용일수 변화', pad=15, size=15)

# # 쇼핑서비스
# shopping = pd.read_excel('./data/shopping.xlsx')
# shopping_ex = shopping[(shopping['자치구']=='강남구') & (shopping['연령대']==20) & (shopping['성별']=='F')]
# shopping_ex.plot(x='월',y='쇼핑 서비스 사용일수')
# plt.title('월별 쇼핑 서비스 사용일수 변화', pad=15, size=15)

# # 동영상/방송서비스
# etc_ott = pd.read_excel('./data/etc_ott.xlsx')
# etc_ott_ex = etc_ott[(etc_ott['자치구']=='강남구') & (etc_ott['연령대']==20) & (etc_ott['성별']=='F')]
# etc_ott_ex.plot(x='월',y='동영상/방송 서비스 사용일수')
# plt.title('월별 동영상/방송 서비스 사용일수 변화', pad=15, size=15)

# # 넷플릭스
# netflix = pd.read_excel('./data/netflix.xlsx')
# netflix_ex = netflix[(netflix['자치구']=='강남구') & (netflix['연령대']==20) & (netflix['성별']=='F')]
# netflix_ex.plot(x='월',y='넷플릭스 사용일수')
# plt.title('월별 넷플릭스 사용일수 변화', pad=15, size=15)

# # 유튜브
# youtube = pd.read_excel('./data/youtube.xlsx')
# youtube_ex = youtube[(youtube['자치구']=='강남구') & (youtube['연령대']==20) & (youtube['성별']=='F')]
# youtube_ex.plot(x='월',y='유튜브 사용일수')
# plt.title('월별 유튜브 사용일수 변화', pad=15, size=15)

# # 총인구수
# total_pop = pd.read_excel('./data/total_pop.xlsx')
# total_pop_ex = total_pop[(total_pop['자치구']=='강남구') & (total_pop['연령대']==20) & (total_pop['성별']=='F')]
# total_pop_ex.plot(x='월',y='총인구수')
# plt.title('월별 총인구수 변화', pad=15, size=15)

In [None]:
# import pandas as pd
# import matplotlib.pyplot as plt

# # 데이터 로드
# game = pd.read_excel('./data/game.xlsx')
# finance = pd.read_excel('./data/finance.xlsx')
# delivery = pd.read_excel('./data/delivery.xlsx')
# shopping = pd.read_excel('./data/shopping.xlsx')
# etc_ott = pd.read_excel('./data/etc_ott.xlsx')
# netflix = pd.read_excel('./data/netflix.xlsx')
# youtube = pd.read_excel('./data/youtube.xlsx')
# total_pop = pd.read_excel('./data/total_pop.xlsx')

# # 서비스 데이터프레임 리스트
# services = [
#     ('게임 서비스 사용일수', game),
#     ('금융 서비스 사용일수', finance),
#     ('배달 서비스 사용일수', delivery),
#     ('쇼핑 서비스 사용일수', shopping),
#     ('동영상/방송 서비스 사용일수', etc_ott),
#     ('넷플릭스 사용일수', netflix),
#     ('유튜브 사용일수', youtube),
#     ('총인구수', total_pop)]


# # 조건들
# districts =[
#     "강남구", "강동구", "강북구", "강서구", "관악구",
#     "광진구", "구로구", "금천구", "노원구", "도봉구",
#     "동대문구", "동작구", "마포구", "서대문구", "서초구",
#     "성동구", "성북구", "송파구", "양천구", "영등포구",
#     "용산구", "은평구", "종로구", "중구", "중랑구"]
# age_groups = [20, 30, 40, 50, 60, 70]
# genders = ['F', 'M']

# # 그래프 생성 및 저장
# for service_name, df in services:
#     for district in districts:
#         for age in age_groups:
#             for gender in genders:
#                 # 데이터 필터링
#                 filtered_df = df[(df['자치구'] == district) & (df['연령대'] == age) & (df['성별'] == gender)]
                
#                 # 데이터가 있을 경우에만 그래프 생성
#                 if not filtered_df.empty:
#                     plt.figure()
#                     filtered_df.plot(x='월', y=service_name, style='o-')
#                     plt.title(f'{district} {age}대 {gender} 월별 {service_name} 변화', pad=15, size=15)
                    
#                     # 그래프 저장
#                     plt.savefig(f'./graph/{district}_{age}대_{gender}_월별_{service_name}_변화.png')
#                     plt.close()
                

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 데이터 로드
game = pd.read_excel('./data/game.xlsx')
finance = pd.read_excel('./data/finance.xlsx')
delivery = pd.read_excel('./data/delivery.xlsx')
shopping = pd.read_excel('./data/shopping.xlsx')
etc_ott = pd.read_excel('./data/etc_ott.xlsx')
netflix = pd.read_excel('./data/netflix.xlsx')
youtube = pd.read_excel('./data/youtube.xlsx')
total_pop = pd.read_excel('./data/total_pop.xlsx')

# 서비스 데이터프레임 리스트
services = [
    ('게임 서비스 사용일수', game),
    ('금융 서비스 사용일수', finance),
    ('배달 서비스 사용일수', delivery),
    ('쇼핑 서비스 사용일수', shopping),
    ('동영상/방송 서비스 사용일수', etc_ott),
    ('넷플릭스 사용일수', netflix),
    ('유튜브 사용일수', youtube),
    ('총인구수', total_pop)]

# 25구 * 6개 연령대 * 2개 성별 * 서비스 8개 = 2,400개 그래프
# 조건들
districts = [
    "강남구", "강동구", "강북구", "강서구", "관악구",
    "광진구", "구로구", "금천구", "노원구", "도봉구",
    "동대문구", "동작구", "마포구", "서대문구", "서초구",
    "성동구", "성북구", "송파구", "양천구", "영등포구",
    "용산구", "은평구", "종로구", "중구", "중랑구"]
age_groups = [20, 30, 40, 50, 60, 70]
gender_map = {'F': '여성', 'M': '남성'}

# 그래프 생성 및 저장
for service_name, df in services:
    for district in districts:
        for age in age_groups:
            for gender_key, gender_value in gender_map.items():
                # 데이터 필터링
                filtered_df = df[(df['자치구'] == district) & (df['연령대'] == age) & (df['성별'] == gender_key)]
                
                # 데이터가 있을 경우에만 그래프 생성
                if not filtered_df.empty:
                    plt.figure()
                    filtered_df.plot(x='월', y=service_name, style='o-')
                    plt.title(f'{district} {age}대 {gender_value} 월별 {service_name} 변화', pad=15, size=15)
                    
                    # 그래프에 월별 데이터 표기
                    for x, y in zip(filtered_df['월'], filtered_df[service_name]):
                        plt.text(x, y, f'{y:.1f}', ha='center', va='bottom')
                    
                    plt.savefig(f'./graph/{district}_{age}대_{gender_value}_월별_{service_name}_변화.png')
                    plt.close()