### 데이터 수집 및 전처리

In [132]:
# 라이브러리

import os
import pandas as pd

#### 1. 접속 경로 데이터 불러오기

In [135]:
# 설명 : 날짜별로 어떤 도메인으로 얼마나 접속했는지에 대한 데이터

access_df = pd.read_excel('./data/funnels/access_path.xlsx')
access_df.columns = ['date', 'domain', 'access_count']
access_df['date'] = pd.to_datetime(access_df['date'])
access_df.head(3)

Unnamed: 0,date,domain,access_count
0,2024-10-15,massivedu.co.kr,26
1,2024-10-15,search.naver.com,11
2,2024-10-15,m.search.naver.com,9


#### 2. 방문 페이지 데이터 불러오기

In [136]:
# 설명 : 날짜별로 각 페이지에 접근한 데이터

merged_data = []

# 경로 설정
page_path = './data/page'

# 월별 폴더(폴더명이 'm'로 시작하는 경우만 필터링)
month_folders = [folder for folder in os.listdir(page_path) if folder.startswith('m')]

for month_folder in month_folders:
    month_path = os.path.join(page_path, month_folder)

    # 월별 폴더의 파일 불러오기
    for file in os.listdir(month_path):
        if file.endswith('.csv'):
           
            file_path = os.path.join(month_path, file)
            df = pd.read_csv(file_path)

            # 날짜 컬럼을 파일명의 날짜로 사용
            date = file[5:].replace('.csv', '').replace('_', '-')
            df['date'] = date

            merged_data.append(df)

# 모든 데이터를 하나의 데이터프레임으로 병합
page_df = pd.concat(merged_data, ignore_index=True)

# 변수명 정리(영문전환), 사용하지 않는 컬럼 처리
page_df.columns= ['page_name', 'url', 'page_views', 'date']
page_df = page_df[['date', 'page_name', 'page_views']]
page_df['date'] = pd.to_datetime(page_df['date'], errors='coerce')
page_df.head(3)

Unnamed: 0,date,page_name,page_views
0,2024-07-28,HOMEold202408,50
1,2024-07-28,경복궁 - 7/19 오픈,34
2,2024-07-28,중계점,21


#### 3. 방문자 데이터 불러오기

In [128]:
# 설명 : 날짜별로 방문자, 페이지를 본 데이터

# 경로 설정
visitor_path = './data/visitor'

# 방문자 파일 목록 가져오기 (엑셀 파일만 필터)
visitor_files = [file for file in os.listdir(visitor_path) if file.endswith('.xlsx')]

merged_visitor_data = []  # 데이터프레임 리스트

# 각 파일 순회하며 읽기
for file in visitor_files:
    file_path = os.path.join(visitor_path, file)  # 파일 경로 설정
    df = pd.read_excel(file_path)  # 엑셀 파일 읽기

    merged_visitor_data.append(df)  # 리스트에 추가

# 모든 데이터를 하나의 DataFrame으로 병합
visitor_df = pd.concat(merged_visitor_data, ignore_index=True)

# 변수명 정리(영문전환), 사용하지 않는 컬럼 처리
visitor_df = visitor_df[['일자', '페이지뷰', '방문자']]
visitor_df.columns = ['date', 'view', 'visitor']
visitor_df['date'] = pd.to_datetime(visitor_df['date'])
visitor_df.head(3)

Unnamed: 0,date,view,visitor
0,2023-11-01,332,52
1,2023-11-02,164,31
2,2023-11-03,208,27
