In [17]:
# CP949 encoding의 csv 파일 불러오기
import pandas as pd

df = pd.read_csv('df_flattened_final.csv', encoding='CP949')
print(df.head())


   event_date                   event_timestamp   event_name  \
0    20241113  2024-11-13 00:06:00.541000+09:00  screen_view   
1    20241113  2024-11-13 00:06:03.707001+09:00       scroll   
2    20241113  2024-11-13 00:06:03.707002+09:00       scroll   
3    20241113  2024-11-13 00:06:03.707003+09:00       scroll   
4    20241113  2024-11-13 00:06:04.025004+09:00       scroll   

           event_previous_timestamp  event_value_in_usd  \
0  2024-11-12 23:58:23.577000+09:00                 NaN   
1  2024-11-12 23:58:26.667001+09:00                 NaN   
2  2024-11-13 00:06:03.707002+09:00                 NaN   
3  2024-11-13 00:06:03.707003+09:00                 NaN   
4  2024-11-13 00:06:03.707004+09:00                 NaN   

   event_bundle_sequence_id  event_server_timestamp_offset  user_id  \
0                       468                        1115394  39827.0   
1                       468                        1115394  39827.0   
2                       468                    

In [18]:
# prompt: df.head(1) 을 transpose해서 모든 column이 다 보이는 조건 코드

import pandas as pd

# CP949 encoding의 csv 파일 불러오기
df = pd.read_csv('df_flattened_final.csv', encoding='CP949')

# head(1)을 transpose하고 모든 column이 보이도록 설정
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
  print(df.head(1).T)


                                                                                                                                                               0
event_date                                                                                                                                              20241113
event_timestamp                                                                                                                 2024-11-13 00:06:00.541000+09:00
event_name                                                                                                                                           screen_view
event_previous_timestamp                                                                                                        2024-11-12 23:58:23.577000+09:00
event_value_in_usd                                                                                                                                           NaN
event_bundle_sequence_id          

### **GA4 데이터 컬럼 설명 **  

---

### **1. 이벤트 관련 데이터**
- `event_date`: 이벤트 발생 날짜 (YYYYMMDD)  
- `event_timestamp`: 이벤트 발생 시간 (Unix Timestamp)  
- `event_name`: 이벤트 유형 (`screen_view`, `scroll` 등)  
- `event_previous_timestamp`: 이전 이벤트 발생 시간  
- `event_value_in_usd`: 이벤트로 인한 수익 (USD 기준)  
- `event_bundle_sequence_id`: 동일 번들 내 이벤트 순서  
- `event_server_timestamp_offset`: 서버 시간 보정값  
- `time_diff` : 이벤트 발생시간 - 이전 이벤트 발생시간

---

### **2. 사용자 관련 데이터**
- `user_id`: 로그인한 사용자 ID  
- `user_pseudo_id`: 익명 사용자 ID  
- `user_first_touch_timestamp`: 사용자의 첫 방문 시점  
- `is_active_user`: 현재 세션이 활성 상태인지 여부  
- `batch_event_index`: 배치 처리된 이벤트의 인덱스  
- `batch_page_id`: 배치 처리된 페이지 ID  
- `batch_ordering_id`: 배치 처리된 주문 ID  

---

### **3. 아이템(상품) 관련 데이터**
- `items.item_id`: 상품 ID  
- `items.item_name`: 상품 이름  
- `items.item_brand`: 상품 브랜드  
- `items.item_variant`: 상품 모델 또는 변형 정보  
- `items.item_category`: 상품 카테고리  
- `items.item_category2`: 추가 상품 카테고리  
- `items.item_category3`: 추가 상품 카테고리  
- `items.item_category4`: 추가 상품 카테고리  
- `items.item_category5`: 추가 상품 카테고리  
- `items.price_in_usd`: 상품 가격 (USD)  
- `items.price`: 상품 가격 (로컬 화폐 기준)  
- `items.quantity`: 상품 구매 수량  
- `items.item_revenue_in_usd`: 상품 매출 (USD)  
- `items.item_revenue`: 상품 매출 (로컬 화폐 기준)  
- `items.item_refund_in_usd`: 상품 환불 금액 (USD)  
- `items.item_refund`: 상품 환불 금액 (로컬 화폐 기준)  
- `items.coupon`: 사용된 쿠폰 코드  
- `items.affiliation`: 제휴 정보  
- `items.location_id`: 상품 위치 ID  
- `items.item_list_id`: 상품 목록 ID  
- `items.item_list_name`: 상품 목록 이름  
- `items.item_list_index`: 상품 목록 내 인덱스  
- `items.promotion_id`: 프로모션 ID  
- `items.promotion_name`: 프로모션 이름  
- `items.creative_name`: 광고 크리에이티브 이름  
- `items.creative_slot`: 광고 크리에이티브 슬롯  
- `items.item_params`: 상품 관련 추가 파라미터  

---

### **4. 이벤트 파라미터 데이터**
- `event_params.ga_session_number`: 세션 횟수  
- `event_params.ga_session_id`: 세션 ID  
- `event_params.firebase_screen_class`: Firebase 화면 클래스  
- `event_params.firebase_event_origin`: Firebase 이벤트 출처  
- `event_params.firebase_screen_id`: Firebase 화면 ID  
- `event_params.percent_scrolled`: 사용자가 스크롤한 비율 (%)  
- `event_params.engagement_time_msec`: 참여 시간 (밀리초)  
- `event_params.entrances`: 첫 방문 여부  
- `event_params.firebase_conversion`: Firebase 전환 이벤트 여부  
- `event_params.channel`: 트래픽 채널  
- `event_params.engaged_session_event`: 참여 세션 여부  
- `event_params.message_type`: 메시지 유형  
- `event_params.firebase_previous_class`: 이전 Firebase 화면 클래스  
- `event_params.firebase_screen`: Firebase 현재 화면  
- `event_params.firebase_previous_id`: 이전 Firebase 화면 ID  
- `event_params.session_engaged`: 세션 참여 여부  
- `event_params.tab_name`: 선택한 탭 이름  
- `event_params.firebase_previous_screen`: 이전 Firebase 화면 이름  
- `event_params.style_name`: 스타일 이름  
- `event_params.click_section`: 클릭한 영역  
- `event_params.click_text`: 클릭한 텍스트  
- `event_params.search_term`: 검색어  
- `event_params.currency`: 화폐 단위  
- `event_params.platform`: 플랫폼 정보  
- `event_params.product_name`: 제품 이름  
- `event_params.button_type`: 클릭한 버튼 유형  
- `event_params.item_list_name`: 클릭한 상품 목록 이름  
- `event_params.step`: 특정 이벤트 단계 정보  
- `event_params.brand_name`: 브랜드 이름  
- `event_params.withdrawal_reason`: 사용자의 이탈 이유  
- `event_params.previous_app_version`: 이전 앱 버전  
- `event_params.previous_os_version`: 이전 OS 버전  
- `event_params.debug_event`: 디버그 이벤트 여부  
- `event_params.campaign`: 캠페인 이름  
- `event_params.source`: 유입 경로  
- `event_params.campaign_info_source`: 캠페인 정보 출처  
- `event_params.error_value`: 오류 값  
- `event_params.firebase_error`: Firebase 오류 코드  
- `event_params.dynamic_link_accept_time`: 동적 링크 수락 시간  
- `event_params.dynamic_link_link_name`: 동적 링크 이름  
- `event_params.content_title`: 콘텐츠 제목  
- `event_params.category`: 콘텐츠 카테고리  

---

### **5. 개인정보 및 광고 설정**
- `privacy_info.privacy_info.analytics_storage`: 분석 데이터 저장 허용 여부  
- `privacy_info.privacy_info.ads_storage`: 광고 데이터 저장 허용 여부  
- `privacy_info.privacy_info.uses_transient_token`: 임시 토큰 사용 여부  

---

### **6. 사용자 속성 데이터**
- `user_properties.na_face_type`: 사용자 얼굴형  
- `user_properties.na_gender`: 사용자 성별  
- `user_properties.na_body_type`: 사용자 체형  
- `user_properties.na_age`: 사용자 나이  
- `user_properties.na_shoulder`: 어깨 크기  
- `user_properties.na_bottom`: 하의 사이즈  
- `user_properties.na_thigh`: 허벅지 크기  
- `user_properties.na_middle`: 허리 크기  
- `user_properties.na_job`: 사용자 직업  
- `user_properties.na_skin_type`: 피부 타입  
- `user_properties.na_waist`: 허리 둘레  
- `user_properties.na_height`: 키  
- `user_properties.na_weight`: 몸무게  
- `user_properties.color1_with_priority`: 선호 색상 1  
- `user_properties.color2_with_priority`: 선호 색상 2  
- `user_properties.color3_with_priority`: 선호 색상 3  
- `user_properties.eot_height`: 키 범주  
- `user_properties._ltv_KRW`: 사용자의 Lifetime Value (KRW 기준)  

---

### **7. 디바이스 정보**
- `device.device.category`: 디바이스 유형 (mobile, desktop)  
- `device.device.mobile_brand_name`: 모바일 브랜드  
- `device.device.mobile_model_name`: 모바일 모델  
- `device.device.operating_system`: 운영체제  
- `device.device.operating_system_version`: OS 버전  
- `device.device.vendor_id`: 디바이스 벤더 ID  
- `device.device.advertising_id`: 광고 ID  
- `device.device.language`: 사용자 언어  
- `device.device.time_zone_offset_seconds`: 시간대 오프셋  

---

### **8. 위치 정보**
- `geo.geo.city`: 도시  
- `geo.geo.country`: 국가  
- `geo.geo.region`: 지역  
- `geo.geo.continent`: 대륙  
- `geo.geo.sub_continent`: 소대륙  

---

### **9. 앱 정보**
- `app_info.app_info.id`: 앱 패키지 ID  
- `app_info.app_info.version`: 앱 버전  
- `app_info.app_info.install_source`: 설치 경로  

---

### **10. 퍼블리셔 정보**
- `publisher.publisher`: 퍼블리셔 정보  


먼저, `df_flattened_final.csv` 파일을 확인하여 데이터의 구조와 내용을 분석한 후, 비즈니스 분석 관점에서 어떤 인사이트를 도출할 수 있을지 가이드를 제공할게. 파일을 로드하고 데이터의 주요 특성을 살펴볼게.

### **데이터 개요 및 분석 가이드라인**

#### **1. 데이터 구조 및 특성**
- **총 1440개의 행, 212개의 컬럼**
- **컬럼 타입**
  - `float64 (63개)`, `int64 (10개)`, `object (138개)`, `bool (1개)`
- **주요 컬럼**
  - **시간 관련 데이터**: `event_date`, `event_timestamp`, `event_previous_timestamp`, `user_first_touch_timestamp`
  - **이벤트 관련 데이터**: `event_name`, `event_value_in_usd`, `event_bundle_sequence_id`
  - **유저 관련 데이터**: `user_id`, `user_pseudo_id`
  - **세션 관련 데이터**: `session_traffic_source_last_click`, `publisher`, `time_diff`

---

### **2. 비즈니스 분석 방향**
이 데이터는 **사용자 행동 분석(User Behavior Analytics)** 및 **마케팅 효과 분석**을 수행하는 데 적합해 보임. 이를 기반으로 다음과 같은 분석을 수행할 수 있음.

#### **① 사용자 행동 분석**
> **목표:** 사용자의 웹사이트 및 앱 내 활동 패턴을 파악하고, 핵심 사용자 흐름(Funnel)을 분석.

- **방문 패턴 분석**  
  - `event_name`을 기반으로 사용자의 행동(스크롤, 페이지뷰, 클릭 등)이 어떤 패턴을 가지는지 분석.
  - 특정 이벤트(예: `conversion` 또는 `purchase`)를 중심으로 이전 행동 흐름을 추적.

- **세션 분석**  
  - `time_diff`를 활용하여 평균 세션 길이 측정.
  - `user_id`를 기준으로 세션당 이벤트 개수 및 평균 체류 시간 분석.
  - `user_first_touch_timestamp`을 이용해 신규/재방문 사용자 비율 비교.

- **코호트 분석 (Cohort Analysis)**  
  - `user_first_touch_timestamp`을 기준으로 가입 시점을 정리하여, 특정 기간 동안의 유지율 분석.

#### **② 마케팅 효과 분석**
> **목표:** 유입 경로별 전환율(Conversion Rate) 및 광고 효과 분석.

- **유입 채널 분석**  
  - `session_traffic_source_last_click` 데이터를 활용하여 주요 유입 경로(Organic, Paid, Referral 등) 분석.
  - 유입 경로별 전환율을 계산하여 가장 효과적인 채널 파악.

- **광고 캠페인 성과 분석**  
  - `cm360_campaign.*` 관련 데이터를 활용하여 각 광고 캠페인의 성과 측정.
  - `placement_id` 및 `placement_name`을 활용해 광고 소재별 성과 비교.

- **구매 이벤트 분석 (Conversion Analysis)**  
  - `event_value_in_usd`를 활용해 이벤트별 매출 기여도 분석.
  - 특정 유입 경로에서 `event_name = purchase`까지 이어지는 전환율 분석.

#### **③ 사용자 세그멘테이션 (User Segmentation)**
> **목표:** Notion 사용자 유형을 구분하고 맞춤형 전략을 세우기.

- **사용자 그룹 분류**
  - `user_id`, `event_name`, `event_timestamp` 등을 활용해 사용자의 주요 활동을 기준으로 그룹화.
  - 예: 활성 사용자(Active Users) vs. 휴면 사용자(Churned Users) 구분.

- **고객 평생 가치 분석 (Customer Lifetime Value, CLV)**
  - `event_value_in_usd` 및 `user_id`별 총 매출을 기반으로 LTV 예측.

---

### **3. 분석 방법론 및 도구 추천**
#### **① 기본 분석**
- **Python을 활용한 데이터 탐색 (Pandas, Matplotlib, Seaborn)**
- **SQL 활용 (BigQuery, Snowflake 등)**: 대용량 데이터 분석 시 필요

#### **② 심화 분석**
- **세그멘테이션 & 머신러닝 모델**
  - K-Means Clustering을 사용하여 유저 그룹화
  - Random Forest를 활용한 전환 예측 모델링
- **마케팅 효과 분석**
  - GA4 데이터와 결합하여 A/B 테스트 및 다중 터치포인트 분석 (Attribution Modeling)

---

### **4. 분석 우선순위 및 로드맵**
| 단계 | 분석 목표 | 주요 지표 | 예상 결과 |
|------|---------|----------|-----------|
| **1주차** | 데이터 정리 및 탐색 | NULL 값, 이상치 처리 | 데이터 클리닝 완료 |
| **2주차** | 사용자 행동 분석 | 세션 길이, 이벤트 흐름 | 사용자 페르소나 도출 |
| **3주차** | 전환 분석 | 전환율, 주요 이벤트 | 퍼널 분석 결과 |
| **4주차** | 마케팅 효과 분석 | 광고 성과, 유입 경로별 성과 | 광고 최적화 전략 |
| **5주차** | 사용자 세그멘테이션 | CLV, LTV | 타겟 고객 세그먼트 도출 |

---

### **결론**
- **사용자 행동 데이터와 마케팅 데이터를 결합하여 Notion의 고객 여정을 분석**하면, 전환율 최적화와 광고 예산 최적화가 가능할 것으로 보임.
- **우선순위:** 사용자 행동 분석 → 전환율 분석 → 마케팅 성과 분석 → 사용자 세그멘테이션


In [19]:
# 기술 통계 분석 및 NULL 값이 모두 포함된 컬럼 찾기

# NULL 값이 있는 컬럼 확인
null_counts = df.isnull().sum()

# 모든 값이 NULL인 컬럼 찾기
null_columns = null_counts[null_counts == df.shape[0]].index.tolist()

# 기술 통계 확인 (수치형 데이터만)
numeric_summary = df.describe()

# 기술 통계 확인 (범주형 데이터 요약)
categorical_summary = df.describe(include=["object"])

# NULL 값만 포함된 컬럼 리스트와 기술 통계 출력
print(f"Null 값이 있는 컬럼:\n{null_counts}\n\n\n")
print(f"모든 값이 Null인 컬럼:\n{null_columns}\n\n\n")
print(f"수치형 기술통계:\n{numeric_summary}\n\n\n")
print(f"범주형 기술통계:\n{categorical_summary}")


Null 값이 있는 컬럼:
event_date                                                                                         0
event_timestamp                                                                                    0
event_name                                                                                         0
event_previous_timestamp                                                                         139
event_value_in_usd                                                                              1440
                                                                                                ... 
session_traffic_source_last_click.session_traffic_source_last_click.cm360_campaign.site_id         0
session_traffic_source_last_click.session_traffic_source_last_click.cm360_campaign.site_name       0
session_traffic_source_last_click.session_traffic_source_last_click.dv360_campaign              1440
publisher.publisher                                                         

In [21]:
# prompt: null_columns의 개수

print(f"Number of columns with only null values: {len(null_columns)}")


Number of columns with only null values: 40


In [23]:
null_columns

['event_value_in_usd',
 'batch_page_id',
 'batch_ordering_id',
 'items.item_revenue_in_usd',
 'items.item_revenue',
 'items.item_refund_in_usd',
 'items.item_refund',
 'user_ltv.user_ltv',
 'device.device.advertising_id',
 'device.device.browser',
 'device.device.browser_version',
 'device.device.web_info',
 'app_info.app_info.install_store',
 'traffic_source.traffic_source',
 'event_dimensions.event_dimensions',
 'ecommerce.ecommerce',
 'ecommerce.ecommerce.purchase_revenue_in_usd',
 'ecommerce.ecommerce.purchase_revenue',
 'ecommerce.ecommerce.refund_value_in_usd',
 'ecommerce.ecommerce.refund_value',
 'ecommerce.ecommerce.shipping_value_in_usd',
 'ecommerce.ecommerce.shipping_value',
 'ecommerce.ecommerce.tax_value_in_usd',
 'ecommerce.ecommerce.tax_value',
 'collected_traffic_source.collected_traffic_source',
 'collected_traffic_source.collected_traffic_source.manual_campaign_id',
 'collected_traffic_source.collected_traffic_source.manual_medium',
 'collected_traffic_source.collect

### **기술 통계 분석 결과**
#### **1. NULL 값만 포함된 컬럼 (제거 대상)**
총 **40개의 컬럼**이 모든 값이 NULL로 채워져 있음.  
해당 컬럼은 분석에 필요 없으므로 제거하는 것이 적절함.

**특이사항은, revenue가 null이란 것. 즉, 해당 데이터는 매출 발생이 의도되지 않았거나, 매출발생이 실패했단 것을 의미함.**

- **이벤트 및 사용자 관련**  
  - `event_value_in_usd`
  - `batch_page_id`, `batch_ordering_id`
  - `items.item_revenue_in_usd`, `items.item_revenue`
  - `items.item_refund_in_usd`, `items.item_refund`
  - `user_ltv.user_ltv`
  - `device.device.advertising_id`
  - `device.device.browser`, `device.device.browser_version`, `device.device.web_info`

- **앱 및 트래픽 소스 관련**  
  - `app_info.app_info.install_store`
  - `traffic_source.traffic_source`
  - `event_dimensions.event_dimensions`
  - `ecommerce.ecommerce`, `ecommerce.ecommerce.purchase_revenue_in_usd`, `ecommerce.ecommerce.purchase_revenue`
  - `ecommerce.ecommerce.refund_value_in_usd`, `ecommerce.ecommerce.refund_value`
  - `ecommerce.ecommerce.shipping_value_in_usd`, `ecommerce.ecommerce.shipping_value`
  - `ecommerce.ecommerce.tax_value_in_usd`, `ecommerce.ecommerce.tax_value`
  - `collected_traffic_source.collected_traffic_source.* (8개 컬럼)`
  - `session_traffic_source_last_click.session_traffic_source_last_click.google_ads_campaign`
  - `session_traffic_source_last_click.session_traffic_source_last_click.cross_channel_campaign.campaign_id`
  - `session_traffic_source_last_click.session_traffic_source_last_click.sa360_campaign`
  - `session_traffic_source_last_click.session_traffic_source_last_click.dv360_campaign`
  - `publisher.publisher`



In [24]:

# NULL 값만 포함된 컬럼 제거
df_cleaned = df.drop(columns=null_columns)

In [25]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1440 entries, 0 to 1439
Columns: 172 entries, event_date to time_diff
dtypes: bool(1), float64(23), int64(10), object(138)
memory usage: 1.9+ MB


###사용자 행동 분석을 위한 탐색적 데이터 분석(EDA)을 수행
####*주요 분석 방향*

1. 이벤트별 발생 빈도 분석 (event_name 기준)
2. 사용자별 행동 및 체류 시간 분석 (user_id, user_pseudo_id, time_diff 활용)
3. 유입 채널 분석 (session_traffic_source_last_click 관련 데이터)
4. 코호트 분석 (user_first_touch_timestamp 기반)

In [26]:
# 이벤트별 발생 빈도 계산 (전체)
event_counts = df_cleaned['event_name'].value_counts()

# 상위 10개 이벤트만 출력
event_counts_top10 = event_counts.head(10)

# 상위 10개 이벤트 데이터를 데이터프레임으로 변환
event_counts_top10_df = event_counts_top10.reset_index()
event_counts_top10_df.columns = ['event_name', 'count']



In [27]:
print(event_counts_top10_df)

              event_name  count
0            screen_view    500
1        user_engagement    386
2     sign_up_step_click    127
3                 scroll    100
4  style_recommend_click     66
5          session_start     41
6          fnb_tab_click     38
7     main_content_click     37
8        eot_start_click     25
9       style_type_click     21


In [32]:
# 1) user_id 유무에 따른 그룹 나누기
df_cleaned['user_group'] = df_cleaned['user_id'].apply(lambda x: 'registered' if pd.notnull(x) else 'guest')

# 2) user_pseudo_id를 기준으로 그룹화하여 행동 흐름 분석
user_event_sequence = df_cleaned.groupby(['user_group', 'user_pseudo_id'])['event_name'].apply(list).reset_index()

# 3) event 간의 소요 시간(time_diff) 분석
df_cleaned['time_diff_seconds'] = pd.to_timedelta(df_cleaned['time_diff']).dt.total_seconds()

# user_pseudo_id별 평균 이벤트 간 소요 시간 계산
user_time_analysis = df_cleaned.groupby(['user_group', 'user_pseudo_id'])['time_diff_seconds'].mean().reset_index()


In [33]:
print(f'유저행동분석:{user_event_sequence}\n\n\n')
print(f'시간분석:{user_time_analysis}')

유저행동분석:     user_group                    user_pseudo_id  \
0         guest  00378b72b7a38e0a11cd14fc26a6a762   
1         guest  048AD36251DA482C9E82C8EF24842AA2   
2         guest  0B8F194B8A5E409AA74C4EA7B879F493   
3         guest  0E7F01E5F9264849BA869F8E902473A0   
4         guest  12813D789587429785C883D2384E5EDE   
..          ...                               ...   
106  registered  b6cb139e9d4d4301afaa6706182c8c61   
107  registered  ba7708d74e9cf97dbe428d79dcb7404a   
108  registered  baeb24c0b5e6818b5f87cf5e95d654af   
109  registered  e1c1ec34d5378fd2533e3fc71b01ca60   
110  registered  f5ece5e70f630a706e71ca58134ebfdf   

                                                                                                                                                                                                                                                                                                                                                                    

###분석 결과
1. 사용자 그룹화

* registered (로그인한 사용자) 28명
* guest (비로그인 사용자) 83명
→ 이 두 그룹으로 나누어 행동 패턴을 분석.

2. 행동 흐름 (User Behavior Flow)

* user_pseudo_id를 기준으로 각 사용자의 이벤트 시퀀스를 정리.
* 특정 사용자들이 어떤 이벤트 흐름을 따르는지 확인 가능.
* 이를 통해 대표적인 사용자 행동 패턴을 도출할 수 있음.
* 이벤트 간 평균 소요 시간 (Time Diff Analysis)

3. time_diff_seconds 변수 활용.
* user_pseudo_id별 평균 이벤트 간 소요 시간을 계산.
* 일부 사용자는 이벤트 간 시간이 길고, 일부는 짧은 패턴을 보임.

In [34]:
# prompt: user_event_sequence를 csv파일로 출력

user_event_sequence.to_csv('user_event_sequence.csv', index=False, encoding='utf-8-sig')
