# 05_content_categorization.ipynb
**Author: Hoang Ngoc Anh**

This notebook classifies each social media post into key content pillars:
- **Storytelling**: Brand stories, emotional sharing
- **Promotion**: Discounts, promotions, mini-games
- **UGC & Testimonial**: User-generated content, customer feedback
- **Cultural Relevance**: Holidays, cultural or local events

In [None]:
import pandas as pd

# Load crawled data (adjust path if needed)
df = pd.read_csv('data/facebook_data.csv')

# Define content categories and keywords
categories = {
    "Storytelling": ["hành trình", "câu chuyện", "cảm xúc", "truyền cảm hứng", "kỷ niệm"],
    "Promotion": ["giảm giá", "khuyến mãi", "ưu đãi", "giveaway", "minigame", "trúng thưởng"],
    "UGC & Testimonial": ["khách hàng nói", "review", "đánh giá", "cảm nhận", "người dùng"],
    "Cultural Relevance": ["tết", "giáng sinh", "valentine", "trung thu", "ngày lễ", "quốc tế"]
}

# Classification function
def classify_content(text):
    for category, keywords in categories.items():
        for keyword in keywords:
            if pd.notna(text) and keyword.lower() in text.lower():
                return category
    return "Others"

# Apply classification
df['content_category'] = df['text'].apply(classify_content)

# Save the result
df.to_csv('data/facebook_categorized.csv', index=False)
df[['brand', 'time', 'text', 'content_category']].head()