# 데이터 분석 기초 (Data Analysis Basics)

**수업 시간**: 3시간  
**구성**: 강의 및 실습 2시간 + 퀴즈 1시간  
**수준**: 중급  
**선수 학습**: 변수, 데이터 타입, 리스트, 딕셔너리, 반복문, 함수

---

## 🎯 학습 목표

이 수업을 마친 후 학생들은 다음을 할 수 있습니다:

- 데이터에서 기본 통계량(Basic Statistics)을 계산하기
- 조건에 따라 데이터를 필터링(Filtering)하고 분석하기
- 데이터를 그룹화(Grouping)하여 패턴 찾기
- 실제 웹 데이터를 활용한 데이터 분석 프로그램 구축하기

---

## 📊 1. 데이터 분석이란 무엇인가?

**데이터 분석(Data Analysis)**은 숫자와 정보에서 의미 있는 패턴과 답을 찾는 과정입니다. 마치 탐정이 단서를 모아 사건을 해결하는 것과 같습니다.

### 실생활 비유
데이터 분석은 온라인 쇼핑몰에서 상품 리뷰를 보고 구매 결정을 내리는 것과 같습니다:

```
상품 리뷰 분석:
- 평균 별점은 몇 점인가?
- 가장 높은 평점과 낮은 평점은?
- 5점을 준 고객은 몇 명인가?
- 어떤 키워드가 자주 언급되나?

파이썬 데이터 분석:
ratings = [4, 5, 3, 5, 4, 4, 5, 3]
average = sum(ratings) / len(ratings)  # 평균 계산
```

### 왜 데이터 분석을 사용하나요?

#### 데이터 분석 없이 (비효율적)

In [None]:
# 온라인 쇼핑몰 상품 평점 - 복잡한 방법
product1_rating = 4
product2_rating = 5
product3_rating = 3
product4_rating = 5

# 일일이 계산해야 함
print("첫 번째 리뷰:", product1_rating)
print("두 번째 리뷰:", product2_rating)
# ... 반복 작업
total = product1_rating + product2_rating + product3_rating + product4_rating
print("평균:", total / 4)

#### 데이터 분석 사용 (효율적)

In [None]:
# 온라인 쇼핑몰 상품 평점 - 체계적인 방법
ratings = [4, 5, 3, 5, 4, 4, 5, 3]

# 한 번에 분석 가능
total = sum(ratings)
count = len(ratings)
average = total / count

print(f"총 리뷰 수: {count}개")
print(f"평균 평점: {average:.1f}점")
print(f"최고 평점: {max(ratings)}점")
print(f"최저 평점: {min(ratings)}점")

### 데이터 분석 특징
- **객관성**: 숫자에 기반한 객관적 판단
- **효율성**: 대량의 데이터를 빠르게 처리
- **통찰력**: 숨겨진 패턴과 트렌드 발견
- **예측 가능**: 과거 데이터로 미래 예측

---

## 📈 2. 기본 통계량 계산

**기본 통계량(Basic Statistics)**은 데이터의 전반적인 특성을 이해하기 위한 핵심 수치들입니다.

### 핵심 통계량들

#### 합계(Sum)와 개수(Count)

In [None]:
# 유튜브 동영상 조회수 데이터
video_views = [15000, 23000, 8500, 45000, 12000, 31000, 18000, 9000]

# 기본 정보
total_views = sum(video_views)
video_count = len(video_views)

print(f"총 조회수: {total_views:,}회")
print(f"동영상 수: {video_count}개")

#### 평균(Average)

In [None]:
# 평균 계산
average_views = total_views / video_count
print(f"평균 조회수: {average_views:,.0f}회")

# 또는 더 간단하게
def calculate_average(numbers):
    if len(numbers) == 0:
        return 0
    return sum(numbers) / len(numbers)

avg = calculate_average(video_views)
print(f"동영상 평균 조회수: {avg:,.0f}회")

#### 최댓값(Maximum)과 최솟값(Minimum)

In [None]:
video_views = [15000, 23000, 8500, 45000, 12000, 31000, 18000, 9000]

highest_views = max(video_views)
lowest_views = min(video_views)

print(f"최고 조회수: {highest_views:,}회")
print(f"최저 조회수: {lowest_views:,}회")
print(f"조회수 범위: {highest_views - lowest_views:,}회")

### 종합 통계 함수

In [None]:
def analyze_data(data_list, data_name="데이터"):
    """데이터 리스트를 받아서 종합 통계를 계산하는 함수"""
    if len(data_list) == 0:
        return "데이터가 없습니다"
    
    total = sum(data_list)
    count = len(data_list)
    average = total / count
    
    stats = {
        '데이터명': data_name,
        '개수': count,
        '총합': total,
        '평균': round(average, 1),
        '최댓값': max(data_list),
        '최솟값': min(data_list),
        '범위': max(data_list) - min(data_list)
    }
    
    return stats

# 다양한 웹 데이터 분석
youtube_views = [15000, 23000, 8500, 45000, 12000, 31000, 18000, 9000]
blog_comments = [25, 43, 12, 67, 34, 21, 55, 38]

video_stats = analyze_data(youtube_views, "유튜브 조회수")
comment_stats = analyze_data(blog_comments, "블로그 댓글수")

print("=== 웹 데이터 분석 결과 ===")
for data_stats in [video_stats, comment_stats]:
    print(f"\n{data_stats['데이터명']}:")
    print(f"  개수: {data_stats['개수']}개")
    print(f"  평균: {data_stats['평균']}")
    print(f"  최댓값: {data_stats['최댓값']}")
    print(f"  최솟값: {data_stats['최솟값']}")

### 실용적인 통계 예시들

#### 예시 1: 온라인 쇼핑몰 판매 분석

In [None]:
# 온라인 쇼핑몰 일별 판매 데이터
daily_sales = {
    '전자제품': [150, 230, 180, 290, 220, 200, 250],
    '의류': [320, 280, 350, 410, 300, 380, 340],
    '생활용품': [180, 190, 160, 210, 170, 200, 185],
    '도서': [45, 52, 38, 67, 41, 49, 56]
}

print("=== 온라인 쇼핑몰 카테고리별 판매 분석 ===")
for category, sales in daily_sales.items():
    stats = analyze_data(sales, category)
    print(f"\n{category}:")
    print(f"  평균 판매량: {stats['평균']}개")
    print(f"  최고 판매량: {stats['최댓값']}개")
    print(f"  주간 총 판매량: {stats['총합']}개")

#### 예시 2: 배달 앱 주문 분석

In [None]:
# 배달 앱 시간대별 주문 건수
hourly_orders = [12, 8, 5, 3, 2, 4, 15, 25, 18, 22, 35, 68, 
                95, 85, 45, 38, 42, 67, 89, 76, 52, 34, 25, 18]
hours = [f"{i}시" for i in range(24)]

total_orders = sum(hourly_orders)
avg_orders = total_orders / len(hourly_orders)
peak_hour_idx = hourly_orders.index(max(hourly_orders))
quiet_hour_idx = hourly_orders.index(min(hourly_orders))

print("=== 배달 앱 24시간 주문 분석 ===")
print(f"일일 총 주문: {total_orders}건")
print(f"시간당 평균: {avg_orders:.1f}건")
print(f"피크 시간: {hours[peak_hour_idx]} ({max(hourly_orders)}건)")
print(f"한적한 시간: {hours[quiet_hour_idx]} ({min(hourly_orders)}건)")

---

## 🔍 3. 데이터 필터링

**데이터 필터링(Data Filtering)**은 특정 조건을 만족하는 데이터만을 선택하여 분석하는 기법입니다. 마치 체를 사용해 필요한 것만 걸러내는 것과 같습니다.

### 기본 필터링 방법

#### 조건부 선택

In [None]:
# 온라인 쇼핑몰 상품 데이터
products = [
    {'상품명': '무선이어폰', '가격': 89000, '평점': 4.5, '카테고리': '전자제품'},
    {'상품명': '블루투스 스피커', '가격': 45000, '평점': 4.2, '카테고리': '전자제품'},
    {'상품명': '운동화', '가격': 120000, '평점': 4.8, '카테고리': '신발'},
    {'상품명': '백팩', '가격': 65000, '평점': 4.3, '카테고리': '가방'},
    {'상품명': '스마트워치', '가격': 250000, '평점': 4.6, '카테고리': '전자제품'}
]

# 가격이 10만원 이하인 상품 찾기
affordable_products = []
for product in products:
    if product['가격'] <= 100000:
        affordable_products.append(product)

print("=== 10만원 이하 상품 ===")
for product in affordable_products:
    print(f"{product['상품명']}: {product['가격']:,}원 (★{product['평점']})")

#### 복합 조건 필터링

In [None]:
# 전자제품이면서 평점이 4.5 이상인 상품
premium_electronics = []
for product in products:
    if product['카테고리'] == '전자제품' and product['평점'] >= 4.5:
        premium_electronics.append(product)

print("=== 고급 전자제품 (평점 4.5 이상) ===")
for product in premium_electronics:
    print(f"{product['상품명']}: {product['가격']:,}원 (★{product['평점']})")

# 가격대별 분류
price_ranges = {
    '저가형 (5만원 이하)': [],
    '중가형 (5-15만원)': [],
    '고가형 (15만원 이상)': []
}

for product in products:
    price = product['가격']
    if price <= 50000:
        price_ranges['저가형 (5만원 이하)'].append(product)
    elif price <= 150000:
        price_ranges['중가형 (5-15만원)'].append(product)
    else:
        price_ranges['고가형 (15만원 이상)'].append(product)

print("\n=== 가격대별 상품 분포 ===")
for price_range, product_list in price_ranges.items():
    print(f"{price_range}: {len(product_list)}개")

### 실용적인 필터링 함수

In [None]:
def filter_products(product_list, **conditions):
    """다양한 조건으로 상품을 필터링하는 함수"""
    filtered = []
    
    for product in product_list:
        match = True
        
        # 최소 가격 조건
        if 'min_price' in conditions:
            if product['가격'] < conditions['min_price']:
                match = False
        
        # 최대 가격 조건
        if 'max_price' in conditions:
            if product['가격'] > conditions['max_price']:
                match = False
        
        # 카테고리 조건
        if 'category' in conditions:
            if product['카테고리'] != conditions['category']:
                match = False
        
        # 최소 평점 조건
        if 'min_rating' in conditions:
            if product['평점'] < conditions['min_rating']:
                match = False
        
        if match:
            filtered.append(product)
    
    return filtered

# 다양한 필터링 예시
print("=== 필터링 예시 ===")

# 전자제품만
electronics = filter_products(products, category='전자제품')
print(f"전자제품: {len(electronics)}개")

# 10만원 이하 상품
cheap_products = filter_products(products, max_price=100000)
print(f"10만원 이하 상품: {len(cheap_products)}개")

# 고급 상품 (평점 4.5 이상, 5만원 이상)
premium_products = filter_products(products, min_rating=4.5, min_price=50000)
print(f"고급 상품: {len(premium_products)}개")

---

## 📊 4. 데이터 그룹화

**데이터 그룹화(Data Grouping)**는 비슷한 특성을 가진 데이터를 묶어서 각 그룹별로 통계를 계산하는 방법입니다. 마치 상품들을 카테고리별로 나누어 관리하는 것과 같습니다.

### 기본 그룹화

#### 카테고리별 그룹화

In [None]:
# 온라인 쇼핑몰 상품 데이터
products = [
    {'상품명': '무선이어폰', '가격': 89000, '평점': 4.5, '카테고리': '전자제품'},
    {'상품명': '블루투스 스피커', '가격': 45000, '평점': 4.2, '카테고리': '전자제품'},
    {'상품명': '운동화', '가격': 120000, '평점': 4.8, '카테고리': '신발'},
    {'상품명': '백팩', '가격': 65000, '평점': 4.3, '카테고리': '가방'},
    {'상품명': '스마트워치', '가격': 250000, '평점': 4.6, '카테고리': '전자제품'},
    {'상품명': '캐주얼 신발', '가격': 85000, '평점': 4.4, '카테고리': '신발'}
]

# 카테고리별 그룹화
category_groups = {}
for product in products:
    category = product['카테고리']
    if category not in category_groups:
        category_groups[category] = []
    category_groups[category].append(product)

# 카테고리별 통계 계산
print("=== 카테고리별 상품 분석 ===")
for category in sorted(category_groups.keys()):
    products_in_category = category_groups[category]
    prices = [p['가격'] for p in products_in_category]
    ratings = [p['평점'] for p in products_in_category]
    
    print(f"\n{category} ({len(products_in_category)}개 상품):")
    print(f"  평균 가격: {sum(prices)/len(prices):,.0f}원")
    print(f"  최고 가격: {max(prices):,}원")
    print(f"  최저 가격: {min(prices):,}원")
    print(f"  평균 평점: {sum(ratings)/len(ratings):.1f}점")
    
    print("  상품 목록:")
    for product in products_in_category:
        print(f"    - {product['상품명']}: {product['가격']:,}원 (★{product['평점']})")

#### 평점 구간별 그룹화

In [None]:
def group_by_rating(product_list):
    """평점에 따라 상품을 그룹화"""
    groups = {
        '최고급 (4.5점 이상)': [],
        '고급 (4.0-4.4점)': [],
        '보통 (3.5-3.9점)': [],
        '저급 (3.5점 미만)': []
    }
    
    for product in product_list:
        rating = product['평점']
        
        if rating >= 4.5:
            groups['최고급 (4.5점 이상)'].append(product)
        elif rating >= 4.0:
            groups['고급 (4.0-4.4점)'].append(product)
        elif rating >= 3.5:
            groups['보통 (3.5-3.9점)'].append(product)
        else:
            groups['저급 (3.5점 미만)'].append(product)
    
    return groups

# 평점별 분석
rating_groups = group_by_rating(products)

print("=== 평점별 상품 분포 ===")
for rating_level, product_list in rating_groups.items():
    if len(product_list) > 0:
        print(f"\n{rating_level}: {len(product_list)}개")
        for product in product_list:
            print(f"  - {product['상품명']}: {product['가격']:,}원 (★{product['평점']})")

### 고급 그룹화 함수

In [None]:
def analyze_by_groups(data, group_key, value_key):
    """지정된 키로 데이터를 그룹화하고 통계 계산"""
    groups = {}
    
    # 그룹화
    for item in data:
        group = item[group_key]
        value = item[value_key]
        
        if group not in groups:
            groups[group] = []
        groups[group].append(value)
    
    # 각 그룹별 통계 계산
    results = {}
    for group, values in groups.items():
        results[group] = {
            '개수': len(values),
            '합계': sum(values),
            '평균': round(sum(values) / len(values), 1),
            '최댓값': max(values),
            '최솟값': min(values)
        }
    
    return results

# 카테고리별 가격 분석
price_analysis = analyze_by_groups(products, '카테고리', '가격')

print("=== 카테고리별 가격 분석 ===")
for category, stats in sorted(price_analysis.items()):
    print(f"\n{category}:")
    for stat_name, value in stats.items():
        if stat_name in ['합계', '평균', '최댓값', '최솟값']:
            print(f"  {stat_name}: {value:,}원")
        else:
            print(f"  {stat_name}: {value}")

### 실용적인 그룹화 예시들

#### 예시 1: 유튜브 채널 분석

In [None]:
# 유튜브 채널 데이터
youtube_channels = [
    {'채널명': '코딩테크', '카테고리': '교육', '구독자': 125000, '월조회수': 850000},
    {'채널명': '요리왕김셰프', '카테고리': '요리', '구독자': 230000, '월조회수': 1200000},
    {'채널명': '게임마스터', '카테고리': '게임', '구독자': 89000, '월조회수': 650000},
    {'채널명': '프로그래밍 마스터', '카테고리': '교육', '구독자': 180000, '월조회수': 920000},
    {'채널명': '맛집탐방', '카테고리': '요리', '구독자': 156000, '월조회수': 780000},
    {'채널명': '인디게임 리뷰', '카테고리': '게임', '구독자': 67000, '월조회수': 420000}
]

# 카테고리별 분석
subscriber_analysis = analyze_by_groups(youtube_channels, '카테고리', '구독자')
view_analysis = analyze_by_groups(youtube_channels, '카테고리', '월조회수')

print("=== 유튜브 채널 카테고리별 분석 ===")
for category in sorted(subscriber_analysis.keys()):
    sub_stats = subscriber_analysis[category]
    view_stats = view_analysis[category]
    print(f"\n{category} 카테고리:")
    print(f"  채널 수: {sub_stats['개수']}개")
    print(f"  평균 구독자: {sub_stats['평균']:,}명")
    print(f"  평균 월조회수: {view_stats['평균']:,}회")

#### 예시 2: 온라인 서점 도서 분석

In [None]:
# 온라인 서점 도서 데이터
books = [
    {'제목': '파이썬 기초', '장르': 'IT', '가격': 25000, '판매량': 1200},
    {'제목': '웹 개발 실무', '장르': 'IT', '가격': 32000, '판매량': 800},
    {'제목': '추리소설 베스트', '장르': '소설', '가격': 15000, '판매량': 2100},
    {'제목': '역사 속 인물들', '장르': '역사', '가격': 18000, '판매량': 650},
    {'제목': '미스터리 단편집', '장르': '소설', '가격': 12000, '판매량': 1800},
    {'제목': '조선시대 이야기', '장르': '역사', '가격': 22000, '판매량': 430}
]

# 장르별 도서 분석
sales_analysis = analyze_by_groups(books, '장르', '판매량')
price_analysis = analyze_by_groups(books, '장르', '가격')

print("=== 온라인 서점 장르별 도서 분석 ===")
total_revenue = 0
for genre in sorted(sales_analysis.keys()):
    sales_stats = sales_analysis[genre]
    price_stats = price_analysis[genre]
    
    # 해당 장르 도서들의 총 매출 계산
    genre_books = [book for book in books if book['장르'] == genre]
    genre_revenue = sum(book['가격'] * book['판매량'] for book in genre_books)
    total_revenue += genre_revenue
    
    print(f"\n{genre} 장르:")
    print(f"  도서 수: {sales_stats['개수']}권")
    print(f"  평균 가격: {price_stats['평균']:,}원")
    print(f"  평균 판매량: {sales_stats['평균']:,}권")
    print(f"  총 매출: {genre_revenue:,}원")

print(f"\n전체 매출: {total_revenue:,}원")
print(f"장르별 평균 매출: {total_revenue/len(sales_analysis):,.0f}원")

---

## 🔧 실습 문제

### 실습 1: 온라인 쇼핑몰 상품 분석 프로그램

**문제**: 온라인 쇼핑몰의 상품 데이터를 분석하는 프로그램을 만드세요.

**요구사항**:
- 주어진 상품 데이터에서 기본 통계량 계산
- 가격대별 상품 수 집계
- 고급 상품(평점 4.5 이상) 목록 출력

**데이터**:

In [None]:
shopping_data = [
    {'상품명': '무선 키보드', '가격': 75000, '평점': 4.3, '리뷰수': 128},
    {'상품명': '게이밍 마우스', '가격': 89000, '평점': 4.7, '리뷰수': 256},
    {'상품명': '모니터 받침대', '가격': 45000, '평점': 4.1, '리뷰수': 89},
    {'상품명': 'USB 허브', '가격': 32000, '평점': 4.5, '리뷰수': 167},
    {'상품명': '웹캠', '가격': 125000, '평점': 4.6, '리뷰수': 203},
    {'상품명': '스피커', '가격': 68000, '평점': 4.2, '리뷰수': 145},
    {'상품명': '헤드셋', '가격': 95000, '평점': 4.8, '리뷰수': 312}
]

**정답**:

In [None]:
shopping_data = [
    {'상품명': '무선 키보드', '가격': 75000, '평점': 4.3, '리뷰수': 128},
    {'상품명': '게이밍 마우스', '가격': 89000, '평점': 4.7, '리뷰수': 256},
    {'상품명': '모니터 받침대', '가격': 45000, '평점': 4.1, '리뷰수': 89},
    {'상품명': 'USB 허브', '가격': 32000, '평점': 4.5, '리뷰수': 167},
    {'상품명': '웹캠', '가격': 125000, '평점': 4.6, '리뷰수': 203},
    {'상품명': '스피커', '가격': 68000, '평점': 4.2, '리뷰수': 145},
    {'상품명': '헤드셋', '가격': 95000, '평점': 4.8, '리뷰수': 312}
]

print("=== 온라인 쇼핑몰 상품 분석 ===")

# 기본 통계량 계산
prices = [product['가격'] for product in shopping_data]
ratings = [product['평점'] for product in shopping_data]
reviews = [product['리뷰수'] for product in shopping_data]

total_products = len(shopping_data)
avg_price = sum(prices) / total_products
avg_rating = sum(ratings) / total_products

print(f"전체 상품 수: {total_products}개")
print(f"평균 가격: {avg_price:,.0f}원")
print(f"평균 평점: {avg_rating:.2f}점")
print(f"최고 가격: {max(prices):,}원")
print(f"최저 가격: {min(prices):,}원")

# 가격대별 분류
price_ranges = {'3만원 이하': 0, '3-7만원': 0, '7-10만원': 0, '10만원 이상': 0}

for product in shopping_data:
    price = product['가격']
    if price <= 30000:
        price_ranges['3만원 이하'] += 1
    elif price <= 70000:
        price_ranges['3-7만원'] += 1
    elif price <= 100000:
        price_ranges['7-10만원'] += 1
    else:
        price_ranges['10만원 이상'] += 1

print(f"\n=== 가격대별 분포 ===")
for price_range, count in price_ranges.items():
    print(f"{price_range}: {count}개")

# 고급 상품 (평점 4.5 이상)
premium_products = []
for product in shopping_data:
    if product['평점'] >= 4.5:
        premium_products.append(product)

print(f"\n=== 고급 상품 목록 (평점 4.5 이상) ===")
for product in premium_products:
    print(f"{product['상품명']}: {product['가격']:,}원 (★{product['평점']}, 리뷰 {product['리뷰수']}개)")

### 실습 2: 유튜브 채널 데이터 분석

**문제**: 유튜브 채널의 카테고리별 성과를 분석하세요.

**요구사항**:
- 카테고리별 총 구독자 수 계산
- 가장 인기 있는 카테고리와 가장 저조한 카테고리 찾기
- 평균 구독자 수 계산

**데이터**:

In [None]:
youtube_data = [
    {'채널명': '테크리뷰어', '카테고리': '기술', '구독자': 145000, '월조회수': 850000},
    {'채널명': '요리조리쿡쿡', '카테고리': '요리', '구독자': 89000, '월조회수': 520000},
    {'채널명': '게임의신', '카테고리': '게임', '구독자': 234000, '월조회수': 1200000},
    {'채널명': '스마트폰 리뷰', '카테고리': '기술', '구독자': 178000, '월조회수': 980000},
    {'채널명': '홈쿡마스터', '카테고리': '요리', '구독자': 156000, '월조회수': 760000},
    {'채널명': '인디게임월드', '카테고리': '게임', '구독자': 67000, '월조회수': 340000}
]

**정답**:

In [None]:
youtube_data = [
    {'채널명': '테크리뷰어', '카테고리': '기술', '구독자': 145000, '월조회수': 850000},
    {'채널명': '요리조리쿡쿡', '카테고리': '요리', '구독자': 89000, '월조회수': 520000},
    {'채널명': '게임의신', '카테고리': '게임', '구독자': 234000, '월조회수': 1200000},
    {'채널명': '스마트폰 리뷰', '카테고리': '기술', '구독자': 178000, '월조회수': 980000},
    {'채널명': '홈쿡마스터', '카테고리': '요리', '구독자': 156000, '월조회수': 760000},
    {'채널명': '인디게임월드', '카테고리': '게임', '구독자': 67000, '월조회수': 340000}
]

print("=== 유튜브 채널 카테고리별 분석 ===")

# 카테고리별 데이터 집계
category_stats = {}
for channel in youtube_data:
    category = channel['카테고리']
    subscribers = channel['구독자']
    views = channel['월조회수']
    
    if category not in category_stats:
        category_stats[category] = {
            '채널수': 0,
            '총구독자': 0,
            '총조회수': 0,
            '구독자목록': [],
            '조회수목록': []
        }
    
    category_stats[category]['채널수'] += 1
    category_stats[category]['총구독자'] += subscribers
    category_stats[category]['총조회수'] += views
    category_stats[category]['구독자목록'].append(subscribers)
    category_stats[category]['조회수목록'].append(views)

# 카테고리별 결과 출력
print("\n카테고리별 성과:")
for category, stats in category_stats.items():
    avg_subscribers = stats['총구독자'] / stats['채널수']
    avg_views = stats['총조회수'] / stats['채널수']
    print(f"{category}: {stats['채널수']}개 채널")
    print(f"  총 구독자: {stats['총구독자']:,}명")
    print(f"  평균 구독자: {avg_subscribers:,.0f}명")
    print(f"  평균 월조회수: {avg_views:,.0f}회\n")

# 최고/최저 카테고리 찾기
best_category = max(category_stats.keys(), key=lambda k: category_stats[k]['총구독자'])
worst_category = min(category_stats.keys(), key=lambda k: category_stats[k]['총구독자'])

print(f"가장 인기 카테고리: {best_category} ({category_stats[best_category]['총구독자']:,}명)")
print(f"가장 저조한 카테고리: {worst_category} ({category_stats[worst_category]['총구독자']:,}명)")

# 전체 통계
total_subscribers = sum(stats['총구독자'] for stats in category_stats.values())
total_channels = len(youtube_data)
overall_average = total_subscribers / total_channels

print(f"\n=== 전체 통계 ===")
print(f"총 채널 수: {total_channels}개")
print(f"전체 구독자: {total_subscribers:,}명")
print(f"채널당 평균 구독자: {overall_average:,.0f}명")

### 실습 3: 배달 앱 주문 현황 분석

**문제**: 배달 앱의 음식 카테고리별 주문 현황을 분석하세요.

**요구사항**:
- 음식 카테고리별 주문 건수 집계
- 평균 주문 금액 분석
- 가장 인기 있는 음식 카테고리 찾기

**데이터**:

In [None]:
order_data = [
    {'주문번호': 1001, '음식점': '피자헤븐', '카테고리': '피자', '주문금액': 28000},
    {'주문번호': 1002, '음식점': '치킨마을', '카테고리': '치킨', '주문금액': 22000},
    {'주문번호': 1003, '음식점': '한식당', '카테고리': '한식', '주문금액': 15000},
    {'주문번호': 1004, '음식점': '피자스쿨', '카테고리': '피자', '주문금액': 35000},
    {'주문번호': 1005, '음식점': 'BBQ치킨', '카테고리': '치킨', '주문금액': 25000},
    {'주문번호': 1006, '음식점': '김치찌개집', '카테고리': '한식', '주문금액': 12000}
]

**정답**:

In [None]:
order_data = [
    {'주문번호': 1001, '음식점': '피자헤븐', '카테고리': '피자', '주문금액': 28000},
    {'주문번호': 1002, '음식점': '치킨마을', '카테고리': '치킨', '주문금액': 22000},
    {'주문번호': 1003, '음식점': '한식당', '카테고리': '한식', '주문금액': 15000},
    {'주문번호': 1004, '음식점': '피자스쿨', '카테고리': '피자', '주문금액': 35000},
    {'주문번호': 1005, '음식점': 'BBQ치킨', '카테고리': '치킨', '주문금액': 25000},
    {'주문번호': 1006, '음식점': '김치찌개집', '카테고리': '한식', '주문금액': 12000}
]

print("=== 배달 앱 음식 카테고리별 주문 분석 ===")

# 카테고리별 주문 분석
category_analysis = {}
for order in order_data:
    category = order['카테고리']
    amount = order['주문금액']
    
    if category not in category_analysis:
        category_analysis[category] = {
            '주문건수': 0,
            '총금액': 0,
            '주문금액목록': []
        }
    
    category_analysis[category]['주문건수'] += 1
    category_analysis[category]['총금액'] += amount
    category_analysis[category]['주문금액목록'].append(amount)

# 카테고리별 결과 출력
print("\n카테고리별 주문 현황:")
for category, analysis in category_analysis.items():
    avg_amount = analysis['총금액'] / analysis['주문건수']
    print(f"{category}:")
    print(f"  주문 건수: {analysis['주문건수']}건")
    print(f"  총 주문 금액: {analysis['총금액']:,}원")
    print(f"  평균 주문 금액: {avg_amount:,.0f}원")
    print(f"  최고 주문 금액: {max(analysis['주문금액목록']):,}원")
    print()

# 가장 인기 있는 카테고리 찾기 (주문 건수 기준)
most_popular = max(category_analysis.keys(), key=lambda k: category_analysis[k]['주문건수'])
highest_revenue = max(category_analysis.keys(), key=lambda k: category_analysis[k]['총금액'])

print(f"가장 인기 카테고리 (주문량): {most_popular} ({category_analysis[most_popular]['주문건수']}건)")
print(f"최고 매출 카테고리: {highest_revenue} ({category_analysis[highest_revenue]['총금액']:,}원)")

# 전체 통계
total_orders = len(order_data)
total_revenue = sum(order['주문금액'] for order in order_data)
overall_avg = total_revenue / total_orders

print(f"\n=== 전체 통계 ===")
print(f"총 주문 건수: {total_orders}건")
print(f"총 매출: {total_revenue:,}원")
print(f"평균 주문 금액: {overall_avg:,.0f}원")

---

## 📝 퀴즈

### 퀴즈 1: 기본 통계량 계산
**문제**: 다음 온라인 쇼핑몰 상품 가격 데이터에서 평균, 최댓값, 최솟값을 계산하고, 10만원 이상인 상품이 몇 개인지 구하세요.

In [None]:
product_prices = [75000, 125000, 89000, 45000, 156000, 98000, 67000, 134000, 78000, 112000]

**요구사항**:
- 기본 통계량 계산
- 10만원 이상 상품 수 계산
- 결과를 명확하게 출력

### 퀴즈 2: 데이터 필터링
**문제**: 다음 유튜브 채널 정보에서 구독자 10만명 이상이면서 월조회수가 50만회 이상인 채널만 찾아서 출력하세요.

In [None]:
channel_info = [
    {'채널명': '테크리뷰', '구독자': 85000, '월조회수': 620000},
    {'채널명': '요리왕', '구독자': 150000, '월조회수': 780000},
    {'채널명': '게임마스터', '구독자': 200000, '월조회수': 450000},
    {'채널명': '여행유튜버', '구독자': 120000, '월조회수': 590000},
    {'채널명': '운동왕', '구독자': 95000, '월조회수': 520000}
]

### 퀴즈 3: 데이터 그룹화
**문제**: 다음 온라인 서점 도서 판매 데이터에서 장르별 총 판매액을 계산하고, 가장 많이 팔린 장르를 찾으세요.

In [None]:
book_sales = [
    {'제목': '파이썬 입문', '장르': 'IT', '가격': 25000, '판매량': 120},
    {'제목': '추리소설', '장르': '소설', '가격': 15000, '판매량': 200},
    {'제목': '웹 개발', '장르': 'IT', '가격': 32000, '판매량': 80},
    {'제목': '로맨스 소설', '장르': '소설', '가격': 12000, '판매량': 250},
    {'제목': '한국사', '장르': '역사', '가격': 28000, '판매량': 90}
]

---

## 📖 참고 자료

1. **파이썬 공식 문서 - 데이터 구조**: https://docs.python.org/ko/3/tutorial/datastructures.html
   - 파이썬 데이터 구조에 대한 공식 설명

2. **점프 투 파이썬 - 데이터 분석**: https://wikidocs.net/book/1
   - 한국어로 된 데이터 분석 기초

3. **코딩 도장 - 파이썬 통계**: https://dojang.io/mod/page/view.php?id=2465
   - 파이썬 통계 함수 상세 설명

4. **Real Python - 데이터 분석**: https://realpython.com/python-data-analysis/
   - 영어 자료이지만 심화 학습용

5. **Pandas 공식 문서**: https://pandas.pydata.org/docs/
   - 고급 데이터 분석 라이브러리

---

## 💡 성공을 위한 팁

### 일반적인 실수
- **빈 리스트 처리 누락**: 데이터가 없을 때 오류 발생 방지
- **데이터 타입 혼동**: 숫자와 문자열 구분하여 처리
- **반복문에서 조건 누락**: 필터링 시 모든 조건 확인
- **딕셔너리 키 오타**: 정확한 키 이름 사용

### 연습 팁
- **작은 데이터로 시작**: 3-5개 항목으로 먼저 테스트
- **중간 결과 확인**: print()로 각 단계별 결과 검증
- **함수로 모듈화**: 반복되는 계산을 함수로 만들기
- **실제 데이터 활용**: 온라인 쇼핑, 유튜브 등 실제 데이터로 연습

### 디버깅 요령
- **데이터 구조 확인**: 리스트인지 딕셔너리인지 먼저 파악
- **타입 확인**: type() 함수로 데이터 타입 검증
- **범위 확인**: 인덱스나 키가 존재하는지 확인
- **단계별 검증**: 복잡한 계산을 단계별로 나누어 확인

### 실제 활용 분야
- **이커머스**: 상품 분석, 고객 구매 패턴 분석
- **소셜미디어**: 콘텐츠 성과 분석, 사용자 참여도 측정
- **콘텐츠 플랫폼**: 조회수 분석, 인기 콘텐츠 트렌드 파악
- **온라인 서비스**: 사용자 행동 분석, 서비스 개선

---

## 📋 숙제

### 연습 문제

1. **개인 소비 분석**: 본인의 한 달 소비 내역을 카테고리별로 분류하고 평균, 최고액, 최저액 계산

2. **SNS 게시물 분석**: 가상의 SNS 게시물 데이터를 만들고 좋아요 수 기준으로 인기 게시물 찾기

3. **온라인 강의 분석**: 온라인 강의 수강 데이터를 분석하여 과목별 수강생 통계 계산

4. **음악 스트리밍 분석**: 음악 플레이리스트 데이터를 분석하여 장르별 재생 횟수 통계 계산

### 도전 문제

5. **종합 웹 데이터 분석 시스템**: 
   - 온라인 쇼핑몰 전체 데이터 관리
   - 카테고리별, 가격대별 상품 분석 기능
   - 인기 상품 선정 기능  
   - 매출 통계 계산
   - 고객 만족도 분석 알고리즘
   - 데이터 시각화를 위한 리포트 생성

**프로그래밍을 통한 데이터 분석의 세계에 오신 것을 환영합니다!** 