# 매출 데이터의 합계와 평균 계산 (map, reduce, enumerate 활용)
- 설명
- map: 매출 데이터를 float 타입으로 변환합니다.
- reduce: 데이터를 합산하여 총합을 계산합니다.
- enumerate: 데이터 인덱스를 추가하여 매출 데이터의 위치를 추적합니다.

In [None]:
from functools import reduce
import random

# 1) 1백만 건의 매출 데이터 생성
sales_data = [random.randint(1, 1000) for _ in range(1_000_000)]

# 2) enumerate를 사용하여 데이터에 인덱스 추가
indexed_sales_data = list(enumerate(sales_data))

# 3) map: (인덱스, 값) -> (인덱스, float(값))
float_sales_data = list(map(lambda x: (x[0], float(x[1])), indexed_sales_data))

# 4) reduce: 매출 값만 추출하여 총합 계산
total_sales = reduce(lambda acc, item: acc + item[1], float_sales_data, 0.0)

# 5) 평균 계산
average_sales = total_sales / len(float_sales_data)

print(f"총 매출 합계: {total_sales}")
print(f"평균 매출: {average_sales}")


# 센서 데이터 정제 및 분석 (filter, map, reduce, enumerate 활용)
- 설명
- filter: 센서 데이터 중 음수나 10만 초과 값은 제거합니다.
- map: 센서 데이터를 float 타입으로 변환합니다.
- reduce: 센서 값의 총합을 계산합니다.
- enumerate: 센서 데이터의 위치를 추적합니다.

In [None]:
from functools import reduce
import random

# 1) 50만 건의 센서 데이터 생성
sensor_data = [random.randint(-10000, 200000) for _ in range(500_000)]

# 2) enumerate로 센서 데이터에 인덱스 추가
indexed_sensor_data = list(enumerate(sensor_data))

# 3) filter: 올바른 범위(0 <= x <= 100000)만 남김
valid_data = list(filter(lambda x: 0 <= x[1] <= 100_000, indexed_sensor_data))

# 4) map: (인덱스, 값) -> (인덱스, float(값))
valid_data_float = list(map(lambda x: (x[0], float(x[1])), valid_data))

# 5) reduce: 센서 값만 추출하여 총합 계산
total_valid = reduce(lambda acc, item: acc + item[1], valid_data_float, 0.0)

# 정상 데이터 개수와 평균 계산
count_valid = len(valid_data_float)
average_valid = total_valid / count_valid if count_valid > 0 else 0

print(f"정상 데이터 개수: {count_valid}")
print(f"총 센서값 합계: {total_valid}")
print(f"평균 센서값: {average_valid}")

# 여러 데이터셋 결합과 분석 (zip, filter, map, enumerate 활용)
- 설명
- zip: 두 데이터셋을 병합합니다.
- filter: ID가 동일한 데이터만 선별합니다.
- map: 병합 데이터를 (인덱스, ID, A, B)로 변환합니다.
- enumerate: 결합된 데이터에 로컬 인덱스를 추가합니다.

In [1]:
import random

# 1) 30만 유저 ID와 활동 지표 A, B 생성
user_ids = list(range(300_000))
activities_A = [random.randint(0, 1000) for _ in range(300_000)]
activities_B = [random.randint(0, 500) for _ in range(300_000)]

# 2) 각 데이터셋 생성
dataset_A = list(zip(user_ids, activities_A))
dataset_B = list(zip(user_ids, activities_B))

# 3) zip: 두 데이터셋 병합
merged = list(zip(dataset_A, dataset_B))

# 4) filter: 동일한 ID를 가진 데이터만 선별
valid_merged = list(filter(lambda x: x[0][0] == x[1][0], merged))

# 5) enumerate: 인덱스 추가
indexed_valid = list(enumerate(valid_merged))

# 6) map: (인덱스, ((ID, A), (ID, B))) -> (인덱스, ID, A, B)
processed_data = list(map(lambda x: (
    x[0],            # 인덱스
    x[1][0][0],      # ID
    x[1][0][1],      # A
    x[1][1][1]       # B
), indexed_valid))

# A, B 합산 지표 계산
combined_metric = [a + b for (_, _, a, b) in processed_data]

print(f"유효한 데이터 개수: {len(processed_data)}")
print(f"상위 5개 (인덱스, ID, A, B): {processed_data[:5]}")
print(f"상위 5개 종합 지표: {combined_metric[:5]}")

유효한 데이터 개수: 300000
상위 5개 (인덱스, ID, A, B): [(0, 0, 394, 312), (1, 1, 476, 427), (2, 2, 983, 123), (3, 3, 547, 267), (4, 4, 904, 301)]
상위 5개 종합 지표: [706, 903, 1106, 814, 1205]
