## 재활용 오프라인 이벤트 데이터 만들기

In [1]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

## 기존 데이터 불러오기

In [2]:
data = pd.read_csv('recycle_campaign.csv',encoding='utf-8-sig')
data.head()

Unnamed: 0.1,Unnamed: 0,날짜,지역,분리수거 참여율 (%),플라스틱 (%),종이 (%),캔 (%),캠페인 홍보 방식,참여 연령대,성별,참여자 수,플라스틱 (kg),종이 (kg),캔 (kg),기타 폐기물 (%),기타 폐기물 (kg),캠페인 전 참여율 (%),캠페인 후 참여율 (%)
0,92060,2024-01-01,대구,2.412,24.648034,9.691643,50.04576,오프라인 행사,10대,남성,97,1067,454,2837,0.0,0,42.976403,84.902424
1,48415,2024-01-01,강원,1.782,37.437723,31.775538,27.023337,포스터 홍보,10대,여성,371,403,264,219,0.0,0,29.895157,51.353013
2,15721,2024-01-01,충남,12.54,25.071597,35.214845,33.079003,오프라인 행사,30대,여성,266,988,998,1193,0.0,0,43.148869,92.225092
3,65479,2024-01-01,경남,1.8,19.139164,10.944754,66.652875,오프라인 행사,50대 이상,남성,113,133,55,318,0.0,0,50.050399,87.847562
4,48419,2024-01-01,부산,12.264,55.641353,26.079185,38.985955,오프라인 행사,40대,여성,113,713,333,622,0.0,0,47.973016,77.490631


In [10]:
# 새로운 데이터 생성 위해 중요 칼럼별 고유값 확인
cities = data["지역"].unique()
cam_methods = data["캠페인 홍보 방식"].unique()
gender = data["성별"].unique()

cols = cities, cam_methods, gender

for i, col in enumerate(cols):
    print({i: col})

{0: array(['대구', '강원', '충남', '경남', '부산', '전북', '울산', '충북', '경기', '서울'],
      dtype=object)}
{1: array(['오프라인 행사', '포스터 홍보', '유튜브 광고', '뉴스', 'SNS'], dtype=object)}
{2: array(['남성', '여성'], dtype=object)}


### 새로운 가공 데이터 생성하기

In [25]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 지역 설정
cities = [ 
    '부산', '대구', '인천', '대전', '울산', '광주', '서울', 
    '경기', '강원', '충북', '충남', '전북', '전남', '경북', 
    '경남', '세종', '제주'
]

# 연령대 설정 - 행이 너무 많아지므로, 연령대 범위 축소
#ages = ['10대', '20대', '30대', '40대', '50대', '60대', '70대 이상']
ages = ['청소년', '청년', '장년', '노년']

genders = ["남", "여"]

# 재활용 캠페인 오프라인 행사 제목 리스트
events = ["워크숍 개최", "재활용 품목 수집 이벤트", "재활용 아트 전시",
          "게임 및 퀴즈", "커뮤니티 청소 활동", "업사이클링 마켓", "홍보 부스 운영"]

# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "지역": [],
    "방문자수": [],
    "연령대": [],
    "성별": [],
    "이벤트 종류": [],
}

# 날짜별로 여러 개의 지역 할당
for date in date_range:
    num_cities = random.randint(1, len(cities))  # 지역 수 만큼 선택
    chosen_cities = random.sample(cities, num_cities)  # 무작위로 지역 선택

    for city in chosen_cities:
        event = random.choice(events)  # 랜덤으로 이벤트 선택

        # 각 지역에서 모든 연령대와 성별 추가
        for age in ages:
            for gender in genders:
                visitors = random.randint(1, 40)  # 각 지역에 대해 랜덤으로 방문자 수 생성 (연령별, 성별로 다르게)
                # 데이터 추가
                raw_data["날짜"].append(date)  # 날짜 추가
                raw_data["지역"].append(city)  # 선택된 지역 추가
                raw_data["방문자수"].append(visitors)  # 방문자 수 추가
                raw_data["연령대"].append(age)  # 연령대 추가
                raw_data["성별"].append(gender)  # 성별 추가
                raw_data["이벤트 종류"].append(event)  # 동일한 이벤트 추가

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(15) # 상위 15개 데이터 출력

Unnamed: 0,날짜,지역,방문자수,연령대,성별,이벤트 종류
0,2023-01-01,인천,36,청소년,남,업사이클링 마켓
1,2023-01-01,인천,40,청소년,여,업사이클링 마켓
2,2023-01-01,인천,12,청년,남,업사이클링 마켓
3,2023-01-01,인천,13,청년,여,업사이클링 마켓
4,2023-01-01,인천,1,장년,남,업사이클링 마켓
5,2023-01-01,인천,2,장년,여,업사이클링 마켓
6,2023-01-01,인천,25,노년,남,업사이클링 마켓
7,2023-01-01,인천,2,노년,여,업사이클링 마켓
8,2023-01-01,강원,7,청소년,남,커뮤니티 청소 활동
9,2023-01-01,강원,32,청소년,여,커뮤니티 청소 활동


In [26]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53480 entries, 0 to 53479
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      53480 non-null  datetime64[ns]
 1   지역      53480 non-null  object        
 2   방문자수    53480 non-null  int64         
 3   연령대     53480 non-null  object        
 4   성별      53480 non-null  object        
 5   이벤트 종류  53480 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 2.4+ MB


In [34]:
# 참여자수 추가 (방문자 수에 비해 적게 생성)
data["참여자수"] = [random.randint(0, min(visitors, 20)) for visitors in data["방문자수"]]

# 참여비율 계산 (참여자수가 0인 경우 처리)
data["참여비율"] = data.apply(lambda row: row["참여자수"] / row["방문자수"] * 100 if row["참여자수"] > 0 else 0, axis=1)

data.tail()

Unnamed: 0,날짜,지역,방문자수,연령대,성별,이벤트 종류,참여자수,참여비율
53475,2024-12-31,대구,6,청년,여,워크숍 개최,3,50.0
53476,2024-12-31,대구,23,장년,남,워크숍 개최,18,78.26087
53477,2024-12-31,대구,10,장년,여,워크숍 개최,10,100.0
53478,2024-12-31,대구,4,노년,남,워크숍 개최,1,25.0
53479,2024-12-31,대구,27,노년,여,워크숍 개최,6,22.222222


In [33]:
# CSV 파일로 저장
data.to_csv("recycling_off.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정