# 스마트 시티 프로젝트: 도시 환경 모니터링 및 최적화

## 배경
당신은 대규모 스마트 시티 프로젝트의 데이터 과학자로 고용되었습니다. 이 프로젝트는 도시의 다양한 환경 요소를 모니터링하고 최적화하는 것을 목표로 합니다. 당신의 첫 번째 과제는 대기 질, 교통 흐름, 에너지 소비에 관한 데이터를 분석하는 것입니다.

## 데이터셋
- 파일명: smart_city_data.csv
- 내용: 1년간의 시간별 데이터로, 대기 질 지수, 교통량, 에너지 소비량, 기상 정보 등을 포함

In [1]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 로드
df = pd.read_csv('./dataset/smart_city_data.csv')
df.head()

  from pandas.core import (


Unnamed: 0,timestamp,is_holiday,hour_of_day,day_of_week,month,season,temperature,humidity,wind_speed,aqi,...,aqi_trend,traffic,traffic_intensity,congestion,congestion_duration,energy_consumption,energy_mean,energy_std,energy_anomaly,cumulative_energy
0,2022-01-01 00:00:00,1,0,5,1,winter,16.490142,83.081043,5.2407,108.087306,...,0.0,193.992712,0.551381,False,0,2432.85523,2868.927127,677.02173,0,2432.85523
1,2022-01-01 01:00:00,1,1,5,1,winter,14.595967,50.975153,6.440914,93.982166,...,-6.980342,300.727771,0.72167,False,0,2508.150308,3165.802996,658.025437,0,4941.005539
2,2022-01-01 02:00:00,1,2,5,1,winter,16.964586,50.222117,3.282828,92.901503,...,-5.514599,232.585031,0.478316,False,0,2208.62481,3573.198461,917.720707,0,7149.630349
3,2022-01-01 03:00:00,1,3,5,1,winter,19.60137,74.082277,8.391032,91.374001,...,-5.396465,276.089671,0.469658,False,0,2968.122196,3839.320253,941.483599,0,10117.752545
4,2022-01-01 04:00:00,1,4,5,1,winter,14.34058,69.694355,0.905666,91.832702,...,-3.976381,368.476045,0.580955,False,0,3867.308716,3983.463882,1020.648019,0,13985.061261


## 1. 데이터 전처리 및 특성 공학 (25점)

### 1.1 시간 관련 특성 생성
다음 시간 관련 특성들을 생성하세요:<br>
a) hour_of_day: 0-23<br>
b) day_of_week: 0(월요일)-6(일요일)<br>
c) month: 1-12<br>
d) season: 'spring': 3 ~ 5월, 'summer': 6 ~ 8월, 'fall': 9 ~ 11월 'winter': 12 ~ 2월 <br>
e) is_holiday: 공휴일이면 1, 아니면 0 (공휴일 목록은 별도로 제공됨)

holidays = [
    '2022-01-01', '2022-01-17', '2022-02-21', '2022-05-30', '2022-07-04', 
    '2022-09-05', '2022-11-24', '2022-12-25'
]

0        1
1        1
2        1
3        1
4        1
        ..
8755    12
8756    12
8757    12
8758    12
8759    12
Name: timestamp, Length: 8760, dtype: int32

0       winter
1       winter
2       winter
3       winter
4       winter
         ...  
8755    winter
8756    winter
8757    winter
8758    winter
8759    winter
Name: timestamp, Length: 8760, dtype: object

### 1.2 대기 질 지수(AQI) 관련 특성 생성
대기 질 지수(AQI)를 기반으로 다음 특성을 생성하세요:<br>
- a) aqi_category: 
- AQI가
    - < 50이하:'Good'
    - 50-100 :'Moderate'
    - 100-150 : 'Unhealthy for Sensitive Groups', 
    - > 150 : 'Unhealthy'
- b) aqi_trend: 이전 24시간 동안의 AQI 변화율 (%), 소수점 둘째자리까지0%~100% 기호생략한 기호 예>50% = 50.00

In [None]:
# 여기에 코드를 작성하세요

### 1.3 교통 데이터 관련 특성 생성
교통 데이터를 사용하여 다음 특성을 생성하세요:
- a) traffic_intensity: 현재 교통량을 해당 시간대의 평균 교통량으로 나눈 비율
- b) congestion_duration: 교통 체증(traffic_intensity > 1.5)이 지속된 연속 시간

In [None]:
# 여기에 코드를 작성하세요

### 1.4 에너지 소비 데이터 관련 특성 생성
energy_consumption을 사용하여 다음 특성을 생성하세요:
- a) energy_anomaly: 현재 에너지 소비량이 같은 요일, 같은 시간대의 평균보다 2표준편차 이상 높으면 1, 아니면 0
- b) cumulative_energy: 해당 일자의 자정부터 현재 시간까지의 누적 에너지 소비량

In [None]:
# 여기에 코드를 작성하세요

### 1.5 결측치와 이상치 처리
위에서 생성한 특성들을 포함하여 전체 데이터셋의 결측치와 이상치를 처리하세요. 처리 방법과 그 이유를 설명하세요.

In [None]:
# 여기에 코드를 작성하세요

## 2. 탐색적 데이터 분석 (EDA) (20점)

### 2.1 변수 간 상관관계 분석
대기 질, 교통 흐름, 에너지 소비 간의 상관관계를 분석하세요. 최소 3개의 다른 시각화 기법을 사용하여 결과를 표현하세요.

In [None]:
# 여기에 코드를 작성하세요

### 2.2 시간적 패턴 분석
계절별, 요일별 패턴을 분석하세요. 각 주요 변수(AQI, 교통량, 에너지 소비)에 대해 히트맵을 생성하여 시간적 패턴을 시각화하세요.

In [None]:
# 여기에 코드를 작성하세요

### 2.3 공휴일 영향 분석
공휴일이 대기 질, 교통 흐름, 에너지 소비에 미치는 영향을 분석하세요. 통계적 검정을 사용하여 차이의 유의성을 확인하세요.

In [None]:
# 여기에 코드를 작성하세요

### 2.4 기상 조건과 주요 변수 관계 분석
기상 조건(기온, 습도, 풍속 등)과 주요 변수들 간의 관계를 분석하세요. 비선형적 관계도 고려하여 적절한 시각화 방법을 선택하세요.

In [None]:
# 여기에 코드를 작성하세요

## 3. 예측 모델링 (35점)

### 3.1 AQI 예측 모델 개발
다음 24시간 동안의 시간별 AQI를 예측하는 모델을 개발하세요. 다음 두 가지 접근 방식을 비교하세요:
- a) 전통적인 시계열 모델 (예: ARIMA)
- b) 머신러닝 모델 (예: Random Forest)
- 각 모델의 성능을 평가하고, 장단점을 논의하세요.

In [None]:
# 여기에 코드를 작성하세요

### 3.2 교통 체증 예측 모델 개발
교통 체증(traffic_intensity > 1.5)이 발생할 확률을 예측하는 분류 모델을 개발하세요. 다음 세 가지 모델을 비교하세요:
- a) 로지스틱 회귀
- b) Random Forest
- c) Gradient Boosting (예: XGBoost, LightGBM)
- ROC 커브와 precision-recall 커브를 사용하여 모델들을 평가하고 비교하세요.

In [None]:
# 여기에 코드를 작성하세요

### 3.3 에너지 소비량 예측 모델 개발
일일 총 에너지 소비량을 예측하는 회귀 모델을 개발하세요. 다음 작업을 수행하세요:
- a) 특성 중요도를 평가하고, 상위 10개 특성을 시각화하세요.
- b) 교차 검증을 사용하여 모델의 안정성을 평가하세요.
- c) 예측 구간을 제공하는 방법을 구현하고 설명하세요(예: 분위 회귀, 부트스트래핑 등).

In [None]:
# 여기에 코드를 작성하세요

## 4. 인사이트 및 권장 사항 (20점)

### 4.1 도시 환경 개선을 위한 권장 사항
위의 분석을 바탕으로, 도시 환경을 개선하기 위한 5가지 실행 가능한 권장 사항을 제시하세요. 각 권장 사항에 대해 데이터 기반 근거를 제공하세요.

[여기에 답변을 작성하세요]

### 4.2 분석의 한계점 및 개선 방안
이 분석의 한계점과 향후 개선을 위한 추가 데이터 수집 방안을 논의하세요.

[여기에 답변을 작성하세요]

# 소매업 체인점 분석 프로젝트: 매출 최적화 및 고객 행동 이해
## 배경:
```당신은 "GlobalMart"라는 대형 소매업 체인의 데이터 사이언스 팀에 새롭게 합류했습니다. 
GlobalMart는 전 세계적으로 1,000개 이상의 매장을 운영하고 있으며, 온라인 판매 채널도 보유하고 있습니다. 
최근 경영진은 데이터 기반 의사결정의 중요성을 인식하고, 매출 증대와 고객 경험 개선을 위한 프로젝트를 시작하기로 결정했습니다.
```

## 데이터셋:
파일명: globalmart_data.csv
기간: 2018년 1월 1일부터 2022년 12월 31일까지의 일일 데이터
포함 정보: 매장 정보, 제품 정보, 판매 데이터, 고객 데이터, 프로모션 정보 등

문제:



In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 로드
df = pd.read_csv('./dataset/globalmart_data.csv')
df.head()

Unnamed: 0,date,store_id,store_size,store_location,customer_id,product_id,quantity,product_category,base_price,season_factor,location_factor,promotion,discount,price,total_price
0,2020-05-03,S0033,Medium,Suburban,C000010,P0017,1,Electronics,256.558394,1.16905,1.0,True,0.144013,219.610542,256.74
1,2022-08-14,S0026,Small,Suburban,C000914,P0083,3,Electronics,336.11741,0.863845,1.0,False,0.0,336.11741,871.06
2,2020-08-19,S0048,Small,Rural,C000303,P0088,3,Clothing,385.434237,0.849467,0.8,True,0.227611,297.705103,606.94
3,2022-07-21,S0001,Large,Suburban,C000322,P0020,4,Food & Beverage,166.349658,0.934118,1.0,False,0.0,166.349658,621.56
4,2018-06-04,S0049,Medium,Urban,C000817,P0076,3,Electronics,296.98607,1.091181,1.2,True,0.187564,241.282276,947.82



## 5. 데이터 전처리 및 탐색적 데이터 분석 (EDA) (30점)

### 5-1. 데이터의 품질을 검사하고, 발견된 문제점들을 나열하세요. 각 문제에 대한 적절한 처리 방법을 제안하고 실행하세요.


### 5-2. 다음 파생변수들을 생성하세요:
a) 고객 생애 가치 (Customer Lifetime Value) <br>
b) 제품별 수익률<br>
c) 매장별 일일 평균 고객 수<br>
d) 계절성 지표 (월별, 요일별)<br>


### 5-3. 매출에 영향을 미치는 주요 요인들을 시각화하여 분석하세요. 최소 5개의 다른 차트 유형을 사용하여 인사이트를 도출하세요.


### 5-4. 매장 위치, 크기, 재고 회전율 등의 요소가 매출에 미치는 영향을 분석하세요. 상관관계 분석과 적절한 통계 검정을 수행하세요.


## 6. 예측 모델링 (40점)

### 6-1. 일일 매출 예측 모델을 개발하세요. 다음 세 가지 접근 방식을 비교하세요:
a) 시계열 모델 (예: ARIMA) <br>
b) 머신러닝 모델 (예: Random Forest, XGBoost)<br>
c) 딥러닝 모델 (예: LSTM)<br>
각 모델의 성능을 평가하고, 예측 정확도뿐만 아니라 해석 가능성과 실용성 측면에서도 비교하세요.


### 6-2. 고객 세그먼테이션을 위한 클러스터링 모델을 개발하세요. 다음 단계를 따르세요:
a) 적절한 특성을 선택하고 전처리하세요.<br>
b) 최적의 클러스터 수를 결정하기 위한 방법을 적용하세요.<br>
c) 선택한 클러스터링 알고리즘을 적용하고 결과를 시각화하세요.<br>
d) 각 클러스터의 특성을 해석하고, 비즈니스적 의미를 설명하세요.<br>


### 6-3. 장바구니 분석을 수행하여 제품 간의 연관 규칙을 찾으세요. 다음을 포함하세요:<br>
a) 지지도, 신뢰도, 향상도의 개념을 설명하고, 임계값을 설정하세요.<br>
b) 가장 강력한 연관 규칙 상위 10개를 제시하고 해석하세요.<br>
c) 발견된 규칙을 바탕으로 교차 판매 및 상향 판매 전략을 제안하세요.<br>



## 7. 최적화 및 의사결정 (20점)

### 7-1. 매장별 재고 최적화 모델을 개발하세요. 다음 요소를 고려하세요:<br>
a) 과거 판매 데이터 <br><br>
b) 제품의 유통기한<br>
c) 보관 비용<br>
d) 품절로 인한 기회 비용<br>
모델의 목적 함수와 제약 조건을 명확히 정의하고, 솔루션 접근 방식을 설명하세요.<br>



### 7-2. A/B 테스트를 설계하여 새로운 매장 레이아웃의 효과를 측정하는 계획을 수립하세요. 다음을 포함하세요:<br>
a) 귀무가설과 대립가설 설정<br>
b) 필요한 표본 크기 계산<br>
c) 실험 기간 설정<br>
d) 성공 지표 정의<br>
e) 잠재적인 편향을 최소화하기 위한 전략<br>


## 8. 비즈니스 통찰 및 제안 (10점)

### 8-1. 분석 결과를 바탕으로, GlobalMart의 매출을 증대시키고 고객 경험을 개선하기 위한 5가지 핵심 전략을 제안하세요. 각 전략에 대해 다음을 포함하세요:
a) 데이터 기반 근거<br>
b) 예상되는 비즈니스 임팩트<br>
c) 실행을 위한 단계별 계획<br>
d) 잠재적 위험과 그 완화 방안<br>



### 8-2. 이 분석 프로젝트의 한계점을 논의하고, 향후 개선을 위한 추가 데이터 수집 및 분석 방향을 제안하세요.
평가 기준:

- 데이터 처리 및 분석의 정확성과 철저함
- 사용된 방법론의 적절성과 다양성
- 결과의 해석 및 비즈니스 통찰력
- 제안된 전략의 실현 가능성과 창의성
- 전반적인 보고서의 구조와 명확성

* 참고사항:

- 모든 코드와 분석 과정을 명확히 문서화하세요.
- 사용한 가정들을 명시하고 정당화하세요.
- 결과를 비즈니스 관점에서 해석하는 것에 중점을 두세요.
- 시각화와 요약 통계를 효과적으로 활용하여 인사이트를 전달하세요.