# 📄 데이터 전처리 결과서

---

## 1. 수집한 데이터에 대한 설명

총 12개의 CSV 파일을 수집하였으며, 크게 두 가지 카테고리로 나뉩니다.

- **예상 매출 데이터 (expected_sales_YYYY.csv)**  
  서울시 상권 단위로 각 연도별 점포별 예상 매출 데이터를 수집 (2019 ~ 2024)

- **점포 수 데이터 (the_number_of_shops_YYYY.csv)**  
  동일 상권, 동일 업종 내 점포 수 정보 포함 (2019 ~ 2024)

---

## 2. 수집한 방법

- 서울 열린데이터 광장(Open Data Plaza)을 통해 연도별 CSV 파일 다운로드
- 각 연도별 데이터는 업종 코드 및 상권 코드 기준으로 병합 가능하도록 구조화되어 있음

---

## 3. Feature들에 대한 설명

- 총 **33개 Feature** 사용
- 주요 컬럼 예시:
  - `상권코드`: 고유 상권 식별자
  - `서비스업종코드`: 업종 식별 코드
  - `당월매출금액`, `요일별매출`, `시간대별매출`, `성별/연령대별매출`
  - `점포수`, `프랜차이즈점포수`, `유사업종점포수`, `당월매출금액증감`, `유사업종점포수증감`
  - `폐업률`: Target 값 (0.03 초과 시 폐업 위험)

---

## 4. 탐색적 데이터 분석 (EDA)

- **상관관계 분석**
  - 요일별 매출, 시간대별 매출, 연령대별 매출끼리 매우 높은 양의 상관관계를 가짐
  - `유사업종점포수증감`과 `당월매출금액증감`은 Target과 약한 음의 상관관계 존재
- **클래스 분포**
  - 폐업률 기준 이진 분류 시 비대칭적 데이터 → 클래스 불균형 존재 (정상:폐업 ≒ 4:1)

---

## 5. 결측치 처리 방법 및 이유

- `NaN` 값 존재 컬럼: 대부분 특정 매출 정보 (`연령대60이상매출금액` 등)
- 처리 방법:
  - 매출 관련 결측치는 **0으로 대체** (해당 조건에서 매출이 발생하지 않았다고 판단)
  - 비매출 데이터 결측은 드롭 (일부 상권 누락)

---

## 6. 이상치 판정 기준 및 처리 방법

- 매출 항목 이상치 기준: **Z-score > 3.0**  
  처리 방법: 이상치 자체는 사업적으로 의미가 있어 **제거하지 않고 유지**
- 폐업률 1.0 값 확인 → 이상 없음 (0 ~ 1 사이 값 분포 적절)

---

## 7. 적용한 Feature Engineering 방식

- **파생 변수 생성**
  - `당월매출금액증감`: 연도별 상권별 당월 매출 변화율
  - `유사업종점포수증감`: 경쟁도 지표
- **범주형 인코딩**
  - `상권구분코드`, `서비스업종코드` 등 Label Encoding 처리
- **스케일링 및 정규화**
  - LightGBM, XGBoost 모델 특성상 별도 스케일링은 하지 않음
- **Target 이진화**
  - 폐업률 0.03 초과 여부로 `폐업 위험` 클래스 생성

---


# 📦 데이터 원본

---

### 📊 expected_sales.csv

| 컬럼명 | 데이터 타입 |
|--------|-------------|
| 기준_년_코드 | int64 |
| 기준_분기_코드 | int64 |
| 상권_코드 | int64 |
| 서비스_업종_코드 | object |
| 총_매출_금액 | int64 |
| 총_매출_건수 | int64 |
| 총_고객_수 | int64 |
| 남성_매출_금액 | int64 |
| 여성_매출_금액 | int64 |
| 연령대_10_매출_금액 | int64 |
| 연령대_20_매출_금액 | int64 |
| 연령대_30_매출_금액 | int64 |
| 연령대_40_매출_금액 | int64 |
| 연령대_50_매출_금액 | int64 |
| 연령대_60_이상_매출_금액 | int64 |
| 점포_수 | int64 |

---

### 📊 the_number_of_shops.csv

| 컬럼명 | 데이터 타입 |
|--------|-------------|
| 기준_년_코드 | int64 |
| 기준_분기_코드 | int64 |
| 상권_코드 | int64 |
| 서비스_업종_코드 | object |
| 점포_수 | int64 |


### 📁 전처리된 입력 데이터셋 (X_train.csv / X_test.csv)

| 컬럼명 | 데이터 타입 |
|--------|-------------|
| 상권구분코드 | object |
| 상권코드 | int64 |
| 서비스업종코드 | object |
| 당월매출금액 | int64 |
| 월요일매출금액 | int64 |
| 화요일매출금액 | int64 |
| 수요일매출금액 | int64 |
| 목요일매출금액 | int64 |
| 금요일매출금액 | int64 |
| 토요일매출금액 | int64 |
| 일요일매출금액 | int64 |
| 시간대00~06매출금액 | int64 |
| 시간대06~11매출금액 | int64 |
| 시간대11~14매출금액 | int64 |
| 시간대14~17매출금액 | int64 |
| 시간대17~21매출금액 | int64 |
| 시간대21~24매출금액 | int64 |
| 남성매출금액 | int64 |
| 여성매출금액 | int64 |
| 연령대10매출금액 | int64 |
| 연령대20매출금액 | int64 |
| 연령대30매출금액 | int64 |
| 연령대40매출금액 | int64 |
| 연령대50매출금액 | int64 |
| 연령대60이상매출금액 | int64 |
| 점포수 | int64 |
| 유사업종점포수 | int64 |
| 개업률 | float64 |
| 프랜차이즈점포수 | int64 |
| 연도 | int64 |
| 분기 | int64 |
| 당월매출금액증감 | float64 |
| 유사업종점포수증감 | float64 |

---
### 📁 전처리된 타깃 데이터셋 (y_train.csv / y_test.csv)

| 컬럼명 | 데이터 타입 | 설명 |
|--------|-------------|------|
| 0 | int64 | 폐업 위험 여부 (0=정상, 1=폐업 위험) |


| 항목           | 원본 데이터셋                            | 전처리된 데이터셋                                  |
| -------------- | ---------------------------------------- | -------------------------------------------------- |
| 기간 범위      | 2019년 단일 연도                         | 2019~2024년 통합                                   |
| 컬럼 수        | 파일마다 상이 (ex. 일부에 점포 수 없음)   | 33개 컬럼으로 정규화                               |
| 추가된 파생 변수 | 없음                                     | `당월매출금액증감`, `유사업종점포수증감` 등 파생 변수 생성 |
| 형식 정제      | 없음                                     | 숫자형 정리, 문자형 인코딩, 누락값 처리 포함       |


## 수치형 변수 간 상관관계 히트맵

![수치형 변수 상관관계 히트맵](image.png)
