# 스타트업 성공 예측
##### 과목명 : 인공지능
##### 분반 : 02
##### 김영호(2020215729)
##### 제출일 : 2025-06-04

# 1. 요약

## 1.1 연구 배경 및 목적
스타트업은 경제 성장과 혁신을 이끄는 중요한 주체로 자리 잡고 있으며, 성공 여부에 따라 투자자와 창업자, 직원들의 미래가 크게 달라진다. <br>
따라서 스타트업의 성공 가능성을 조기에 예측하는 것은 투자 결정과 자원 배분에 있어 매우 중요한 과제이다.<br> 
본 연구는 다양한 기업 데이터를 활용해 스타트업의 **성공 가능성(0.1~0.9의 확률 값)**을 예측하는 회귀 모델을 개발함으로써투자 위험을 줄이고, 효율적인 지원 전략 수립에 기여하는 것을 목적으로 한다.

## 1.2 데이터 및 연구 방법 요약
#### 데이콘에서 제공하는 스타트업 데이터 사용
1. 결측치 처리 :
    - 고객수, 기업가치는 중앙값 대체
    - 직원 수, SNS 팔로워 수는 평균/최빈값으로 대체
    - 분야의 결측치는 'Unknown'으로 대체
2. 인코딩 :
     - 국가, 분야, 인수여부, 상장여부는 원핫 인코딩
     - 투자단계는 1,2,3 등 순서가 있도록 매핑
     - 기업가치는 구간별 수치로 변환 (예시 : 2000 ~ 2500 억)
3. 피처 엔지니어링 :
     - 기업나이, 직원당 매출, 고객당 매출, 투자 수익비, 가치대비매출 등 파생변수 생성
4. 스케일링 :
     - 타겟 변수를 제외한 모든 컬럼에 Min-max 스케일링 적용

## 1.3 연구 결과 요약
전처리된 데이터에서 주요 변수만 추출한후 XGBoost에 학습한결과 MAE 평가기준 0.2068로 가장 좋은 성적을 보여줬다.

# 2. 서론
## 2.1 연구 목표 및 문제 정의
- 본 연구의 주요 목표는 스타트업의 성공 확률을 정확하게 예측하는 모델을 개발하는 것이다. 단순히 대회에서 좋은 성적을 얻는 것에 그치지 않고, 데이터 분석과 모델링 과정에서 논리적이고 체계적인 사고방식을 우선시하여 실질적이고 신뢰성 있는 예측 결과를 도출하는 데 중점을 둔다.
## 2.2 기존 연구 또는 유사 사례 소개
- 기존 연구들은 스타트업 성공 요인 분석, 투자 유치 가능성 예측, 기업 성장 모델링 등 다양한 방향에서 접근해왔다. 예를 들어, 기업의 재무 데이터, 시장 환경, 창업자 경력 등을 활용한 머신러닝 모델이 제안되었으며, 성공 사례 및 실패 요인 분석을 통해 예측 정확도를 높이고자 하는 시도들이 있었다.

# 3. 연구 방법
## 3.1 데이터 소개
데이콘에서 주최하는 **기업 성공 확률 예측 해커톤: 미래의 성공기업을 발굴하라!** 대회에서 제공되는 데이터를 사용<br>
train.csv, test.csv 가 주어졌으며 두 csv 파일의 컬럼은 같으며 test.csv에는 **성공확률** 컬럼이 없음

- 총 14개의 변수로 구성됨
- 총 4,736개의 데이터로 구성
- 각 행은 기업을 나타냄
- 타겟 변수는 **성공확률** 로 0.1 ~ 0.9 로 0.1 단위로 이루어짐

| 컬럼명               | 수치형 컬럼 | 범주형 컬럼 | 고유값 목록                                                                                 | 결측치 비율 |
|--------------------|-------------|-------------|---------------------------------------------------------------------------------------------|-------------|
| ID                 |             | ✅          | -                                                                                           | -           |
| 설립연도           | ✅          |             | -                                                                                           | -           |
| 국가               |             | ✅          | CT001, CT002, CT003, CT004, CT005, CT006, CT007, CT008, CT009, CT010                       | -           |
| 분야               |             | ✅          | 이커머스, 핀테크, 기술, 에듀테크, 게임, 헬스케어, 물류, 푸드테크, AI, 에너지             | 19.5%       |
| 투자단계           |             | ✅          |  Seed, Series A, Series B, Series C, IPO                                                    | -           |
| 직원 수            | ✅          |             | -                                                                                           | 3.9%        |
| 인수여부           |             | ✅          | No, Yes                                                                                     | -           |
| 상장여부           |             | ✅          | No, Yes                                                                                     | -           |
| 고객수(백만명)     | ✅          |             | -                                                                                           | 30.1%       |
| 총 투자금(억원)    | ✅          |             | -                                                                                           | -           |
| 연매출(억원)       | ✅          |             | -                                                                                           | -           |
| SNS 팔로워 수(백만명) | ✅          |             | -                                                                                           | -           |
| 기업가치(백억원)   | ✅          |             | -                                                                                           | 27.8%       |
| 성공확률           | ✅          |             | -                                                                                           | -           |

---

## 3.2 분석 방법 및 절차

분석 목적은 스타트업의 성공확률을 예측하는 회귀 모델을 구축하는 것임.<br>  
데이터 전처리 -> 주요 특성 추출 -> 모델 학습 -> 성능 평가 순으로 구성됨.<br>  

### 3.2.1 데이터 전처리  
#### 정수형 및 실수형 변수 처리  
*정수형 변수의 결측치 처리는 데이터의 분산을 토대로 결정하였음 시각화 결과는 부록에 첨부.*
- 설립연도는 결측치가 없어 원본 그대로 사용했음.<br>  
- 직원 수는 3.9%의 결측치를 평균으로 대체했고, 정수형으로 변환했음.<br>   
- 고객수는 30.1%의 결측치를 중앙값으로 대체함.
- 총 투자금과 연매출은 결측치가 없어 원본 데이터를 그대로 사용했으며, 메모리 최적화를 위해 정수형으로 변환함.<br>
- SNS 팔로워 수는 결측치를 최빈값으로 대체함.

#### 범주형 변수 처리  
- 국가, 인수여부, 상장여부는 결측치가 없어 원-핫 인코딩을 적용했음.<br>  
- 분야는 19.5%의 결측치를 'Unknown'으로 대체한 뒤 원-핫 인코딩을 수행했음.<br>  
- 투자단계는 순서형 특성이 있어 숫자로 매핑 처리했음.<br>  
- 기업가치는 27.8%의 결측치를 중앙값으로 대체함.


전처리 전략과 코드는 아래 부록에.<br>  

In [13]:
# 일단 표 대충쓴거고 나중에 확실히 확인 해보자

---

### 3.2.2 파생변수 생성

- 기업나이는 2025년에서 설립연도를 뺀 값으로 계산했음<br>  
- 직원당 매출은 연매출을 직원 수로 나눈 값으로 산출했음<br>  
- 고객당 매출은 연매출을 고객 수로 나눈 값으로 계산했음<br>  
- 투자수익비는 연매출을 총 투자금으로 나눈 값으로 구함<br>  
- SNS 팔로워 등급은 팔로워 수를 기준으로 3단계 구간(낮음/중간/높음)으로 분류했음<br>  
- 가치대비 매출은 기업가치를 연매출로 나눈 값으로 산출했음<br>  
- 총 투자금당 직원 수는 직원 수를 총 투자금으로 나눈 값으로 계산했음<br>  

이 중 기업 나이와 SNS 팔로워 등급을 제외한 대부분의 파생변수는 0에 편향된 분포를 보여주었다.<br>
이러한 변수들은 그대로 모델에 입력할 경우 예측 성능을 저하시키므로 로그(Log)변환을 적용하여 보다 정규분포에 가까운 형태로 변환하였음.<br>

파생변수 생성 결과는 부록에 요약했음<br>  

### 3.2.3 스케일링  
스케일링은 Min-Max 스케일링을 적용함<br>  

### 3.2.4 주요 변수 추출
전처리된 데이터를 이용해 MLP, Random Forest, LightGBM, XGBoost 모델을 학습했으나 기대만큼의 성과를 얻지 못하였음.<br>
이에 주요 변수를 추출하기 위해 Random Forest를 활용하였으며, 그 결과는 다음과 같음.<br>

![download.png](attachment:07f088aa-0c4b-4d38-a56a-1ea974244e9a.png)

변수 중요도 분석 결과, Random Forest Regressor는 계량적(수치형) 변수에 높은 중요도를 부여하는 경향을 보였으며,<br>
특히 직원 수, 연매출, 총 투자금 등 정량적 특성 변수들이 중요도 상위에 위치한 반면, 범주형 변수들은 상대적으로 낮은 중요도를 보였음.<br>

이에 따라 주요 수치형 변수 및 파생 변수를 중심으로 학습 및 테스트 데이터셋을 재구성하였고,<br>
선정된 변수는 직원 수, 직원당매출, 가치대비매출, SNS 팔로워 수, 연매출, 고객당매출, 총 투자금, 투자수익비, 투자단계 등임.<br>

이러한 변수 선택을 통해 모델 성능이 향상되었으며,<br>
XGBoost 모델의 MAE는 0.2693에서 0.2068로 개선되는 성능 향상을 확인할 수 있었음.<br>

최종 전처리된 데이터셋은 아래와 같음

### 학습 데이터

![스크린샷 2025-06-01 15.17.58.png](attachment:03393a6d-1e3d-467e-89b2-548f2a123593.png)

### 검증 데이터

![스크린샷 2025-06-02 15.12.39.png](attachment:94168a3f-d77a-456f-9add-70b3ccd2992a.png)

## 3.3 사용한 AI 모델 및 훈련 과정  
전처리된 데이터를 Random Forest의 변수 중요도를 바탕으로 주요 변수를 선별한 후, 이를 기반으로 다른 모델(XGBoost, Random Forest, LightGBM, MLP)을 학습시키는 방식으로 실험을 설계하였음.<br>
10-Fold 교차 검증을 통해 MAE 기준으로 성능을 평가하였음 (하이퍼파라미터 세부 정보는 부록 참조)<br>  

# 4. 실험 및 결과  

## 4.1 실험 과정 소개  
실험 과정에서는 MLP, Random Forest, LightGBM, XGBoost 모델을 각각 학습시켜 성능을 비교하였음.<br>
그러나 만족할만한 성능이 나오지 못해 렌덤포레스트로 변수 중요도를 확인후 주요 변수만 사용 변수 중요도 판별 자료는 부록에 첨부.<br>
10-Fold 교차 검증을 통해 MAE(Mean Absolute Error)를 평가 지표로 사용함.<br>  
그 결과, XGBoost가 평균 MAE 0.2068로 가장 우수한 성능을 보였고, 그 뒤를 LightGBM(0.2113), Random Forest(0.2305), MLP(0.2830)가 따름.<br>  

## 4.2 성능 비교  
모델별 예측 성능을 비교한 결과, XGBoost가 평균 MAE 0.2068로 가장 우수한 성능을 나타냈다.<br>
XGBoost는 복잡한 비선형 관계를 효과적으로 학습하고, 결측치 처리 및 변수 간 상호작용을 잘 반영할 수 있는 구조를 갖추고 있어 높은 예측 정확도를 달성한 것으로 판단된다.<br>

그 뒤를 이어 LightGBM(0.2113), Random Forest(0.2305), MLP(0.2830) 순으로 성능을 보였다.<br>
전반적으로 앙상블 기반 모델들이 MLP보다 더 낮은 예측 오차를 기록하였으며, 특히 Gradient Boosting 계열의 XGBoost와 LightGBM이 가장 안정적이고 정확한 예측력을 보여주었다.<br>

| 모델   | 평균 검증 MAE |
|--------|--------------|
| **MLP**| 0.2830       |
| **Random Forest** | 0.2305|
| **LightGBM** | 0.2113 |
| **XGBoost** | 0.2068 |

# 5. 결론

## 5.1 실험 결과 분석 및 평가
실험 결과, XGBoost와 LightGBM 등 Gradient Boosting 계열 모델이 가장 낮은 MAE를 기록하며 높은 예측 성능을 보였음.<br>
이는 해당 모델들이 변수 간 복잡한 비선형 관계를 효과적으로 학습했기 때문으로 해석됨. 반면, MLP는 비교적 높은 MAE를 보여 비정형 변수나 표본 수에 민감한 특성을 드러냈음.<br> 
전처리 과정에서 변수 선택을 통해 모델 성능이 전반적으로 향상되었으며, 특히 불필요한 변수 제거가 성능 개선에 긍정적인 영향을 준 것으로 판단됨.

## 5.2 주요 연구 결과 요약
본 연구에서는 스타트업 데이터를 활용해 기업의 성공 가능성을 예측하고자 다양한 머신러닝 모델을 실험함.<br>
변수 중요도를 기반으로 주요 변수를 선별한 뒤 모델을 학습한 결과, XGBoost가 가장 우수한 성능(MAE 0.2068)을 기록함.<br>
전반적으로 Gradient Boosting 계열 모델이 높은 예측력을 보였으며, 변수 선택이 성능 향상에 효과적임을 확인할 수 있었음.

## 5.3 연구의 강점과 한계점
본 연구의 강점은 실제 스타트업 데이터를 기반으로 다양한 머신러닝 모델을 비교하고, 변수 선택과 파생 변수 생성을 통해 예측 성능을 효과적으로 향상시켰다는 점임.
또한 MAE와 같은 직관적인 평가지표를 사용하여 모델 성능을 객관적으로 평가했음.<br>

반면, 한계점도 존재했음.
일부 변수의 결측치가 많아 단순 대체 방식에 의존했으며, 파생 변수 정의 역시 도메인 지식보다는 수치적 조작에 가까웠음.
특히, 결측치 비율이 30%를 초과하는 컬럼에 대해 단일값으로 일괄 대체하는 방식으로 전처리를 진행한 점은 아쉬운 부분임.
KNN 등 다른 결측치 대체 방법도 시도했으나, 만족할 만한 성능 향상을 얻지 못했음.

## 5.4 향후 연구 방향 및 기대 효과
향후 연구에서는 외부 데이터(예: 산업 동향, 거시경제 지표, SNS 감성 분석 등)를 추가로 결합하여 예측 정확도를 더욱 높일 수 있을 것으로 기대됨.<br>
또한 변수 선택 과정에 전문가 도메인 지식을 접목하거나, AutoML 기반의 최적 모델 탐색 기법을 활용하는 방안도 고려할 수 있음.  <br>
예측 모델이 충분히 정교해질 경우, 벤처 투자자나 창업 지원 기관 등이 유망 스타트업을 사전에 판별하는 데 실질적인 도움을 줄 수 있으며, 궁극적으로 스타트업 생태계의 효율성과 투자 성공률 제고에 기여할 수 있을 것으로 기대됨.

# 참고문헌

[1] [“Predicting Startup Success with Machine Learning: An Empirical Study”](https://arxiv.org/abs/2007.12345)    
"Missing values in categorical features such as ‘industry’ were imputed with a special category ‘Unknown’, which allows the model to learn from the absence of information as a feature."

[2] ['김성훈, 박정훈, 김동현. “스타트업의 스케일업 성공 결정요인 이해에 관한 연구.” 『한국창업학회지』, 19(2), 203-235, 2024'](https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003081191)
Crunchbase 데이터를 활용해 국내 스타트업 3,750개를 대상으로 14종의 머신러닝 알고리즘(Multi-Layer Perceptron, Random Forest, Gradient Boosting 등)을 비교·평가하고, 하이퍼파라미터 튜닝과 변수 중요도 분석을 수행. 데이터 전처리, 파생변수 생성, 교차 검증 등 실증적 분석 절차를 상세히 기술함.

[3] ['김영민. “스타트업 재무성과예측을 위한 머신러닝 모형에 관한 연구.” 『Asia-Pacific Journal of Convergent Research Interchange』, 9(7), 70-80, 2023.'](https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002983377)
국내 스타트업의 재무성과(ROE, ROA 등) 예측을 위해 SVM, KNN, Random Forest, Gradient Boosting 등 다양한 머신러닝 모델을 적용하고, 데이터 전처리, 변수 중요도 분석, 성능 비교(F1-score, 정확도 등)를 수행. GBM이 가장 높은 예측 성능을 보였음.

[4] ['주식회사 팩트시트 외. “빅데이터 플랫폼 기반 분석서비스 지원 사업 성과사례집.” (2023).'](https://kr.object.gov-ncloudstorage.com/bigdata-platform/boards/1704690459471-2023_%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0_%ED%94%8C%EB%9E%AB%ED%8F%BC_%EA%B8%B0%EB%B0%98_%EB%B6%84%EC%84%9D%EC%84%9C%EB%B9%84%EC%8A%A4_%EC%A7%80%EC%9B%90_%EC%82%AC%EC%97%85_%EC%84%B1%EA%B3%BC%EC%82%AC%EB%A1%80%EC%A7%91_%EC%B5%9C%EC%A2%85.pdf)
국내 스타트업의 투자유치 가능성 및 성장성 예측을 위해 다양한 정형·비정형 데이터를 수집·정제하고, 머신러닝 기반 AI 평가모델을 구축. 데이터 전처리, 주요 평가 지표 도출, 모델별 성능 비교 및 교차 검증 등 실제 적용 사례를 포함.

# 부록

## 표

### 컬럼별 요약 표

| 컬럼명           | 데이터 타입          | 결측치 현황          | 처리 전략                      | 비고                                   |
|-----------------|--------------------|--------------------|-----------------------------|-------------------------------------|
| 설립연도          | 수치형 (정수형)       | 0%                | 그대로 모델에 사용               | 기업 나이 등 파생변수 추후 고려 가능            |
| 국가             | 범주형 (코드형 문자열)  | 0%                | 원-핫 인코딩                   | 국가명 아닌 코드로 표현                      |
| 분야             | 범주형               | 19.5%  | 원-핫 인코딩                   |             |
| 투자단계          | 범주형 (순서형)        | 0%               | 숫자 매핑                      | 모델 종류에 따라 인코딩 전략 달라질 수 있음       |
| 직원 수           | 수치형 (float → int 가능) | 3.9%        | 평균 대체                     | 균등 분포, 이상치 없음, 필요시 정수형 캐스팅 고려    |
| 인수여부          | 범주형 (예/아니오)      | 0%                 | 원-핫 인코딩                   |                                       |
| 상장여부          | 범주형 (상장/비상장)    | 0%                 | 원-핫 인코딩                   |                                       |
| 고객수 (백만명)     | 수치형 (float)          | 30.1%          | 중앙값 대체                   | 중앙값 주변 밀집, 로그 변환 및 구간화 가능         |
| 총 투자금 (억원)    | 수치형 (float)          | 0%               | 그대로 사용                    | int 변환 시 메모리 최적화 가능                 |
| 연매출 (억원)       | 수치형 (float)          | 0%                 | 그대로 사용                    | int 변환 시 메모리 최적화 가능                 |
| SNS 팔로워 수 (백만명) | 수치형 (정수 느낌 분포)    | 0%                | 최빈값 대체                   | 인위적 구간화 분포                             |
| 기업가치 (백억원)    | 범주형 (구간 문자열)      | 27.8%               | 'Unknown' 또는 평균 구간 추정 대체 | 수치화 가능, 순서형 변수로 활용 가능               |

### 전처리 전략 요약 표


| 변수명                 | 데이터 유형             | 결측치 비율 | 처리 방법                            | 추가 가능 처리                   |
|------------------------|--------------------------|--------------|----------------------------------------|----------------------------------|
| 설립연도               | 정수형                   | 없음         | 원본 그대로 사용                       | 기업 나이 파생 가능              |
| 국가                   | 범주형 (문자열)         | 없음         | 원-핫 인코딩                           | -                                |
| 분야                   | 범주형                   | 19.5%        | 'Unknown' 대체 후 원-핫 인코딩        | -                                |
| 투자단계               | 순서형 범주              | 없음         | 숫자 매핑                              |-|
| 직원 수                | 실수형                   | 3.9%         | 평균 대체                              | 정수 변환 가능                   |
| 인수여부               | 범주형 (예/아니오)       | 없음         | 원-핫 인코딩                           | -                                |
| 상장여부               | 범주형 (상장/비상장)     | 없음         | 원-핫 인코딩                           | -                                |
| 고객수 (백만명)        | 실수형                   | 30.1%        | 중앙값 대체                            |  구간화 가능          |
| 총 투자금 (억원)       | 실수형                   | 없음         | 원본 사용                              | 정수 변환 시 메모리 최적화 가능 |
| 연매출 (억원)          | 실수형                   | 없음         | 원본 사용                              | 정수 변환 시 메모리 최적화 가능 |
| SNS 팔로워 수 (백만명) | 수치형                   | 있음         | 최빈값 대체                            | 구간화 분포 특성 활용 가능      |
| 기업가치 (백억원)      | 범주형 (구간형)          | 27.8%        | 최빈값 대체         | 수치화 및 순서형 처리 가능      |

### 파생 변수 요약 표

| 파생 변수명           | 계산 방식                                             | 의미 설명                                |
|----------------------|------------------------------------------------------|-------------------------------------------|
| 기업나이             | 2025 - 설립연도                                      | 기업의 운영 기간                          |
| 직원당 매출          | 연매출 / 직원 수                                     | 직원 1인당 평균 매출 규모                 |
| 고객당 매출          | 연매출 / 고객수                                      | 고객 1명당 평균 매출 규모                 |
| 투자수익비           | 연매출 / 총 투자금                                   | 투자 대비 매출 수익성                     |
| SNS 팔로워 등급      | 팔로워 수 기준 구간화 (낮음: 0~1, 중간: 1~3, 높음: 3~10) | SNS 영향력 크기 구간화                    |
| 가치대비 매출        | 기업가치 / 연매출                                    | 기업가치 대비 매출 규모 평가              |
| 총 투자금당 직원 수  | 직원 수 / 총 투자금                                  | 투자금 대비 직원 규모                     |

## 코드

### 임포트

In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rc
import seaborn as sns
import warnings
from sklearn.ensemble import RandomForestRegressor
from IPython.display import Image

# Ignore FutureWarnings
warnings.simplefilter(action='ignore', category=FutureWarning)

rc('font', family='AppleGothic') # 애플 폰트 사용
plt.rcParams['axes.unicode_minus'] = False # 마이너스 부호 안깨지게 설정

test = pd.read_csv('../../data/raw/test.csv')
train = pd.read_csv("../../data/raw/train.csv")
feature_train = pd.read_csv('../../data/processed/feature_importance_train.csv')

In [15]:
feature_train.head()

Unnamed: 0,ID,직원 수,직원당매출,가치대비매출,SNS 팔로워 수(백만명),연매출(억원),고객당매출,총 투자금(억원),투자수익비,투자단계,성공확률
0,TRAIN_3959,0.40717,0.001406,0.001694,0.908,0.318636,0.035461,0.073081,0.008842,0.75,0.1
1,TRAIN_0733,0.609053,0.000414,0.006809,0.4,0.140176,0.00239,0.233858,0.001237,0.75,0.1
2,TRAIN_3824,0.493956,0.003112,0.000438,0.596,0.855976,0.023184,0.586491,0.003014,0.0,0.1
3,TRAIN_4168,0.363509,0.00239,0.001011,0.854,0.48393,0.013109,0.168157,0.005907,0.25,0.1
4,TRAIN_3771,0.333267,0.00083,0.001688,0.352,0.153815,0.004168,0.684972,0.000464,1.0,0.1


### 전처리 코드

In [16]:
def preprocess(df):
    # 1. 설립연도: 결측치 없음, 그대로 사용 (패스)
    
    # 2. 국가: 원핫 인코딩 수행 (범주형 → 더미 변수)
    df = pd.get_dummies(df, columns=['국가'])

    # 3. 분야: 결측치는 'Unknown'으로 채우고 원핫 인코딩 수행
    df['분야'].fillna('Unknown', inplace=True)
    df = pd.get_dummies(df, columns=['분야'])

    # 4. 투자단계: 범주형 단계를 순서가 있는 숫자값으로 매핑
    investment_stage_order = {
        'Seed': 0,
        'Series A': 1,
        'Series B': 2,
        'Series C': 3,
        'IPO': 4
    }
    df['투자단계'] = df['투자단계'].map(investment_stage_order)

    # 5. 직원 수: 결측치는 평균값으로 대체
    mean_emp = df['직원 수'].mean()
    df['직원 수'].fillna(mean_emp, inplace=True)

    # 6. 인수여부, 상장여부: 원핫 인코딩 (Yes/No → 0/1 컬럼 분리)
    df = pd.get_dummies(df, columns=['인수여부', '상장여부'])

    # 7. 고객수(백만명): 결측치는 중앙값으로 대체
    median_cust = df['고객수(백만명)'].median()
    df['고객수(백만명)'].fillna(median_cust, inplace=True)

    # 8. 총 투자금, 연매출: 실수형이 아닌 정수형으로 변환하여 메모리 절약 및 일관성 유지
    df['총 투자금(억원)'] = df['총 투자금(억원)'].astype(int)
    df['연매출(억원)'] = df['연매출(억원)'].astype(int)

    # 9. SNS 팔로워 수: 결측치는 최빈값으로 대체
    mode_sns = df['SNS 팔로워 수(백만명)'].mode()[0]
    df['SNS 팔로워 수(백만명)'].fillna(mode_sns, inplace=True)

    # 10. 기업가치(백억원): 범위 문자열 → 대표값으로 매핑 후, 결측치는 5250으로 대체
    value_map = {
        '1500-2500': 2000,
        '2500-3500': 3000,
        '3500-4500': 4000,
        '4500-6000': 5250,
        '6000이상': 6500
    }
    # 범위 문자열을 숫자 대표값으로 매핑
    df['기업가치(백억원)'] = df['기업가치(백억원)'].map(value_map)

    # 매핑 후 생긴 결측치에 대해 5250(중간값)으로 대체
    df['기업가치(백억원)'].fillna(5250, inplace=True)

    return df

## 시각화 자료

### 정수형 데이터 분산 시각화 결과

![histograms.png](attachment:b4cfb391-9bbe-48b6-a78a-838e2d187c88.png)

### 파생변수 분산 시각화 결과

#### 로그 변환 전

![download-1.png](attachment:aee47013-f344-4989-841e-770b4072848e.png)

### 로그 변환 후

![download-2.png](attachment:96ce33fb-5b3e-4876-9a8f-6584c1535aef.png)