# 🤖 AI Occupational Exposure (AIOE) 분석 프로젝트

![intro](../img_source/01_intro_img.png)

## 환영합니다!

이 프로젝트는 **인공지능(AI)이 다양한 직업에 미치는 영향**을 분석하는 데이터 과학 프로젝트입니다.

ChatGPT, Claude와 같은 대형 언어 모델(LLM)의 등장으로 많은 직업이 영향을 받고 있습니다.  
어떤 직업이 AI에 더 많이 노출되어 있을까요? 그리고 그것이 임금과는 어떤 관계가 있을까요?

이 프로젝트를 통해 다음을 배우게 됩니다:
- 📊 **데이터 전처리**: 복잡한 실제 데이터를 분석 가능한 형태로 변환
- 🔍 **탐색적 데이터 분석(EDA)**: 데이터의 패턴과 관계 발견
- 🎯 **머신러닝 모델링**: 임금 예측 모델 구축
- 🎨 **군집 분석**: 비슷한 직업들을 그룹화

---

## 📚 목차

1. [프로젝트 배경](#1-프로젝트-배경)
2. [핵심 개념: AIOE란?](#2-핵심-개념-aioe란)
3. [데이터 소스](#3-데이터-소스)
4. [분석 파이프라인](#4-분석-파이프라인)
5. [주요 연구 질문](#5-주요-연구-질문)
6. [참고 논문 상세](#6-참고-논문-상세-felten-et-al-2023)
7. [시작하기](#7-시작하기)

---

## 1. 프로젝트 배경

### 🌍 왜 이 분석이 중요한가?

**AI 기술의 급속한 발전**
- 2022년 11월, OpenAI의 ChatGPT 출시
- 2개월 만에 1억 명 사용자 돌파 (역사상 가장 빠른 성장)
- 텍스트 생성, 코드 작성, 번역, 요약 등 다양한 언어 작업 자동화

**직업 시장에 미치는 영향**
- 일부 직업은 AI로 대체될 위험 ⚠️
- 일부 직업은 AI를 도구로 활용하여 생산성 향상 📈
- 새로운 직업 창출 가능성 ✨

**누가 영향을 받는가?**
- 정책 입안자: 재교육 프로그램 설계
- 기업: 인력 계획 및 투자 결정
- 개인: 직업 선택 및 경력 개발

---

## 2. 핵심 개념: AIOE란?

### 📐 AIOE (AI Occupational Exposure)

**정의:**  
AIOE는 **각 직업이 AI 기술에 얼마나 노출되어 있는지**를 나타내는 지표입니다.

**개발자:**  
- Edward Felten (프린스턴 대학 교수, 전 백악관 수석 기술고문)
- Manav Raj, Robert Seamans (뉴욕대학 교수)

**계산 방법:**

$$\text{AIOE}_k = \frac{\sum_{j} A_{ij} \times L_{jk} \times I_{jk}}{\sum_{j} L_{jk} \times I_{jk}}$$

**구성 요소:**

| 기호 | 이름 | 설명 | 데이터 소스 |
|------|------|------|-------------|
| $A_{ij}$ | Ability Importance | 직업 i가 능력 j를 얼마나 필요로 하는가? (1~5점) | O*NET |
| $L_{jk}$ | AI-Ability Link | AI 기술 k가 능력 j를 수행할 수 있는가? (0~1) | 전문가 설문조사 |
| $I_{jk}$ | AI Performance | AI 기술 k가 능력 j를 얼마나 잘 수행하는가? (0~1) | 전문가 평가 |

**점수 범위:**
- **이론적 범위**: 1 ~ 5 (능력 중요도 A의 스케일)
- **실제 범위**: 약 2 ~ 5 (모든 직업이 최소한의 능력 필요)
- **높을수록** AI의 영향을 많이 받음

**왜 이 범위인가?**
- AIOE는 능력 중요도(A)의 **가중평균** 형태
- A가 1~5 범위이므로, AIOE도 1~5 범위
- 실제로는 모든 직업이 최소한의 능력을 필요로 하므로 약 2 이상

**예시:**
```
변호사 (Lawyers): AIOE = 4.8 (높음)
  → 문서 작성, 계약서 검토 등 언어 작업 많음

요리사 (Cooks): AIOE = 2.1 (낮음)
  → 육체적 작업, AI로 대체 어려움
```

---

## 3. 데이터 소스

이 프로젝트는 세 가지 주요 데이터 소스를 사용합니다:

### 📂 1) O*NET Database

**제공 기관:** 미국 노동부 (U.S. Department of Labor)

**내용:**
- 974개 직업에 대한 상세 정보
- 52개 능력(Abilities)의 중요도
  - 예: Written Comprehension (문서 이해력)
  - 예: Oral Expression (구두 표현력)
- 직무 설명(Description)

**사용 파일:**
- `Abilities.xlsx`: 능력 중요도 (R 행렬)
- `Occupation Data.xlsx`: 직업 정보

**웹사이트:** https://www.onetcenter.org/

---

### 💰 2) BLS OEWS (Occupational Employment and Wage Statistics)

**제공 기관:** 미국 노동통계국 (Bureau of Labor Statistics)

**내용:**
- 직업별 고용 규모 (Employment)
- 직업별 평균 임금 (Mean Wage)
- 2023년 5월 기준 데이터

**사용 파일:**
- `national_M2023_dl.xlsx`: 전국 평균 임금 데이터

**웹사이트:** https://www.bls.gov/oes/

---

### 🤖 3) AI-Ability Link & Performance Data

**출처:** Felten et al. (2021, 2023) 연구 논문

**내용:**
- L 행렬: AI 기술이 어떤 능력을 수행할 수 있는가?
- I 벡터: AI가 각 능력을 얼마나 잘 수행하는가?
- Language Modeling (ChatGPT 등) 기준

**사용 파일:**
- `ai_ability_link.csv`: L 행렬 (52개 능력 × AI 기술)
- `ai_performance.csv`: I 벡터 (AI 성능)

---

## 4. 분석 파이프라인

### 🔄 전체 작업 흐름 (한눈에 보기)

```
📂 원본 데이터
    ├─ O*NET: 직업별 능력 중요도 (R 행렬)
    ├─ BLS OEWS: 임금/고용 데이터
    └─ AI Research: L 행렬, I 벡터
              ↓
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📓 01_전처리
   • AIOE 계산 (R × L × I)
   • 데이터 병합
              ↓
   📁 job_aioe_processed.csv (1,000개 직업)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
              ↓
📓 02_EDA
   • 통계 분석 & 시각화
   • 상관관계 분석
   • Top/Bottom 직업 발견
              ↓
   📁 job_aioe_for_modeling.csv (747개 직업)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
              ↓
   ┌──────────┴──────────┐
   │                     │
📓 03_모델링          📓 04_군집분석
   • 임금 예측           • 직업 그룹화
   • 피처 중요도         • 시장 구조 파악
```

---

### 📊 각 노트북의 역할

| 노트북 | 입력 → 출력 | 핵심 작업 |
|--------|-------------|----------|
| **01_전처리** | 원본 데이터 3종<br>→ `job_aioe_processed.csv` | ✅ AIOE 점수 계산<br>✅ 임금/고용 데이터 병합 |
| **02_EDA** | `job_aioe_processed.csv`<br>→ `job_aioe_for_modeling.csv` | ✅ 데이터 분포 이해<br>✅ 상관관계 발견<br>✅ 이상치 제거 |
| **03_모델링** | `job_aioe_for_modeling.csv`<br>→ 예측 모델 | ✅ 임금 예측 (R²~0.7)<br>✅ 피처 중요도 분석 |
| **04_군집분석** | `job_aioe_for_modeling.csv`<br>→ 클러스터 레이블 | ✅ 직업 그룹화 (5~7개)<br>✅ 시장 구조 분석 |

---

### 💡 핵심 질문과 답

| 질문 | 답을 찾는 노트북 |
|------|------------------|
| 어떤 직업이 AI 영향을 가장 많이 받는가? | 📓 02_EDA |
| AIOE와 임금은 관계가 있는가? | 📓 02_EDA, 03_모델링 |
| AIOE로 임금을 예측할 수 있는가? | 📓 03_모델링 |
| 직업 시장은 몇 개 그룹으로 나뉘는가? | 📓 04_군집분석 |

---

## 5. 주요 연구 질문

이 프로젝트는 다음과 같은 질문에 답하려고 합니다:

### 🤔 핵심 질문

1. **어떤 직업이 AI의 영향을 가장 많이 받는가?**
   - 가장 높은 AIOE 직업은?
   - 가장 낮은 AIOE 직업은?
   - 왜 그런가?

2. **AIOE와 임금의 관계는?**
   - AI 노출도가 높으면 임금이 높은가? 낮은가?
   - 양의 상관관계? 음의 상관관계?
   - 예외는 무엇인가?

3. **AIOE로 임금을 예측할 수 있는가?**
   - 얼마나 정확하게?
   - 어떤 피처가 가장 중요한가?
   - 텍스트 정보가 도움이 되는가?

4. **직업 시장은 어떻게 구조화되어 있는가?**
   - 몇 개의 주요 그룹이 있는가?
   - 각 그룹의 특징은?
   - 내 직업은 어느 그룹에 속하는가?

### 💡 실용적 질문

**정책 입안자:**
- 어떤 직업군에 재교육 프로그램이 필요한가?
- 정부 지원이 필요한 산업은?

**기업:**
- AI 도입이 인력 수요에 미치는 영향은?
- 어떤 직무를 자동화할 수 있는가?

**개인:**
- 내 직업의 미래는?
- 어떤 스킬을 개발해야 하는가?
- 전환 가능한 직업은?

---

## 7. 시작하기

### 📁 프로젝트 구조

```
aioe_proj/
├── notebooks/
│   ├── 00_AIOE_intro.ipynb                 # 👈 지금 보고 있는 파일
│   ├── 01_AIOE_Data_Preprocessing.ipynb    # 데이터 전처리
│   ├── 02_AIOE_EDA.ipynb                   # 탐색적 데이터 분석
│   ├── 03_AIOE_Modeling.ipynb              # 머신러닝 모델링
│   └── 04_AIOE_Cluster.ipynb               # 군집 분석
│
├── datas/
│   ├── raw/                                # 원본 데이터
│   │   ├── Abilities.xlsx                  # O*NET 능력 데이터
│   │   ├── Occupation Data.xlsx            # O*NET 직업 데이터
│   │   ├── national_M2023_dl.xlsx          # BLS OEWS 임금 데이터
│   │   ├── ai_ability_link.csv             # AI-능력 연결 (L 행렬)
│   │   └── ai_performance.csv              # AI 성능 (I 벡터)
│   │
│   └── processed/                          # 처리된 데이터
│       ├── job_aioe_processed.csv          # 01번 노트북 출력
│       └── job_aioe_for_modeling.csv       # 02번 노트북 출력
│
├── references/
│   ├── How will Language Modelers like ChatGPT Affect Occupations and Industries?.pdf
│   └── calculating_occupational_exposure.pdf
│
└── README.md
```

### 🚀 실행 순서

**1단계: 환경 설정**
```bash
# 필요한 라이브러리 설치
pip install pandas numpy matplotlib seaborn scikit-learn lightgbm koreanize-matplotlib
```

**2단계: 노트북 순서대로 실행**

```
✅ 00_AIOE_intro.ipynb           (이 파일 - 개요)
      ↓
1️⃣ 01_AIOE_Data_Preprocessing.ipynb
      ↓ job_aioe_processed.csv 생성
2️⃣ 02_AIOE_EDA.ipynb
      ↓ job_aioe_for_modeling.csv 생성
3️⃣ 03_AIOE_Modeling.ipynb
      ↓ 모델 학습 및 평가
4️⃣ 04_AIOE_Cluster.ipynb
      ↓ 클러스터 분석 완료
```

**3단계: 각 노트북에서 셀을 순서대로 실행**
- `Shift + Enter`: 현재 셀 실행 후 다음 셀로 이동
- 또는 메뉴: `Run > Run All Cells`

### ⏱️ 예상 소요 시간

| 노트북 | 소요 시간 | 난이도 |
|--------|----------|-------|
| 00_Intro | 30분 (읽기) | ⭐ Easy |
| 01_Preprocessing | 1~2시간 | ⭐⭐ Medium |
| 02_EDA | 1~2시간 | ⭐⭐ Medium |
| 03_Modeling | 2~3시간 | ⭐⭐⭐ Hard |
| 04_Cluster | 1~2시간 | ⭐⭐⭐ Hard |
| **총합** | **6~10시간** | - |

### 💡 학습 팁

**1. 순서대로 진행**
- 각 노트북은 이전 노트북의 결과를 사용합니다
- 건너뛰지 마세요!

**2. 코드 실행하면서 이해**
- 마크다운 설명을 읽고
- 코드를 실행하고
- 결과를 해석하세요

**3. 직접 수정해보기**
- 파라미터를 바꿔보세요
- 다른 시각화를 만들어보세요
- "What if" 질문을 던지세요

**4. 막히면**
- 에러 메시지를 읽어보세요
- 구글 검색 (에러 메시지 복사)
- 노트북 내 설명 다시 읽기

**5. 더 깊이 학습하려면**
- `references/` 폴더의 논문 읽기
- 다른 AI 기술로 AIOE 계산해보기
- 추가 피처 엔지니어링 시도

---

## 6. 시작하기

### 📁 프로젝트 구조

```
aioe_proj/
├── notebooks/
│   ├── 00_AIOE_intro.ipynb                 # 👈 지금 보고 있는 파일
│   ├── 01_AIOE_Data_Preprocessing.ipynb    # 데이터 전처리
│   ├── 02_AIOE_EDA.ipynb                   # 탐색적 데이터 분석
│   ├── 03_AIOE_Modeling.ipynb              # 머신러닝 모델링
│   └── 04_AIOE_Cluster.ipynb               # 군집 분석
│
├── datas/
│   ├── raw/                                # 원본 데이터
│   │   ├── Abilities.xlsx                  # O*NET 능력 데이터
│   │   ├── Occupation Data.xlsx            # O*NET 직업 데이터
│   │   ├── national_M2023_dl.xlsx          # BLS OEWS 임금 데이터
│   │   ├── ai_ability_link.csv             # AI-능력 연결 (L 행렬)
│   │   └── ai_performance.csv              # AI 성능 (I 벡터)
│   │
│   └── processed/                          # 처리된 데이터
│       ├── job_aioe_processed.csv          # 01번 노트북 출력
│       └── job_aioe_for_modeling.csv       # 02번 노트북 출력
│
├── references/
│   ├── How will Language Modelers like ChatGPT Affect Occupations and Industries?.pdf
│   └── calculating_occupational_exposure.pdf
│
└── README.md
```

### 🚀 실행 순서

**1단계: 환경 설정**
```bash
# 필요한 라이브러리 설치
pip install pandas numpy matplotlib seaborn scikit-learn lightgbm koreanize-matplotlib
```

**2단계: 노트북 순서대로 실행**

```
✅ 00_AIOE_intro.ipynb           (이 파일 - 개요)
      ↓
1️⃣ 01_AIOE_Data_Preprocessing.ipynb
      ↓ job_aioe_processed.csv 생성
2️⃣ 02_AIOE_EDA.ipynb
      ↓ job_aioe_for_modeling.csv 생성
3️⃣ 03_AIOE_Modeling.ipynb
      ↓ 모델 학습 및 평가
4️⃣ 04_AIOE_Cluster.ipynb
      ↓ 클러스터 분석 완료
```

**3단계: 각 노트북에서 셀을 순서대로 실행**
- `Shift + Enter`: 현재 셀 실행 후 다음 셀로 이동
- 또는 메뉴: `Run > Run All Cells`

### ⏱️ 예상 소요 시간

| 노트북 | 소요 시간 | 난이도 |
|--------|----------|-------|
| 00_Intro | 30분 (읽기) | ⭐ Easy |
| 01_Preprocessing | 1~2시간 | ⭐⭐ Medium |
| 02_EDA | 1~2시간 | ⭐⭐ Medium |
| 03_Modeling | 2~3시간 | ⭐⭐⭐ Hard |
| 04_Cluster | 1~2시간 | ⭐⭐⭐ Hard |
| **총합** | **6~10시간** | - |

### 💡 학습 팁

**1. 순서대로 진행**
- 각 노트북은 이전 노트북의 결과를 사용합니다
- 건너뛰지 마세요!

**2. 코드 실행하면서 이해**
- 마크다운 설명을 읽고
- 코드를 실행하고
- 결과를 해석하세요

**3. 직접 수정해보기**
- 파라미터를 바꿔보세요
- 다른 시각화를 만들어보세요
- "What if" 질문을 던지세요

**4. 막히면**
- 에러 메시지를 읽어보세요
- 구글 검색 (에러 메시지 복사)
- 노트북 내 설명 다시 읽기

**5. 더 깊이 학습하려면**
- `references/` 폴더의 논문 읽기
- 다른 AI 기술로 AIOE 계산해보기
- 추가 피처 엔지니어링 시도

---