# 🧠 딥러닝 기반 뇌종양 분류

## 📌 프로젝트 정보
- **진행 기간**: 2023.08 ~ 2023.11  
- **참여 형태**: 개인 프로젝트  
- **프로젝트 개요**: MRI 뇌 영상 데이터를 기반으로 딥러닝 모델을 활용해 **뇌종양의 존재 여부 및 종류 분류**

---

## ✅ 최종 결과
- **최종 모델**: ResNet50V2 기반 전이학습 모델 + 미세조정(Fine-tuning) 적용
- **정확도**: 99%
- **Precision / Recall / F1-score**: 모두 99% 수준
- **혼동 행렬 분석 결과**: **정상으로 잘못 예측된 뇌종양 없음**

---

## 📂 데이터셋 정보

- **출처**: Kaggle의 [Brain Tumor MRI Dataset](https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset/data) 공개 데이터셋 사용
- **클래스 구성**:
  - `no_tumor`: 비종양 MRI 이미지
  - `glioma`: 신경교종 (가장 흔한 악성 뇌종양)
  - `meningioma`: 수막종 (두개 내 양성 종양)
  - `pituitary`: 뇌하수체 선종
- **데이터 규모**: 총 7,000장 이상의 MRI 이미지 (Train/Test 폴더 기준 분리)

| 구분          | meningioma | glioma | notumor | pituitary | 합계   | 전체 비율 |
|---------------|------------|--------|---------|-----------|--------|------------|
| **Train**      | 1,339      | 1,321  | 1,595   | 1,457     | 5,712  | 81.3%      |
| **Test** | 306        | 300    | 405     | 300       | 1,311  | 18.7%      |
| **전체**        | 1,645      | 1,621  | 2,000   | 1,757     | 7,023  | 100%       |

- **데이터 분할 방식**:
  - 제공된 데이터셋은 `Training`, `Test` 폴더로 구성되어 있으며,
    `Test` 데이터를 **Validation 용도**로 사용함

<table style="margin: 0; margin-bottom: 20px;">
  <tr>
    <td><img src="https://john-yim.github.io/portfolio/images/brain_distribution.png" style="width: 700px; height: auto;"></td>
  </tr>
  <tr>
    <td style="text-align: center;"><i>데이터 분포</i></td>
  </tr>
</table>

- **이미지 형태**: 해상도 다양 (대부분 512x512)
<table style="margin: 0; margin-bottom: 20px;">
  <tr>
    <td><img src="https://john-yim.github.io/portfolio/images/brain_mri_ex.png" style="width: 700px; height: auto;"></td>
  </tr>
  <tr>
    <td style="text-align: center;"><i>클래스별 이미지 예시</i></td>
  </tr>
</table>

---


## 🛠️ 사용 기술

### 📦 프레임워크 & 라이브러리
- TensorFlow / Keras
- Cv2
- Matplotlib
- Scikit-learn

### 💻 개발 환경
- Python
- PyCharm
- Jupyter Notebook

### 🧠 모델링 기법
- CNN
- Transfer Learning (ResNet50V2 기반)
- Fine-tuning

---

## 🔍 트러블슈팅 및 개선 과정

### 1. **기본 CNN 모델의 한계**
- 단순 CNN 모델 + Grayscale + 512x512 리사이즈 이미지 학습
- **정확도 93~94%**, 혼동행렬 상에서 **뇌종양을 정상으로 예측하는 치명적인 오류 발생**

### 2. **전처리 개선**
- 이미지 **비율 유지 리사이즈 + 패딩 적용**  
- 정확도 **95%로 향상**, 그러나 여전히 오류 존재

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/base_acc.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>정확도 및 손실률</i></td></tr>
</table>

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/base_cm.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>혼동행렬</i></td></tr>
</table>

### 3. **구조 및 하이퍼파라미터 변경 시도**
- 단순 CNN 구조의 한계를 극복하기 위해 **다양한 아키텍처 실험** 진행

#### ✅ 네트워크 구조 변경 시도
- 레이어 수 조절 (더 깊게 / 얕게)  
- 커널 사이즈 변경  
- 드롭아웃(Dropout) 추가/삭제 및 비율 변경  
- Batch Normalization 추가 및 위치 조정

#### ✅ 하이퍼파라미터 튜닝 시도
- Learning Rate, Batch Size 변경  
- Optimizer 변경  
- L1 / L2 정규화 적용 및 lambda 값 변화  
- Activation 함수 변경

📉 **결과**: 다양한 실험에도 불구하고 정확도는 **95%에서 더 이상 향상되지 않음**,  
혼동 행렬 상에서도 여전히 **정상으로 잘못 예측되는 케이스 존재**

### 4. **전이학습 도입**
- 총 **13개의 사전 학습 모델 비교 실험**

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/tf_model_select.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>전이학습 모델 정확도</i></td></tr>
</table>

- ResNet50V2가 가장 높은 성능 보임 → 채택  
- Feature Extractor + 새로 구성한 분류기 학습  
- 정확도 **97%**, 뇌종양을 정상으로 예측하는 오류 제거

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/tf_acc.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>전이학습 후 정확도 및 손실률</i></td></tr>
</table>

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/tf_cm.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>전이학습 후 혼동행렬</i></td></tr>
</table>

### 5. **성능 지표 불균형 문제 해결**
- 정확도 대비 **Precision, Recall, F1-score는 평균 90% 수준**

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/tf_score.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>전이학습 후 성능지표</i></td></tr>
</table>

- → 단순 전이학습의 한계로 판단

### 6. **미세조정(Fine-tuning) 적용**
- ResNet50V2의 **마지막 블록만 동결 해제**  
- 추가 학습 수행 → 성능 전반적으로 상승  
- **정확도 및 모든 지표 99% 달성**

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/ft_acc.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>미세조정 후 정확도 및 손실률</i></td></tr>
</table>

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/ft_cm.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>미세조정 후 혼동행렬</i></td></tr>
</table>

<table style="margin: 0; margin-bottom: 20px;">
  <tr><td><img src="https://john-yim.github.io/portfolio/images/ft_score.png" style="width: 700px; height: auto;"></td></tr>
  <tr><td style="text-align: center;"><i>미세조정 후 성능지표</i></td></tr>
</table>

---

## 🧠 결론 및 고찰

- 본 프로젝트에서는 단순 정확도 수치뿐 아니라 **정밀도(Precision)**, **재현율(Recall)** 등
  **임상적으로 중요한 지표까지 고려한 고성능 분류 모델**을 개발하였다.

- 실무적인 관점에서 **‘실제로 사용할 수 있는 분류 모델’**을 목표로
  전처리 개선, 구조 변경, 전이학습, 미세조정 등 다양한 시도를 통해 지속적으로 성능을 개선하였다.

- 특히, **전이학습(Transfer Learning)**과 **Fine-tuning**의 조합을 통해
  오분류가 중요한 의료 분야에서도 **신뢰성 있는 분류 성능**을 확보할 수 있었다.

- 향후에는 **환자의 임상정보나 병기(예: 1기~4기)**가 포함된 데이터를 활용하거나
  **다중 분류** 또는 **순서형 분류** 기법을 적용해
  뇌종양의 **진행 단계 예측 모델**로 확장할 수 있을 것으로 보인다.

- 단순 분류를 넘어서 **종양의 위치를 시각적으로 표시하는 Object Detection 또는 Segmentation 모델**을 활용하면
  뇌종양의 **존재 위치 및 경계**까지 시각적으로 제시하는 **임상보조 진단 모델**로의 확장도 가능 할 것으로 보인다.