## 개요
이 보고서는 포켓몬 데이터셋을 활용하여 전설의 포켓몬을 예측하는 머신러닝 모델을 설계하고, 다양한 모델의 성능을 비교 분석한 결과를 다룹니다. 데이터 분석, 전처리 과정, 모델 선정, 그리고 최종 평가 결과를 중심으로 작성되었습니다.

---

## 목차
데이터 분석  
데이터 전처리  
모델링 및 평가  
최종 의견  
요약 및 회고  
참고 자료  

---

### 1. 데이터 분석
데이터 구조:  

포켓몬 수: 800
컬럼 수: 원본 데이터 기준 13개 → 전처리 후 45개
특징 요약: 전설의 포켓몬은 특정 이름 길이(name_count > 9)와 이름 내 특정 단어 출현 여부가 높은 비율로 연관됨.

시각적 분석:  

전설의 포켓몬은 공격력(Attack), 특수 공격력(Sp. Atk), 이름 길이(name_count > 9), 특정 토큰 포함 여부에서 차별성이 있음.
데이터는 클래스 간 불균형이 있음 (전설의 포켓몬은 전체의 약 8.1%).

### 2. 데이터 전처리
전처리 과정:

이름(Name) 정규화: 특수문자 및 공백 제거.
long_name: 이름 길이 10 이상 여부.
name_count: 이름의 문자 개수.
타입(Type 1, Type 2) 원-핫 인코딩 추가.
전설의 포켓몬과 관련된 주요 단어를 토큰화 후 빈도 기반 컬럼 생성(Mega, Latias 등).
훈련 및 테스트 데이터셋 분리:

features 변수에 주요 컬럼 지정:
['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Generation', 'long_name', ...]
target: Legendary 컬럼으로 지정.
데이터셋 분리: train_test_split으로 테스트 데이터 나눔.

---

### 3. 모델링 및 평가
테스트한 모델:

Decision Tree
Random Forest
XGBoost

성능 평가 (Confusion Matrix, Classification Report):

모델	Precision (True)	Recall (True)	Accuracy	F1-score (True)
Decision Tree	67%	92%	96%	77%
Random Forest	71%	77%	96%	74%
XGBoost	85%	85%	97%	85%
결론:
Decision Tree: 재현율(92%)은 높으나 정밀도(67%)가 낮아 과적합 경향 있음.
Random Forest: 비교적 균형적인 성능.
XGBoost: 정밀도와 재현율이 모두 높은 균형적인 모델로 최적의 선택.

---

### 4. 최종 의견
XGBoost 모델은 재현율(85%)과 정밀도(85%)가 균형을 이루며, 과적합 문제가 비교적 적어 실전 데이터에 활용하기 적합합니다. 전설의 포켓몬 예측 문제에서는 높은 재현율을 유지하면서도 일반 포켓몬을 과도하게 Positive로 분류하지 않는 것이 중요하므로, XGBoost가 가장 적절한 선택으로 판단됩니다.

---

### 5. 요약 및 회고
요약:

데이터셋을 탐색하여 전설의 포켓몬과 관련된 특성을 정의하고 전처리 과정을 설계.
Decision Tree, Random Forest, XGBoost 모델을 비교하여 성능 분석.
전설의 포켓몬 예측에 가장 적합한 모델로 XGBoost를 선정.   
  
회고:
전체적으로 데이터 수집부터 전처리 그리고 불필요한 데이터 제거와 데이터 분석을 차례대로 진행해서 전설의 포켓몬에 대해서 유의미한 결과를 도출해는 과정을 순차적으로 진행하면서 앞으로 어떻게 딥러닝과 머신러닝을 활용해서 데이터 분석을 해내가면 될지 청사진이 그려짐

성공점:
데이터 전처리와 탐색적 분석을 통해 전설의 포켓몬 예측에 유의미한 특성을 도출.
모델링 과정에서 재현율과 정밀도를 균형 있게 평가하여 최적 모델 선정.   

개선점:
클래스 불균형 문제를 해결하기 위한 SMOTE 등의 기법을 추가 적용 가능.
다른 앙상블 기법(Bagging, Boosting)의 성능 비교를 통해 최적화를 시도할 여지 존재.

---

### 6. 참고 자료
Pokemon Dataset: https://www.kaggle.com/datasets/abcsds/pokemon  
Scikit-learn Documentation: https://scikit-learn.org  
XGBoost Documentation: https://xgboost.readthedocs.io  