## 기본적인 EDA 접근 방식
- 데이터의 특징을 탐색하는 과정으로 시각화, 통계량, 더 나아가 모델링 기법을 통해 데이터에 내재된 패턴 파악

### 1. 기본적인 문제 정의 & 분석 목표 설정
- 이 데이터는 무엇을 보여주고 싶은가?
- 데이터에 담긴 값의 의미를 생각해보기
- 타겟 변수(궁금한 값)이 있는가?
- 어떤 관계를 탐색할 것인가? (타겟 변수에 영향을 주는 요인이 무엇인지?)
- 가설 설정 등

### 2. 데이터의 구조 파악하기
- 데이터의 행/열 개수
- 각 변수의 데이터 유형
- 기초적인 통계량(평균, 최대, 최소, 최빈, 빈도, 고유값, 중앙값 등)

### 3. 데이터의 품질 점검하기 (결측치/중복/이상치)
- 결측치 탐색하기(그에 따른 처리 전략 수립)
- 중복 데이터 탐색하기
  - pandas의 duplicated() 함수
- boxplot 또는 IQR(Inter-Quartile Range) 활용하여 이상치 탐색하기

### 4. 단변량 분석(단일 변수에 대한 탐색)
- 각 변수의 통계량, 분포를 통해 패턴 탐색
- 수치형 데이터: 히스토그램, 박스플롯 등
- 범주형 데이터: countplot, 파이 차트 등
> 이 변수는 어떻게 생겼는가? 어떠한 형태? 어떠한 패턴?

### 5. 이변량 분석(두 변수 간의 관계 탐색)
- 타겟 변수와 다른 변수와의 패턴/관계? (또는 서로 다른 변수 간의 관계)
- 수치형 x 수치형: 산점도, 상관관계 등
- 범주형 x 수치형: 박스플롯, 바이올린 플롯 등
- 범주형 x 범주형: 파이 차트, 막대 그래프, 히트맵 등
> 한 변수가 다른 변수에 영향을 주는가?

### 6. 다변량 분석(여러 개 변수 간의 관계 및 전체적인 패턴 파악)
- 복합적인 여러 개의 변수간의 패턴 파악
- 상관관계 히트맵
- seaborn의 pairplot() 함수

### 7. 핵심 인사이트 도출 및 결과 요약 정리
- 어떤 변수가 타깃에 가장 큰 영향을 주는가?
- 데이터의 분포적 특징은 무엇인가?
- 노이즈/편향/한계점 등은 무엇인가?
- 분석 목적에 맞는 설명 정리
- 핵심 그래프 선정
- 변수 간 주요 관계 요약
- 데이터의 특성·문제점·해석 가능한 인사이트 정리

*필요에 따라 파생 변수 생성 등 활용*

# Iris 데이터셋 분석

Iris 데이터셋은 영국 통계학자 Ronald A. Fisher가 1936년에 발표한 논문에서 처음 사용한, 전 세계적으로 가장 유명한 기초 데이터셋이다.
3종의 붓꽃(Iris setosa, Iris versicolor, Iris virginica)에 대해
꽃받침(sepal)과 꽃잎(petal)의 길이와 너비를 측정한 값으로 구성되어 있다.

- 품종 분류(classification) 연구의 대표적인 예시 데이터
  - 붓꽃 품종별 특징 비교
  - petal_length / sepal_length 등 길이·너비의 분포 차이
  - 품종 간 구별되는 패턴 파악
  - 상관관계 및 다변량 관계 분석 등

- `iris.csv` 파일에 저장
 
 | 컬럼명 | 설명 |
| --- | --- |
| `sepal_length` | 꽃받침(sepal)의 길이(cm) |
| `sepal_width` | 꽃받침의 너비(cm) |
| `petal_length` | 꽃잎(petal)의 길이(cm) |
| `petal_width` | 꽃잎의 너비(cm) |
| `species` | 붓꽃의 종(예: Iris-setosa, Iris-versicolor, Iris-virginica) |

## Guide
- 자유롭게 각 작업마다 코드 셀을 추가해서 EDA를 진행해보세요!
  - 코드 셀 추가하는 단축키 : esc + b
- 각 스텝마다에서 얻어진 객관적 사실을 각각 정리해보세요!
- 분석 진행이나 컬럼/값의 의미/해석 등을 생성형 AI의 도움을 통해 아이디어를 받아보세요!
- 아래의 코드셀의 스텝 설명들은 일종의 가이드입니다.



## 데이터의 기본 구조 파악하기
- 전체 shape 확인
- 컬럼별 타입 확인
- 기본 통계량(describe)으로 단위·범위 파악
- 종(species) 개수, 클래스 비율 확인

## 데이터의 품질 확인하기
- 결측치 탐색(확인, 비율)
- boxplot으로 각 feature의 이상치 탐색
- IQR로 정량적 이상치 판단 (개수, 비율 등)

## 단변량 분석
- 각 변수 별 히스토그램 → 분포 파악
- 종(species)별 특징 비교
  - species별 평균/중앙값 비교
  - species 구분에 가장 영향 주는 변수 찾기
  - groupby(species).mean() 등 분석



## 이변량, 다변량 분석
- 다른 각각의 변수와의 관계성 파악하기
  - 산점도, 막대 그래프, 상관관계(히트맵)


## 핵심 인사이트 정리
- 3개 species가 어떤 특성에서 확연히 구분되는지
- 어떤 변수가 변별력이 높은지
- 통계적으로 유의미한 차이가 있는지 간단 비교