# EDA (Exploratory Data Analysis)

## 01. 데이터 수집 및 로딩
- CSV, Excel, DB, API 등에서 데이터를 불러오고, DataFrame 생성

```python
import pandas as pd
df = pd.read_csv('data.csv')
```

---

## 02. 데이터 구조 및 변수 이해
- 데이터 목적 파악, Feature/Target 구분
- 변수 타입 확인 (수치형, 범주형 등)
- 크기, 컬럼명, 샘플 확인

```python
print(df.shape)
print(df.dtypes)
print(df.head())
print(df.head())
```

---

## 03. 데이터 요약 및 기술 통계
- describe로 기본 통계량 확인
- 범주형은 value_counts로 분포 확인

```python
print(df.describe())
print(df['gender'].value_counts())
```

---

## 04. 결측치 및 이상치 탐색
- isnull로 결측치 개수 확인
- boxplot 등으로 이상치 탐지

```python
print(df.isnull().sum())
df.boxplot(figsize=(10, 5))
```

---

## 05. 변수 분포 시각화
- 히스토그램, 박스플롯 등으로 개별 변수의 분포 확인

```python
import seaborn as sns
sns.histplot(df['age'])
sns.boxplot(x='gender', y='age', data=df)
```

---

## 06. 변수 간 관계 시각화
- 산점도, pairplot 등으로 변수 간 상관관계 확인

```python
sns.scatterplot(x='age', y='income', data=df)
sns.pairplot(df[['age', 'income', 'score']])
```

---

## 07. 상관관계 및 교차분석
- 수치형: 상관계수
- 범주형: 교차표

```python
print(df.corr())
pd.crosstab(df['gender'], df['target'])
```

---

## 08. 데이터 전처리
- 결측치 제거/대체, 타입 변환, 불필요한 컬럼 제거

```python
df = df.dropna()
df['age'] = df['age'].astype(int)
```

---

## 09. Feature Engineering
- 새로운 변수 생성, 그룹화, 로그변환, 스케일링 등

```python
df['age_group'] = pd.cut(df['age'], bins=[0,20,40,60,100], labels=['Teen','Adult','Middle','Senior'])
```

---

## 10. 최종 요약 및 인사이트 도출
- 주요 변수 통계 요약
- 변수 간 영향력 확인
- 분석/모델링에 필요한 방향 설정

```python
# 예시: 그룹별 평균 요약
df.groupby('gender')['income'].mean()
```