# 데이터 분석 목적

## 1. 설명
- **목적**: 어떤 현상의 원인을 데이터 분석을 통해 설명
- **방법**: 탐색적 분석(Exploratory Data Analysis, EDA) → 결과 도출
- **특징**: 패턴을 찾아내어 서술형 모델을 구성  
  (예: 유사한 특성을 가진 항목을 묶는 군집화)
- **결과**: 새로운 인사이트 얻기

---

## 2. 예측
- **목적**: 새로운 샘플에 대한 미래 값 예측
- **기법**: 회귀(regression), 분류(classification)

### 회귀 (수치 예측)
- 예시: 내일 날씨 예측, 주가 예측, 병에 걸릴 확률 예측, 가게 매출 예측

### 분류 (범주 예측)
- 예시: 수신 메일이 스팸인지 여부, 우수 고객 여부

---

## 3. 추천
- **목적**: 단순 정보를 넘어 최적의 의사결정을 돕는 것
- **방법**: 설명 및 예측 모델을 종합적으로 활용
- **예시**: 약 처방, 내비게이션 경로 추천, 검색엔진 결과, 상품/영화/음악 추천

# 심슨 패러독스 (Simpson's Paradox)

- 같은 데이터를 가지고도 **통계 분석을 통한 결과 해석 방법**에 따라 상반된 결과를 얻을 수 있다.  
- 실제로 자주 발생하는 현상이다.  

---

## 사례

### A사
- 서울: 정상품 90, 불량품 10 → **불량률 10%**
- 춘천: 정상품 980, 불량품 20 → **불량률 2%**
- 전체: **불량률 3%**

### B사
- 서울: 정상품 920, 불량품 80 → **불량률 8%**
- 춘천: 정상품 99, 불량품 1 → **불량률 1%**
- 전체: **불량률 8%**

---

## 결론
- 같은 데이터를 두고도 **분석 단위(지역별 vs 전체)**에 따라 서로 다른 결론에 도달할 수 있다.  
- → 즉, **데이터 해석의 관점에 따라 결과가 달라질 수 있음**.

# 데이터 분석의 방법 (알고리즘)

- **흐름**: 데이터 모집 → 학습 → 모델 → 결과 추출
- **예시**: 데이터 100개
  - 80개 학습: 훈련 데이터
  - 20개 테스트: 테스트 데이터 → 모델 평가

---

## 1. 지도 학습 (Supervised Learning)
- 입력 값(x), 정답(y, label)을 포함한 훈련용 데이터로 학습
- 학습된 결과를 바탕으로 테스트 데이터에 대해 미래 값 예측
- 대표: 회귀(Regression), 분류(Classification) → 시간이 지나면 정답 확인 가능
- 모델의 성능에 대해 정확한 평가 가능
- 정답에 해당하는 값(출력 값) → **목적 변수(Target Variable), 레이블(Label)**

### 회귀 분석 (수치 예측)
- 알고리즘: 선형 회귀, KNN, SVM, 로지스틱 회귀, 랜덤 포레스트, 신경망 등

### 분류 (범주 판별)
- 어떤 항목(item)이 어느 그룹에 속하는지 판별
- 이진 분류(두 가지), 다중 분류(세 개 이상)

---

## 2. 비지도 학습 (Unsupervised Learning)
- 훈련 데이터: 입력 값만 존재 / 정답(출력) 없음
- 학습 단계에서 **출력(정답)을 스스로 추출**
- 입력 데이터의 패턴, 특성, 성질 등을 발견하는 방법
- 데이터의 특성을 기술하는 **서술형 모델**
- 지도 학습보다 평가가 어려움

### 주요 알고리즘
- 군집화 (Clustering)  
- 연관 분석 (Association Analysis)  
- 시각화, 데이터 변환, 차원 축소, 주성분 분석(PCA) 등  

### 연관 분석
- 어떤 사건이 다른 사건과 얼마나 자주 동시에 발생하는지 파악
- 예시: 같이 구매한 상품 분석 (장바구니 분석)

---

## 3. 강화 학습 (Reinforcement Learning)
- 입력에 대한 정답을 직접 알려주지 않음
- 일정 기간 동안의 **행동(Action)**에 대해 **보상(Reward)**을 제공  
  → 학습 방향성을 제시
- 예시: **알파고 (AlphaGo)**