# DSAC M2 핵심 요약

---

## 1. 파이썬 특수 자료형과 라이브러리
- **리스트 (list)** → 수치 계산에 비효율적 → **NumPy 배열로 변환**
  - 함수: `np.array(list)`
- **딕셔너리 (dict)** → 테이블 표현에 불편 → **Pandas 데이터프레임으로 변환**
  - 함수: `pd.DataFrame(dict)`

---

## 2. 데이터 분석 절차
1. **문제 정의** → 해결할 목적과 타깃 설정
2. **전략 수립** → 담당자 + 분석가 협업
3. **데이터 수집** → 직접 측정, 기존 데이터, 공공데이터, 크롤링, Kaggle
4. **탐색적 분석 (EDA)** → 데이터 흐름, 분포, 이상치 확인
5. **데이터 전처리 (Preprocessing)** → 결측치, 이상치 처리 및 변환
6. **모델 구현** → 지도/비지도/강화 학습 적용
7. **결과 적용** → 모델 평가 및 보고서 작성

---

## 3. 머신러닝 학습 유형
### 지도학습 (Supervised Learning)
- **정의**: 입력(X)과 정답(y, label)이 있는 데이터를 학습 → 새로운 입력 예측
- **이유**: 분류/회귀 문제 해결 가능
- **Python**: `LinearRegression`, `LogisticRegression`, `DecisionTreeClassifier`

### 비지도학습 (Unsupervised Learning)
- **정의**: 정답(y) 없이 데이터의 패턴과 군집을 탐색
- **이유**: 데이터 구조 파악, 그룹 분류
- **Python**: `KMeans`, `DBSCAN`, `PCA`

### 강화학습 (Reinforcement Learning)
- **정의**: 보상(reward)을 통해 최적의 행동을 학습
- **이유**: 게임, 로봇 제어 등에서 최적 전략 탐색
- **Python**: `gym`, `stable-baselines3` (외부 라이브러리)

---

## 4. 데이터 분석 핵심 개념
- **독립변수 (X, Feature)**: 입력값, 예측 원인  
  → `df.drop('target', axis=1)`
- **종속변수 (y, Target/Label)**: 출력값, 목적변수  
  → `df['target']`
- **훈련 데이터**: 학습용 (보통 70~80%)
- **테스트 데이터**: 최종 평가용 (20~30%)
- **검증 데이터**: 모델 튜닝 시 사용

---

## 5. 탐색적 분석 (EDA)
- **정의**: 데이터의 전반적인 특징 파악 (평균, 분산, 분포, 이상치)
- **이유**: 데이터 품질 확인 및 모델링 전략 수립
- **Python**
  - `df.describe()`, `df.info()`
  - `df.corr()` → 상관관계
  - `df.boxplot()`, `plt.hist()`, `sns.displot()`

---

## 6. 데이터 전처리 (Preprocessing)
- **정의**: 머신러닝 전에 데이터를 정리하여 품질 향상
- **이유**: 실제 데이터에는 결측치, 이상치, 단위 불일치가 많음
- **유형과 함수**
  - **결측치 처리**: `df.dropna()`, `df.fillna(값)`
  - **범주형 처리**: `pd.get_dummies(df)`
  - **스케일링**
    - 최소-최대 정규화: `MinMaxScaler`
    - 표준화(z-score): `StandardScaler`
  - **데이터 변환**
    - 로그 변환, 역수 변환

---

## 7. 클러스터링 (Clustering)
- **정의**: 유사한 데이터를 군집으로 묶는 비지도 학습
- **이유**: 데이터 패턴 탐색, 고객 분류, 이상치 탐지
- **알고리즘과 함수**
  - **KMeans**: `KMeans(n_clusters=k)`
  - **DBSCAN**: `DBSCAN(eps=0.5, min_samples=5)`
- **유사도/거리**
  - 유클리디안 거리: `np.linalg.norm(x1-x2)`
  - 코사인 유사도: `cosine_similarity`
  - 자카드 유사도: `jaccard_score`

---

## 8. 회귀와 분류
### 선형회귀 (Linear Regression)
- **정의**: 입력과 출력 간 선형 관계를 통해 연속값 예측
- **Python**: `LinearRegression`

### 선형분류 (Linear Classification)
- **정의**: 직선/평면으로 데이터를 분리
- **Python**: `SGDClassifier`, `SVC(kernel="linear")`

### 로지스틱 회귀 (Logistic Regression)
- **정의**: 시그모이드 함수를 사용한 분류 알고리즘
- **Python**: `LogisticRegression`

---

## 9. 평가 지표
- **MSE (Mean Squared Error)**: 예측값과 실제값 차이의 제곱 평균  
  → `mean_squared_error(y_test, y_pred)`
- **엔트로피 (Entropy)**: 데이터 불확실성 지표, 결정트리에서 사용  
  → `DecisionTreeClassifier(criterion="entropy")`

---

## 10. 전처리 세부 개념
- **결측치 (NaN)**: 값이 없음 → 삭제/대체 필요
- **이상치 (Outlier)**: IQR 기준 벗어난 값  
  - 기준: `Q1 - 1.5×IQR`, `Q3 + 1.5×IQR`
- **과소적합 (Underfitting)**: 모델이 너무 단순 → 성능 낮음
- **과대적합 (Overfitting)**: 훈련 데이터에만 맞춰짐 → 일반화 성능 낮음
- **원-핫 인코딩 (One-Hot Encoding)**: 범주형 → 이진 벡터 변환  
  - 함수: `pd.get_dummies(df)`, `OneHotEncoder`


# DSAC M2 핵심 용어 정리

| 용어 | 설명 | 사용 이유 | Python 함수 |
|------|------|-----------|-------------|
| **지도학습 (Supervised Learning)** | 입력(X)과 정답(y, label)이 있는 데이터를 학습하여 새로운 입력의 출력을 예측 | 분류/회귀 문제 해결, 모델 성능을 정답과 비교 가능 | `LinearRegression`, `LogisticRegression`, `DecisionTreeClassifier` |
| **비지도학습 (Unsupervised Learning)** | 정답(y)이 없이 입력 데이터만으로 패턴·군집을 탐색 | 데이터 구조 이해, 그룹 분류, 이상치 탐지 | `KMeans`, `DBSCAN`, `PCA` |
| **강화학습 (Reinforcement Learning)** | 보상(reward)을 통해 최적 행동을 학습 | 최적 전략 탐색 (게임, 로봇 제어) | `gym`, `stable-baselines3` (외부 라이브러리) |
| **독립변수 (X, Feature)** | 입력값, 예측 원인 | 모델 학습 시 입력값 제공 | `df.drop('target', axis=1)` |
| **종속변수 (y, Target/Label)** | 출력값, 목적변수 | 예측하고자 하는 결과 | `df['target']` |
| **탐색적분석 (EDA)** | 데이터 분포·특성·이상치 파악 | 데이터 품질 확인, 모델링 전략 수립 | `df.describe()`, `df.corr()`, `df.boxplot()` |
| **전처리 (Preprocessing)** | 머신러닝 학습 전 데이터 정리 및 변환 | 결측치/이상치 처리, 정규화, 범주형 인코딩 | `df.dropna()`, `df.fillna()`, `pd.get_dummies()`, `MinMaxScaler`, `StandardScaler` |
| **클러스터링 (Clustering)** | 유사 데이터끼리 군집화하는 비지도 학습 | 고객 분류, 패턴 탐지, 이상치 식별 | `KMeans`, `DBSCAN` |
| **선형회귀 (Linear Regression)** | X와 y의 선형 관계로 연속값 예측 | 수치 예측 (예: 매출, 집값) | `LinearRegression` |
| **선형분류 (Linear Classification)** | 직선/평면으로 데이터를 분리 | 이진/다중 클래스 분류 | `SGDClassifier`, `SVC(kernel="linear")` |
| **로지스틱 회귀 (Logistic Regression)** | 시그모이드 함수를 이용한 확률 기반 분류 | 합격/불합격, 정상/비정상 등 이진 분류 | `LogisticRegression` |
| **MSE (Mean Squared Error)** | 예측값-실제값 차이 제곱 평균 | 회귀 모델 성능 평가 | `mean_squared_error(y_test, y_pred)` |
| **엔트로피 (Entropy)** | 데이터 불확실성을 측정하는 지표 | 결정트리 분할 기준 | `DecisionTreeClassifier(criterion="entropy")` |
| **유클리디안 거리 (Euclidean Distance)** | 두 점 사이의 직선 거리 | 거리 기반 유사도 측정 | `np.linalg.norm(x1-x2)`, `euclidean_distances` |
| **코사인 유사도 (Cosine Similarity)** | 두 벡터 방향의 유사도 (0~1) | 텍스트 분석, 추천 시스템 | `cosine_similarity` |
| **자카드 유사도 (Jaccard Similarity)** | 두 집합의 교집합/합집합 비율 | 집합 기반 유사도, 추천 시스템 | `jaccard_score` |
| **KMeans** | 중심점(centroid) 기반 군집화 | 데이터 그룹화, 패턴 탐색 | `KMeans(n_clusters=k)` |
| **DBSCAN** | 밀도 기반 군집화 | 이상치 탐지, 비선형 군집 | `DBSCAN(eps=0.5, min_samples=5)` |
| **원핫인코딩 (One-Hot Encoding)** | 범주형 변수를 0/1 이진 벡터로 변환 | 범주형 데이터를 머신러닝에 활용 | `pd.get_dummies()`, `OneHotEncoder` |
