# [1] 주요 함수 소개 Data Preparation

먼저 지도학습 파이프라인을 따라가면서 주요 함수를 소개해드리겠습니다.

---

<h2>💫 1-1. <span style="background-color: rgba(255, 220, 82, 0.5);">데이터 준비</span></h2>

머신러닝 모델의 학습 재료가 되는 데이터를 가져오는 과정입니다.  
사이킷런은 학습용으로 다양한 예제 데이터를 제공하며, 실제 프로젝트에서는 외부 파일을 불러와 사용합니다.

<hr style="border: none; border-top: 1px solid #ccc;">

<h3>1️⃣ <span style="background-color: rgba(255, 220, 82, 0.2);">사이킷런 내장 예제 데이터 사용하기</span></h3>
사이킷런은 머신러닝을 쉽게 연습할 수 있도록 패키지 안에 다양한 종류의 데이터를 포함하고 있습니다. 이 데이터들은 별도의 외부 파일 없이 간단한 함수 호출만으로 불러올 수 있습니다.

<hr style="border: none; border-top: 1px solid #ccc;">

#### 📍주요 API

#### ✨ load_* : 사이킷런 패키지에 포함된 작은 데이터셋

| 함수명 | 설명 |
| :--- | :--- |
| `datasets.load_iris()` | 붓꽃의 피처를 가진 데이터로, 품종을 분류하는 데 사용됩니다. (분류용) |
| `datasets.load_breast_cancer()` | 위스콘신 유방암 피처와 악성/음성 레이블 데이터입니다. (분류용) |
| `datasets.load_digits()` | 0에서 9까지의 숫자 이미지 픽셀 데이터입니다. (분류용) |
| `datasets.load_wine()` | 와인의 화학 성분 분석 데이터로, 와인 종류를 분류합니다. (분류용) |
| `datasets.load_boston()` | 미국 보스턴의 집 피처와 가격에 대한 데이터입니다. (회귀용) |
| `datasets.load_diabetes()` | 당뇨병 데이터입니다. (회귀용) |
| `datasets.load_linnerud()` | 운동선수의 생리학적 데이터와 운동 능력 데이터입니다. (다중 출력 회귀용) |

#### ✨ fetch_* : 인터넷에서 내려받아 사용하는 큰 데이터셋

| 함수명 | 설명 |
| :--- | :--- |
| `datasets.fetch_california_housing()` | 캘리포니아 주택 가격 데이터로, `load_boston`을 대체하는 표준 회귀 데이터셋입니다. |
| `datasets.fetch_covtype()` | 회귀분석용 토지조사 자료입니다. |
| `datasets.fetch_20newsgroups()` | 뉴스그룹 텍스트 자료입니다. |
| `datasets.fetch_rcv1()` | 로이터 뉴스 말뭉치입니다. |
| `datasets.fetch_olivetti_faces()` | 얼굴 이미지 자료입니다. |
| `datasets.fetch_lfw_people()` | '야생의 얼굴' 데이터셋으로, `olivetti_faces`보다 더 어려운 얼굴 인식 문제입니다. |
| `datasets.fetch_kddcup99()` | KDD Cup '99 데이터로, 네트워크 침입 탐지(분류)에 사용됩니다. |
| `datasets.fetch_openml()` | OpenML.org 리포지토리에서 수많은 데이터셋을 이름으로 직접 다운로드합니다. (범용) |

#### ✨ make_* : 특정 목적의 가상 데이터를 직접 생성

| 함수명 | 설명 |
| :--- | :--- |
| `datasets.make_classifications()` | 분류(Classification)를 위한 가상 데이터 세트를 무작위로 생성합니다. |
| `datasets.make_regression()` | 회귀(Regression)를 위한 가상 데이터 세트를 무작위로 생성합니다. |
| `datasets.make_blobs()` | 군집화(Clustering)를 위한 가상 데이터 세트(덩어리)를 생성합니다. |
| `datasets.make_moons()` | 초승달 모양으로 분포된 데이터를 생성하여, 비선형 분류/군집 테스트에 사용됩니다. |
| `datasets.make_circles()` | 동심원 모양으로 분포된 데이터를 생성하며, 비선형 문제 테스트에 유용합니다. |
| `datasets.make_swiss_roll()` | 3차원 스위스 롤 형태의 데이터를 생성하여, 매니폴드 학습 테스트에 사용됩니다. |

<hr style="border: none; border-top: 1px solid #ccc;">

#### 📍사이킷런 내장 데이터 구조

| 키 (Key) | 내용 (Content) | 자료형 (Data Type) |
| :--- | :--- | :--- |
| `data` | 특성 데이터 배열 (문제지). 각 행은 샘플, 각 열은 특성을 나타냅니다. (형태 : n_samples x n_features) | NumPy `ndarray` |
| `target` | 레이블 데이터 배열 (정답지). 각 샘플에 대한 정답 값입니다. (형태 : n_samples,) | NumPy `ndarray` |
| `feature_names` | 특성들의 이름 목록. `data` 배열의 각 열이 무엇을 의미하는지 알려줍니다. | `list` |
| `target_names` | 레이블의 실제 이름 목록. `target` 배열의 숫자가 각각 무엇을 의미하는지 알려줍니다. | `ndarray` |
| `DESCR` | 데이터셋에 대한 전체 설명서. 데이터의 출처, 특성 정보, 통계치 등을 포함합니다. | `str` |
| `filename` | 데이터 파일이 저장된 실제 경로를 나타냅니다. | `str` |

<hr style="border: none; border-top: 1px solid #ccc;">

<h3>2️⃣ <span style="background-color: rgba(255, 220, 82, 0.2);">실제 데이터 사용하기 (외부 데이터)</span></h3>

- 실제 프로젝트에서는 대부분 CSV, Excel, 데이터베이스 등 외부에 저장된 데이터를 사용합니다.<br>이때는 Pandas 라이브러리를 활용하여 데이터를 불러오고, 머신러닝 모델이 학습할 수 있는 형태로 가공하는 것이 일반적입니다.

### 📍 주요 데이터 로딩 함수 (Pandas)

| 함수명 | 설명 |
| :--- | :--- |
| `pandas.read_csv()` | CSV (쉼표로 구분된 텍스트) 파일을 불러옵니다. (가장 기본) |
| `pandas.read_excel()` | 엑셀 (`.xlsx`, `.xls`) 파일을 불러옵니다. |
| `pandas.read_sql()` | 데이터베이스에 SQL 쿼리를 보내고 그 결과를 불러옵니다. |
| `pandas.read_json()` | JSON 형식의 파일을 불러옵니다. (웹 데이터에서 자주 사용) |
| `pandas.read_clipboard()` | 클립보드에 복사된 표 형태의 데이터를 바로 불러옵니다. (간단한 테스트에 유용) |

<hr>

<h2>💫 1-2. <span style="background-color: rgba(255, 220, 82, 0.5);">데이터 전처리</span></h2>

- 불러온 데이터를 모델이 학습하기 좋은 형태로 깨끗하게 다듬는 과정입니다.  

<hr style="border: none; border-top: 1px solid #ccc;">

<h3>🏷️ <span style="background-color: rgba(255, 220, 82, 0.2);">데이터 인코딩 Data Encoding</span></h3>

- 문자로 된 데이터를 모델이 이해할 수 있는 숫자 형태로 변환하는 작업입니다.

레이블 인코딩 (Label Encoding)
카테고리형 피처를 코드형 숫자 값으로 변환합니다. 예를 들어 'TV', '냉장고', '에어컨'을 각각 0, 1, 2와 같이 변환합니다.

함수명	설명
LabelEncoder	문자열 값을 0부터 시작하는 고유한 정수로 변환합니다.

Sheets로 내보내기
주의사항: LabelEncoder로 변환된 숫자는 모델이 크고 작음의 특성으로 오해할 수 있습니다. (예: 에어컨(2) > 냉장고(1)) 따라서 회귀와 같은 선형 계열 알고리즘에는 사용하지 않는 것이 좋습니다.

원-핫 인코딩 (One-Hot Encoding)
피처 값의 유형에 따라 새로운 피처를 추가하여, 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식입니다.

함수명	설명
OneHotEncoder	2차원 데이터로 변환된 카테고리 피처를 원-핫 인코딩으로 변환합니다.
pandas.get_dummies()	Pandas 라이브러리 함수로, 더 간편하게 원-핫 인코딩을 수행할 수 있습니다.

Sheets로 내보내기
