# 01-04 Machine Learning Workflow

#### 1) Acquisition(수집)
- 기계에 학습시켜야 할 데잍어가 필요
- 자연어 처리의 경우, 자연어 데이터를 말뭉치 or 코퍼스라 부르는데 코퍼스는 조사나 연구 목적에 의해 특정 도메인으로부터 수집된 텍스트 집합
- 텍스트 데이터 파일의 형식은 txt, csv, xml 등 다양

#### 2) Inspection and exploration (점검 및 탐색)
- 데이터 구조 ,노이즈 데이터, 머신 러닝 적용을 위해 데이터를 어떻게 정제할 지 파악
- 탐색적 데이터 분석 단계 (EDA) 라고 한다 .
- 독립 변수, 종속 변수 ,변수 유형, 변수의 데이터 타입등을 점검해 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정 
- 시각화와 간단한 통계 테스트 진행 

#### 3) Preprocessing and Clearning (전처리 및 정제)
- 가장 까다로운 작업 중 하나인 데이터 전처리 과정
- 토큰화, 정제, 정규화, 불용어 제거 등 포함
- 다양한 라이브러리에 대한 지식 필요

#### 4) Modeling and Training (모델링 및 훈련)
- 머신러닝에 대한 코드를 작성하는 단계인 모델링 단계에 들어간다.
- 전처리가 완료된 데이터를 머신 러닝 알고리즘을 통해 기계에 학습 
- 데이터 중 일부는 테스트용으로 남겨두고 훈련용 데이터만 사용해 overfitting 방지
- 최선은 훈련용, 검증용, 테스트용 데이터로 나누고 훈련용 데이터만 사용

#### 5) Evaluation
- 테스트용 데이터로 성능 평가

#### 6) Deployment
- 완성된 모델 배포


# 01-05 Splitting Data
- Supervised Learning
- X_train, y_train, X_test, y_test로 스팸메일 분류

In [2]:
%pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.5.0-cp311-cp311-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.13.1-cp311-cp311-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.6 kB ? eta -:--:--
     --------------------------- ------------ 41.0/60.6 kB 2.0 MB/s eta 0:00:01
     ---------------------------------------- 60.6/60.6 kB 1.1 MB/s eta 0:00:00
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.5.0-cp311-cp311-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
   ---------------------------------------- 0.1/11.0 MB 1.1 MB/s eta 0:00:10
   ---------------------------------------- 0.1/11.0 MB 1.6 MB/s eta 0:00:07
    --------------------------------------- 0.2/11.0 MB 1.1 MB/s eta 0:00:10
   -- ------------------------------------- 0.7/11.0 MB 3.7 MB/s e

In [3]:
import pandas as pd 
import numpy as np 
from sklearn.model_selection import train_test_split

## 1. X와 y 분리하기 
### 1) zip 함수를 이용해 분리하기

In [4]:
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print('X 데이터 :',X)
print('y 데이터 :',y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


### 2) 데이터 프레임을 이용해 분리

In [5]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']
df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [6]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [7]:
X

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object

In [8]:
y

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64

### 3) Numpy를 이용해 분ㄹ ㅣ

In [9]:
np_array = np.arange(0,16).reshape((4,4))
print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [10]:
# 마지막 열이 정답 데이터
X = np_array[:, :3]
y = np_array[:,3]

print('X 데이터 :')
print(X)
print('y 데이터 :',y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


## 3) 테스트 데이터 분리하기 
### 1) 사이킷 런을 이용해 분리 

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

In [12]:
# 임의로 X와 y 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [13]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

In [15]:
print('X 훈련 데이터 :')
print(X_train)
print('X 테스트 데이터 :')
print(X_test)

X 훈련 데이터 :
[[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터 :
[[8 9]
 [0 1]]


In [16]:
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


In [17]:
# random_state의 값을 변경
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[4, 0, 3]
y 테스트 데이터 :
[2, 1]


In [18]:
# random_state을 이전의 값이었던 1234로 변경
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]
