# XOR 연산 학습하기

In [1]:
from sklearn import svm

# XOR의 계산 결과 데이터
xor_data = [
    # P, Q, Result
    [0, 0, 0],
    [0, 1, 1],
    [1, 0, 0],
    [1, 1, 0]
]

# 학습을 위해 데이터와 레이블 분리하기 -> fit() 메서드의 매개변수를 맞추기 위함
data = [] # 학습시키기 위한 데이터 변수
label = [] # 정답 레이블 변수
for row in xor_data:
    p = row[0]
    q = row[1]
    r = row[2]
    data.append([p, q])
    label.append(r)

# 데이터 학습시키기
clf = svm.SVC() # SVM 객체 생성
# fit() 메서드를 사용해 데이터를 학습
clf.fit(data, label) # 첫 번째 매개변수로 학습할 데이터 배열, 두 번째 매개변수로 정답 레이블 배열을 전달

# 데이터 예측하기
pre = clf.predict(data) # 예측하고 싶은 데이터 배열을 전달하면 데이터 수만큼 예측 결과를 리턴
print(" 예측결과:", pre)

# 결과 확인하기
ok = 0; total = 0
for index, answer in enumerate(label):
    p = pre[index]
    if p == answer: ok += 1
    total += 1
print("정답률:", ok, "/", total, "=", ok/total)

 예측결과: [0 1 0 0]
정답률: 4 / 4 = 1.0


## 프레임워크로 프로그램 간단하게 작성하기
#### scikit-learn 에는 데이터와 레이블을 나누고, 정답률을 간단하게 계산해주는 기능이 있다.
- Pandas DataFrame(), loc[]
- metrics.accuracy_score()

In [3]:
import pandas as pd
from sklearn import svm, metrics

# XOR 연산
xor_input = [
    # P, Q, Result
    [0, 0, 0],
    [0, 1, 1],
    [1, 0, 0],
    [1, 1, 0]
]

# 입력을 학습 전용 데이터와 테스트 전용 데이터로 분류
xor_df = pd.DataFrame(xor_input)
xor_data = xor_df.loc[:,0:1] # 데이터
xor_label = xor_df.loc[:,2] # 레이블

# 데이터 학습과 예측하기
clf = svm.SVC()
clf.fit(xor_data, xor_label)
pre = clf.predict(xor_data)

# 정답률 구하기
ac_score = metrics.accuracy_score(xor_label, pre)
print("정답률 = ", ac_score)

정답률 =  1.0


### Pandas loc[] 로 열 조회하기
- 모든 행은 : 로 표시하고 쉼표(,)를 입력하고 열명을 입력하면 해당 열만 가져온다.

In [4]:
import pandas as pd

data = [
    [100, 25, 10],
    [200, 20, 11],
    [300, 15, 12],
    [350, 16, 13],
    [320, 17, 12]
]

df = pd.DataFrame(data, 
                  index=['1월', '2월', '3월', '4월', '5월'], 
                  columns=['매출액', '영업이익', '순이익'])
# display(df) # 예쁘게 보여줌ㅋ

df.loc[:,'매출액'] # 배열 형태가 아닌 값을 입력하면 1차원 시리즈 형태가 리턴
df.loc[:,['매출액']] # 배열 형태로 열명을 입력하면 2차원 데이터프레임 형태가 리턴
df.loc[:, df.columns != '매출액'] # 특정 열(=컬럼)만 제외 가능 -> 매출액을 제외한 나머지 열을 모두 리턴
df.loc[:,'매출액':'순이익'] # 인덱싱으로 매출액 컬럼부터 연속해서 순이익컬럼까지의 열 리턴
df.loc[:,[False, True, True]] # 열 개수와 동일한 True/False의 배열을 지정해 True인 열만 리턴

# 머신러닝으로 붓꽃의 품종 분류하기
CSV 파일에는 150개의 데이터 중 100개는 학습을 위해 사용, 50개는 테스트를 위해 사용

In [6]:
from sklearn import svm, metrics
import random, re

# 붓꽃의 CSV 데이터 읽기
csv = []
with open('iris.csv', 'r', encoding='utf-8') as fp:
    # 한 줄씩 읽어 들이기
    for line in fp:
        line = line.strip() # 줄바꿈 제거
        cols = line.split(',') # 쉼표로 자르기
        # 문자열 데이터를 숫자로 변환
        fn = lambda n : float(n) if re.match(r'^[0-9\.]+$', n) else n
        cols = list(map(fn, cols))
        csv.append(cols)

# 가장 앞 줄의 헤더 제거
del csv[0]

# 데이터 셔플하기(섞기) => 왜?
random.shuffle(csv)

# 학습 전용 데이터와 테스트 전용 데이터 분할하기(2:1 비율)
total_len = len(csv)
train_len = int(total_len * 2 / 3)
train_data = []
train_label = []
test_data = []
test_label = []

for i in range(total_len):
    data = csv[i][0:3] # 데이터
    label = csv[i][4] # 레이블
    if i < train_len:
        train_data.append(data)
        train_label.append(label)
    else:
        test_data.append(data)
        test_label.append(label)

# 데이터를 학습시키고 예측하기
clf = svm.SVC()
clf.fit(train_data, train_label)
pre = clf.predict(test_data)

# 정답률 구하기
ac_score = metrics.accuracy_score(test_label, pre)
print("정답률 = ", ac_score)

정답률 =  0.96


### 정규표현식, r'' 의 의미
파이썬 정규식에는 Raw String 이라 해서, 컴파일 해야 하는 정규식이 Raw String(순수한 문자)임을 알려주도록 한다.
```python 
p = re.compile('\number')
```
위의 경우 \n 줄바꿈 문자를 의미하는 [ \t\n\r\f\v]이 되어버려 원하는 결과를 찾지 못한다. 
방법 2가지
1. \\number
2. r'\number' => r 을 사용하여 백슬래쉬(\) 1개만 써도 2개를 쓴 것과 같은 효과를 갖는다.

### 정규표현식, $ 의 의미

문자열이 $의 앞에 있는 문자로 끝나면 매치된다. 여러 줄의 문자열일 경우 마지막 줄만 적용

a$
- a # 매치
- baa # 매치
- aabb # 매치안됨