<a href="https://colab.research.google.com/github/projectwint/practice_AI/blob/main/%ED%8C%8C%EC%9D%B4%EC%8D%AC_%ED%95%A8%EC%88%98%2C_%EB%AC%B8%EB%B2%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***train_test_split 모듈***
출처 : https://teddylee777.github.io/scikit-learn/train-test-split

사이킷런(scikit-learn)의 model_selection 패키지 안에 train_test_split 모듈을 활용하여 학습 데이터 셋과 테스트 셋을 분리할 수 있다.

***train(학습 셋) / test(테스트 셋) 분리 이유?***

머신러닝 모델에 train 데이터를 100% 학습시킨 후 test 데이터에 모델을 적용했을 때 성능이 생각보다 안 나오는 경우(Overfitting)가 생김.

모델이 내가 가진 학습 데이터에 너무 과적합되도록 학습하여여, 이를 조금이라도 벗어난 케이스에 대해서는 예측율이 현저히 떨어진다.

따라서 기존 train / test로 구분 되어 있었던 데이터 셋을 train에서 train / validation으로 일정 비율 쪼갠 다음에 학습 시에는 train(학습) 셋으로 학습 후 중간중간 validation(테스트) 셋으로 내가 학습한 모델 평가를 해주는 것


In [None]:
from sklearn.datasets import load_iris # 샘플 데이터 로딩
from sklearn.model_selection import train_test_split

# load sample
dataset = load_iris()

data = dataset['data']
target = dataset['target']

# train_test_split
x_train, x_valid, y_train, y_valid = train_test_split(data, target, test_size=0.2, shuffle=True, stratify=target, random_state=34)

***옵션 값 설명***

test_size : 테스트 셋 구성 비율. train_size의 옵션과 반대 관계. (주로 test_size를 지정) 0.2는 전체 데이터 셋의 20%를 test (validation) 셋으로 지정하겠다는 의미. **default=0.25**

shuffle: split을 해주기 이전에 섞을건지 여부. 보통은 default 값으로 놔둠. **default=True**

stratify: classification을 다룰 때 매우 중요한 옵션값. stratify 값을 target으로 지정해주면 각각의 class 비율(ratio)을 train / validation에 유지. (한 쪽에 쏠려서 분배되는 것을 방지) 만약 이 옵션을 지정해 주지 않고 classification 문제를 다룬다면, 성능의 차이가 많이 날 수 있다. **default=None**

random_state: 세트를 섞을 때 해당 int 값을 보고 섞으며, 하이퍼 파라미터를 튜닝시 이 값을 고정해두고 튜닝해야 매번 데이터셋이 변경되는 것을 방지할 수 있다.

# ***glob.glob()***
glob 모듈의 glob 함수 - 파일명을 리스트 형식으로 반환환

출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=siniphia&logNo=221397012627

dir폴더의 모든 파일 목록

dir : file1.txt, file2.txt, file101.txt, file102.txt, filea.txt, fileb.txt, file1.jpg, file2.jpg

```
import glob

# '*'는 임의 길이의 모든 문자열을 의미한다.
>>> output = glob.glob('dir/*.txt')
>>> print(output)
['dir\\file1.txt', 'dir\\file101.txt', 'dir\\file102.txt', 'dir\\file2.txt', 'dir\\filea.txt', 'dir\\fileb.txt']

# '?'는 한자리의 문자를 의미한다.
>>> output = glob.glob('dir/file?.*')
>>> print(output)
['dir\\file1.bmp', 'dir\\file1.txt', 'dir\\file2.bmp', 'dir\\file2.txt', 'dir\\filea.txt', 'dir\\fileb.txt']

# recursive=True로 설정하고 '**'를 사용하면 모든 하위 디렉토리까지 탐색한다.
# 기본값은 False이며, 파일이 너무 많을 경우에 사용하면 과도한 cost가 소모된다고 한다.

```

# ***예외처리***
파이썬에서 오류를 처리하는 방법

출처 : https://wikidocs.net/30

***try, except문***

try 블록 수행 중 오류가 발생하면 except 블록이 수행된다. 하지만 try 블록에서 오류가 발생하지 않는다면 except 블록은 수행되지 않는다.


```
try:
    ...
except [발생오류 [as 오류변수]]:
    ...
```



In [None]:
#오류 종류에 상관없이
try:
    ...
except:
    ...

#특정 오류에만
try:
    ...
except 발생오류:
    ...

#오류의 내용까지 알고 싶을 때
try:
    4 / 0
except ZeroDivisionError as e:
    print(e)

division by zero


여러개 오류 처리




In [None]:
try:
    a = [1,2]
    print(a[3])
    4/0 #여기에 오기 전에 인덱싱 오류가 이미 발생
except ZeroDivisionError: #실행 X
    print("0으로 나눌 수 없습니다.")
except IndexError:
    print("인덱싱 할 수 없습니다.")

#한꺼번에
try:
    a = [1,2]
    print(a[3])
    4/0
except (ZeroDivisionError, IndexError) as e: #먼저 발생한 오류 하나 출력
    print(e)

인덱싱 할 수 없습니다.
list index out of range


**try .. finally**

try문에는 finally절을 사용할 수 있다. finally절은 try문 수행 도중 예외 발생 여부에 상관없이 항상 수행된다. 보통 finally절은 사용한 리소스를 close해야 할 때에 많이 사용한다.


```
try:
    f = open('foo.txt', 'w')
    # 무언가를 수행한다.

    (... 생략 ...)

finally:
    f.close()  # 중간에 오류가 발생하더라도 무조건 실행된다.
```



***try .. else***

try문에는 else절도 사용 가능하다.



```
try:
    ...
except [발생오류 [as 오류변수]]:
    ...
else:  # 오류가 없을 경우에만 수행된다.
    ...
```



In [None]:
try:
    age=int(input('나이를 입력하세요: '))
except: #입력이 숫자가 아니어서 오류 발생할 경우
    print('입력이 정확하지 않습니다.')
else:
    if age <= 18:
        print('미성년자는 출입금지입니다.')
    else:
        print('환영합니다.')

나이를 입력하세요: 16
미성년자는 출입금지입니다.


# ***enumerate()***

출처 : https://www.daleseo.com/python-enumerate/

기본적으로 인덱스와 원소로 이루어진 튜플을 만들어줌.


In [None]:
for entry in enumerate(['A', 'B', 'C']):
    print(entry)

(0, 'A')
(1, 'B')
(2, 'C')


인덱스와 원소를 각각 다른 변수에 할당하고 싶다면 인자 풀기(unpacking)을 해줘야 함.


```
#참고로 각 변수에 인자풀기(unpacking)로 나눠서 할당 가능
for i, j, k in [['a', 'b', 'c'], ['d', 'e', 'f']]:
    print(i, j, k)
#결과
#a b c
#d e f
```







In [None]:
for i, letter in enumerate(['A', 'B', 'C']):
     print(i, letter)

0 A
1 B
2 C


시작 인덱스 변경

In [None]:
#enumerate() 함수를 호출할 때 start 인자에 시작하고 싶은 숫자를 넘기기기
for i, letter in enumerate(['A', 'B', 'C'], start=1):
     print(i, letter)

1 A
2 B
3 C


***enumerate() 자체는?***



파이썬에서 for 문은 내부적으로 in 뒤에 오는 목록을 대상으로 계속해서 next() 함수를 호출하고 있다고 생각할 수 있다.

일반 리스트를 iter() 함수에 넘겨 반복자(iterator)로 만든 후 next() 함수를 호출해보면 원소들이 차례로 얻어진다.

In [None]:
iter_letters = iter(['A', 'B', 'C'])
print(next(iter_letters))
print(next(iter_letters))
next(iter_letters)

A
B


'C'

enumerate() 함수를 호출한 결과를 대상으로 next() 함수를 계속해서 호출해보면, 인덱스와 원소의 쌍이 튜플(tuple)의 형태로 차례로 얻어진다.

In [None]:
enumerate_letters = enumerate(['A', 'B', 'C'])
next(enumerate_letters)

(0, 'A')

결론 : enumerate() 함수는 인자로 넘어온 목록을 기준으로 인덱스와 원소를 차례대로 접근하게 해주는 반복자(iterator) 객체를 반환해주는 함수이다.

In [None]:
list(enumerate(['A', 'B', 'C']))

[(0, 'A'), (1, 'B'), (2, 'C')]