## 중첩조건문 (nested conditional)
- if 블록 안에 또 if 블록이 만들어지는 경우 (조건문 안에 또 조건문이 있는 경우)
    - 예: if ... 
            if ...
                if...
- 구분은 들여쓰기로 한다.
- 조건이 여러개일 경우 사용한다.
- 웬만하면 지양하는 편이 좋다.
- 더 효율적이고 가독성이 좋은 코드를 찾아본다.

In [1]:
# 중첩 조건문은 가독성이 좋지 않다

x = 0
y = 4

if x == y:
    print('Block A')
else:
    if x < y:
        print('Block B')
    else:
        print('Block C')

Block B


In [2]:
# elif를 사용하여 간단하게 작성할 수 있다

if x == y:
    print('A')
elif x < y:
    print('B')
else:
    print('C')

B


In [4]:
# 0 < x < 10의 조건이 주어진 경우

if x > 0:
    print('A')
    if x < 10:
        print('B')
    else:
        print('C')
else:
    print('D')

D


In [5]:
# 논리연산자를 사용하는 방법

if (x < 0) and (x > 10):
    print('A')
else:
    print('B')
    

# 파이썬에서만 사용가능한 방법

if 0 < x < 10:
    print('A')
else:
    print('B')

B
B


### 논리연산자
- 비교연산 조건을 여러 번 사용하는 경우
    
- and, or, not
    - A and B (A & B): A 그리고 B, A와 B 둘 다 참일 때 True
    - A or B(A | B): A 혹은 B, 둘 중 하나만 참이면 True
    - not A(~ A): A가 참이면 False, 거짓이면 True

### True/False
- '만약 A가 참이면, ...'

In [5]:
a = True

if a == True: # 굳이 이렇게 쓸 필요 없다
    print('A')
    
if a: # if a == True와 같은 뜻
    print('A')

A
A


### in
- membership operator
- 요소가 안에 포함되어 있는가
    - ex) A in B = A가 B에 포함되어 있는가
- 비슷한 조건문이 여럿일 때 in을 사용하여 간단하게 줄일 수 있다.

In [6]:
# 모음인지 아닌지 판별하라 (모음은 a, e, i, o, u)

letter = 'k'

# if letter == 'a' or letter == 'e' or ...
if letter in ['a', 'e', 'i', 'o', 'u']: # 비슷한 조건문이 여럿일 때 in을 사용하여 간단하게 줄일 수 있다
    print('모음')
else:
    print('자음')

자음


In [7]:
# 단어에 모음이 있는지 없는지 확인

word = 'apple'

if 'a' or 'e' or 'i' or 'o' or 'u' in word: # or을 사용하여 하나의 if문만 사용한다
    print('모음이 있음')

모음이 있음


### 코끼리연산자
- walrus operator
- :=
- 할당과 테스트를 동시에 하는 기능

In [8]:
tweet_limit = 200
tweet_string = 'blah' * 50 # 공백없이 blah를 50번 결합

diff = tweet_limit - len(tweet_string) # len(): 길이를 나타내는 함수
if diff > 0:
    print('possible')
else:
    print('impossible')

impossible


In [9]:
if diff := tweet_limit - len(tweet_string) > 0: # := 할당과 동시에 조건을 테스트
        print('possible')
else:
    print('impossible')

impossible


### 퀴즈 1
- 윤년인지 아닌지 판별하기
    - 연도를 입력받는다.
    - 해당 연도가 4로 나누어 떨어지고 100으로 나누어 떨어지지 않으면 윤년이다.
    - 해당 연도가 400으로 나누어 떨어지면 윤년이다.
- 출력: '{}년은 윤년입니다.' / '{}년은 윤년이 아닙니다.'

In [10]:
year = int(input('연도를 입력해주세요: '))

if (year % 4 == 0 and year % 100 != 0) or year % 400 == 0: # 논리연산자를 사용하여 if문 한 문장에 작성할 수 있다
    print(f'{year}년은 윤년입니다.')
else:
    print(f'{year}년은 윤년이 아닙니다.')

연도를 입력해주세요: 2022
2022년은 윤년이 아닙니다.


## String (문자열)
- 시스템에서 가장 작은 단위
- 불변적인 성격을 가진다. (immutable)
    - 예: jack -> jeck (불가능)
- ' ', " " 으로 선언한다.
    - 예: "25.5"
- str()을 사용하여 문자열로 형변환이 가능하다.
- cf. ''' ''', """ """ 은 주석이다.

### escape character (이스케이프 문자)
- 특수한 형태의 문자열
- 눈에 보이는 대로 인식되지 않는다.
- \ + ch
    - 예: \n, \t, \b, \', \", ...
- \n을 출력하고 싶다면?
    - \\n
    - r' '
- 다른 스트링을 만드는 것이 아니다.

In [11]:
sent = 'hello\nworld' # \n이 출력되는 것이 아니라 기능이 사용됨
print(sent)

sent = 'hello\\nworld' # \n을 출력하는 법 (\\n)
print(sent)

sent = r'hello\nworld' # \n을 출력하는 법 (r'\n')
print(sent)

hello
world
hello\nworld
hello\nworld


### 연산
- concatenatation
    - ' ' + ' ' -> 공백 없이 문자열을 결합하는 방법
- 곱하기
    - ' ' * n -> 공백 없이 문자열을 n번 복제
    

In [12]:
name = 'jack'
name + name # 공백없이 문자열 결합

'jackjack'

In [13]:
name * 4 # 공백없이 문자열을 4번 복제

'jackjackjackjack'

In [14]:
# immutable, 문자열은 불변

name[1] = 'e'

TypeError: 'str' object does not support item assignment

### 슬라이싱 (추출)
- 문자열의 일부분을 떼어내는 작업
- 대괄호 사용, 그 안에 오프셋을 지정 (오프셋: 문자열 내에서의 상대적인 주소)
- 오프셋은 0부터 시작한다.
    - 예: j(0)a(1)c(2)k(3)
- 오프셋은 음수도 가능하다. -1부터 시작
    - 예: j(-4)a(-3)c(-2)k(-1)
- 오프셋은 [시작:끝:스텝]으로 이루어진다. 
- 오프셋의 시작은 포함(이상), 끝은 포함하지 않는다(미만).
- 시작이 생략되면 처음부터, 끝이 생략되면 끝까지, 스텝이 생략되면 1이 default값이다.

In [16]:
name = 'jack'
print(name[0]) # 가장 첫 오프셋의 문자인 j
print(name[-1]) # 가장 마지막 오프셋의 문자인 k

j
k


In [17]:
sent = 'hello world'
sent[3:4] # 3번째 오프셋부터 4번째 오프셋 전까지

'l'

In [18]:
# 처음부터 5까지 출력
sent[:6] # sent[0:6]과 같은 뜻

'hello '

In [19]:
# 처음부터 끝까지 2스텝씩 출력
sent[::2] # sent[0:11:2]와 같은 뜻

'hlowrd'

In [20]:
# 모든 글자를 거꾸로 출력
sent[::-1]

'dlrow olleh'

In [22]:
cars = ['benz', 'kia', 'porsche']
cars[::-1] # 문자열뿐만 아니라 리스트에서도 슬라이싱 가능

['porsche', 'kia', 'benz']

## NLTK
- natural language toolkit
- 자연어 분석을 위해 교육용으로 배포된 패키지
- 텍스트가 정제되어 있다.
- 내장함수, 기능들이 추가되어 있다.
    - 토크나이즈, 파싱, 태킹, ...

In [2]:
!pip install nltk # nltk 설치



In [3]:
import nltk # nltk를 가져오기
# nltk.download('book') -> nltk의 패키지를 부분적으로 다운받기
# jupyter notebook을 재시작하니 attribute error가 해결되었음

In [4]:
nltk.download('book', quiet=True)

True

In [30]:
from nltk import book

In [31]:
moby = book.text1
moby.tokens[:10] # 토큰에 접근하는 방법
# 토큰: 프로그래밍의 단어 단위 
    # hello world (hello, world)
    # I'm (I'm / I, 'm / I, am) 어떤식으로 토큰을 나눌지는 달라질 수 있다

['[',
 'Moby',
 'Dick',
 'by',
 'Herman',
 'Melville',
 '1851',
 ']',
 'ETYMOLOGY',
 '.']

In [32]:
# 1. 길이 세기
len(moby) # 26만 자

260819

In [33]:
# 2. 쓰인 단어의 수 (중복된 단어는 count하지 않는다)
len(set(moby)) # 1.9만 자

19317

- list
    - ['a', a, True]
    - 순서가 있다.
    - 중복이 허용된다.
    - list()
    
- set
    - {'a', 2, True}
    - 순서가 없다.
    - 중복이 허용되지 않는다.
    - set()
    - 수학의 집합 개념과 동일하다.

In [35]:
cars = ['kia', 'hyundai', 'renault', 'benz', 'benz', 'kia']
cars # 리스트는 중복을 다 나타낸다

['kia', 'hyundai', 'renault', 'benz', 'benz', 'kia']

In [36]:
set(cars) # set은 중복을 나타내지 않는다

{'benz', 'hyundai', 'kia', 'renault'}

In [37]:
# lexical diversity, 얼마나 다양한 단어가 쓰였는가
len(set(moby)) / len(moby)

0.07406285585022564

In [38]:
# 정렬 (오름차순)
sorted(cars)

['benz', 'benz', 'hyundai', 'kia', 'kia', 'renault']

In [39]:
# 정렬 (내림차순)
sorted(cars, reverse=True)

['renault', 'kia', 'kia', 'hyundai', 'benz', 'benz']

In [40]:
sorted(moby[:10]) # 처음부터 10개를 뽑아서 정렬

['.',
 '1851',
 'Dick',
 'ETYMOLOGY',
 'Herman',
 'Melville',
 'Moby',
 '[',
 ']',
 'by']

In [41]:
sorted(moby)[:10] # 정렬을 한 후에 처음부터 10개를 뽑기

['!', '!', '!', '!', '!', '!', '!', '!', '!', '!']

#### 퀴즈 2
- text6 가져와서 토큰을 변수에 담기
- 중복 없는 셋으로 저장하고 내림차순 
    - 앞에서 10개 단어 출력
    - 단어에 z가 있으면 대문자로 바꾸기
    - z가 없는데 4자 이상이면 끝 글자를 대문자로 바꾸기  

In [42]:
monty = book.text6 # text6 가져오기
sorted_tokens = sorted(set(monty.tokens), reverse=True) # 토큰을 셋으로 저장하고 내림차순 정렬

print(sorted_tokens[:10]) # 앞에서 10개 단어 출력

for i in range(10):
    if 'z' in sorted_tokens[i]: # 단어에 z가 있다면
        print(sorted_tokens[i].capitalize(), end=' ') # z를 대문자로 바꿔주기, end=' '를 사용하여 결과가 한줄에 출력되도록 하기
    else:
        if len(sorted_tokens[i]) >= 4: # z가 없는데 4자 이상이면
            temp = (sorted_tokens[i])[::-1]
            temp = temp.capitalize() # 끝 글자를 대문자로 바꿔주기
            temp = temp[::-1]
            print(temp, end=' ')
        else: # z도 없고 4자 이상도 아니라면 그냥 출력
            print(sorted_tokens[i], end=' ')

['zoosh', 'zoop', 'zoo', 'zone', 'zhiv', 'yourself', 'yours', 'your', 'young', 'you']
Zoosh Zoop Zoo Zone Zhiv yourselF yourS youR younG you 

#### 퀴즈 3
- 주민번호, 휴대폰 번호, 이메일 주소 입력 받는다.
- 주민번호, 휴대폰 번호는 숫자만 입력받는다. (- 없이)
- 이메일 주소는 아이디만 입력받는다. (@ 이후 없이)
    - 1. '당신은 {}년 {}월 {}일 출생의 {남성/여성}입니다.'
    - 2. '휴대폰 번호: 000-0000-0000'
    - 3. '이메일주소: 000@gmail.com'

In [6]:
ssn = input('주민등록번호를 입력해주세요(- 제외): ')
phone = input('휴대폰 번호를 입력해주세요(- 제외): ')
email = input('이메일 주소를 입력해주세요(아이디만): ')

if int(ssn[6]) < 3: # 주민등록번호의 7번째 숫자를 확인하여 2000년 이전 이후 출생 구별 (1,2 = 2000년대 이전 / 3,4 = 2000년대 이후)
    year = '19' + ssn[:2]
else:
    year = '20' + ssn[:2]

month = ssn[2:4]
day = ssn[4:6]

if ssn[6] == '1' or '3': # 남성과 여성 구별
    sex = '남성'
else:
    sex = '여성'
    
print(f'당신은 {year}년 {month}월 {day}일 출생의 {sex}입니다.')
print(f'휴대폰 번호: {phone[:3]}-{phone[3:7]}-{phone[7:11]}')
print(f'이메일 주소: {email}@gmail.com')


주민등록번호를 입력해주세요(- 제외): 9812201111111
휴대폰 번호를 입력해주세요(- 제외): 01051901220
이메일 주소를 입력해주세요(아이디만): utano
당신은 1998년 12월 20일 출생의 남성입니다.
휴대폰 번호: 010-5190-1220
이메일 주소: utano@gmail.com
