## 중첩조건문 | nested conditional
<br>
- if 블록 안에 또 if 블록이 만들어지는 경우
    ```python
    if ...:
        if ...:
            if ...:
    ```
    - 구분은 들여쓰기로 한다.
    - 하나의 조건문이 조건문 내부에 중첩
    - 중첩 조건문의 경우, 들여쓰기를 할수록 가독성이 급격히 저하되므로,  
    가능하면 중첩조건문을 피하라 - 논리 연산자를 사용 
<br><br>

중첩조건문을 사용한 모습
```python
x = 0
y = 4

if x == y:
    print("block A")
else:
    if x < y:
        print("block B")
    else:
        print("block C")
```
<br><br>

중첩조건문을 사용하지 않은 모습
``` python
if x == y:
    # block A
elif x < y:
    # block B
else:
    # block C
```
<br><br>

#### 0 < x < 10을 중첩조건문으로 표현
```python
if x > 0:
    print("A")
    if x < 10:
        print("B")
    else:
        print("C")
else:
    print("D")
```
복잡하니 지양해라... <br> <br>

### 중첩조건문을 피하는 방법 
<br>

#### 1. 논리연산자를 사용
```python
if (x > 0) and (x < 10):
    # block A
else:
    # block B
```
#### 2. 파이썬에서만 사용 가능
```python
if 0 < x < 10: 
    # block A
else:
    # block B
```
<br><br>

### 논리연산자
- 비교연산 조건을 여러 번 사용하는 경우 사용
    -  x > 0, x < 10
- and, or, not
    - A and(&) B: A 그리고 B -> A, B 둘 다 True여야만 True 
    - A or(|) B: A 혹은 B -> 둘 중 하나만 참이어도 True 
    - not(~) A: A가 참이면 False, 거짓이면 True 
<br><br>

In [32]:
# and - 모두 True여야 True가 나온다
print(True and True and True,
      True and True,
      True and False,
      False and True,
      False and False)

True True False False False


In [24]:
# or - True가 한 개 이상이기만 하면 True가 나온다
print(True or False or False,
      True or True,
      True or False,
      False or True,
      False or True,
      False or False)

True True True True True False


In [28]:
# not - 논리값을 뒤집는다
print(not True,
      not False)

False True


In [30]:
# and, or, not이 하나의 식에 모두 사용되었을 때
# not -> and -> or 순으로 판단한다

not True and False or not False
# False and False or True
# False or True
# True

True

<br><br>
### `True/False`
- A = True
- "만약 A가 참이면, ..."

```python
if A == True: 
    print() # 이렇게 하는 게 아니라
    
if A:
    print() # OK
```
<br><br>

### `in / not in`
- membership operator
- 요소가 포함되어 있/없는지를 확인할 때 or 비슷한 조건문을 반복할 때 사용
- A in B => A가 B에 포함되어 있는가?
- A not in B => A가 B에 포함되어 있지 않는가?
- 결과는 bool type
<br><br>

In [7]:
# ex 모음인지 아닌지를 판별하라 (a, e, i, o, u)

letter = 'k'

# if letter == 'a' or letter == 'e', .... 비슷한 조건문 반복 대신

if letter in ['a', 'e', 'i', 'o', 'u']:
    print('모음')
else: print('자음')

자음


In [6]:
# 단어에 모음이 있는지를 판별하라

word = 'apple'

if 'a' or 'e' or 'i' or 'o' or 'u' in word:
    print('yes')

yes


<br><br>
### 바다코끼리 연산자
- walrus operator
- :=
- 할당 + 테스트를 동시에 하는 기능
- 목적
    - 표현식에 이름을 부여하고 재사용할 수 있도록 함
    - 할당과 테스트를 한 단계로 줄일 수 있음

In [12]:
tweet_limit = 200
tweet_string = 'blah' * 50 # 4 * 50 = 200

tweet_string

'blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah'

In [11]:
diff = tweet_limit - len(tweet_string)

if diff > 0:
    print('가능하다')
else:
    print('불가능하다') # 한 줄로 줄이고 싶다...

불가능하다


In [15]:
if diff := tweet_limit - len(tweet_string) >0: # 할당과 테스트를 한 단계로
    print('yes')
else: print('no')

no


<br><br>
### 퀴즈 1
- 윤년을 구해봅시다.
    - 연도 입력받는다.
    - 해당 연도가 4로 나눠지면 윤년이다.
    - 100으로 나눠지면 윤년이 아니다.
    - 400으로 나눠지면 윤년이다.
- 출력: '{}년은 윤년입니다.' / '- 아닙니다.'

In [45]:
# and, or 논리 사용

year = int(input('연도를 입력하세요:'))

yes = f'{year}년은 윤년입니다.'
no = f'{year}년은 윤년이 아닙니다.'

if (year % 4 == 0 and year % 100 != 0) or (year % 400 == 0):
    print(yes)
else:
    print(no)

연도를 입력하세요: 2000


2000년은 윤년입니다.



---
<br><br>

## String | 문자열
- 문자, 단어 등으로 구성된 문자들의 집합

```python
"Life is too short, You need Python"
"a"
"123"
```

- 시스템에서 가장 작은 단위
- 불변적(immutable)인 성격을 가진다
    - 예) jack -> jeck 아예 할당을 다시할 수는 있지만 중간에 한 글자만 바꿀 수는 없다
- `'`, `"`으로 선언한다. - 숫자여도 따옴표로 둘러싸져 있으면 모두 문자열이다
    - 예) "25.5"
    - `'''`, `"""`로 주석 처리 가능
- 문자열로의 형변환은 `str()`
<br><br>
### escape character | 이스케이프 문자
- 프로그래밍할 때 사용할 수 있도록 미리 정의해 둔 특수한 형태의 문자 조합
- 눈에 보이는대로 인식되지 않음
- 주로 출력물을 보기 좋게 정렬하는 용도로 사용
- `\` + 문자 (`\n`, `\t`, `\b`, `\'`, `\"`, ...)
    - '\n'를 출력하고 싶다?
    - `r' '` 사용 - raw string(Escape에 영향받지 않고 그대로 표시)
``` python 
        print(r'\n') 
```
- 다른 스트링을 만드는 것이 아니라, 출력을 다르게 함

In [14]:
print('''
1. hello\nworld
2. hello\tworld
3. hello\\world
4. hello\'world\'
5. hello\"world\"
6. hello\bworld (back space)
7. hello\\world
''')


1. hello
world
2. hello	world
3. hello\world
4. hello'world'
5. hello"world"
6. hellworld (back space)
7. hello\world



In [12]:
print(r'\n') # raw string - Escape에 영향받지 않고 그대로 표시
print('\n')
print('EOL')

\n


EOL


In [23]:
sent = 'hello\nworld'

print(sent) # 이스케이프 O

hello
world


In [22]:
sent # 이스케이프 X

'hello\nworld'

<br><br>
### 연산
- 더해서 연결하기 concatenation
    - '' `+` '' => 공백 없이 결합하는 방법
- 곱하기
    - '' `*` 5 => 복제

In [25]:
name = 'jack'
name + name # 공백 없이 출력

'jackjack'

In [59]:
name * 4

'jackjackjackjack'

In [27]:
# immutable
name[1] = 'e' # 문자열은 수정이 불가

TypeError: 'str' object does not support item assignment

<br><br>
### 슬라이싱, 추출
- 문자열의 일부분을 떼어내는 작업
- 대괄호 사용, 그 안에 오프셋을 지정
    - 오프셋: 정해진 자리, 주소
```python
name[0]
```
- 오프셋은 0부터 시작한다. <br>
   0 1 2 3<br>
   j a c k
    - 음수도 가능함. -1부터 시작 (= 뒤에서 시작)
        - `-0 = 0`이므로, `a[0]`과 `a[-0]`은 동일한 값을 보임
      <br><br>
    - `[시작:끝:스텝]` (step = 1이 default)
    - `시작`은 포함, `끝`은 포함하지 않음 (이상 - 미만)

In [30]:
name = 'jack'
name[0], name[-1]

('j', 'k')

In [46]:
sent = 'hello, world'

In [47]:
len(sent)

12

In [43]:
sent[3:4] # 끝은 포함되지 않음

'l'

In [35]:
# 처음부터 5까지 출력
sent[0:6], sent[:6]

('hello,', 'hello,')

In [49]:
# 처음부터 끝까지 2스텝씩 출력
sent[::2], sent[0:12:2]

('hlo ol', 'hlo ol')

In [50]:
# 모든 글자를 거꾸로 출력하세요
sent[::-1]

'dlrow ,olleh'

---

## NLTK

- natural language toolkit
- 자연어 분석을 위해 교육용으로 배포된 패키지
- 내장함수, 기능들이 추가됨
- tokenize, parsing, tagging 등의 처리가 되어 있는 corpus 제공

In [89]:
!pip install nltk



In [91]:
import nltk # 가져오기
nltk.download('book', quiet = True) # 부분적으로 다운받기

True

In [52]:
from nltk import book # 가져오기

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


In [53]:
moby = book.text1
moby.tokens[:10] # 토큰에 접근하는 방법

#토큰: 프로그래밍의 단어 단위 hello world -> hello, world
   #I'm not a coward.
   #I'm / I / 'm / I, am 개발자마다 자르는 방식이 다르다

['[',
 'Moby',
 'Dick',
 'by',
 'Herman',
 'Melville',
 '1851',
 ']',
 'ETYMOLOGY',
 '.']

In [99]:
#1. 길이 세기
len(moby) #26만자

260819

In [56]:
#2. 중복 없이 단어 몇 개?
set(moby) # 중복 단어 제거
len(set(moby)) # 1.9만 개 

19317

- list
    - `[`'a', a, True`]`
    - 순서가 있음 - indexing 가능 -> iterable
    - 중복 허용
    - `list()` list로 만드는 함수
    - mutable (요소 삭제/변경 가능)
- set
    - `{`'a', 2, True`}`
    - 순서 없음 - indexing 불가 -> not iterable
    - 중복 불가
    - `set()` set로 만드는 함수
    - 수학의 집합 개념

In [58]:
cars = ['kia','hyundai','renault', 'benz', 'benz','kia']
cars

['kia', 'hyundai', 'renault', 'benz', 'benz', 'kia']

In [59]:
set(cars) # 중복 제거

{'benz', 'hyundai', 'kia', 'renault'}

In [61]:
# lexical diversity

len(set(moby)) / len(moby)

0.07406285585022564

In [66]:
# 정렬 sorted()
sorted(cars) # 알파벳순 정렬

sorted(cars, reverse = True) # 알파벳 역순 정렬

['renault', 'kia', 'kia', 'hyundai', 'benz', 'benz']

In [67]:
# 정렬 순서: 기본적으로 오름차순 (문장부호 -> 숫자 -> 대문자 -> 소문자 -> 한글)
text_1 = ['7', 'n', 'H', 'ㅎ', '!']

sorted(text_1)

['!', '7', 'H', 'n', 'ㅎ']

```python
sorted(set(moby[:10])) # 뽑고 중복 없애고 정렬

sorted(set(moby))[:10] # 중복 없애고 정렬하고 뽑고
```

<br><br>
### Quiz 1
- text6 가져와서 토큰을 변수에 담고 v
- 중복 없는 셋으로 저장하고 내림차순 v
    - 앞에서 10개 단어 출력 v
    - 단어에 z가 있으면 대문자로 바꾸시오
    - z가 없는데 길이가 4개 이상이면 끝 글자를 대문자로 바꾸라.

In [3]:
from nltk import book

In [15]:
s = book.text6
s1 = sorted(set(s), reverse = True)[:10]
    
for i in range(len(s1)):
    # 단어에 z가 있으면 대문자로 바꾼다
    if 'z' in s1[i]:
        s1[i] = s1[i].replace('z', 'Z') 
    # 단어에 z가 없고 길이가 4개 이상이면 끝 글자를 대문자로 바꾼다    
    elif 'z' not in m1[i] and len(m1[i]) >= 4:
        s1[i] = s1[i][:-1] + s1[i][-1].upper()
        
s1

['Zoosh',
 'Zoop',
 'Zoo',
 'Zone',
 'Zhiv',
 'yourselF',
 'yourS',
 'youR',
 'younG',
 'you']

<br><br>
### Quiz 2
- 주민번호, 휴대폰 번호, 이메일 주소 입력 받는다.
- 주민번호, 휴대폰 번호는 숫자만 입력받는다 (- 없이)
- 이메일주소는 아이디만 입력받는다. (@이하는 안 받는다)
    - 1. "당신은 {}년 {}월 {}일 출생의 {남성/여성}입니다."
    - 2. 휴대폰 번호: 000-0000-0000
    - 3. 이메일 주소: xxxx@gmail.com

In [167]:
resident_num = input('주민등록번호를 입력하세요 하이픈 없이 입력하세요:')
phone_num = list(input('전화번호를 입력하세요 하이픈 없이 입력하세요:'))
email = input('이메일 주소 중 사용자 이름 부분을 입력하세요 \n>> (abcd1234@gmail.com일 경우, abcd1234만을 입력):')

# 주민등록번호로부터 생년월일 추출
year = resident_num[0:2]
month = resident_num[2:4]
date = resident_num[4:6]

# 생년 앞 두 글자(19XX or 20XX), 성별
if resident_num[6] == '1':
    cent = 19 ; gender = '남성'  #19XX년생 남성
elif resident_num[6] == '3':
    cent = 20 ; gender = '남성' # 20XX년생 남성
elif resident_num[6] == '2':
    cent = 19 ; gender = '여성' # 19XX년생 여성
elif resident_num[6] == '4':
    cent = 20 ; gender = '여성' # 20XX년생 여성
    
# 전화번호에 하이픈 삽입
phone_num.insert(3,'-')
phone_num.insert(8, '-')
phone_num_hypen = ''.join(phone_num)

# 결과 (생월 첫 글자가 0이라면 없앤다)
print(f'''
당신은 {cent}{year}년 {month.lstrip('0')}월 {date}일 출생의 {gender}입니다.
휴대폰 번호:{phone_num_hypen}
이메일 주소:{email}@gmail.com''')

주민등록번호를 입력하세요 하이픈 없이 입력하세요: 0203114000000
전화번호를 입력하세요 하이픈 없이 입력하세요: 01012345678
이메일 주소 중 사용자 이름 부분을 입력하세요 
>> (abcd1234@gmail.com일 경우, abcd1234만을 입력): haleyhyunjikim



당신은 2002년 3월 11일 출생의 여성입니다.
휴대폰 번호:010-1234-5678
이메일 주소:haleyhyunjikim@gmail.com
