# 파이썬 언어, IPython, 주피터 노트북 소개

## 파이썬 인터프리터

터미널 창에서 `python`이라 입력하고 엔터키를 누르면 파이썬 쉘(python shell)이 실행되며 아래와 같은 결과를 보여준다.

```shell
$ python
Python 3.6.0 | packaged by conda-forge | (default, Jan 13 2017, 23:17:12)
[GCC 4.8.2 20140120 (Red Hat 4.8.2-15)] on linux
Type "help", "copyright", "credits" or "license" for more information.
```

파이썬 명령문은 아래와 같이 실행한다.

```python
>>> a = 5
>>> print(a)
5
```

파이썬 코드를 담고 있는 파이썬 스크립트 파일은 파일은 `.py` 확장자를 같는다.
예를 들어 아래 코드를 담고 있는 파이썬 스크립트 파일을 `hello_world.py`라 하자.

```python
print('Hello world')
```

위 파일을 바로 실행하려면 터미널 창에서 아래와 같이 명령을 실행한다.

__주의사항:__ `hello_world.py` 파일이 현재 파이썬이 실행되고 있는 폴더에 위치하고 있어야 한다.

```shell
$ python hello_world.py
Hello world
```

## IPython 소개

ipython은 편리성이 추가된 파이썬 쉘(python shell)이며, `ipython` 명령어를 실행한 결과는 다음과 같다.

```shell
$ ipython
Python 3.6.0 | packaged by conda-forge | (default, Jan 13 2017, 23:17:12)
Type "copyright", "credits" or "license" for more information.

IPython 5.1.0 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.
```

사용법은 파이썬 쉘과 거의 비슷하지만 보다 편리한 기능이 추가되어 있다.
예를 들어, ipython에서 직접 파이썬 코드가 저장된 파이썬 스크립트 파일을 실행할 수 있다.

**주의사항:** 파이썬 쉘에서는 `>>>` 기호가 프롬프트(prompt) 기호로 사용되었으며,
ipython에서는 `In [1]` 등의 프롬프트가 사용된다.

```ipython
In [1]: %run hello_world.py
Hello world

In [2]:
```

### 주피터 노트북

주피터 노트북은 코드, 텍스트, 데이터 시각화 이미지 등을 지원하는 대화형 문서 양식이다. 
주피터 노트북을 실행하려면 터미널 창에서 아래와 같이 명령을 실행한다.

```shell
$ jupyter notebook
[I 15:20:52.739 NotebookApp] Serving notebooks from local directory:
/home/wesm/code/pydata-book
[I 15:20:52.739 NotebookApp] 0 active kernels
[I 15:20:52.739 NotebookApp] The Jupyter Notebook is running at:
http://localhost:8888/
[I 15:20:52.740 NotebookApp] Use Control-C to stop this server and shut down
all kernels (twice to skip confirmation).
Created new window in existing browser session.
```

주피터 노트북은 ipython을 기본 쉘(shell)로 사용하며, ipython의 기능을 거의 그대로 지원한다. 
예를 들어, `%run` 매직명령어를 아래와 같이 동일하게 사용할 수 있다.

In [11]:
%run hello_world.py

Hello world


__매직명령어:__ 파이썬의 명령어는 아니지만 ipython에서 지원하는 명령어

ipython은 파이썬에서 보다 읽기 편하거나 보기 좋은 형태로 값을 표기한다. 
예를 들어, 아래 `data` 변수에 저장된 사전 자료형의 값을 살펴보자. 

__주의사항:__ 아래 사전 자료형의 내용은 중요하지 않다.

In [12]:
data = {i : np.random.randn() for i in range(7)}

`data`가 가리키는 값을 파이썬에서 보여달라 하면 아래와 같이 보여준다.

```python
>>> data
{0: 0.3880711809981375, 1: -0.11626595239288223, 2: -0.7996499345728855, 3: 0.6638563562390143, 4: -0.39273836157454306, 5: -1.1696376274539204, 6: -0.397267423203786}
```

반면에 ipython에서는 아래와 같이 보여준다.

In [13]:
data

{0: -0.20470765948471295,
 1: 0.47894333805754824,
 2: -0.5194387150567381,
 3: -0.55573030434749,
 4: 1.9657805725027142,
 5: 1.3934058329729904,
 6: 0.09290787674371767}

### 탭 자동완성

탭(<kbd>Tab</kbd>) 키를 이용하여 이름, 명령문 등을 자동완성시킬 수 있다.
탭 키를 잘 활용할 것을 추천한다.

```python
In [1]: an_apple = 27

In [2]: an_example = 42

In [3]: an<Tab>
```

```python
In [3]: b = [1, 2, 3]

In [4]: b.<Tab>
```

```python
In [1]: import datetime

In [2]: datetime.<Tab>
```

```
In [7]: images/<Tab>
```

### 자기관찰

변수 이름 앞이나 뒤에 물음표 기호(`?`)를 붙이면 변수가 가리키는 값에 대한 정보를 출력한다.

In [14]:
b = [1, 2, 3]
b?

In [15]:
print?

함수의 경우 정의에 사용된 문서 문자열(docstring)에 담긴 내용을 함께 출력한다.

**참고:** 문서 문자열을 3중 큰따옴표(`"""`)로 감싼다.

In [16]:
def add_numbers(a, b):
    """
    Add two numbers together

    Returns
    -------
    the_sum : type of arguments
    """
    return a + b

In [17]:
add_numbers?

이중 물음표(`??`)를 사용하면 함수의 정의도 함께 보여준다.

In [18]:
add_numbers??

임의의 문자열을 가리키는 와일드카드(wildcard) 기호(`*`)를 사용하면 
함께 사용한 문자와 일치하는 모든 이름 목록을 보여준다.

In [19]:
np.*load*?

### `%run` 명령어

파이썬 스크립트 파일 내용을 불러와서 실행할 수 있다.
예를 들어, 아래 코드가 파이썬 스크립트 파일 `ipython_script_test.py` 에 저정되어 있다고 가정한다.

**주의사항:** python이 실행되는 동일한 디렉토리에 저장되어 있어야 한다. 
즉, 현재 사용하고 있는 주피터 노트북과 동일한 디렉토리에 저정되어 있다고 가정한다.

```python
def f(x, y, z):
    return (x + y) / z

a = 5
b = 6
c = 7.5

result = f(a, b, c)

if __name__ == "__main__":
    print("result:", result)
```

이제 위 파이썬 파일을 실행하면, 
아래 `if` 조건문의 본문이 실행된 결과를 보여준다.

```python
if __name__ == "__main__":
    print("result:", result)
```

In [20]:
%run ipython_script_test.py

result: 1.4666666666666666


또한 위 스크립트 파일에 지정된 변수와 함수를 모두 사용할 수 있다.

In [21]:
c

7.5

In [22]:
result

1.4666666666666666

`%load` 매직명령어는 실행은 하지 않으면서 스크립트 파일의 내용을 그래도 가져오며
사용법은 다음과 같다.

```python
%load ipython_script_test.py
```

주피터 노트북에서 위 명령문을 실행하면 아래 결과에서 보듯이
파이썬 스크립트 파일의 내용을 그대로 가져와서 바로 사용할 수 있도록 해준다.

```python
# %load ipython_script_test.py
def f(x, y, z):
    return (x + y) / z

a = 5
b = 6
c = 7.5

result = f(a, b, c)

if __name__ == "__main__":
    print("result:", result)
```

### 실행중인 코드 중지하기

파이썬 쉘에서 <kbd>Ctrl</kbd>+<kbd>C</kbd> 키 조합을 사용하면 대부분의 코드 실행이 멈춘다.

__참고:__ 주피터 노트북에서 코드 셀(code cell)의 실행을 중지하려면 영어 알파벳 아이(<kbd>I</kbd>) 키를 
두 번 연속 누른다.

### 클립보드에 복사된 코드 실행하기

__참고:__ 책에 설명된 이 기능은 별로 중요하지 않아서 여기서는 생략한다.

### 키보드 단축키

__참고:__ 단축키는 배우는 게 아니라 사용하면서 익혀야 한다.
따라서 여기서는 설명을 생략한다. 
또한 책에서 설명한 단축키는 윈도우용 또는 리눅스용 주피터 노트북에서는 사용할 수 없다. 
반면에 맥(mac)용 주피터 노트북에서는 사용가능하다.

### 매직 명령어

앞서 살펴본 `%run`, `%load` 이외에 ipython은 여러 개의 매직 명령어를 제공한다. 
매직 명령어 또한 단축키 처럼 배우는 게 아니라 필요할 때 사용하면서 익혀야 한다.
여기서는 `timeit` 과 `pwd`를 추가로 살펴본다.

먼저 `%timeit`은 지정된 코드를 여러 번 실행한 다음에 평균 실행 시간을 마이크로 초(microsecond, 10의 6승 분의 1초) 단위로 보여준다.

In [27]:
a = np.random.randn(100, 100)

%timeit np.dot(a, a)

16.3 µs ± 169 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


물음표 기호를 사용하면 해당 매직명령어의 기능과 옵션을 자세하게 알려준다.

In [28]:
%timeit?

`%pwd` 매직 명령어는 현재 파이썬 명령어가 실행되는 디렉토리를 가져와 보여준다.

In [29]:
%pwd

'\\\\wsl$\\Ubuntu\\home\\gslee\\Documents\\GitHub\\python-data-analysis\\notebooks'

가져온 정보를 저장할 수도 있다.

In [30]:
foo = %pwd

foo

'\\\\wsl$\\Ubuntu\\home\\gslee\\Documents\\GitHub\\python-data-analysis\\notebooks'

### `matplotlib` 통합

이제 더 이상 필요하지 않은 옵션이며, 기본으로 지원함.

## 파이썬 기초

### 기본 문법

#### 들여쓰기

중괄호(`{}`)를 대신에 들여쓰기를 이용하여 명령문 블록을 지정한다. 
예를 들어, `for` 반복문의 본문에 `if ... else ...` 조건문을 
사용하고자 할 경우 아래와 같이 작성한다.

```python
for x in array:
    if x < pivot:
        less.append(x)
    else:
        greater.append(x)
```

__참고:__ 들여쓰기는 <kbd>Tab</kbd> 키를 이용하며 보통 스페이스 네 개에 해당한다.
하지만 사용하는 편집기에 따라 다를 수 있다.

#### 세미콜론

세미콜론(`;`)은 기본적으로 사용되지 않는다.
하지만 매우 간단한 명령문을 한 줄에 연속으로 작성할 경우 사용할 수 있다.

```python
a = 5; b = 6; c = 7
```

__참고:__ 세미콜론 사용은 자제하는 게 좋다.

#### 모든 것은 객체

파이썬이 다루는 대상(값)은 모두 __객체__(object)이다.
따라서 값과 관련된 메서드(methods)를 적절하게 활용하면서
프로그램을 작성해야 한다.

앞으로 수(numbers), 문자열(strings), 리스트(lists), 넘파이 어레이(arrays), 팬다스 데이터프레임(dataframes)
등의 메서드의 활용법을 익혀나갈 것이다.

#### 주석

샵 기호(`#`) 다음에 오는 문장은 파이썬 인터프리터에의 의해 무시되며,
따라서 코드에 대한 설명을 전달하는 주석으로 활용된다.

In [3]:
items = ["radio", "tv", "", "phone"]
results = []
for item in items:
    # 아래 코드는 실행되지 않음.
    # if len(item) == 0:
    #   continue
    results.append(item)

print(results)

['radio', 'tv', '', 'phone']


주석을 제거하면 다른 결과가 나올 수 있다.

In [4]:
items = ["radio", "tv", "", "phone"]
results = []
for item in items:
    if len(item) == 0:
        continue
    results.append(item)

print(results)

['radio', 'tv', 'phone']


명령문 끝 부분에 주석을 달아 명령문에 대한 설명 또는 정보를 제공할 수 있습니다.

In [7]:
print("여기까지 공부했습니다.") # 여기까지 확인

여기까지 공부했습니다.


#### 함수 호출

함수를 적절한 인자와 함께 호출하여 실행하는 방법은 다음과 같다.

In [8]:
def f(x, y, z):
    return (x + y) / z

In [10]:
result = f(2, 3, 4)

In [11]:
f(2, 3, 4)

1.25

In [12]:
result

1.25

특정 객체의 메서드를 호출하는 방식도 기본적으로 동일하다.
다만, 객체의 이름과 함께 아래 방식으로 호출되어야 한다.

In [16]:
x = [1, 2, 3]
x.append(4)

In [17]:
x

[1, 2, 3, 4]

함수의 인자는 크게 두 종류로 나뉜다. 

* 순서별 인자: 지정된 순서대로 인자를 사용해야 함.
* 키워드 인자: 순서별 인자 모두 먼저 지정된 이후에 키워드와 함께 인자가 지정됨.
    키워드를 명시하는 경우 키워드 인자 사이의 순서는 중요하지 않음. 

In [22]:
print(1, 2, 3)

1 2 3


In [23]:
print(1, 2, 3, sep=', ')

1, 2, 3


In [25]:
print(1, 2, 3, sep=', ', end='The End')

1, 2, 3The End

In [26]:
print(1, 2, 3, end='The End', sep=', ')

1, 2, 3The End

#### 참조 변수

변수가 리스트와 같이 좀 복잡한 값을 가리킬 때는 __참조(reference)__ 기능을 사용한다.

In [None]:
a = [1, 2, 3]

아래와 같이 하면 변수 `b` 가 변수 `a`가 동일한 값을 참조한다. 

In [None]:
b = a

<img src="./images/variables-a-b-1.png" style="width:300px;">

실제로 `a`가 참조하는 값을 변화시키면 `b`도 영향받는다.

In [None]:
a.append(4)
b

<img src="./images/variables-a-b-2.png" style="width:330px;">

반면에 아래와 같은 경우는 리스트를 참조하는 경우와 다르게 작동한다.

In [39]:
a = 4
b = a

In [40]:
a = a + 1

print(f"a = {a}", f"b = {b}", sep="\n")

a = 5
b = 4


__참고:__ `f`-문자열은 문자열 안에 변수를 사용하는 기능을 지원한다.

#### 전역 변수와 지역 변수

함수 밖에서 선언된 __전역 변수__(global variables)는 함수 내에서 사용할 수 있지만,
함수의 매개변수 또는 함수 본문 내에서 선언된 __지역 변수__(local variables)는 함수 밖에서 사용할 수 없다.

In [41]:
def append_element(some_list, element):
    some_list.append(element)

In [42]:
data = [1, 2, 3]

append_element(data, 4)

In [43]:
data

[1, 2, 3, 4]

하지만 `element`는 더 이상 사용할 수 없다.

In [44]:
try:
    print(element)
except:
    print("element는 존재하지 않아요!")

element는 존재하지 않아요!


__참고:__ `try ... except ...`는 예외처리를 위한 구문이다.
`try` 의 본문을 먼저 실행하면서 오류가 발생하면 
바로 `except` 의 본문을 실행한다.

#### 동적 참조와 강타입

변수에 할당된 값이 다른 자료형의 값으로 변경될 수 있으며, 
그에 따른 자료형의 정보도 함께 변경되어 저장된다.

In [45]:
a = 5
type(a)

int

In [46]:
a = 'foo'
type(a)

str

자료형이 다른 경우 일반 연산이 작동하지 않을 수도 있다.
예를 들어 문자열과 숫자는 더할 수 없다.

In [47]:
try: 
    '5' + 5
except:
    print("문자열과 숫자는 더할 수 없어요!")

문자열과 숫자는 더할 수 없어요!


그냥 실행하면 아래와 같은 오류가 발생한다.

In [51]:
'5' + 5

TypeError: can only concatenate str (not "int") to str

반면에 부동소수점과 정수의 덧셈은 정수를 부동소수점으로 
강제로 형변환을 시켜서 실행된다.

In [49]:
a = 4.5
b = 2

print('a is {0}, b is {1}'.format(type(a), type(b)))

a is <class 'float'>, b is <class 'int'>


__참고:__ `format`은 문자열에 변수를 사용하는 기능을 지원한다. 
앞서 사용한 `f`-문자열 방식과 유사하게 작동한다.

이제 `a`를 `b`로 나누면 부동소수점들의 나눗셈으로 계산된다.

In [50]:
a / b

2.25

#### 객체의 자료형 활용

객체의 자료형에 따른 일을 분리해서 지정하는 기능을 활용할 수도 있다.

먼저 객체의 자료형이 지정된 자료형인지 확인하는 기능은 다음과 같다.
예를 들어, `a`가 가리키는 값이 정수형의 값인지를 다음과 같이 확인한다.

In [52]:
a = 5
isinstance(a, int)

True

그리고 부동소수점의 자료형인가를 확인하려면 다음과 같이 한다.

In [54]:
b = 4.5
isinstance(b, (int, float))

True

여러 자료형 중의 하나인가를 확인하려명 자료형을 튜플로 작성하여 사용하면 된다.
예를 들어, 정수 또는 부동소수점 중의 하나의 값인가를 확인하려면 다음과 같이 한다.

In [57]:
isinstance(a, (int, float))

True

In [58]:
isinstance(b, (int, float))

True

#### 객체의 속성과 메서드

모든 객체는 속성(attributes)과 메서드(methods)를 갖는다.

* 속성: 객체와 관련된 정보
* 메서트: 객체의 속성을 조작하는 기능을 가진 함수

탭 키(<kbd>Tab</kbd>)를 이용하면 주어진 객체의 모든 속성과 메서드를 확인할 수 있다.

```python
In [1]: a = 'foo'

In [2]: a.<Press Tab>
a.capitalize  a.format      a.isupper     a.rindex      a.strip
a.center      a.index       a.join        a.rjust       a.swapcase
a.count       a.isalnum     a.ljust       a.rpartition  a.title
a.decode      a.isalpha     a.lower       a.rsplit      a.translate
a.encode      a.isdigit     a.lstrip      a.rstrip      a.upper
a.endswith    a.islower     a.partition   a.split       a.zfill
a.expandtabs  a.isspace     a.replace     a.splitlines
a.find        a.istitle     a.rfind       a.startswith
```

속성과 메서드를 확인하기 위해 `getattr` 함수를 활용할 수도 있다.
예를 들어, 문자열의 `split` 메서드를 확인하면 아래의 결과를 보여준다.

In [61]:
a = 'foo'

getattr(a, 'split')

<function str.split(sep=None, maxsplit=-1)>

즉, `split` 은 함수(function), 즉, 메서드임을 확인해준다.

#### 덕 타이핑(Duck typing)

__덕 타이핑__은 "특정 기능을 지원하는가만 중요하다"는 의미를 전달할 때 사용하는 표현이다. 
("오리처럼 꽥꽥 울기만 하면 그것은 오리다" 라는 의미에서 만들어진 표현임)

예를 들어, 문자열, 튜플, 리스트 등 처럼 각 항목을 차례대로 순환할 수 있는 값은
`__iter__()` 메서드를 가지며, 이런 객체를 __이터러블__(iterable) 객체라 부른다.

In [66]:
'123'.__iter__()

<str_iterator at 0x1a50f758eb0>

In [67]:
(1, 2, 3).__iter__()

<tuple_iterator at 0x1a50f758fa0>

In [68]:
[1, 2, 3].__iter__()

<list_iterator at 0x1a50f758cd0>

아래 함수는 이터러블 객체인지 여부를 판단해준다.

In [69]:
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError: # 이터러블하지 않음
        return False

__참고:__ `iter()` 함수는 인자가 `__iter()__` 메서드를 갖고 있다면 그 메서드를 호출하고,
아님면 오류를 발생시킨다.

In [71]:
isiterable('a string')

True

In [72]:
isiterable([1, 2, 3])

True

In [73]:
isiterable(5)

False

리스트는 아니지만 이터러블한 값을 모두 리스트로 형변환 시켜주는 함수를
아래와 같이 구현할 수 있다.

In [76]:
def toList(x):
    if not isinstance(x, list) and isiterable(x):
        return list(x)

In [77]:
toList("123")

['1', '2', '3']

In [82]:
toList((1,2,3))

[1, 2, 3]

__참고:__ `toList()` 함수는 사실 `list()` 함수와 동일한 기능을 수행한다.

In [79]:
list("123")

['1', '2', '3']

In [85]:
list((1,2,3))

[1, 2, 3]

#### 모듈 불러오기

__모듈__(module)은 파이썬 소스코드를 담고 있는, 확장자가 `.py`인 파이썬 스크립트 파일이다.

다음 내용을 담은 모듈 `some_module.py`가 현재 주피터 노트북 또는 ipython 이 실행되고 있는 디렉토리에
저장되어 있다고 가정하자.

```python
# some_module.py
PI = 3.14159

def f(x):
    return x + 2

def g(a, b):
    return a + b
```

모듈 `some_module`을 불러와서(import) 그 안에 정의된 함수와 변수를 사용하는 방법은
다음과 같이 모듈이름과 함께 사용한다.

In [89]:
import some_module

result = some_module.f(5)
pi = some_module.PI

print(f"result:\t {result}", f"pi:\t {pi}", sep='\n')

result:	 7
pi:	 3.14159


모듈에서 특정 변수와 함수만을 불러오면 모듈 이름을 사용할 필요가 없다.

In [93]:
from some_module import g

g(5, PI)

8.14159

모듈에 별칭을 주려면 `as` 예약어를 사용하여 지정한다.

In [95]:
import some_module as sm

sm.f(pi)

5.14159

불러오는 함수에도 별칭을 줄 수 있다. 
역시 `as` 예약어를 이용한다.

In [96]:
from some_module import PI as pi, g as gf

gf(6, pi) + pi

12.283180000000002

#### 이항 연산자와 비교문

사칙연산과 비교문의 사용법은 일반적으로 알려진 방식과 동일하다.

In [97]:
5 - 7
12 + 21.5
5 <= 2

False

파이썬에서 지원하는 주요 이항 연산자는 다음과 같다.

| 이항 연산자 | 설명 |
| :--- | :--- |
| a + b | a와 b를 더한다|
| a - b | a에서 b를 뺀다|
| a * b | a와 b를 곱한다|
| a / b | a를 b로 나눈다|
| a // b | a를 b로 나눈 몫을 계산한다|
| a ** b | a의 b승을 구한다|
| a == b | a와 b가 동일한 값을 가리키는지 여부 판단|
| a != b | a와 b가 서로 다른 값을 가리키는지 여부 판단|
| a < b | a가 b보다 작은지 여부 판단|
| a <= b | a가 b보다 작거나 같은지 여부 판단|
| a > b | a가 b보다 큰지 여부 판단|
| a >= b | a가 b보다 크거나 같은지 여부 판단|
| a is b | a와 b가 동일한 위치에 저장된 값을 참조하는지 여부 판단|
| a is not b | a와 b가 다른 위치에 저정된 값을 참조하는지 여부 판단|

#### `is`와 `==`의 차이점

세 개의 변수 `a`, `b`, `c`를 아래처럼 선언하자.

In [99]:
a = [1, 2, 3]
b = a
c = list(a)

<img src="./images/variables-a-b-3.png" style="width:330px;">

`is` 연산자는 동일한 위치에 저정된 값을 참조하는지 여부를 결정한다.

예를 들어, `a`와 `b`는 동일한 리스트를 참조한다.

In [101]:
a is b

True

반면에 `a`와 `c `는 서로 다른 리스트를 참조한다.

__참고:__ `is not`은 서로 다른 위치에 저정된 값을 참조할 때 참이다.

In [102]:
a is not c

True

`==` 연산자는 두 변수가 참조하는 값이 동일한 값인지 여부를 판단한다.

예를 들어, 두 변수 `a`, `c`가 비록 서로 다른 위치에 저정된 값을 참조하기는 하지만
참조된 두 값 모두 `[1, 2, 3]` 으로 동일한 값이다.

In [103]:
a == c

True

#### `None` 값 참조

`is`와 `is not`은 `None` 값의 참조여부를 판단할 때 종종 사용된다.

In [106]:
a = None

a is None

True

__참고:__ 이외에 논리 연산자, 비트 연산자가 사용된다.
논리 연산자는 아래에서 좀 더 살펴볼 예정이지만 비트 연산자는 여기서는 다루지 않는 
대신에 [파이썬 코딩도장: 비트 연산자 사용하기](https://dojang.io/mod/page/view.php?id=2460)를
추천한다.

#### 가변(mutable) 객체와 불면(immutable) 객체

리스트, 사전, 넘파이 어레이 등은 변경이 가능한 자료형이다.

예를 들어, 리스트의 항목을 교체할 수 있다.

In [111]:
a_list = ['foo', 2, [4, 5]]
a_list[2] = (3, 4)

a_list

['foo', 2, (3, 4)]

리스트에 새로운 항목을 추가할 수도 있다.

In [110]:
a_list.append('four')

a_list

['foo', 2, (3, 4), 'four']

반면에 문자열과 튜플은 항목 수정이 불가능하다.

In [113]:
a_tuple = (3, 5, (4, 5))

a_tuple[1] = 'four'

TypeError: 'tuple' object does not support item assignment

In [115]:
a_string = "123"
a_string[2]='4'

TypeError: 'str' object does not support item assignment

### 스칼라 자료형

정수, 부동소수점, 부울값(`True`와 `False`), 문자열, 날짜와 시간 등을 객체로 갖는 자료형을
__스칼라__ 자료형이라 부른다. 

#### 정수 자료형: `int`

`int` 자료형은 임의의 숫자를 다룰 수 있다.

In [116]:
ival = 17239871

ival ** 6

26254519291092456596965462913230729701102721

#### 부동소수점 자료형: `float`

유리수를 다룬다.

In [117]:
fval = 7.243

과학 표기법도 사용할 수 있다.

In [119]:
fval2 = 6.78e-5

fval2

6.78e-05

나눗셈은 부동소수점으로 계산된다.

In [122]:
3 / 2

1.5

몫은 정수형으로 계산된다.

In [123]:
3 // 2

1

#### 문자열 자료형: `str`

문자열은 작은따옴표(`'`) 또는 큰따옴표(`"`)를 사용한다. 

In [125]:
a = '작은따옴표를 사용하는 문자열'

In [126]:
b = "큰따옴표를 사용하는 문자열"

여러 줄로 이루어진 문자열은 삼중 큰따옴표로 감싼다.

In [127]:
c = """
여러 줄에 걸친 문자열은
삼중 큰따옴표로 감싼다.
"""

문자열 자료형은 다양한 메서드를 제공한다.
예를 들어, 문자열이 몇 줄로 이루어졌는가를 
확인하려면 `count()` 메서드를 이용하여 
줄바꿈 기호(`\n`)가 사용된 횟수를 세면 된다.

In [128]:
c.count('\n')

3

문자열은 앞서 설명한 대로 수정할 수 없는 불변(immutable) 자료형이다.

In [129]:
a = 'this is a string'

a[10] = 'f'

TypeError: 'str' object does not support item assignment

문자'열은 수정할 수 없지만 기존의 문자열을 이용하여 새로운 문자열을 생성할 수는 있다.
예를 들어, `replace()` 메서드는 문자열에 사용된 부분 문자열을 다른 문자열로 대체하는 
방식으로 새로운 문자열을 생성한다.

In [130]:
b = a.replace('string', 'longer string')
b

'this is a longer string'

기존에 `a` 변수가 가리키는 변수는 그대로 있음을 확인할 수 있다.

In [131]:
a

'this is a string'

많은 파이썬 객체를 `str()` 함수를 이용하여 문자열로 변환할 수 있다.

In [134]:
a = 5.6
s = str(a)

type(s)

str

문자열을 리스트, 튜플 등처럼 일종의 순차 자료형으로 취급할 수도 있다.
따라서 인덱싱, 슬라이싱 기능 등이 모두 사용가능하다.

In [136]:
s = 'python'

s[:3]

'pyt'

#### 역슬래시(&bsol;) 기능

__주의사항:__ 윈도우 브라우저에서는 역슬래시가 원화 통화기호(&#8361;) 모양으로 보이지만,
동일하게 기능한다.

역슬래시 문자(&bsol;)는 특수한 기능을 수행한다.

예를 들어, 줄바꿈을 의미하는 문자 `\n`, 
탭을 의미하는 문자 `\t` 등에서 역슬래시가 특수한 기능을 수행한다. 

따라서 역슬래시 자체를 문자열에 포함할 때 조심해야 한다.
예를 들어, 아래와 같은 문자열을 사용하고자 한다고 가정하자.

```python
"12\34"
```

그런데 그냥 아래와 같이 지정하면 다르게 작동한다.
이유는 `\3`이 특수한 기능을 갖기 때문이다.

In [139]:
s = '12\34'

print(s)

12


In [142]:
s = '\3'

print(s)




따라서 `12\34`로 출력되게 하려면 역슬래시의 기능을 해제해야 하며,
그러기 위해 역슬래시를 두 번 적어주면 된다.
그러면 첫째 역슬래시 뒤에 나오는 역슬래시의 기능을 해제해서 지정한 문자열로 처리된다.

__참고:__ 이런 기능을 영어 표현으로 __이스케이프__(escape)라고 부른다.

In [143]:
s = '12\\34'

print(s)

12\34


그런데 문자열 안에 많은 역슬래시가 포함되어 있다면 매우 
이런 방식은 매우 불편하다. 
대신에 문자열 앞에 영어 알파벳 `r`을 추가하면 간단하게 해결된다.

In [145]:
s = r'this\has\no\special\characters'

print(s)

this\has\no\special\characters


#### 문자열 연산: 덧셈과 정수 곱셈

두 문자열을 더하면 두 문자열을 이어서 붙힌다.

In [146]:
a = 'this is the first half '
b = 'and this is the second half'

a + b

'this is the first half and this is the second half'

문자열과 정수를 곱하면 해당 정수만큼 복사되어 길어진다.

In [147]:
a * 2

'this is the first half this is the first half '

#### 문자열 템플릿

__문자열 템플릿__은 문자열 안에 일부 변하는 값을 지정할 수 있도록 선언된 문자열이다.

예를 들어, 아래 템플릿은 3개으 값을 임의로 지저알 수 있도록 준비되어 있다.

In [154]:
template = '{0:.2f} {1:s}는 US${2:d}에 해당한다.'

__참고:__ 중괄호 안에 사용된 숫자와 기호의 의미는 다음과 같다.

* `0:.2f` - `format()` 메서드의 첫째 인자인 부동소수점이 자리하며 소수점 이하 두 자리까지 표기
* `1:s` - `format()` 메서드의 둘째 인자인 문자열이 자리하는 자리
* `2:d` - `format()` 메서드의 셋째 인자인 정수가 위치하는 자리

문자열 템플릿에 지정된 수 만큼의 값을 `format()` 메서드를 이용하여 입력하여
새로운 문자열을 생성할 수 있다.
단, `format()` 메서드에 사용되는 인자의 순서는 지정된 순서대로 정해져야 한다.

예를 들어, `template` 변수가 가리키는 문자열 템플릿의 세 위치에 차례대로
부동소수점, 문자열, 정수를 입력해야 하며, 아래와 같이 
차례대로 인자로 사용하면 된다.

In [155]:
template.format(4.5560, '아르헨티나 페소', 1)

'4.56 아르헨티나 페소는 US$1에 해당한다.'

#### 유니코드와 바이트

__유니코드__(unicode)는 순전히 키보드만을 이용하여 문자를 표현하는 코드표 모음집이며 파이썬에서 영어 알파벳과 한글을 포함하여 거의 모든 문자를 지원한다. 
파이썬 또한 유니코드를 기본적으로 지원한다.

반면에 __바이트__(bytes)는 문자코드를 컴퓨터가 이해할 수 있는 형태로 변환된 값이다. 
유니코드를 바이트로 인코딩(변환, encoding)하는 방식은 일반적으로 UTF-8 방식을 따른다.
반면에 한글에 특화된 인코딩 방식으로 EUC-KR, CP-949 등이 있다. 
따라서 사용하는 브라우저에 따라 한글이 깨져서 보이는 경우 언급한 세 가지 인코딩 방식 중
하나로 설정해야 한다. 

__참고:__ 요즘은 UTF-8 방식으로 인코딩하는 것을 기본값으로 추천한다.

예를 들어, 아래는 스페인어(Spanish)를 의미하는 스페인 단어 "español"를 가리키는 변수를 선언한다.

In [156]:
val = "español"
val

'español'

UTF-8 방식으로 바이트로 인코딩하면 사람은 알아볼 수 없게 된다.

In [158]:
val_utf8 = val.encode('utf-8')
val_utf8

b'espa\xc3\xb1ol'

인코딩된 값의 자료형은 `bytes`이다.

In [159]:
type(val_utf8)

bytes

인코딩 방식을 안다면 유니코드로 디코딩할 수 있다.

In [160]:
val_utf8.decode('utf-8')

'español'

UTF-8 방식이 대세이지만 다른 인코딩 방식도 존재한다는 사실 정도는 상식으로 알고 있어야 한다.
`bytes` 자료형의 객체는 파일(files) 다루면서 흔하게 접한다.

문자열 앞에 `b`를 붙이면 UTF-8 방식으로 인코딩 된 `bytes` 객체로 취급된다.

In [168]:
bytes_val = b'this is bytes'
bytes_val

b'this is bytes'

UTF-8 방식으로 디코딩하면 유니코드 문자열(`str`)을 얻는다.

In [169]:
decoded = bytes_val.decode('utf8')
decoded

'this is bytes'

In [170]:
type(decoded)

str

#### 부울값

`True` 또는 `False`의 값으로 계산될 수 있는 값을 __부울값__(boolean)이다.
부울값과 관려된 연산자는 논리곱 연산자 `and`, 논리합 연산자 `or`가 대표적이며,
두 연산자의 기능은 일반적으로 알려진 것과 동일하다.

In [171]:
True and True

True

In [172]:
False or True

True

#### 형변환 함수

`str()`, `bool()`, `int()`, `float()`는 
인자로  들어온 값을 각각 문자열, 부울값, 정수, 부동소수점으로 변환한다.
단, 인자로 사용된 값에 따라 오류가 발생할 수 있다.

In [174]:
s = '3.14159'

In [175]:
fval = float(s)

In [181]:
fval

3.14159

In [176]:
type(fval)

float

`int()` 함수는 부동소수점에서 소수점 이하를 버리고 정수를 반환한다.

In [177]:
int(fval)

3

`int()` 함수는 문자열도 직접 정수로 반환한다. 

In [183]:
int('334')

334

하지만 문자열이 정수 형식이 아니면 오류가 발생한다.

In [184]:
int(s)

ValueError: invalid literal for int() with base 10: '3.14159'

`bool()` 함수는 0에 대해서만 `False`를 반환한다.

In [185]:
bool(fval)

True

In [186]:
bool(0)

False

In [187]:
bool(-1)

True

#### `None` 값

`None`은 어떤 의미도 없는 값, 소위 널(null)값이며, 
문법적으로 `NoneType` 자료형의 유일한 값이다. 

In [188]:
type(None)

NoneType

In [189]:
a = None
a is None

True

In [190]:
b = 5
b is not None

True

`None`은 특정 매개변수에 대한 인자가 경우에 따라 추가로 필요할 때를 대비에서 키워드 매개변수의 
기본값으로 사용되곤 한다.

예를 들어, 아래 `add_and_maybe_multiply()` 함수의 셋째 인자는 기본적으로 `None` 이지만,
경우에 따라 다른 값을 지정하여 사용할 수 있도록 활용되고 있다.

In [191]:
def add_and_maybe_multiply(a, b, c=None):
    result = a + b

    if c is not None:
        result = result * c

    return result

In [194]:
add_and_maybe_multiply(2, 3)  # 2 + 3 

5

In [195]:
add_and_maybe_multiply(2, 3, 4) # (2 + 3) * 4

20

#### 날짜와 시간

`datetime` 모듈은 날짜와 시간과 관련된 유용한 클래스를 제공한다.
대표적으로 `datetime`, `date`, `time` 세 클래스가 포함되며
각각 날짜와시간, 날짜, 시간 정보를 속성으로 갖는다.

In [196]:
from datetime import datetime, date, time

년-월-일-시-분-초 정보를 담은 객체는 아래와 같이 생성한다.

In [208]:
dt = datetime(2021, 3, 2, 17, 5, 1)

`datetime` 객체는 년-월-일-시-분-초를 각각 따로 제공하는 속성 변수를 갖고 있다.
예를 들어, 일(day) 속성은 아래와 같이 확인한다.

In [209]:
dt.day

2

분(minute) 속성은 다음과 같이 확인한다.

In [210]:
dt.minute

5

날짜 정보만 갖는 `date` 클래스의 객체로의 변환은 `date()` 메서드를 이용한다.

In [211]:
dt.date()

datetime.date(2021, 3, 2)

시간 정보만 갖는 `time` 클래스의 객체로의 변환은 `time()` 메서드를 이용한다.

In [212]:
dt.time()

datetime.time(17, 5, 1)

일상적으로 사용하는 날짜-시간 표기법으로 변환하려면 `strftime()` 메서드를 이용한다.
단, 인자로 어떤 포맷(format)을 따를지 지정해야 한다.

예를 들어, 서양식은 24시간 형식을 따르면서, `요일, 달-일-년 시:분`으로 많이 보여준다.

In [221]:
dt.strftime('%A, %m/%d/%Y %H:%M')

'Tuesday, 03/02/2021 17:05'

반면에 한국식은 오전/오후를 구분하여 12시간제를 따르면서, `년-월-일(요일) 시:분`으로 많이 보여준다.

In [222]:
dt.strftime('%Y/%m/%d(%A) %I:%M%p')

'2021/03/02(Tuesday) 05:05PM'

__참고:__ 보다 다양한 포맷(format)에 대한 정보는 
[datetime 모듈의 공식문서](https://docs.python.org/ko/3/library/datetime.html)에서
확인할 수 있다.

`strptime()` 함수는 문자열을 해석하여 `datetime` 클래스의 객체로 변환한다.
대신에 입력된 문자가 어떤 포맷을 따르는지 정보를 둘째 인자로 함께 전달해야 한다.

In [230]:
datetime.strptime('20200228', '%Y%m%d')

datetime.datetime(2020, 2, 28, 0, 0)

__주의사항:__ 초=0 인경우 굳이 보여주지 않는다.

`datetime` 클래스의 객체는 불변(immutable)이다.  
하지만 문자열의 경우와 비슷하게 특정 값을 이용하여 새로운 `datetime` 클래스의
객체를 생성할 수는 있다.

예를 들어, `replace()` 메서드는 년, 월, 일, 시, 분, 초 각각의 값을 다른 값으로 지정하여 
새로운 `datetime` 클래스의 객체를 생성한다.

아래 예제는 분과 초를 모두 0으로 설정하여 새로운 `datetime` 객체를 생성한다.

In [232]:
dt.replace(minute=0, second=0)

datetime.datetime(2021, 3, 2, 17, 0)

두 `datetime` 객체의 차(difference)는 `timedelta` 클래스의 객체를 반환한다.

In [248]:
dt2 = datetime(2021, 6, 15, 23, 59)

In [249]:
delta = dt2 - dt
delta

datetime.timedelta(days=105, seconds=24839)

In [250]:
type(delta)

datetime.timedelta

실제로 `dt + deta == dt2`는 참이된다.

In [251]:
dt

datetime.datetime(2021, 3, 2, 17, 5, 1)

In [253]:
dt + delta == dt2

True

### 제어문

#### `if` 조건문

`if` 다음에 위치한 조건식이 참이면 해당 본문 불록의 코드를 실행한다.

In [261]:
x = -2

if x < 0:
    print("It's negative")

It's negative


__주의사항:__ "It's negative" 문자열 안에 작은따옴표가 
사용되기 때문에 반드시 큰따옴표로 감싸야 한다. 

조건식이 만족되지 않으면 해당 본문 블록을 건너뛴다.

In [273]:
x = 4

if x < 0:
    print("It's negative")
    
print("if문을 건너뛰었음!")

if문을 건너뛰었음!


경우에 따른 여러 조건을 사용할 경우 원하는 만큼의 `elif`를 사용하고
마지막에 `else`를 한 번 사용할 수 있다. 

위에 위치한 조건식의 만족여부부터 조사하며 한 곳에서 만족되면 나머지 부분은 무시된다.

In [274]:
if x < 0:
    print('음수')
elif x == 0:
    print('숫자 0')
elif 0 < x < 5:
    print('5 보다 작은 양수')
else:
    print('5 보다 큰 양수')

5 보다 작은 양수


__참고:__ 부울 연산자가 사용되는 경우에도 하나의 표현식이 참이거나 거짓이냐에 따라
다른 표현식을 검사하거나 무시하기도 한다.

예를 들어, `or` 연산자는 첫 표현식이 `True` 이면 다른 표현식은 검사하지 않는다.
아래 코드에서 `a < b`가 참이기에 `c/d > 0` 은 아예 검사하지 않는다.
하지만 `c/d > 0`을 검사한다면 오류가 발생해야 한다.
이유는 0으로 나누는 일은 허용되지 않기 때문이다.

In [277]:
a = 5; b = 7
c = 8; d = 0
if a < b or c / d > 0:
    print('오른편 표현식은 검사하지 않아요!')

오른편 표현식은 검사하지 않아요!


부등호 연산자는 여러 개를 종합하여 사용할 수도 있다.

In [278]:
4 > 3 > 2 > 1

True

#### `for` 반복문

`for` 반복문은 리스트, 튜플과 같은 모음 자료형과 문자열과 같은 이터러블 객체의 항목을 순회하며,
아래 양식으로 사용된다.

```python
for value in collection:
    # value를 이용하는 코드
```

`continue` 명령문

`for` 또는 아래에서 소개할 `while` 반복문이 실행되는 도중에
`continue` 명령문을 만나는 순간 현재 실행되는 코드의 실행을 멈추고
다음 순번 항목을 대상으로 반복문을 이어간다.

예를 들어, 리스트에 포함된 항목 중에서 `None`을 제외한 값들의 합을 계산할 수 있다.

In [280]:
sequence = [1, 2, None, 4, None, 5]
total = 0

for value in sequence:
    if value is None:
        continue
    total += value
    
print(total)

12


`break` 명령문

`for` 또는 아래에서 소개할 `while` 반복문이 실행되는 도중에
`continue` 명령문을 만나는 순간 현재 실행되는 반복문 자체의 실행을 멈추고,
다음 명령을 실행한다. 

예를 들어, 리스트에 포함된 항목들의 합을 계산하는 과정 중에 5를 만나는 순간 
계산을 멈추려면 다음과 같이 `break` 명령문을 이용한다.

In [282]:
sequence = [1, 2, 0, 4, 6, 5, 2, 1]
total_until_5 = 0

for value in sequence:
    if value == 5:
        break
    total_until_5 += value
    
print(total_until_5)

13


`break` 명령문은 가장 안쪽에 있는 `for` 또는 `while` 반복문을 빠져나가며,
또 다른 반복문에 의해 감싸져 있다면 해당 반복문을 이어서 실행한다.

예를 들어, 아래 코드는 0, 1, 2, 3으로 이루어진 순서쌍들을 출력한다.
그런데 둘째 항목이 첫째 항목보다 큰 경우는 제외시킨다.

__참고:__ `range(4)`는 리스트 `[1, 2, 3, 4]`와 유사하게 작동한다.
레인지(range)에 대해서는 잠시 뒤에 살펴본다.

In [283]:
for i in range(4):
    for j in range(4):
        if j > i:
            break
        print((i, j))

(0, 0)
(1, 0)
(1, 1)
(2, 0)
(2, 1)
(2, 2)
(3, 0)
(3, 1)
(3, 2)
(3, 3)


리스트, 튜를, 이터러블 객체의 항목이 튜플, 리스트 등의 값이라면 아래와 같이 여러 개의 
변수를 이용하여 `for` 반복문을 실행할 수 있다.

In [284]:
an_iterator = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in an_iterator:
    print(a * (b + c))

5
44
119


위 코드에서 `a`, `b`, `c` 각각은 길이가 3인 튜플의 첫째, 둘째, 셋째 항목을 가리킨다. 
따라서 위 결과는 아래 계산의 결과를 보여주는 것이다.

```python
1 * (2 + 3) = 5
4 * (5 + 6) = 44
7 * (8 + 9) = 119
```

#### `while` 반복문

지정된 조건이 만족되는 동안 또는 실행 중에 `break` 명령문을 만날 때까
동일한 코드를 반복실행한다.

아래 코드는 256부터 시작해서 계속 반으로 나눈 값을 더하는 코드이며,
나누진 값이 0보다 작거나 같아지면 또는 더한 값의 합이 500보다 커지면 바로 실행을 멈춘다.

In [287]:
x = 256
total = 0

while x > 0:
    if total > 500:
        break
    total += x
    x = x // 2
    
print(total)

504


#### `pass` 명령문

아무 것도 하지 않고 다음으로 넘어가도는 하는 명령문이다. 
주로 앞으로 채워야 할 부분을 명시할 때 또는
무시해야 하는 경우를 다룰 때 사용한다.

아래 코드는 x가 0일 때 할 일을 추후에 지정하도록 `pass` 명령문을 사용한다.

In [291]:
x = 0

if x < 0:
    print('negative!')
elif x == 0:
    # 할 일: 추추 지정
    pass
else:
    print('positive!')

#### `range()` 함수

규칙성을 가진 정수들을 넘겨주는 이터러블 객체를 반환한다.
생성된 객체는 리스트와 유사하게 작동한다.

먼저, 0부터 9까지의 정수들로 이루어진 `range` 객체는 다음과 같이 생성한다.

In [292]:
range(10)

range(0, 10)

In [296]:
type(range(10))

range

`range(0, 10)` 안에 포함된 항목을 `for` 반복문을 이용하여 확인할 수 있다.

In [293]:
for item in range(0, 10):
    print(item)

0
1
2
3
4
5
6
7
8
9


리스트로 형변환을 하면 보다 간단하게 확인된다.

In [295]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

0에서 19까지의 정수중에서 짝수만으로 이루어진 `range` 객체는 다음과 같이 
스텝(step) 크기 2를 셋째 인자로 지정하여 생성한다.

In [297]:
list(range(0, 20, 2))

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

스텝 크기를 음수로 지정하면 크기 역순으로 이루어진 `range` 객체를 생성한다.

In [298]:
list(range(5, 0, -1))

[5, 4, 3, 2, 1]

In [299]:
list(range(5, 0, -2))

[5, 3, 1]

주요 활용법 1: 리스트 또는 튜플의 길이 정보를 이용하여 인덱싱을 활용하는 방식이 많이 사용된다.

In [300]:
seq = [1, 2, 3, 4]
for i in range(len(seq)):
    val = seq[i]

주요 활용법 2: 매우 많은 항목을 담은 리스트 대신에 `range` 객체를 `for` 반복문과 함께 사용한다.
이유는 `range` 객체가 리스트보다 훨씬 적은 메모리를 사용하기 때문이다.

아래 코드는 0부터 99,999 까지의 정수 중에서 3 또는 5의 배수를 모두 더한다.

In [302]:
sum = 0

for i in range(100000):
    # % is the modulo operator
    if i % 3 == 0 or i % 5 == 0:
        sum += i
        
print(sum)

2333316668


#### 삼항 표현식

삼항 표현식 `if ... else ...` 를 이용하여 지정된 값을 한 줄로 간단하게 표현하도록 도와준다.

예를 들어, 아래 코드를 살펴보자.

In [306]:
x = 5

if x >= 0:
    y = 'Non-negative'
else:
    y = 'Negative'
    
print(y)

Non-negative


변수 `y`를 아래와 같이 한 줄로 선언할 수 있다.

In [307]:
y = 'Non-negative' if x >= 0 else 'Negative'

print(y)

Non-negative
