# 파이썬 속성 강좌 2부

### 문자열 자료형

문자열은 말 그래도 문자들을 나열해 놓은 것이며 아무런 의미를 갖지 않는다.
즉, 파이썬은 문자열을 보면 아무런 해석을 하지 않으며 그냥 명령에 따라 주어진 문자열을 조작한다.
물론 이런 문자열들을 잘 조작하여 필요한 정보를 얻어내는 것이 데이터 분석의 기본 목표이다.

문자열은 작은 따옴표(`'`) 또는 큰 따옴표(`"`)로 감싸져야 한다.
다만 앞 뒤로 동일한 종류의 따옴표가 사용되어야 한다.

In [1]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

두 변수가 동일한 값을 저장하고 있다는 것을 확인할 수 있다.

In [2]:
single_quoted_string == double_quoted_string

True

**주의:** 위에서 사용된 기호 `==`는 양측의 값이 동일함을 판단하는 함수이다.
즉, 양측의 (변수에 저장된) 값이 동일하면 참(`True`)을,
다르면 거짓(`False`)를 반환하는 함수이다.

#### 특수 문자

파이썬에서 백슬래시(`\`)는 특별한 역할을 수행한다. 
예를 들어 `\t`는 탭을 가리킨다.
여기서 탭은 탭 키를 눌렀을 경우 커서(cursor)가 지정된 크기만큼 움직이도록 하는 것을 가리킨다.

In [3]:
print("Hello,\tPython")

Hello,	Python


**주의:** 탭은 보통 스페이스 두 칸 또는 네 칸을 가리킨다. 언어마다 조금 다를 수 있다.

In [4]:
print("Hello,  Python") # 스페이스 두 칸

Hello,  Python


In [5]:
print("Hello,    Python") # 스페이스 네 칸

Hello,    Python


즉, 탭은 여기서는 스페이스 두 칸에 해당함을 알 수 있다.

백슬래시 자체를 문자열에 포함하고 싶을 때는 **무가공 문자열(raw string)**이란
의미로 `r` 기호을 문자열 앞에 붙혀서 사용한다.
그러면 백슬래시의 특수성이 무시되면 하나의 문자로 인식된다.

In [6]:
print(r'Hello,\tPython')

Hello,\tPython


#### 여러 줄로 구성된 문자열

문자열을 여러 줄에 걸쳐서 작성하고 싶으면 세 개의 큰 따옴표(`"""`)를 앞뒤로 감싼다.

In [7]:
multi_line_string = """첫째줄입니다.
둘째줄입니다.
셋째줄입니다."""

In [8]:
print(multi_line_string)

첫째줄입니다.
둘째줄입니다.
셋째줄입니다.


파이썬 해석기에 내부에서는 사실 `\n` 이라는 특수 문자열이 추가되어 하나의 문자열로 저장된다.
여기서 `\n` 은 뉴 라인(new line, 줄바꿈)을 가리키는 특수 문자열이다.
역시 여기서도 백슬래시의 특수 기능이 활용된다.

In [9]:
multi_line_string

'첫째줄입니다.\n둘째줄입니다.\n셋째줄입니다.'

#### 포맷 문자열(format string)

문자열 내에 지정된 값을 삽입하여 보다 유연한 문자열을 생성할 수 있도록
도와주는 문자열을 포맷 문자열이라 부르며,
값을 인자로 입력받아 새로운 문자열을 생성하는 일종의 틀의 역할을 수행한다.

예를 들어, 성과 이름이 각각 `last_name`과 `first_name` 변수에 저장되어 있다.

In [10]:
last_name = "홍"
first_name = "길동"

그러면 다음과 같이 문자열 덧셈을 이용하여 `'홍 길동'`을 생성할 수 있다.

In [11]:
last_name + " "+ first_name

'홍 길동'

또한 포맷 문자열을 이용하여 좀 더 유연하게 문자열을 다룰 수 있다.

In [12]:
"{1} {0}".format(first_name, last_name)

'홍 길동'

변수 값이 바뀌면 다르게 출력된다.

In [13]:
last_name = "박"
"{1} {0}".format(first_name, last_name)

'박 길동'

#### f-문자열(f-string)

파이썬 최신 버젼부터는 **f-문자열**이 제공되며 편리성이 보다 높다.
이 강의에서는 주로 f-문자열을 사용할 것이다.

In [14]:
f"{last_name} {first_name}"

'박 길동'

### 리스트 자료형

파이썬에서 제공하는 자료형 중에서 가장 기본적인 자료형이다. 
리스트는 여러 개의 값을 하나의 모둠(collection)으로 묶는다.
또한 리스트에 포함된 값들 사이의 순서가 있으며,
순서는 인덱스(index)로 지정된다.

**주의:** 인덱스는 0번 부터 시작하며, 0, 1, 2, 3, ... 등으로 리스트 왼편에 위치한 항목부터
인덱스를 센다.

리스트 항목은 아무 자료형이나 섞어서 사용될 수 있다.

#### 동일 자료형 리스트

In [15]:
integer_list = [1, 2, 3]

#### 섞인 자료형 리스트

In [16]:
heterogeneous_list = ["string", 0.1, True]

#### 중첩 리스트

리스트가 다른 리스트의 항목으로 사용될 수 있으며,
중첩 정도에 아무런 제한이 없다.

**주의:** `[]`는 아무런 항목이 없는 공리스트(empty list)를 가리킨다. 

In [17]:
list_of_lists = [integer_list, heterogeneous_list, []]

리스를 활용하는 많은 도구들이 있다.

#### 리스트 길이

`len` 함수는 리스트의 길이를 반환한다.

In [18]:
len(integer_list)

3

#### 리스트 항목들의 덧셈

리스트 항목이 모두 숫자일 경우 모든 항목을 한꺼번에 더한 결과를 구할 수 있다.

In [19]:
sum(integer_list)

6

#### 인덱싱

리스트의 특정 인덱스에 위치한 값을 확인하거나 수정할 수 있으며, 이를 **인덱싱**이라 부른다.
기호는 대괄호(`[]`)를 사용한다.

In [20]:
x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

zero = x[0]
one = x[1] 
nine = x[-1]
eight = x[-2]
x[0] = -1

print(f"zero\t = {zero}", 
      f"one\t = {one}", 
      f"nine\t = {nine}", 
      f"eight\t = {eight}", 
      f"x\t = {x}", 
      sep=',\n')

zero	 = 0,
one	 = 1,
nine	 = 9,
eight	 = 8,
x	 = [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


**주의:** 

* 프린트(`print`) 함수는 인자를 여러 개 받을 수 있으며, 각 인자를 모두 화면에 출력해 주는 함수이다.
    `print` 함수의 각 인자들은 기본적으로 스페이스를 기준으로 한 줄에 출력되지만, 
    각 인자를 어떻게 구분해서 출력할지를 `sep`이라는 인자의 값을 조정하여 지정할 수 있다.
    위에서는 줄바꿈(`\n`)을 `sep`에 대한 인자값으로 지정하여서 각 인자들이 여러 줄로 나뉘어 출력되었다.

* **역순 인덱스**(reverse index): 앞서 설명한 대로 인덱스는 리스트의 맨 왼편 항목부터 
    0, 1, 2, 3, ... 식으로 번호를 매긴다.
    반면에 리스트의 맨 오른편 항목부터 -1, -2, -3, ... 을 이용하여 역순으로 인덱스를 매길 수도 있다.
    따라서 -1은 리스트의 오른편 마지막 항목을 가리키며 종종 활용된다.

#### 인(`in`) 연산자

`in`은 항목의 포함여부를 판단해 주는 연산자이다.
반환값은 `True` 또는 `False`이다.

**주의:** `True`와 `False`는 부울(`bool`) 자료형에 속하는 값들이다.

In [21]:
1 in [1, 2, 3]

True

In [22]:
0 in [1, 2, 3]

False

#### 리스트 풀어헤치기(unpacking)

리스트의 길이를 정확히 알고 있는 경우 각각의 항목을 따로따로 떼어내어 변수에 저장할 수 있다.

In [23]:
x, y, z = [1, 2, 3]
print(f"x = {x}", 
      f"y = {y}",
      f"z = {z}",
      sep='\n')

x = 1
y = 2
z = 3


**주의:** 리스트의 길이와 변수의 개수가 다르면 오류가 발생한다.

In [24]:
x, y = [1, 2, 3]

ValueError: too many values to unpack (expected 2)

In [25]:
x, y, z, w = [1, 2, 3]

ValueError: not enough values to unpack (expected 4, got 3)

리스트를 해제하면서 앞으로 사용하지 않고 버릴 항목은 굳이 이름을 주지 않아도 된다.
이를 위해 밑줄(`underscore`, 언더스코어) 기호를 사용한다.

In [26]:
x, _, z = [1, 2, 3]
print(f"x = {x}", 
      f"z = {z}",
      sep='\n')

x = 1
z = 3
