# 문자열

데이터 분석에 있어서 문자열(텍스트) 데이터의 중요성

- 자연어처리 데이터는 대부분이 텍스트 데이터로 이루어져 있습니다.
- 우리가 흔히 접하는 Excel 혹은 Table 데이터안에도 수많은 텍스트 데이터가 존재합니다.
- 게다가 우리나라는 영어와 더불어 **한글**까지 추가로 처리 할 수 있어야 합니다!!

### 특성

- 문자열 역시 리스트(list), 튜플(tuple)과 마찬가지로 sequence 형 자료구조를 가집니다.
- 문자열은 불변(immutable) 객체입니다.

### 문자열의 생성

파이썬의 문자열은 작은 따옴표(**'**) 나 큰 따옴표(**"**) 모두 구분없이 사용하여 문자열을 생성할 수 있습니다.

작은 따옴표(**'**) 사용

In [None]:
'안녕하세요? 반갑습니다.'

큰 따옴표(**"**) 사용

In [None]:
"안녕하세요? 반갑습니다."

작은 따옴표 3개 혹은 큰 따옴표 3개를 써서 **여러 줄의 문자열을 생성**할 수 있습니다.

In [None]:
sample = '''안녕하세요? 
반가워요
내이름은 
파이썬 입니다.'''

print(sample)

## 문자열 출력 (포맷팅)

### print() : 출력

In [None]:
print('헬로우 파이썬')

In [None]:
print('문자열 첫째', '그리고, 둘째')

### %를 사용한 출력

In [None]:
"안녕하세요? %s" % ('반갑습니다.')

In [None]:
'안녕하세요? %.4f' % (0.123456)

In [None]:
'안녕하세요? %d' % (12345)

In [None]:
'안녕하세요? %c' % ('a')

### {} 와 format를 사용한 출력

In [None]:
'웰컴투? {}'.format('파이썬.')

In [None]:
'비밀번호 {}'.format(486)

소수점 2자리 까지 제한하는 경우 (그 이하자리는 반올림)

In [None]:
'원주율? {:.2f}'.format(3.141592)

### f 문자열 포맷팅 (python 3.6 이상만 지원)

In [None]:
name = '펭수'
age = 10
print(f'나의 이름은 {name}입니다. 나이는 {age} 살입니다.')

In [None]:
print(f'내년에 저는 {age+1} 살입니다.')

In [None]:
d = {'name':'펭수', 'age':10}

In [None]:
print(f"반가워요. 저는 {d['name']}입니다. 저의 나이는 {d['age']} 살입니다.")

### 연습문제

- 변수 `a`를 활용하여 문자열 포맷팅으로 출력하세요
- print() 를 사용합니다.

In [None]:
a = 1234

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>a의 값은 1234입니다
</pre>

- 변수 `a`, `b`를 활용하여 문자열 포맷팅으로 출력하세요
- 단, `a`, `b`의 값은 소수 3째짜리까지 출력하고, 그 이하는 반올림합니다.

In [None]:
a = 3.141592
b = 6.181112

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>a의 값은 3.142, b의 값은 6.181입니다
</pre>

## 문자열 길이

### 영문 (alphabet)

In [None]:
len('banana')

**공백**은 길이에 포함됩니다.

In [None]:
len('banana pen')

### 한글

In [None]:
len('한글')

**공백**은 길이에 포함됩니다.

In [None]:
len('한글 킹왕짱')

## 인덱싱 (indexing)

- 문자열에서 한 개의 글자(char)를 조회하기 위해서는 **[]를 활용한 인덱싱으로 조회**할 수 있습니다.

In [None]:
a = 'Python is my life'
a

<div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown">
<table>
<thead><tr>
<th>P</th>
<th>y</th>
<th>t</th>
<th>h</th>
<th>o</th>
<th>n</th>
<th></th>
<th>i</th>
<th>s</th>
<th></th>
<th>m</th>
<th>y</th>
<th></th>
<th>l</th>
<th>i</th>
<th>f</th>
<th>e</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
<td>5</td>
<td>6</td>
<td>7</td>
<td>8</td>
<td>9</td>
<td>10</td>
<td>11</td>
<td>12</td>
<td>13</td>
<td>14</td>
<td>15</td>
<td>16</td>
</tr>
<tr>
<td>-17</td>
<td>-16</td>
<td>-15</td>
<td>-14</td>
<td>-13</td>
<td>-12</td>
<td>-11</td>
<td>-10</td>
<td>-9</td>
<td>-8</td>
<td>-7</td>
<td>-6</td>
<td>-5</td>
<td>-4</td>
<td>-3</td>
<td>-2</td>
<td>-1</td>
</tr>
</tbody>
</table>

</div>

In [None]:
a[0]

In [None]:
a[-2]

### 연습문제

문자열 "210101-1234567"을 인덱싱 하여 성별을 나타내는 숫자를 출력 하세요

In [None]:
registration_number =  '210101-1234567'

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>'1'</pre>

## 슬라이싱 (Slicing)

- 슬라이싱의 활용: [start:stop:step] 을 명시하여 부분을 추출할 수 있습니다.

In [None]:
a = 'Python is my life'
a

<div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown">
<table>
<thead><tr>
<th>P</th>
<th>y</th>
<th>t</th>
<th>h</th>
<th>o</th>
<th>n</th>
<th></th>
<th>i</th>
<th>s</th>
<th></th>
<th>m</th>
<th>y</th>
<th></th>
<th>l</th>
<th>i</th>
<th>f</th>
<th>e</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
<td>5</td>
<td>6</td>
<td>7</td>
<td>8</td>
<td>9</td>
<td>10</td>
<td>11</td>
<td>12</td>
<td>13</td>
<td>14</td>
<td>15</td>
<td>16</td>
</tr>
<tr>
<td>-17</td>
<td>-16</td>
<td>-15</td>
<td>-14</td>
<td>-13</td>
<td>-12</td>
<td>-11</td>
<td>-10</td>
<td>-9</td>
<td>-8</td>
<td>-7</td>
<td>-6</td>
<td>-5</td>
<td>-4</td>
<td>-3</td>
<td>-2</td>
<td>-1</td>
</tr>
</tbody>
</table>

</div>

[:]을 활용하여 전체를 추출할 수 있습니다.

In [None]:
a[:]

<div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown">
<table>
<thead><tr>
<th>P</th>
<th>y</th>
<th>t</th>
<th>h</th>
<th>o</th>
<th>n</th>
<th></th>
<th>i</th>
<th>s</th>
<th></th>
<th>m</th>
<th>y</th>
<th></th>
<th>l</th>
<th>i</th>
<th>f</th>
<th>e</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
<td>5</td>
<td>6</td>
<td>7</td>
<td>8</td>
<td>9</td>
<td>10</td>
<td>11</td>
<td>12</td>
<td>13</td>
<td>14</td>
<td>15</td>
<td>16</td>
</tr>
<tr>
<td>-17</td>
<td>-16</td>
<td>-15</td>
<td>-14</td>
<td>-13</td>
<td>-12</td>
<td>-11</td>
<td>-10</td>
<td>-9</td>
<td>-8</td>
<td>-7</td>
<td>-6</td>
<td>-5</td>
<td>-4</td>
<td>-3</td>
<td>-2</td>
<td>-1</td>
</tr>
</tbody>
</table>

</div>

[start:]는 시작 index 부터 끝까지 추출합니다.

In [None]:
a[3:]

In [None]:
a[-4:]

<div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown">
<table>
<thead><tr>
<th>P</th>
<th>y</th>
<th>t</th>
<th>h</th>
<th>o</th>
<th>n</th>
<th></th>
<th>i</th>
<th>s</th>
<th></th>
<th>m</th>
<th>y</th>
<th></th>
<th>l</th>
<th>i</th>
<th>f</th>
<th>e</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
<td>5</td>
<td>6</td>
<td>7</td>
<td>8</td>
<td>9</td>
<td>10</td>
<td>11</td>
<td>12</td>
<td>13</td>
<td>14</td>
<td>15</td>
<td>16</td>
</tr>
<tr>
<td>-17</td>
<td>-16</td>
<td>-15</td>
<td>-14</td>
<td>-13</td>
<td>-12</td>
<td>-11</td>
<td>-10</td>
<td>-9</td>
<td>-8</td>
<td>-7</td>
<td>-6</td>
<td>-5</td>
<td>-4</td>
<td>-3</td>
<td>-2</td>
<td>-1</td>
</tr>
</tbody>
</table>

</div>

[:end]는 처음부터 end 전까지 추출합니다.

In [None]:
a[:6]

In [None]:
a[:-3]

<div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown">
<table>
<thead><tr>
<th>P</th>
<th>y</th>
<th>t</th>
<th>h</th>
<th>o</th>
<th>n</th>
<th></th>
<th>i</th>
<th>s</th>
<th></th>
<th>m</th>
<th>y</th>
<th></th>
<th>l</th>
<th>i</th>
<th>f</th>
<th>e</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>1</td>
<td>2</td>
<td>3</td>
<td>4</td>
<td>5</td>
<td>6</td>
<td>7</td>
<td>8</td>
<td>9</td>
<td>10</td>
<td>11</td>
<td>12</td>
<td>13</td>
<td>14</td>
<td>15</td>
<td>16</td>
</tr>
<tr>
<td>-17</td>
<td>-16</td>
<td>-15</td>
<td>-14</td>
<td>-13</td>
<td>-12</td>
<td>-11</td>
<td>-10</td>
<td>-9</td>
<td>-8</td>
<td>-7</td>
<td>-6</td>
<td>-5</td>
<td>-4</td>
<td>-3</td>
<td>-2</td>
<td>-1</td>
</tr>
</tbody>
</table>

</div>

[start:end]는 start부터 end 전까지 추출합니다.

In [None]:
a[3:6]

[start:stop:step]에서 step 지정시 step만큼 건너 뛰면서 추출합니다.

In [None]:
a[::2]

역순으로 출력하기 위해서는 step을 -1로 지정합니다.

In [None]:
a[::-1]

### 연습문제

문자열 '20210101Sunny'를 슬라이싱하여 날짜는 `date`변수에 날씨는 `weather` 변수에 저장 후 출력 하세요

In [None]:
sample = '20210101Sunny'

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>date: 20210101, weather: Sunny
</pre>

(문자열 슬라이싱을 활용)자동차 번호가 다음과 같을 때 뒤에 4자리만 출력하세요.

In [None]:
license_plate = "13나 5645"

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>5645
</pre>

### 불변(immutable)

- 문자열은 index를 통해 값을 수정 및 변경이 불가합니다.
- 하지만 메서드(method)로 변경할 수 있습니다.

In [None]:
a = 'Python is my life'

index에 값을 할당하여 변경하려는 경우

In [None]:
a[2] = 'Y'

## 문자열의 덧셈과 곱셈

### 연결: 문자열의 덧셈

덧셈은 문자열을 연결합니다.

In [None]:
a = '반갑습니다!'
b = '웰컴 투 파이썬'

In [None]:
a + b

### 복제: 문자열의 곱셈

문자열을 곱한 숫자 만큼 반복하여 생성합니다.

In [None]:
a * 2

In [None]:
print('abc ' * 5)
print('===' * 7)

## 문자열의 list, set

### 리스트(list)

- 문자열을 리스트(list)로 타입 변환이 가능합니다.
- 타입 변환시 한 글자를 요소로 갖는 리스트가 생성됩니다.

In [None]:
list('ABCDE')

### 세트(set)

- 한 글자를 요소로 갖는 세트가 생성됩니다.
- 세트의 특성상 요소를 생성한 후 중복된 글자는 제거됩니다.

In [None]:
set('AAABBBCCC')

중복이 제거된 리스트로 생성하기 위해서는 list로 다시 타입 변환합니다.

In [None]:
list(set('AAABBBCCC'))

### 연습문제

- 다음 중 a, b, c에서 공통으로 사용된 알파벳(공백 포함)을 출력하세요.
- list 형식으로 출력하세요.

In [None]:
a = 'Hello, World'
b = 'World To World'
c = 'world to world'

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>[' ', 'd', 'l', 'o', 'r']</pre>

## 문자열(텍스트)을 다루는 다양한 기능, 메서드(method)

문자열만 가지고 있는 **고유의 편한 기능**들이 있습니다. 

우리는 이들 중 몇 가지를 배워 앞으로 유용하게 활용할 예정입니다.

### split() : 분리

- split은 문장을 특정 규칙에 의해 쪼개 주는 기능을 합니다.
- 분리한 결과는 list 형식으로 값을 return 받습니다.

In [None]:
a = 'This is a pen'

기본 값으로 **공백**이 지정되어 있습니다. 즉, 공백을 기준으로 분리하여 리스트로 반환합니다.

In [None]:
a.split()

기본 값인 **공백**에서 **특정 문자**로 지정할 수 있습니다.

In [None]:
a = 'This-is-a-pen'

In [None]:
a.split('-')

**한글**도 동일하게 적용됩니다.

In [None]:
a = '한글은 어떻게 될까요?'

In [None]:
a.split()

### 연습문제

`sample` 변수를 활용하여 다음의 출력을 가지도록 문자열을 분리하세요

In [None]:
sample = 'abc-def.789/100'

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>['abc-def', '789/100']</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>['abc', 'def.789/100']</pre>

### join() : 합치기

- 결합하고자 하는 문자에 .join() 안에 리스트를 지정하여 결합할 수 있습니다.

In [None]:
'-'.join(['010',  '1234', '5678'])

In [None]:
'-'.join('ABCDE')

### 연습문제

sample = ['Python', 'is', 'too', 'interesting']

리스트를 Python is too interesting 이라는 문자열로 출력하세요

In [None]:
sample = ['Python', 'is', 'too', 'interesting']

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>'Python * is * too * interesting'</pre>

In [None]:
phone_number = ['010', '1234', '5678']

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>'010-1234-5678'</pre>

### lower(), upper() : 소문자 / 대문자로 만들기

In [None]:
a = 'My name is Teddy'

소문자로 변경

In [None]:
a.lower()

대문자로 변경

In [None]:
a.upper()

한글에는 대소문자 구분이 없습니다.

In [None]:
a = '한글엔 대소문자가 없어요ㅠ'

In [None]:
a.lower()

In [None]:
a.upper()

## startswith, endswith

시작과, 끝이 맞는지 결과를 bool로 반환합니다.

In [None]:
a = '01-sample.png'

### startswith() : 시작하는

- 지정한 문자열로 시작하면 True, 그렇지 않다면 False를 반환합니다.

In [None]:
a.startswith('01')

In [None]:
a.startswith('02')

### endswith() : 끝나는

- 지정한 문자열로 끝나면 True, 그렇지 않다면 False를 반환합니다.

In [None]:
a.endswith('.png')

In [None]:
a.endswith('.jpg')

## replace() : 문자열 바꾸기

- 문자열에 **replace(바꿀 대상, 바꾸려는 문자열)** 지정하여 문자열을 변경합니다.
- 결과는 복사본이 만들어져 반환됩니다.

In [None]:
a = '01-sample.png'

In [None]:
a.replace('.png', '.jpg')

## 불필요한 공백 제거

In [None]:
a = '    01-sample.png                '

In [None]:
print(a)

**strip은 불필요한 공백을 제거**해 줍니다.

### strip() : 양쪽 공백 제거

In [None]:
a.strip()