# 문자열 데이터 변환

## 1. 인덱싱
* 문자열 형식의 컬럼에서 동일한 위치의 문자열만 추출가능
* Series.str()은 데이터프레임의 문자열을 처리하기 위해 주로 사용
* str()은 DataFrame이 아닌 Series 의 속성이므로 사용할 때 컬럼을 선택해야함

In [2]:
import pandas as pd
landmark = pd.DataFrame({'name' : ['광화문', '호미곶', '첨성대'],
                        'location': ['서울 종로구 사직로 161',
                                    '경북 포항시 남구 호미곶면 대보리 150',
                                    '경북 경주시 인왕동 839-1']})
landmark

Unnamed: 0,name,location
0,광화문,서울 종로구 사직로 161
1,호미곶,경북 포항시 남구 호미곶면 대보리 150
2,첨성대,경북 경주시 인왕동 839-1


In [3]:
landmark['location'].str[3:6]

0    종로구
1    포항시
2    경주시
Name: location, dtype: object

In [7]:
landmark['location'].str[:]

0            서울 종로구 사직로 161
1    경북 포항시 남구 호미곶면 대보리 150
2          경북 경주시 인왕동 839-1
Name: location, dtype: object

## 2. 분할
* 특정한 문자영 값을 기준으로 하나의 컬럼을 여러개의 컬럼값으로 분할할 수 있다.
* expand = True로 지정하면 분할된 문자열을 별도의 열로 확장할 수 있다.
* 문자열 전체가 아닌 특정한 순서의 값만을 선택 가능

In [8]:
landmark['location'].str.split(" ", expand = True)

Unnamed: 0,0,1,2,3,4,5
0,서울,종로구,사직로,161,,
1,경북,포항시,남구,호미곶면,대보리,150.0
2,경북,경주시,인왕동,839-1,,


In [9]:
landmark['location'].str.split(" ", expand = False)

0              [서울, 종로구, 사직로, 161]
1    [경북, 포항시, 남구, 호미곶면, 대보리, 150]
2            [경북, 경주시, 인왕동, 839-1]
Name: location, dtype: object

In [11]:
landmark['loc_1'] = landmark['location'].str.split(" ").str[0]
landmark

Unnamed: 0,name,location,loc_1
0,광화문,서울 종로구 사직로 161,서울
1,호미곶,경북 포항시 남구 호미곶면 대보리 150,경북
2,첨성대,경북 경주시 인왕동 839-1,경북


## 3. 탐색
* 시작, 끝, 포함글자 기준으로 탐색
* 결과는 Boolean

In [12]:
landmark['location'].str.startswith('서울')

0     True
1    False
2    False
Name: location, dtype: bool

In [13]:
landmark['location'].str.endswith('1')

0     True
1    False
2     True
Name: location, dtype: bool

In [14]:
landmark['location'].str.contains('1')

0    True
1    True
2    True
Name: location, dtype: bool