## Chapter 10. 문자열 다루기

### 10.1. 문자열을 다루는 함수

#### 10.1.1. 판다스의 문자열 다루는 함수를 배우는 이유

#### 10.1.2. 판다스의 문자열 다루는 함수들의 특징

### 10.2. 문자열을 다루는 다양한 함수들

#### 10.2.1. 인덱싱과 슬라이싱

In [1]:
# 코드 10-1. 시리즈 각 셀에서 인덱싱과 슬라이싱 실습 예제 코드
import pandas as pd
data = {'문자열': ['A0', 'B1', 'C2', 'D3'],
        '문자열2': ['물리01', '물리02', '화학01', 99],
        '리스트': [['물리', 1], ['물리', 2], ['화학', 1], ['화학', 2]]}
df = pd.DataFrame(data)
df

Unnamed: 0,문자열,문자열2,리스트
0,A0,물리01,"[물리, 1]"
1,B1,물리02,"[물리, 2]"
2,C2,화학01,"[화학, 1]"
3,D3,99,"[화학, 2]"


In [2]:
# 코드 10-2. df의 문자열 열에서 첫 글자만 인덱싱하기
df['문자열'].str[0]

0    A
1    B
2    C
3    D
Name: 문자열, dtype: object

In [3]:
# 코드 10-3. df의 문자열2 열에서 앞의 두 글자만 슬라이싱하기
df['문자열2'].str[:2]

0     물리
1     물리
2     화학
3    NaN
Name: 문자열2, dtype: object

In [4]:
# 코드 10-4. df의 리스트 열에서 첫 원소만 인덱싱하기
df['리스트'].str[0]

0    물리
1    물리
2    화학
3    화학
Name: 리스트, dtype: object

#### 10.2.2. 문자열의 길이 반환하기 (str.len)

In [5]:
# 코드 10-5. str.len 함수 실습 예제 코드
s = pd.Series(['mom', 'get', 'pandas', 'level'])
s

0       mom
1       get
2    pandas
3     level
dtype: object

In [6]:
# 코드 10-6. s의 각 셀에서 문자열의 길이 반환하기
s.str.len()

0    3
1    3
2    6
3    5
dtype: int64

#### 10.2.3. 문자열의 공백 제거하기 (str.strip 외)

In [7]:
# 코드 10-7. 문자열의 좌우 공백 제거 실습 예제 코드
data1 = {'col1':['  205', '12   '],
         'col2':['00205', '12000']}
df = pd.DataFrame(data1)
df

Unnamed: 0,col1,col2
0,205,205
1,12,12000


In [8]:
# 코드 10-8. df의 col1열에서 문자열 좌우의 공백 제거
df['col1'].str.strip()

0    205
1     12
Name: col1, dtype: object

In [9]:
# 코드 10-9. df의 col2열에서 문자열 좌우의 '0' 제거
df['col2'].str.strip('0')

0    205
1     12
Name: col2, dtype: object

In [10]:
# 코드 10-10. df의 col1열에서 문자열 좌측의 0 제거
df['col2'].str.lstrip('0')

0      205
1    12000
Name: col2, dtype: object

#### 10.2.4. 문자열 분할하기 (str.split)

In [11]:
# 코드 10-11. 문자열 분할 실습 예제 코드
s = pd.Series(['a-001', 'b-002', 'cd-003'])
data1 = {'주소': ['서울특별시 용산구 독서당로',
                  '경상남도 남해군 옥천로12길 302호',
                  '경상남도 김해시 가야로47길']}
df = pd.DataFrame(data1)

```python
# 실습에 쓰일 s 출력
s
```
```
0     a-001
1     b-002
2    cd-003
dtype: object
```

In [12]:
# 코드 10-12. 시리즈 s에서 각 셀의 문자열을 하이픈(-)을 기준으로 분할하기
s.str.split('-')

0     [a, 001]
1     [b, 002]
2    [cd, 003]
dtype: object

In [13]:
# 코드 10-13. 위 결과에서 하이픈의 앞부분만 추출하기
s.str.split('-').str[0]

0     a
1     b
2    cd
dtype: object

```python
# 실습에 쓰일 df 출력
df
```
|    | 주소                             |
|---:|:---------------------------------|
|  0 | 서울특별시 용산구 독서당로       |
|  1 | 경상남도 남해군 옥천로12길 302호 |
|  2 | 경상남도 김해시 가야로47길       |

In [14]:
# 코드 10-14. df의 주소 열을 공백으로 분할해 데이터 프레임으로 생성하기
df['주소'].str.split(' ', expand=True)

Unnamed: 0,0,1,2,3
0,서울특별시,용산구,독서당로,
1,경상남도,남해군,옥천로12길,302호
2,경상남도,김해시,가야로47길,


In [15]:
# 코드 10-15. 광역시도명, 시군구명을 추출해 df의 열로 생성하기
df[['광역시도명', '시군구명']] = df['주소'].str.split(' ', expand=True)[[0, 1]]
df

Unnamed: 0,주소,광역시도명,시군구명
0,서울특별시 용산구 독서당로,서울특별시,용산구
1,경상남도 남해군 옥천로12길 302호,경상남도,남해군
2,경상남도 김해시 가야로47길,경상남도,김해시


#### 10.2.5. 문자열 치환하기 (str.replace 외)

In [16]:
# 코드 10-16. 문자열 치환 실습 예제 코드
data1 = {'col1': ['cat01', 'cat02', 'pig03'], 'col2': ['cat', 'cat', 'pig'],
         'col3': ['1,234', '1,456,234', '67,890']}
df = pd.DataFrame(data1)
df

Unnamed: 0,col1,col2,col3
0,cat01,cat,1234
1,cat02,cat,1456234
2,pig03,pig,67890


In [17]:
# 코드 10-17. df의 col1열에서 'cat'을 'dog'으로 치환하기
df['col1'].str.replace('cat', 'dog')

0    dog01
1    dog02
2    pig03
Name: col1, dtype: object

In [18]:
# 코드 10-18. col3열에서 콤마(,)를 제거해 정수로 변환하기
df['col3'].str.replace(',', '').astype('int')

0       1234
1    1456234
2      67890
Name: col3, dtype: int64

In [19]:
# 코드 10-19. col2열에서 replace 함수로 'cat'을 'dog'으로 치환하기
df['col2'].replace('cat', 'dog')

0    dog
1    dog
2    pig
Name: col2, dtype: object

In [20]:
# 코드 10-20. str.replace 함수로 'cat'을 'dog'으로 치환하기
df['col2'].str.replace('cat', 'dog')

0    dog
1    dog
2    pig
Name: col2, dtype: object

In [21]:
# 코드 10-21. col1열에서 replace 함수로 문자열의 일부 치환하기
df['col1'].replace('cat', 'dog', regex=True)

0    dog01
1    dog02
2    pig03
Name: col1, dtype: object

In [22]:
# 코드 10-22. replace 함수로 'cat'을 'dog'으로, 'pig'를 'cow'로 치환하기
df['col1'].replace({'cat': 'dog', 'pig': 'cow'}, regex=True)

0    dog01
1    dog02
2    cow03
Name: col1, dtype: object

In [23]:
# 코드 10-23. str.replace 함수로 위와 같은 결과를 수행하기
df['col1'].str.replace('cat','dog').str.replace('pig', 'cow')

0    dog01
1    dog02
2    cow03
Name: col1, dtype: object

### 엑셀 예제 12. GDP 관련 데이터 수치형으로 변환하기

In [24]:
# 코드 10-24. GDP 엑셀 파일에서 데이터 프레임 불러오기
import pandas as pd
url1 = 'https://github.com/panda-kim/book1/blob/main/15GDP2.xlsx?raw=true'
df_gdp = pd.read_excel(url1)
df_gdp

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),수출,수입
0,한국,아시아,51709,1651,31929,542,503
1,이스라엘,아시아,8519,-,43589,-,-
2,일본,아시아,126860,5064,40113,705,721
3,콜롬비아,남미,50339,323,6425,-,52
4,코스타리카,남미,-,64,12670,11,17
5,미국,북중미,329065,21433,65280,1643,2497


In [25]:
# 코드 10-25. df_gdp에서 각 열의 자료형 확인
df_gdp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   국가          6 non-null      object
 1   대륙          6 non-null      object
 2   장래인구        6 non-null      object
 3   GDP(10억$)   6 non-null      object
 4   1인당 GDP($)  6 non-null      object
 5   수출          6 non-null      object
 6   수입          6 non-null      object
dtypes: object(7)
memory usage: 464.0+ bytes


In [26]:
# 코드 10-26. 수치형으로 변환할 열들을 변수 cols로 지정
cols = df_gdp.columns[2:]
cols

Index(['장래인구', 'GDP(10억$)', '1인당 GDP($)', '수출', '수입'], dtype='object')

In [27]:
# 코드 10-27. df_gdp의 장래인구 열을 변수 x로 지정하고 x에서 콤마를 제거하자
x = df_gdp['장래인구']
x.str.replace(',', '')

0     51709
1      8519
2    126860
3     50339
4         -
5    329065
Name: 장래인구, dtype: object

In [28]:
# 코드 10-28. 수치형으로 변환할 모든 열들에 콤마 제거
df_gdp[cols].apply(lambda x: x.str.replace(',', ''))

Unnamed: 0,장래인구,GDP(10억$),1인당 GDP($),수출,수입
0,51709,1651,31929,542,503
1,8519,-,43589,-,-
2,126860,5064,40113,705,721
3,50339,323,6425,-,52
4,-,64,12670,11,17
5,329065,21433,65280,1643,2497


In [29]:
# 코드 10-29. 콤마를 제거한 결과를 수치형으로 변환하기
(df_gdp[cols]
 .apply(lambda x: x.str.replace(',', ''))
 .apply(pd.to_numeric, errors='coerce')
)

Unnamed: 0,장래인구,GDP(10억$),1인당 GDP($),수출,수입
0,51709.0,1651.0,31929,542.0,503.0
1,8519.0,,43589,,
2,126860.0,5064.0,40113,705.0,721.0
3,50339.0,323.0,6425,,52.0
4,,64.0,12670,11.0,17.0
5,329065.0,21433.0,65280,1643.0,2497.0


In [30]:
# 코드 10-30. apply를 한 번만 사용하기 위한 lambda 함수 생성
pd.to_numeric(x.str.replace(',', ''), errors='coerce')

0     51709.0
1      8519.0
2    126860.0
3     50339.0
4         NaN
5    329065.0
Name: 장래인구, dtype: float64

In [31]:
# 코드 10-31. df_gdp에서 cols에 해당하는 열들을 수치형으로 변환하기
df_gdp[cols] = df_gdp[cols].apply(
    lambda x: pd.to_numeric(x.str.replace(',', ''), errors='coerce')
)
df_gdp

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),수출,수입
0,한국,아시아,51709.0,1651.0,31929,542.0,503.0
1,이스라엘,아시아,8519.0,,43589,,
2,일본,아시아,126860.0,5064.0,40113,705.0,721.0
3,콜롬비아,남미,50339.0,323.0,6425,,52.0
4,코스타리카,남미,,64.0,12670,11.0,17.0
5,미국,북중미,329065.0,21433.0,65280,1643.0,2497.0


In [32]:
# 코드 10-32. info 함수로 수정된 df_gdp의 자료형 확인(dtypes 속성도 가능)
df_gdp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   국가          6 non-null      object 
 1   대륙          6 non-null      object 
 2   장래인구        5 non-null      float64
 3   GDP(10억$)   5 non-null      float64
 4   1인당 GDP($)  6 non-null      int64  
 5   수출          4 non-null      float64
 6   수입          5 non-null      float64
dtypes: float64(4), int64(1), object(2)
memory usage: 464.0+ bytes


In [33]:
# 코드 10-33. 수정된 결과를 ch10_gdp.xlsx 파일로 저장
df_gdp.to_excel('ch10_gdp.xlsx', index=False)

#### 10.2.6. 문자열 포함 여부 확인하기 (str.contains 외)

In [34]:
# 코드 10-34. 실습 예제 코드
import pandas as pd
s = pd.Series(['cat01', 'cat02', 'dog01', '03cat', '01cow'])
s

0    cat01
1    cat02
2    dog01
3    03cat
4    01cow
dtype: object

In [35]:
# 코드 10-35. s의 각 셀에서 문자열 'cat' 포함 여부 확인하기
s.str.contains('cat')

0     True
1     True
2    False
3     True
4    False
dtype: bool

In [36]:
# 코드 10-36. s에서 문자열 'cat'을 포함한 셀만 필터링하기
s[s.str.contains('cat')]

0    cat01
1    cat02
3    03cat
dtype: object

In [37]:
# 코드 10-37. s의 각 셀이 문자열 'cat'으로 시작 여부 확인하기
s.str.startswith('cat')

0     True
1     True
2    False
3    False
4    False
dtype: bool

In [38]:
# 코드 10-38. s의 각 셀 문자열 'cat'으로 종결 여부 확인하기
s.str.endswith('cat')

0    False
1    False
2    False
3     True
4    False
dtype: bool

#### 10.2.7. 문자열 추출하기 (str.extract)

In [39]:
# 코드 10-39. s의 각 셀 문자열에서 'cat' 추출하기
s.str.extract('(cat)')

Unnamed: 0,0
0,cat
1,cat
2,
3,cat
4,


### 10.3. 정규 표현식

#### 10.3.1. 정규 표현식이란?


#### 10.3.2. 정규 표현식의 주요 문법


#### 10.3.3. 판다스의 문자열 함수에 정규 표현식 활용하기


In [40]:
# 코드 10-40. 판다스의 문자열 함수에 정규 표현식 활용 예제 코드
import pandas as pd
s = pd.Series(['02-222-3333', '053)333-4444', '051/555/6666', '02/777-8888'])
s

0     02-222-3333
1    053)333-4444
2    051/555/6666
3     02/777-8888
dtype: object

In [41]:
# 코드 10-41. 정규 표현식을 활용해 ')'와 '/'를 '-'으로 치환
s.str.replace('[)/]', '-', regex=True)

0     02-222-3333
1    053-333-4444
2    051-555-6666
3     02-777-8888
dtype: object

In [42]:
# 코드 10-42. 전화 번호에서 지역 번호만 추출하기
s.str.split('[)/-]', regex=True).str[0]

0     02
1    053
2    051
3     02
dtype: object

In [43]:
# 코드 10-43. 전화 번호가 '02' 혹은 '051'로 시작하는지 확인하기
s.str.contains('^02|^051')

0     True
1    False
2     True
3     True
dtype: bool

#### 10.3.4. 정규 표현식을 활용해 문자열 추출하기 (str.extractall 외)


In [44]:
# 코드 10-44. 정규 표현식을 활용해 문자열 추출 예제 코드
s1 = pd.Series(['A반김판다/B반강승주', 'A반최진환/B반안지선'])
s2 = pd.Series(['A반박연준/A반권보아', 'A반임재범'])
s3 = pd.Series(['cat01', '02cat', 'dog01', '01cow'])
s1

0    A반김판다/B반강승주
1    A반최진환/B반안지선
dtype: object

In [45]:
# 코드 10-45. 'A반'과 'B반' 다음에 위치하는 한글만 추출해 이름 추출하기
s1.str.extract('A반([가-힇]+)/B반([가-힇]+)')

Unnamed: 0,0,1
0,김판다,강승주
1,최진환,안지선


In [46]:
# 코드 10-46. str.extract는 패턴에 맞는 문자열이 두 개 존재해도 하나만 추출한다.
s2.str.extract('A반([가-힇]+)')

Unnamed: 0,0
0,박연준
1,임재범


In [47]:
# 코드 10-47. str.stractall 함수로 패턴에 해당하는 모든 문자열 추출하기
s2.str.extractall('A반([가-힇]+)')

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,박연준
0,1,권보아
1,0,임재범


In [48]:
# 코드 10-48. 위 결과를 단일 인덱스의 데이터 프레임으로 변환하기
s2.str.extractall('A반([가-힇]+)')[0].unstack()

match,0,1
0,박연준,권보아
1,임재범,


In [49]:
# 코드 10-49. s3에서 'cat' 또는 'dog' 추출하기
s3.str.extract('(cat|dog)')

Unnamed: 0,0
0,cat
1,cat
2,dog
3,


### 엑셀 예제13. 커피 프랜차이즈의 서초구와 강남구 매장 수 집계하기

In [50]:
# 코드 10-50. 커피 전문점 엑셀 파일에서 데이터 프레임 불러오기
pd.options.display.max_rows = 6 # 6행까지만 출력
url2 = 'https://github.com/panda-kim/book1/blob/main/16cafe.xlsx?raw=true'
df_cafe = pd.read_excel(url2)
df_cafe

Unnamed: 0,상가번호,상호명,지점명,도로명주소
0,4119889,공차명동점,명동점,서울특별시 중구 명동7길 12
1,4704621,스타벅스,장한평역점,서울특별시 동대문구 장한로 10
2,5133712,스타벅스,코엑스몰점,서울특별시 강남구 영동대로 513
...,...,...,...,...
1352,28520792,공차석계역점,석계역점,서울특별시 노원구 화랑로 355
1353,28521414,공차어린이대공원역점,어린이대공원역점,서울특별시 광진구 군자로 114
1354,28523473,공차한양대점,한양대점,서울특별시 성동구 마조로 21


In [51]:
# 코드 10-51. 프랜차이즈마다 상호명 통일하기
pat = '(공차|스타벅스|이디야|커피빈|할리스|빽다방)' # 정규 표현식 패턴
df_cafe['상호명'] = df_cafe['상호명'].str.extract(pat)[0]
df_cafe

Unnamed: 0,상가번호,상호명,지점명,도로명주소
0,4119889,공차,명동점,서울특별시 중구 명동7길 12
1,4704621,스타벅스,장한평역점,서울특별시 동대문구 장한로 10
2,5133712,스타벅스,코엑스몰점,서울특별시 강남구 영동대로 513
...,...,...,...,...
1352,28520792,공차,석계역점,서울특별시 노원구 화랑로 355
1353,28521414,공차,어린이대공원역점,서울특별시 광진구 군자로 114
1354,28523473,공차,한양대점,서울특별시 성동구 마조로 21


In [52]:
# 코드 10-52. 상호명이 프랜차이즈 이름으로 통일되었는지 확인하기
df_cafe['상호명'].value_counts()

상호명
스타벅스    448
이디야     403
커피빈     145
할리스     128
공차      118
빽다방     113
Name: count, dtype: int64

In [53]:
# 코드 10-53. 각 프랜차이즈의 서초구와 강남구 매장 수 집계하기
cond = df_cafe['도로명주소'].str.contains(' 서초구 | 강남구 ')
df_cafe.loc[cond, '상호명'].value_counts()

상호명
스타벅스    110
커피빈      61
이디야      36
할리스      25
공차       20
빽다방      17
Name: count, dtype: int64