## Chapter 10. 문자열 다루기

In [1]:
# 버전 안내
import pandas as pd
print(f'교재 권장 버전: Pandas 2.2.2')
print(f'현재 실행 버전: Pandas {pd.__version__}')

교재 권장 버전: Pandas 2.2.2
현재 실행 버전: Pandas 2.2.2


### 10.1. 문자열을 다루는 함수

#### 10.1.1. 판다스의 문자열을 다루는 함수를 배우는 이유

- apply로 문자열 처리 가능하지만 **lambda 조합이 번거로울 수 있음**
- 판다스 문자열 함수는 **간결·편리·정규표현식 지원**
- 문자열 외 자료형 섞여도 **자동 처리**
- 따라서 **학습 가치 충분**

#### 10.1.2. 판다스의 문자열을 다루는 함수들의 특징

- **시리즈·인덱스 대상**, 데이터 프레임은 apply로 확장

- **str 접근자 필수**

- **파이썬 문자열 함수와 이름 유사**

- 처리 불가 셀은 **자동 NaN**

- **대체로 정규 표현식 기본 지원**

### 10.2. 문자열을 다루는 다양한 함수들

[표 10-1] 판다스의 문자열 함수

| 함수 | 기능 |
| :--- | :--- |
| **str[ ]** | 문자열이나 리스트 등을 인덱싱과 슬라이싱 |
| **str.len()** | 문자열이나 리스트의 길이 반환 |
| **str.strip()** | 문자열 좌우의 공백 제거(공백이 아닌 문자도 지정 가능) |
| **str.lstrip()** | 문자열 좌측 공백 제거(공백이 아닌 문자도 지정 가능) |
| **str.rstrip()** | 문자열 우측 공백 제거(공백이 아닌 문자도 지정 가능) |
| **str.split()** | 문자열 분할 |
| **str.replace()** | 문자열 치환 |
| **str.upper()** | 전부 대문자로 변환 |
| **str.lower()** | 전부 소문자로 변환 |
| **str.contains()** | 특정 문자열 포함 여부 확인 |
| **str.startswith()** | 특정 문자열로 시작 여부 확인 |
| **str.endswith()** | 특정 문자열로 마무리 여부 확인 |
| **str.extract()** | 문자열 추출 (정규표현식 활용 가능) |
| **str.extractall()** | 패턴에 맞는 모든 문자열 추출 |

<br>

#### 10.2.1. 인덱싱과 슬라이싱

In [2]:
# 코드 10-1. 시리즈 각 셀에서 인덱싱과 슬라이싱 실습 예제 코드
import pandas as pd
data = {'문자열': ['A0', 'B1', 'C2', 'D3'],
        '문자열2': ['물리01', '물리02', '화학01', 99],
        '리스트': [['물리', 1], ['물리', 2], ['화학', 1], ['화학', 2]]}
df = pd.DataFrame(data)
df

Unnamed: 0,문자열,문자열2,리스트
0,A0,물리01,"[물리, 1]"
1,B1,물리02,"[물리, 2]"
2,C2,화학01,"[화학, 1]"
3,D3,99,"[화학, 2]"


In [3]:
# 코드 10-2. df에서 문자열 열의 첫 글자만 인덱싱하기


In [4]:
# 코드 10-3. df에서 문자열2 열의 앞의 두 글자만 슬라이싱하기


In [5]:
# 코드 10-4. df에서 리스트 열의 첫 원소만 인덱싱하기


#### 10.2.2. 문자열의 길이 반환하기(str.len)

In [6]:
# 코드 10-5. str.len 함수 실습 예제 코드
s = pd.Series(['mom', 'get', 'pandas', 'level'])
s

Unnamed: 0,0
0,mom
1,get
2,pandas
3,level


In [7]:
# 코드 10-6. s의 각 셀에서 문자열의 길이 반환하기


#### 10.2.3. 문자열의 공백 제거하기(str.strip 외)

In [8]:
# 코드 10-7. 문자열의 좌우 공백 제거 실습 예제 코드
data1 = {'col1':['  205', '12   '],
         'col2':['00205', '12000']}
df = pd.DataFrame(data1)
df

Unnamed: 0,col1,col2
0,205,205
1,12,12000


In [9]:
# 코드 10-8. df의 col1 열에서 문자열 좌우의 공백 제거


In [10]:
# 코드 10-9. df의 col2 열에서 문자열 좌우의 '0' 제거


In [11]:
# 코드 10-10. df의 col2 열에서 문자열 좌측의 '0' 제거


#### 10.2.4. 문자열 분할하기(str.split)

In [12]:
# 코드 10-11. 문자열 분할 실습 예제 코드
s = pd.Series(['a-001', 'b-002', 'cd-003'])
data1 = {'주소': ['서울특별시 용산구 독서당로',
                  '경상남도 남해군 옥천로12길 302호',
                  '경상남도 김해시 가야로47길']}
df = pd.DataFrame(data1)

In [13]:
# 실습에 쓰일 s 출력
s

Unnamed: 0,0
0,a-001
1,b-002
2,cd-003


In [14]:
# 코드 10-12. 시리즈 s에서 각 셀의 문자열을 하이픈(-)을 기준으로 분할하기


In [15]:
# 코드 10-13. 위 결과에서 하이픈의 앞부분만 추출하기


In [16]:
# 실습에 쓰일 df 출력
df

Unnamed: 0,주소
0,서울특별시 용산구 독서당로
1,경상남도 남해군 옥천로12길 302호
2,경상남도 김해시 가야로47길


In [17]:
# 코드 10-14. df의 주소 열을 공백으로 분할해 데이터 프레임으로 생성하기


In [18]:
# 코드 10-15. 광역시도명, 시군구명을 추출해 df의 열로 생성하기



#### 10.2.5. 문자열 치환하기(str.replace 외)

In [19]:
# 코드 10-16. 문자열 치환 실습 예제 코드
data1 = {'col1': ['cat01', 'cat02', 'pig03'], 'col2': ['cat', 'cat', 'pig'],
         'col3': ['1,234', '1,456,234', '67,890']}
df = pd.DataFrame(data1)
df

Unnamed: 0,col1,col2,col3
0,cat01,cat,1234
1,cat02,cat,1456234
2,pig03,pig,67890


In [20]:
# 코드 10-17. df의 col1 열에서 'cat'을 'dog'로 치환하기


In [21]:
# 코드 10-18. df의 col3 열에서 콤마(,)를 제거해 정수로 변환하기


In [22]:
# 코드 10-19. df의 col2 열에서 replace 함수로 'cat'을 'dog'으로 치환하기


In [23]:
# 코드 10-20. df의 col2 열에서 str.replace 함수로 'cat'을 'dog'으로 치환하기


In [24]:
# 코드 10-21. df의 col1 열에서 replace 함수로 문자열의 일부 치환하기


In [25]:
# 코드 10-22. df의 col1 열에서 replace 함수로 'cat'을 'dog'으로, 'pig'를 'cow'로 치환하기
df['col1'].replace({'cat': 'dog', 'pig': 'cow'}, regex=True)

Unnamed: 0,col1
0,dog01
1,dog02
2,cow03


In [26]:
# 코드 10-23. str.replace 함수로 코드 10-22와 같은 결과를 수행하기
df['col1'].str.replace('cat','dog').str.replace('pig', 'cow')

Unnamed: 0,col1
0,dog01
1,dog02
2,cow03


### 엑셀 예제 12. GDP 관련 데이터 수치형으로 변환하기

In [27]:
# 코드 10-24. GDP 엑셀 파일에서 데이터 프레임 불러오기
import pandas as pd
url1 = 'https://github.com/panda-kim/book1/blob/main/15GDP2.xlsx?raw=true'
df_gdp = pd.read_excel(url1)
df_gdp

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),수출,수입
0,한국,아시아,51709,1651,31929,542,503
1,이스라엘,아시아,8519,-,43589,-,-
2,일본,아시아,126860,5064,40113,705,721
3,콜롬비아,남미,50339,323,6425,-,52
4,코스타리카,남미,-,64,12670,11,17
5,미국,북중미,329065,21433,65280,1643,2497


In [28]:
# 코드 10-25. info 함수로 df_gdp의 각 열의 자료형 확인


In [29]:
# 코드 10-26. 수치형으로 변환할 열들을 변수 cols로 지정
cols = df_gdp.columns[2:]
cols

Index(['장래인구', 'GDP(10억$)', '1인당 GDP($)', '수출', '수입'], dtype='object')

In [30]:
# 코드 10-27. df_gdp의 장래인구 열을 변수 x로 지정하고, x의 콤마를 제거
x = df_gdp['장래인구']
# x의 콤마를 모두 제거하는 코드 작성 (lambda 함수 작성 용도)


In [31]:
# 코드 10-28. 수치형으로 변환할 모든 열의 콤마 제거
# apply 함수와 문자열 함수를 조합해 모든 열의 콤마를 제거


In [32]:
# 코드 10-29. 콤마를 제거한 결과를 수치형으로 변환하기
# pd.to_numeric 함수 사용



In [33]:
# 코드 10-30. apply를 한 번만 사용하기 위해 새로운 lambda 함수를 생성하는 코드
pd.to_numeric(x.str.replace(',', ''), errors='coerce')

Unnamed: 0,장래인구
0,51709.0
1,8519.0
2,126860.0
3,50339.0
4,
5,329065.0


In [34]:
# 코드 10-31. df_gdp에서 cols에 해당하는 열을 수치형으로 변환하기
df_gdp[cols] = df_gdp[cols].apply(
    lambda x: pd.to_numeric(x.str.replace(',', ''), errors='coerce')
)
df_gdp

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),수출,수입
0,한국,아시아,51709.0,1651.0,31929,542.0,503.0
1,이스라엘,아시아,8519.0,,43589,,
2,일본,아시아,126860.0,5064.0,40113,705.0,721.0
3,콜롬비아,남미,50339.0,323.0,6425,,52.0
4,코스타리카,남미,,64.0,12670,11.0,17.0
5,미국,북중미,329065.0,21433.0,65280,1643.0,2497.0


In [35]:
# 코드 10-32. info 함수로 수정된 df_gdp의 자료형 확인
df_gdp.info() # df_gdp.dtypes로도 확인이 가능하다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   국가          6 non-null      object 
 1   대륙          6 non-null      object 
 2   장래인구        5 non-null      float64
 3   GDP(10억$)   5 non-null      float64
 4   1인당 GDP($)  6 non-null      int64  
 5   수출          4 non-null      float64
 6   수입          5 non-null      float64
dtypes: float64(4), int64(1), object(2)
memory usage: 468.0+ bytes


In [36]:
# 코드 10-33. 수정된 결과를 엑셀 파일로 저장
df_gdp.to_excel('ch10_gdp.xlsx', index=False)

#### 10.2.6. 문자열 포함 여부 확인하기(str.contains 외)

In [37]:
# 코드 10-34. 실습 예제 코드
import pandas as pd
s = pd.Series(['cat01', 'cat02', 'dog01', '03cat', '01cow'])
s

Unnamed: 0,0
0,cat01
1,cat02
2,dog01
3,03cat
4,01cow


In [38]:
# 코드 10-35. s에서 문자열 'cat' 포함 여부 확인
s.str.contains('cat')

Unnamed: 0,0
0,True
1,True
2,False
3,True
4,False


In [39]:
# 코드 10-36. s에서 문자열 'cat'을 포함한 셀만 필터링
s[s.str.contains('cat')]

Unnamed: 0,0
0,cat01
1,cat02
3,03cat


In [40]:
# 코드 10-37. s에서 문자열 'cat'으로 시작 여부 확인
s.str.startswith('cat')

Unnamed: 0,0
0,True
1,True
2,False
3,False
4,False


In [41]:
# 코드 10-38. s에서 문자열 'cat'으로 종결 여부 확인
s.str.endswith('cat')

Unnamed: 0,0
0,False
1,False
2,False
3,True
4,False


#### 10.2.7. 문자열 추출하기(str.extract)

In [42]:
# 코드 10-39. s의 각 셀 문자열에서 'cat' 추출하기
s.str.extract('(cat)')

Unnamed: 0,0
0,cat
1,cat
2,
3,cat
4,


### 10.3. 정규 표현식

#### 10.3.1. 정규 표현식이란?

- 정규 표현식 = **문자열 패턴을 표현하는 문법**  
- 파이썬 포함 **여러 언어에서 공통 사용**  
- 패턴 기반으로 문자열을 **검색·추출·변환**

#### 10.3.2. 정규 표현식의 주요 문법

[표 10-3] 정규 표현식의 패턴 수량자

| 패턴 수량자 | 설명 |
| :--- | :--- |
| **\*** | 0번 혹은 1번 이상 나타난다. 즉 나타날 수도 있고, 나타나지 않을 수도 있다. |
| **+** | 1번 이상 나타난다. |
| **?** | 0번 혹은 1번 나타난다. |
| **{m,n}** | 최소 m번, 최대 n번 나타난다. |

<br>

[표 10-3] 정규 표현식의 패턴 수량자

| 패턴 수량자 | 설명 |
| :--- | :--- |
| **\*** | 0번 혹은 1번 이상 나타난다. 즉 나타날 수도 있고, 나타나지 않을 수도 있다. |
| **+** | 1번 이상 나타난다. |
| **?** | 0번 혹은 1번 나타난다. |
| **{m,n}** | 최소 m번, 최대 n번 나타난다. |

<br>

[표 10-5] 여러 가지 메타 문자

| 메타 문자 | 설명 |
| :--- | :--- |
| **\d** | 모든 숫자 |
| **\D** | 모든 문자에서 \d에 해당하는 문자를 제외한 문자 |
| **\w** | 모든 문자, 숫자, 언더스코어(_) |
| **\W** | 모든 문자에서 \w에 해당하는 문자를 제외한 문자 |
| **\s** | 모든 여백 문자(빈칸이나 줄 바꿈 \n 등) |
| **\S** | 모든 문자에서 \s에 해당하는 문자를 제외한 문자 |
| **.** | 개행문자를 제외한 모든 문자 |
| **^** | 문자열의 시작 |
| **$** | 문자열의 끝 |
| **\|** | 여러 개의 문자열을 or로 패턴화 |
| **()** | 캡처 그룹 지정 |

<br>

#### 10.3.3. 판다스의 문자열 함수에 정규 표현식 활용하기

- 판다스 문자열 함수는 **정규 표현식 기본 지원**

- `regex=True` 옵션으로 **추가 라이브러리 없이 사용 가능**

In [43]:
# 코드 10-40. 판다스의 문자열 함수에 정규 표현식 활용 예제 코드
import pandas as pd
s = pd.Series(['02-222-3333', '053)333-4444', '051/555/6666', '02/777-8888'])
s

Unnamed: 0,0
0,02-222-3333
1,053)333-4444
2,051/555/6666
3,02/777-8888


In [44]:
# 코드 10-41. s에서 정규 표현식을 활용해 ')'와 '/'를 '-'으로 치환하기
s.str.replace('[)/]', '-', regex=True)

Unnamed: 0,0
0,02-222-3333
1,053-333-4444
2,051-555-6666
3,02-777-8888


In [45]:
# 코드 10-42. s의 전화번호에서 지역 번호만 추출하기
s.str.split('[)/-]', regex=True).str[0]

Unnamed: 0,0
0,2
1,53
2,51
3,2


In [46]:
# 코드 10-43. 전화번호가 '02' 혹은 '051'로 시작하는지 확인하기
# str.startswith도 가능하지만, str.contains + 정규 표현식으로 확인
s.str.contains('^02|^051')

Unnamed: 0,0
0,True
1,False
2,True
3,True


#### 10.3.4. 정규 표현식을 활용해 문자열 추출하기(str.extractall 외)

- 문자열 추출에는 **캡처 그룹( )** 필요

- 괄호로 감싼 부분이 **추출 대상**

In [47]:
# 코드 10-44. 정규 표현식을 활용해 문자열 추출 예제 코드
s1 = pd.Series(['A반김판다/B반강승주', 'A반최진환/B반안지선'])
s2 = pd.Series(['A반박연준/A반권보아', 'A반임재범'])
s3 = pd.Series(['cat01', '02cat', 'dog01', '01cow'])
s1

Unnamed: 0,0
0,A반김판다/B반강승주
1,A반최진환/B반안지선


In [48]:
# 코드 10-45. 'A반'과 'B반' 다음에 위치하는 한글만 추출해 이름 추출하기
# s1에서 사람 이름만 추출 ('A반([가-힣]+)/B반([가-힣]+)')


In [49]:
# 코드 10-46. str.extract는 패턴에 맞는 문자열이 두 개 존재해도 하나만 추출한다.
# s2에서 A반의 이름 추출


In [50]:
# 코드 10-47. str.stractall 함수로 패턴에 해당하는 모든 문자열 추출하기
# s2에서 A반 이름 모두 추출


In [51]:
# 코드 10-48. 코드 10-47의 결과를 단일 인덱스인 데이터 프레임으로 변환하기
# 0을 인덱싱해 시리즈로 변환 후, unstack으로 데이터 프레임으로 변환


In [52]:
# 코드 10-49. s3에서 'cat' 또는 'dog' 추출하기


### 엑셀 예제 13. 커피 프랜차이즈의 서초구와 강남구 매장 수 집계하기

In [53]:
# 코드 10-50. 커피 전문점 엑셀 파일에서 데이터 프레임 불러오기
pd.options.display.max_rows = 6 # 6행까지만 출력
url2 = 'https://github.com/panda-kim/book1/blob/main/16cafe.xlsx?raw=true'
df_cafe = pd.read_excel(url2)
df_cafe

Unnamed: 0,상가번호,상호명,지점명,도로명주소
0,4119889,공차명동점,명동점,서울특별시 중구 명동7길 12
1,4704621,스타벅스,장한평역점,서울특별시 동대문구 장한로 10
2,5133712,스타벅스,코엑스몰점,서울특별시 강남구 영동대로 513
...,...,...,...,...
1352,28520792,공차석계역점,석계역점,서울특별시 노원구 화랑로 355
1353,28521414,공차어린이대공원역점,어린이대공원역점,서울특별시 광진구 군자로 114
1354,28523473,공차한양대점,한양대점,서울특별시 성동구 마조로 21


In [54]:
# 코드 10-51. 프랜차이즈마다 상호명 통일하기
pat = '(공차|스타벅스|이디야|커피빈|할리스|빽다방)' # 정규 표현식 패턴
df_cafe['상호명'] = df_cafe['상호명'].str.extract(pat)[0]
df_cafe

Unnamed: 0,상가번호,상호명,지점명,도로명주소
0,4119889,공차,명동점,서울특별시 중구 명동7길 12
1,4704621,스타벅스,장한평역점,서울특별시 동대문구 장한로 10
2,5133712,스타벅스,코엑스몰점,서울특별시 강남구 영동대로 513
...,...,...,...,...
1352,28520792,공차,석계역점,서울특별시 노원구 화랑로 355
1353,28521414,공차,어린이대공원역점,서울특별시 광진구 군자로 114
1354,28523473,공차,한양대점,서울특별시 성동구 마조로 21


In [55]:
# 코드 10-52. 상호명이 프랜차이즈 이름으로 통일되었는지 확인하기
df_cafe['상호명'].value_counts()

Unnamed: 0_level_0,count
상호명,Unnamed: 1_level_1
스타벅스,448
이디야,403
커피빈,145
할리스,128
공차,118
빽다방,113


In [56]:
# 코드 10-53. 각 프랜차이즈의 서초구와 강남구 매장 수 집계하기
cond = df_cafe['도로명주소'].str.contains(' 서초구 | 강남구 ')
df_cafe.loc[cond, '상호명'].value_counts()

Unnamed: 0_level_0,count
상호명,Unnamed: 1_level_1
스타벅스,110
커피빈,61
이디야,36
할리스,25
공차,20
빽다방,17
