## 문자열

In [1]:
import pandas as pd
df = pd.DataFrame({'A': ['블루베리 스무디', '딸기 스무디', '딸기 바나나 스무디'],
                   'B': [10, 20, 30],
                   'C': ['추천/신메뉴', '신메뉴/할인', '사이즈업/추천'],
                   'D': ['ab cd', 'AB CD', 'ab cd']
                   })
df

Unnamed: 0,A,B,C,D
0,블루베리 스무디,10,추천/신메뉴,ab cd
1,딸기 스무디,20,신메뉴/할인,AB CD
2,딸기 바나나 스무디,30,사이즈업/추천,ab cd


In [4]:
# replace : 전체 문자가 일치해야 변경 가능
df['A'] = df['A'].replace('스무디', '에이드')
df
# -> 일부만 변경하려고 하니 변경 x

Unnamed: 0,A,B,C,D
0,블루베리 스무디,10,추천/신메뉴,ab cd
1,딸기 스무디,20,신메뉴/할인,AB CD
2,딸기 바나나 스무디,30,사이즈업/추천,ab cd


In [7]:
# str.replace, 일부 일치하는 문자 변경
# str 접근자를 활용해 python 문자열처럼 다루기
df['A'] = df['A'].str.replace('스무디', '에이드')
df

Unnamed: 0,A,B,C,D
0,블루베리 에이드,10,추천/신메뉴,ab cd
1,딸기 에이드,20,신메뉴/할인,AB CD
2,딸기 바나나 에이드,30,사이즈업/추천,ab cd


In [8]:
# replace 데이터프레임
# -> str접근자는 시리즈에서만 사용 가능, 데이터프레임에서 사용 불가능
df.str.replace('블루베리 에이드', '청포도 에이드')

AttributeError: 'DataFrame' object has no attribute 'str'

In [9]:
# replace 데이터프레임
# -> str접근자는 시리즈에서만 사용 가능, 데이터프레임에서 사용 불가능
df.replace('블루베리 에이드', '청포도 에이드')

Unnamed: 0,A,B,C,D
0,청포도 에이드,10,추천/신메뉴,ab cd
1,딸기 에이드,20,신메뉴/할인,AB CD
2,딸기 바나나 에이드,30,사이즈업/추천,ab cd


In [10]:
# 숫자 변경
df['B'] = df['B'].replace(10, 100)
df

Unnamed: 0,A,B,C,D
0,블루베리 에이드,100,추천/신메뉴,ab cd
1,딸기 에이드,20,신메뉴/할인,AB CD
2,딸기 바나나 에이드,30,사이즈업/추천,ab cd


In [11]:
# 숫자 변경(str.replace)
# str 접근자는 문자에만 사용 가능
df['B'] = df['B'].str.replace(10, 100)
df

AttributeError: Can only use .str accessor with string values!

In [12]:
# 어절 나누기 : split()
df['A'].str.split()

0       [블루베리, 에이드]
1         [딸기, 에이드]
2    [딸기, 바나나, 에이드]
Name: A, dtype: object

In [14]:
# 어절 나눈 후 첫 번째 값 : .str[0]
df['A'].str.split().str[0]

0    블루베리
1      딸기
2      딸기
Name: A, dtype: object

In [16]:
# 어절 나눈 후 첫 번째 값을 새로운 컬럼으로 대입
df['E'] = df['A'].str.split().str[0]
df

Unnamed: 0,A,B,C,D,E
0,블루베리 에이드,100,추천/신메뉴,ab cd,블루베리
1,딸기 에이드,20,신메뉴/할인,AB CD,딸기
2,딸기 바나나 에이드,30,사이즈업/추천,ab cd,딸기


In [17]:
# 특수문자 기준으로 어절 나누기(/) : split('/')
df['C'].str.split('/')

0     [추천, 신메뉴]
1     [신메뉴, 할인]
2    [사이즈업, 추천]
Name: C, dtype: object

In [18]:
# 특정 문자 찾기 : str.contains()
df['A'].str.contains('딸기')

0    False
1     True
2     True
Name: A, dtype: bool

In [19]:
# 특정 문자 찾은 후 새컬럼에 대입 (contains)
df['is딸기'] = df['A'].str.contains('딸기')
df

Unnamed: 0,A,B,C,D,E,is딸기
0,블루베리 에이드,100,추천/신메뉴,ab cd,블루베리,False
1,딸기 에이드,20,신메뉴/할인,AB CD,딸기,True
2,딸기 바나나 에이드,30,사이즈업/추천,ab cd,딸기,True


In [20]:
# 데이터
menu = pd.Series(['맛난버거 세트', '맥운 치킨버거', '더블 치즈버거'])

In [21]:
# 특정 값이 있는지 확인하기 : isin()
menu.isin(['맛난버거 세트', '더블 치즈버거'])

0     True
1    False
2     True
dtype: bool

In [22]:
# # 특정 단어가 있는지 확인하기
# isin() -> 특정 단어가 있는지 확인 불가능
menu.isin(['세트'])

0    False
1    False
2    False
dtype: bool

In [23]:
# 특정 단어가 있는지 확인하기 : contains()
# -> 여러 단어를 찾을 수 없음, 한 개 단어만 찾기 가능
menu.str.contains('세트')

0     True
1    False
2    False
dtype: bool

In [24]:
# 문자 길이 : len()
df['A'].str.len()

0     8
1     6
2    10
Name: A, dtype: int64

In [25]:
# 대소문자 구분
'AB cd' == 'ab CD'

False

In [26]:
# 소문자로 변경 : lower()
df['D'].str.lower()

0    ab cd
1    ab cd
2    ab cd
Name: D, dtype: object

In [27]:
# 대문자로 변경 : upper()
df['D'].str.upper()

0    AB CD
1    AB CD
2    AB CD
Name: D, dtype: object

In [30]:
df2 = pd.DataFrame({'A': ['블루베리 스무디', '딸기 스무디', '딸기 바나나 스무디'],
                   'B': [10, 20, 30],
                   'C': ['추천/신메뉴', '신메뉴/할인', '사이즈업/추천'],
                   'D': ['ab cd', 'AB CD', 'ab cd ']
                   })
df2

Unnamed: 0,A,B,C,D
0,블루베리 스무디,10,추천/신메뉴,ab cd
1,딸기 스무디,20,신메뉴/할인,AB CD
2,딸기 바나나 스무디,30,사이즈업/추천,ab cd


In [37]:
# AB CD와 같은가?
df2['D'] = df2['D'].str.upper()
df2

Unnamed: 0,A,B,C,D
0,블루베리 스무디,10,추천/신메뉴,AB CD
1,딸기 스무디,20,신메뉴/할인,AB CD
2,딸기 바나나 스무디,30,사이즈업/추천,AB CD


In [38]:
# 2번째는 마지막에 공백이 추가되어 False가 나옴
df2['D'] == 'AB CD'

0     True
1     True
2    False
Name: D, dtype: bool

In [40]:
# 공백 제거
df2['D'] = df2['D'].str.replace(' ', '')
df2

Unnamed: 0,A,B,C,D
0,블루베리 스무디,10,추천/신메뉴,ABCD
1,딸기 스무디,20,신메뉴/할인,ABCD
2,딸기 바나나 스무디,30,사이즈업/추천,ABCD


In [42]:
df2['D'] == 'ABCD'

0    True
1    True
2    True
Name: D, dtype: bool

In [44]:
# 문자열 슬라이싱 : df[].str[]
df2['D'].str[:2]

0    AB
1    AB
2    AB
Name: D, dtype: object

In [45]:
# 데이터프레임 슬라이싱 : df[][] -> 행이 슬라이싱
df2['D'][:2]

0    ABCD
1    ABCD
Name: D, dtype: object

In [47]:
# 데이터
df = pd.DataFrame({'date':['2024년 3월', '2024년 4월', '2025년 5월']})
df

Unnamed: 0,date
0,2024년 3월
1,2024년 4월
2,2025년 5월


In [51]:
# 연도
df['date'].str[:4]

0    2024
1    2024
2    2025
Name: date, dtype: object

In [52]:
# 월
df['date'].str[6:7]

0     3월
1     4월
2     5월
Name: date, dtype: object