In [1]:
import pandas as pd
import numpy as np

# 텍스트로 이루어진 시리즈 배열 만들기
ser = pd.Series(["Apple_사과", "Banana_바나나", "Cherry_체리", np.nan],
                index =["First", "Second", "Third" , "Fourth"])
print(ser)
print('\n')

ser2 = pd.Series(["Apple_사과", "Banana_바나나", "Cherry_체리", np.nan],
                index =["First", "Second", "Third" , "Fourth"], dtype="string")
print(ser2)

First       Apple_사과
Second    Banana_바나나
Third      Cherry_체리
Fourth           NaN
dtype: object


First       Apple_사과
Second    Banana_바나나
Third      Cherry_체리
Fourth          <NA>
dtype: string


In [5]:
print(ser.str.lower())
print('\n')

print(ser.str.upper())
print('\n')

print(ser.str.len())

First       apple_사과
Second    banana_바나나
Third      cherry_체리
Fourth           NaN
dtype: object


First       APPLE_사과
Second    BANANA_바나나
Third      CHERRY_체리
Fourth           NaN
dtype: object


First      8.0
Second    10.0
Third      9.0
Fourth     NaN
dtype: float64


In [7]:
print(ser.str.split('_'))
print('\n')

# 문자열을 분할하여 DataFrame으로 확장, expand = True 시리즈 객체의 문자열을 분할하고 분할된 각 부분을 DataFrame의 별도 열로 표시
print(ser.str.split('_', expand = True))
print('\n')

print(ser.str.split('_').str.get(1))

First       [Apple, 사과]
Second    [Banana, 바나나]
Third      [Cherry, 체리]
Fourth              NaN
dtype: object


             0    1
First    Apple   사과
Second  Banana  바나나
Third   Cherry   체리
Fourth     NaN  NaN


First      사과
Second    바나나
Third      체리
Fourth    NaN
dtype: object


In [11]:
# 행 인덱스를 추출 
idx = ser.index
print(idx)

print(idx.str.strip())
print(idx.str.lstrip())
print(idx.str.rstrip())

Index(['First', 'Second', 'Third', 'Fourth'], dtype='object')
Index(['First', 'Second', 'Third', 'Fourth'], dtype='object')
Index(['First', 'Second', 'Third', 'Fourth'], dtype='object')
Index(['First', 'Second', 'Third', 'Fourth'], dtype='object')


In [19]:
# replace() 메소드는 문자열 내의 특정 패턴 또는 문자를 다른 문자열로 교체
# regex = False 옵션은 정규 표현식으로 사용하지 않고, 단순한 문자열을 찾아서 변경
print(ser.str.replace("_",":", regex=False))
print('\n')

# 정규 표현식을 사용한 문자열 교체(영문 알파벳이 아닌 문자 제거)
print(ser.str.replace("[^a-zA-Z\s]", "", regex=True))

First       Apple:사과
Second    Banana:바나나
Third      Cherry:체리
Fourth           NaN
dtype: object


First      Apple
Second    Banana
Third     Cherry
Fourth       NaN
dtype: object


  print(ser.str.replace("[^a-zA-Z\s]", "", regex=True))


In [21]:
print(ser.str[0])
print('\n')

# 슬라이싱 : 각 문자열의 첫 번째부터 세 번째 문자 선택
print(ser.str[0:4])

First       A
Second      B
Third       C
Fourth    NaN
dtype: object


First     Appl
Second    Bana
Third     Cher
Fourth     NaN
dtype: object


In [25]:
contains_A = ser.str.contains("A", na = False) # na = False 결측값이 있는경우 False 처리
print(contains_A)
print('\n')

# 패턴 포함 여부 확인
contains_pattern = ser.str.contains(r"[A|B] [a-z]+")
print(contains_pattern)
print('\n')

# 전체 문자열의 패턴 일치 여부 확인
fullmatch_pattern = ser.str.fullmatch(r"[A|B] [a-z]+")
print(fullmatch_pattern)

First      True
Second    False
Third     False
Fourth    False
dtype: bool


First     False
Second    False
Third     False
Fourth      NaN
dtype: object


First     False
Second    False
Third     False
Fourth      NaN
dtype: object


In [29]:
# 정규 표현식을 활용한 데이터 추출 작업 extract() 메소드, extractall() 메소드 사용

ser3 = pd.Series(['a1','b2','c3','d4a5','e6e7','f8'], dtype = 'string')

# 숫자만 추출
digits = ser3.str.extractall(r"(\d)").groupby(level=0).agg(''.join)
print(digits)
print('\n')

# 알파벳만 추출
letters = ser3.str.extractall(r"([a-z])").groupby(level=0).agg(''.join)
print(letters)
print('\n')

# 숫자를 별도의 컬럼으로 분리
split_columns = ser3.str.extract(r"(?P<Letter>[a-z]+) (?P<Digit>\d+)")
print(split_columns)

    0
0   1
1   2
2   3
3  45
4  67
5   8


    0
0   a
1   b
2   c
3  da
4  ee
5   f


  Letter Digit
0   <NA>  <NA>
1   <NA>  <NA>
2   <NA>  <NA>
3   <NA>  <NA>
4   <NA>  <NA>
5   <NA>  <NA>
