#### 【 Accessor 접근자 】
- pandas에서 str 데이터, datetime 데이터에 간편한 처리 위해 제공
- Series에 제공되는 기능
- 종류
    * str 데이터 : Series.str 접근자
    * datetime 데이터 : Series.dt 접근자

[1] 모듈 로딩 및 데이터 준비

In [1]:
## 모듈 준비
import pandas as pd

In [2]:
## 데이터 준비
data = {
    '이름' : ['홍 길동', '마 징가', '베 트맨'],
    '댓글' : [' Good Luck', 'Happy New Year', "good day"]
}
dataDF = pd.DataFrame(data)

display(dataDF)


Unnamed: 0,이름,댓글
0,홍 길동,Good Luck
1,마 징가,Happy New Year
2,베 트맨,good day


In [3]:
## 댓글 컬럼의 내용을 모두 소문자로 변경
dataDF['댓글'][0].lower() ##<= 원소 1개 선택시 문자열 관련 메서드 사용 ㅇ

for idx in range(dataDF['댓글'].shape[0]) :
    dataDF['댓글'][idx] = dataDF['댓글'][idx].lower()
print(dataDF)
for idx in dataDF.index :
    dataDF['댓글'][idx] = dataDF['댓글'][idx].upper()

display(dataDF)

     이름              댓글
0  홍 길동       good luck
1  마 징가  happy new year
2  베 트맨        good day


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  dataDF['댓글'][idx] = dataDF['댓글'][idx].lower()
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFr

Unnamed: 0,이름,댓글
0,홍 길동,GOOD LUCK
1,마 징가,HAPPY NEW YEAR
2,베 트맨,GOOD DAY


[1] Series.str접근자 : 문자열 관련 메서드들 제공

In [4]:
## Series 인스턴스 생성
dataSR =pd.Series( [" Hello, World! ",
                    "Pandas_is_FUN",
                    "email: user01@example.com",
                    None
                    ])

## 확인
display(dataSR, dataSR.index)

0               Hello, World! 
1                Pandas_is_FUN
2    email: user01@example.com
3                         None
dtype: object

RangeIndex(start=0, stop=4, step=1)

In [10]:
## 1) 공백제거 & 소문자화
## strip() :좌우공백 제거
print(dataSR.str.strip())

## 공백 제거 + lower() 소문자변환
print(dataSR.str.strip().str.lower())

0                Hello, World!
1                Pandas_is_FUN
2    email: user01@example.com
3                         None
dtype: object
0                hello, world!
1                pandas_is_fun
2    email: user01@example.com
3                         None
dtype: object


In [None]:
## contains() : 문자열 안에 해당 문자열 존재 여부
##              case 매개변수 : 대소문자 일치여부
##              na   매개변수 : 결측치에 대한 처리
print(dataSR.str.contains("world", case=False, na=False))

## find() : 문자열에서 제일 먼저 발견되는 인덱스 반환,
print(dataSR.str.find("fun"))   ## 없으면 -1, 결측치 NaN 처리


0     True
1    False
2    False
3    False
dtype: bool
0    -1.0
1    10.0
2    -1.0
3     NaN
dtype: float64


In [14]:
## 3) 부분 문자열 추출(슬라이싱) / 길이
print(dataSR.str.slice(0,5))    # 앞 5글자

print(dataSR.str.len())         # 글자 수 (한글도 문자 1개로 셈)

0     Hell
1    Panda
2    email
3     None
dtype: object
0    15.0
1    13.0
2    25.0
3     NaN
dtype: float64


In [None]:
## 4) 구분자 분리 및 확장
## 구분자 분리 --> List 담아서 반환 ## 여전히 Series로 반환
print(dataSR.str.split("_"))
ret = dataSR.str.split("_")
print(type(ret[0]))

## 구분자 분리 --> 여러 열로 확장 ## DataFrame으로 반환
print(dataSR.str.split("_", expand=True))
ret = dataSR.str.split("_", expand=True)
print(type(ret))

0              [ Hello, World! ]
1              [Pandas, is, FUN]
2    [email: user01@example.com]
3                           None
dtype: object
<class 'list'>
                           0     1     2
0             Hello, World!   None  None
1                     Pandas    is   FUN
2  email: user01@example.com  None  None
3                       None  None  None
<class 'pandas.core.frame.DataFrame'>


[3] Series.dt 접근자 : 날짜/시간 관련 메서드들<hr>

In [18]:
## Series 인스턴스 생성
dataSR = pd.Series([
    "2025-10-01 08:30",
    "2025/10/02 21:15",
    "Oct 03, 2025 06:00",
    None
])
display(dataSR)

0      2025-10-01 08:30
1      2025/10/02 21:15
2    Oct 03, 2025 06:00
3                  None
dtype: object

In [None]:
## 문자열 -> datetime 타입 변환
## pd.to_datetime() 함수
## - format : 포멧지정(포멧들이 섞여 있을 경우 mixed)
## - errors : 변환 실패시 처리 방법 [기]rasie ==> coerce(NaT로 채움)
tsSR = pd.to_datetime(dataSR, format='mixed', errors='coerce') ## 에러값을 NaT로 채우는 것
print(tsSR)

0   2025-10-01 08:30:00
1   2025-10-02 21:15:00
2   2025-10-03 06:00:00
3                   NaT
dtype: datetime64[ns]


In [23]:
## 1) 구성요소 뽑기
print(tsSR.dt.year)         ## 연도
print(tsSR.dt.month)        ## 월(숫자)
print(tsSR.dt.day)          ## 일
print(tsSR.dt.weekday)      ## 0(월) ~ 6(일)
print(tsSR.dt.day_name())   ## 요일 이름
print(tsSR.dt.hour)         ## 시

0    2025.0
1    2025.0
2    2025.0
3       NaN
dtype: float64
0    10.0
1    10.0
2    10.0
3     NaN
dtype: float64
0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64
0    2.0
1    3.0
2    4.0
3    NaN
dtype: float64
0    Wednesday
1     Thursday
2       Friday
3          NaN
dtype: object
0     8.0
1    21.0
2     6.0
3     NaN
dtype: float64


In [26]:
# 2) 형식 문자열로 출력
print(tsSR.dt.strftime("%Y/%m/%d %H:%M"))

0    2025/10/01 08:30
1    2025/10/02 21:15
2    2025/10/03 06:00
3                 NaN
dtype: object


In [27]:
## 3) 시계열 성질 (월초/월말 등) boolean
print(tsSR.dt.is_month_start)
print(tsSR.dt.is_month_end)

0     True
1    False
2    False
3    False
dtype: bool
0    False
1    False
2    False
3    False
dtype: bool
