## [ 접근자 Accessor ]
- Series / DataFrame의 데이터가 날짜시간(datetime), 문자열(object), 범주형(category) 등의 경우 데이터 타입과 관련된 전용 함수들을 사용할 수 있도록 해주는 속성
- Series.str.문자열처리관련함수명()
- Series.dt.날짜시간처리관련속성명

(1) 모듈 로딩 <hr>

In [48]:
import pandas as pd

(2) 데이터 준비 <hr>

In [49]:
datas = {'name' : ['홍 길동', '이 나영', '마 징가', '베 토벤'],
         'age' : [10, 21, 73, 89],
         'reg_date' : ['2000/01/23', '2020/11/08', '1999/5/4', '1987/12/24']}

datas2 = [['홍 길동', '이 나영', '마 징가', '베 토벤'],
         [10, 21, 73, 89],
         ['2000/01/23', '2020/11/08', '1999/5/4', '1987/12/24']]

(3) 데이터 저장 <hr>

In [50]:
# Dict ==> DataFrame
df1 = pd.DataFrame(datas)
df1

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/08
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [51]:
# list ==> DataFrame
df1 = pd.DataFrame(datas2)
df1

Unnamed: 0,0,1,2,3
0,홍 길동,이 나영,마 징가,베 토벤
1,10,21,73,89
2,2000/01/23,2020/11/08,1999/5/4,1987/12/24


(4) 데이터 정보 확인 <hr>

In [52]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
 3   3       3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


(5) 데이터 전처리 <hr>

(5-1) 행 <=> 열 치환

In [53]:
df1.transpose(  )

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/08
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [54]:
df1 = df1.transpose(  )

(5-2) 실제 데이터의 타입 확인 후 형변환

In [55]:
df1.head()

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/08
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [56]:
# 1번 컬럼: object => 정수
df1[1] = df1[1].astype('uint8')  # unsigned int 즉 부호가 없는 정수

In [57]:
df1.dtypes

0    object
1     uint8
2    object
dtype: object

In [58]:
# 2번 컬럼 : object => datatime64[ns]
df1[2] = df1[2].astype('datetime64[ns]')

In [59]:
df1.dtypes

0            object
1             uint8
2    datetime64[ns]
dtype: object

(5-3) 0번 컬럼의 이름을 성과 이름으로 분리

In [60]:
# 0번 컬럼만 추출 => Series
nameSR = df1[0]
nameSR

0    홍 길동
1    이 나영
2    마 징가
3    베 토벤
Name: 0, dtype: object

In [61]:
# '이 나영' 데이터를 추출 => 성과 이름으로 분리
type(nameSR[1]), nameSR[1].upper(), nameSR[1].split()

(str, '이 나영', ['이', '나영'])

In [66]:
nameDF = nameSR.str.split(expand = True)

In [67]:
df1, nameDF

(      0   1          2
 0  홍 길동  10 2000-01-23
 1  이 나영  21 2020-11-08
 2  마 징가  73 1999-05-04
 3  베 토벤  89 1987-12-24,
    0   1
 0  홍  길동
 1  이  나영
 2  마  징가
 3  베  토벤)

(5-4) 두개의 DataFrame을 컬럼방향으로 연결

In [71]:
# 합칠 때 없는 부분은 NaT으로 채운다.
pd.concat([df1, nameDF])


Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,2020-11-08
2,마 징가,73,1999-05-04
3,베 토벤,89,1987-12-24
0,홍,길동,NaT
1,이,나영,NaT
2,마,징가,NaT
3,베,토벤,NaT


In [72]:
pd.concat([df1, nameDF], axis = 'columns')

Unnamed: 0,0,1,2,0.1,1.1
0,홍 길동,10,2000-01-23,홍,길동
1,이 나영,21,2020-11-08,이,나영
2,마 징가,73,1999-05-04,마,징가
3,베 토벤,89,1987-12-24,베,토벤


In [73]:
# ignore_index 파라미터로 인덱스 정리
pd.concat([df1, nameDF], axis = 'columns', ignore_index = True)

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2000-01-23,홍,길동
1,이 나영,21,2020-11-08,이,나영
2,마 징가,73,1999-05-04,마,징가
3,베 토벤,89,1987-12-24,베,토벤


(5-5) 2번 컬럼에서 년, 월, 일을 분리

In [74]:
df1[2]

0   2000-01-23
1   2020-11-08
2   1999-05-04
3   1987-12-24
Name: 2, dtype: datetime64[ns]

In [78]:
yearSR = df1[2].dt.year

In [79]:
monthSR = df1[2].dt.month

In [80]:
daySR = df1[2].dt.day

In [82]:
pd.concat([df1, yearSR, monthSR, daySR], axis = 1, ignore_index = True)

Unnamed: 0,0,1,2,3,4,5
0,홍 길동,10,2000-01-23,2000,1,23
1,이 나영,21,2020-11-08,2020,11,8
2,마 징가,73,1999-05-04,1999,5,4
3,베 토벤,89,1987-12-24,1987,12,24


(5-6) 현재 DataFrame을 파일로 저장하기 => pandas.to_XXX('파일경로' + 파일명)

In [83]:
# csv ==> 데이터와 데이터의 구분자
filename = './backup.csv'  # 'backup.csv'

In [90]:
df1.to_csv(filename, sep = ' ', header = False, index = False)

In [92]:
pd.read_csv(filename, header = None, sep = ' ')

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,2020-11-08
2,마 징가,73,1999-05-04
3,베 토벤,89,1987-12-24
