## [ 접근자 Accessor ]
- Series/DataFrame의 데이터가 날짜시간(datetime), 문자열(object), 범주형(Category)등의 경우 데이터타입과 관련된 전용의 함수들을 사용할 수 있도록 해주는 속성
- Series.str.문자열처리 관련 함수명()
- Series.dt.날짜시간처리 관련 속성명()

(1) 모듈 로딩 <hr>

In [151]:
import pandas as pd

(2) 데이터 준비 <hr>

In [152]:
datas={"name":["홍 길동", "이 나영", "마 징가", "베 토벤"], 
       "age":[10,20,30,80],
      "reg_date": ["2000/01/31", "2010/03/13", "1990/05/29", "1980/09/21"]}

datas2=[["홍 길동", "이 나영", "마 징가", "베 토벤"], 
        [10,20,30,80],
        ["2000/01/31", "2010/03/13", "1990/05/29", "1980/09/21"]]

(3) 데이터 저장 <hr>

In [153]:
# Dict ==> DataFrame ==> 값이 열로 들어감
df1=pd.DataFrame(datas)
df1

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2000/01/31
1,이 나영,20,2010/03/13
2,마 징가,30,1990/05/29
3,베 토벤,80,1980/09/21


In [154]:
# List ==> DataFrame ==> 값이 행으로 들어감
df2=pd.DataFrame(datas2)
df2

Unnamed: 0,0,1,2,3
0,홍 길동,이 나영,마 징가,베 토벤
1,10,20,30,80
2,2000/01/31,2010/03/13,1990/05/29,1980/09/21


(4) 데이터 정보 확인 <hr>

In [155]:
# 데이터의 전체 기본 정보 => info()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
 3   3       3 non-null      object
dtypes: object(4)
memory usage: 228.0+ bytes


(5) 데이터 전처리

- (5-1) 행 <=> 열 치환

In [156]:
df2.T

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/31
1,이 나영,20,2010/03/13
2,마 징가,30,1990/05/29
3,베 토벤,80,1980/09/21


In [157]:
df2.transpose()

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/31
1,이 나영,20,2010/03/13
2,마 징가,30,1990/05/29
3,베 토벤,80,1980/09/21


In [158]:
df2=df2.transpose()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 228.0+ bytes


- (5-2) 실제 데이터와 타입 확인 후 형변환하기

In [159]:
df2.head()

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/31
1,이 나영,20,2010/03/13
2,마 징가,30,1990/05/29
3,베 토벤,80,1980/09/21


In [160]:
# 1번 컬럼 : object => 정수
df2[1] = df2[1].astype('uint8')

In [161]:
df2.dtypes

0    object
1     uint8
2    object
dtype: object

In [162]:
# 2번 컬럼 : object => datetime64[ns]
df2[2] = df2[2].astype('datetime64[ns]')

In [163]:
df2.dtypes

0            object
1             uint8
2    datetime64[ns]
dtype: object

- (5-3) 0번 컬럼의 이름을 성과 이름으로 분리

In [164]:
# 0번 컬럼만 추출
nameSR = df2[0]
nameSR

0    홍 길동
1    이 나영
2    마 징가
3    베 토벤
Name: 0, dtype: object

In [165]:
# "이 나영" 데이터를 추출 => 성과 이름으로 분리
type(nameSR[1]), nameSR[1].upper()

(str, '이 나영')

In [166]:
#for idx in range(nameSR.shape[0]):
#    nameSR[idx] = nameSR[idx].split()

In [167]:
namesDF = nameSR.str.split(expand=True)

In [168]:
df2, namesDF

(      0   1          2
 0  홍 길동  10 2000-01-31
 1  이 나영  20 2010-03-13
 2  마 징가  30 1990-05-29
 3  베 토벤  80 1980-09-21,
    0   1
 0  홍  길동
 1  이  나영
 2  마  징가
 3  베  토벤)

- (5-4) 두 개의 DataFrame을 컬럼 방향으로 연결

In [169]:
pd.concat([df2, namesDF], axis="columns", ignore_index=True)

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2000-01-31,홍,길동
1,이 나영,20,2010-03-13,이,나영
2,마 징가,30,1990-05-29,마,징가
3,베 토벤,80,1980-09-21,베,토벤


- (5-5) 2번 컬럼에서 년,월,일을 분리

In [170]:
df2[2]

0   2000-01-31
1   2010-03-13
2   1990-05-29
3   1980-09-21
Name: 2, dtype: datetime64[ns]

In [174]:
yearSR = df2[2].dt.year

In [175]:
monthSR = df2[2].dt.month

In [176]:
daySR = df2[2].dt.day

In [177]:
pd.concat([df2, yearSR], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,홍 길동,10,2000-01-31,2000
1,이 나영,20,2010-03-13,2010
2,마 징가,30,1990-05-29,1990
3,베 토벤,80,1980-09-21,1980


In [178]:
pd.concat([df2, yearSR, monthSR, daySR], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5
0,홍 길동,10,2000-01-31,2000,1,31
1,이 나영,20,2010-03-13,2010,3,13
2,마 징가,30,1990-05-29,1990,5,29
3,베 토벤,80,1980-09-21,1980,9,21


- (5-6) 현재 DataFrame을 파일로 저장하기 => pandas.to_XXX("파일경로+파일명")

In [179]:
# CSV ==> 데이터와 데이터의 구분자
filename="./backup.csv"      # "backup.csv"

In [184]:
df2.to_csv(filename, sep=" ", header=False, index=False)

In [187]:
pd.read_csv(filename, header=None, sep=" ")

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-31
1,이 나영,20,2010-03-13
2,마 징가,30,1990-05-29
3,베 토벤,80,1980-09-21
