## 접근자 Accessor

- Series/DataFrame의 데이터가 날짜/시간, 문자열(Object), 범주형(Category)등의 경우 데이터 타입과 관련된 전용의 함수들을 사용할 수 있도록 해주는 속성
- Series.str.문자열처리관련함수명()
- Series.dt.날짜시간처리관련속성명

(1) 모듈 로딩
<hr>

In [101]:
import pandas as pd

(2) 데이터 준비<hr>

In [102]:
datas = {'Name' : ['홍 길동', '이 나영', '마 징가', '베 토벤'], 
         'age': [10, 21, 73, 89],
         'reg_date' : ['2000/01/13', '2020/11/05', '1999/04/13', '1997/12/21']}

datas2 = [['홍 길동', '이 나영', '마 징가', '베 토벤'], 
         [10, 21, 73, 89],
         ['2000/01/13', '2020/11/05', '1999/04/13', '1997/12/21']]

(3) 데이터 저장<hr> 

In [103]:
#Dict->DataFrame
df1=pd.DataFrame(datas)
df1

Unnamed: 0,Name,age,reg_date
0,홍 길동,10,2000/01/13
1,이 나영,21,2020/11/05
2,마 징가,73,1999/04/13
3,베 토벤,89,1997/12/21


In [104]:
#List->DataFrame
df2 = pd.DataFrame(datas2)
df2

Unnamed: 0,0,1,2,3
0,홍 길동,이 나영,마 징가,베 토벤
1,10,21,73,89
2,2000/01/13,2020/11/05,1999/04/13,1997/12/21


(4) 데이터 정보 확인

In [105]:
#데이터의 전체 기본정보: info()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
 3   3       3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


(5) 데이터 전처리<hr>
- 5-1. 행<->열 치환

In [106]:
#df1.T
df2 = df2.transpose()
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes


- 5-2. 실제 데이터와 타입 확인 후 형변환하기

In [107]:
df2.head()

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/13
1,이 나영,21,2020/11/05
2,마 징가,73,1999/04/13
3,베 토벤,89,1997/12/21


In [108]:
# 1번 컬럼 : object => 정수
df2[1] = df2[1].astype('uint8') # uint ----> 부호가 붙어있지 않은 숫자. # 64면 8바이트

In [109]:
df1.dtypes

Name        object
age          int64
reg_date    object
dtype: object

In [110]:
#2번 컬럼: object->datetime64[ns]
df2[2]=df2[2].astype('datetime64[ns]')
df1.dtypes

Name        object
age          int64
reg_date    object
dtype: object

- 5-3: 0번 컬럼의 이름을 성, 이름으로 분리하기

In [111]:
#0번 컬럼 추출하기: Series
nameSR = df2[0]
#nameSR,nameSR[1]

In [112]:
#' 이 나영 ' 데이터 추출-> 성/이름으로 분리하기
#nameSR[1].split() #str

In [113]:
# for idx in range(nameSR.shape[0]):
#     nameSR[idx] = nameSR[idx].split()

In [114]:
namesDF = nameSR.str.split(expand=True)

In [115]:
df1,namesDF

(   Name  age    reg_date
 0  홍 길동   10  2000/01/13
 1  이 나영   21  2020/11/05
 2  마 징가   73  1999/04/13
 3  베 토벤   89  1997/12/21,
    0   1
 0  홍  길동
 1  이  나영
 2  마  징가
 3  베  토벤)

- 5-4. 두 개의 데이터프레임을 컬럼 방향으로 연결하기

In [116]:
pd.concat([df1, namesDF], axis ='columns', ignore_index = True )

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2000/01/13,홍,길동
1,이 나영,21,2020/11/05,이,나영
2,마 징가,73,1999/04/13,마,징가
3,베 토벤,89,1997/12/21,베,토벤


- 5-5. 2번 컬럼에서 연, 월, 일 분리하기.

In [118]:
df2[2]

0   2000-01-13
1   2020-11-05
2   1999-04-13
3   1997-12-21
Name: 2, dtype: datetime64[ns]

In [121]:
yearSR = df2[2].dt.year

In [122]:
monthSR = df2[2].dt.month

In [123]:
daySR = df2[2].dt.day

In [124]:
pd.concat([df1,yearSR],axis = 1,ignore_index=True)

Unnamed: 0,0,1,2,3
0,홍 길동,10,2000/01/13,2000
1,이 나영,21,2020/11/05,2020
2,마 징가,73,1999/04/13,1999
3,베 토벤,89,1997/12/21,1997


- 5-6. 현 데이터프레임을 파일로 저장하기:pandas.to_어쩌구('파일경로+파일명')


In [125]:
#CSV-> 데이터와 데이터의 구분자
filename = './backup.csv' #'backup.csv


In [138]:
df2.to_csv(filename, sep = ' ', header = False, index = False)

In [141]:
pd.read_csv(filename, header = None, sep = " ")

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-13
1,이 나영,21,2020-11-05
2,마 징가,73,1999-04-13
3,베 토벤,89,1997-12-21


In [143]:
#df2.append(namesDF)

### 병합 2.merge
<hr>
- 두 개의 DF에서 특정 컬럼을 기준으로 데이터를 합치는 것
- DF 두 개를 합치는 기준이 되는 컬럼을 지정해야 함
- 지정된 컬럼명이 없다면 동일한 컬럼명을 기준으로 합쳐짐
<hr>

- 2-1. 데이터 준비

In [None]:
f1 = '../