## [ 접근자 Accessor ]
- Series/DataFrame의 데이터가 날짜시간, 문자열(object), 범주형(category) 등일 때, 그 데이터타입과 관련된 전용함수들을 사용할 수 있도록 해주는 속성
- Series.str.문자열메서드명()
- Series.dt.날짜시간속성명()

(1) 모듈 로딩

In [1]:
import pandas as pd

(2) 데이터 준비

In [2]:
data1 = [['홍 길동', '이 나영', '마 징가', '베 토벤'],
        [10, 21, 73, 89],
        ['2000/01/23', '2020/11/8', '1999/5/4', '1987/12/24']]

In [3]:
data2 = {'name':['홍 길동', '이 나영', '마 징가', '베 토벤'],
        'age':[10, 21, 73, 89],
        'reg_date':['2000/01/23', '2020/11/8', '1999/5/4', '1987/12/24']}

(3) 데이터 저장

In [4]:
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,홍 길동,이 나영,마 징가,베 토벤
1,10,21,73,89
2,2000/01/23,2020/11/8,1999/5/4,1987/12/24


In [5]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


(4) 데이터 정보 확인

In [6]:
# 데이터의 전체 기본 정보 => info()
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
 3   3       3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


(5) 데이터 전처리

(5-1) 행 <=> 열 전치

In [7]:
df1.T

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [8]:
df1 = df1.transpose()
df1

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


(5-2) 실제 데이터와 타입 확인 후 형변환

In [9]:
df1.head()

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [10]:
# 1번 컬럼 : object => 정수
df1[1] = df1[1].astype('uint8')

In [11]:
df1.dtypes

0    object
1     uint8
2    object
dtype: object

In [12]:
# 2번 컬럼 : object -> datetime64[ns]
df1[2] = df1[2].astype('datetime64[ns]')

In [13]:
df1.dtypes

0            object
1             uint8
2    datetime64[ns]
dtype: object

(5-3) 0번 컬럼의 이름을 성과 이름으로 분리

In [14]:
# 0번 컬럼만 추출 -> Series
nameSR = df1[0]
nameSR

0    홍 길동
1    이 나영
2    마 징가
3    베 토벤
Name: 0, dtype: object

In [15]:
nameSR[1]

'이 나영'

In [16]:
type(nameSR[1])

str

In [17]:
# '이 나영' 데이터를 추출 -> 성, 이름으로 분리
nameSR[1].split()

['이', '나영']

In [18]:
for idx in range(nameSR.shape[0]):
    print(nameSR[idx])

홍 길동
이 나영
마 징가
베 토벤


In [19]:
nameSR.str.split()

0    [홍, 길동]
1    [이, 나영]
2    [마, 징가]
3    [베, 토벤]
Name: 0, dtype: object

In [20]:
nameSR.str.split(expand=True)

Unnamed: 0,0,1
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


In [21]:
df1

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,2020-11-08
2,마 징가,73,1999-05-04
3,베 토벤,89,1987-12-24


In [22]:
namesDF = nameSR.str.split(expand=True)
namesDF

Unnamed: 0,0,1
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


(5-4) 두 개의 DataFrame을 컬럼 방향으로 엮음

In [23]:
# 기본적으로, 아래쪽으로 합쳐친다.
pd.concat([df1, namesDF], axis='columns', ignore_index=True)   # 열방향으로 추가되게 한다.

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2000-01-23,홍,길동
1,이 나영,21,2020-11-08,이,나영
2,마 징가,73,1999-05-04,마,징가
3,베 토벤,89,1987-12-24,베,토벤


(5-5) 2번 컬럼에서 년, 월, 일을 분리

In [24]:
df1[2]

0   2000-01-23
1   2020-11-08
2   1999-05-04
3   1987-12-24
Name: 2, dtype: datetime64[ns]

In [25]:
yearSR = df1[2].dt.year

In [26]:
monthSR = df1[2].dt.month

In [27]:
daySR = df1[2].dt.day

In [28]:
pd.concat([df1, yearSR], axis=1)

Unnamed: 0,0,1,2,2.1
0,홍 길동,10,2000-01-23,2000
1,이 나영,21,2020-11-08,2020
2,마 징가,73,1999-05-04,1999
3,베 토벤,89,1987-12-24,1987


In [29]:
pd.concat([df1, yearSR, monthSR, daySR], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5
0,홍 길동,10,2000-01-23,2000,1,23
1,이 나영,21,2020-11-08,2020,11,8
2,마 징가,73,1999-05-04,1999,5,4
3,베 토벤,89,1987-12-24,1987,12,24


(5-6) 현재 DataFrame을 파일로 저장하기 => pandas.to_XXX("파일경로+파일명")

In [31]:
# CSV => 데이터와 데이터의 구분자
filename='./backup.csv'   # 'backup.csv'

In [42]:
df1.to_csv(filename, sep=' ', header=False, index=False)

In [45]:
pd.read_csv(filename, header = None, sep=' ')

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,2020-11-08
2,마 징가,73,1999-05-04
3,베 토벤,89,1987-12-24
