## Part 02 데이터 핸들링 - 4장 데이터 결합 및 요약
### 1절: 데이터 결합

#### 데이터 붙이기
- 판다스에서 제공하는 ```concat()``` 함수는 데이터프레임을 붙이는 역할을 수행
- 단순히 행이나 열을 물리적으로 잇는 함수
- ```pandas.concat(objs, axis=0, ...)```

<br>

#### 인자
- **objs** : 시리즈니 데이터프레임을 담은 시퀀스
- **axis** : 연결할 축으로 0은 행(default), 1은 열을 기준으로 연결

In [3]:
import pandas as pd

In [5]:
# 데이터프레임 1 생성
obj1 = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'score' : [55, 90, 85, 71, 63, 99] }
df1 = pd.DataFrame(obj1)
df1

Unnamed: 0,student_id,score
0,s1,55
1,s2,90
2,s3,85
3,s4,71
4,s5,63
5,s6,99


In [7]:
# 데이터프레임 2 생성
obj2 = {'student_id' : ['t1', 't2', 't3', 't4', 't5', 't6'],
        'score' : [65, 99, 87, 75, 57, 88] }
df2 = pd.DataFrame(obj2)
df2

Unnamed: 0,student_id,score
0,t1,65
1,t2,99
2,t3,87
3,t4,75
4,t5,57
5,t6,88


In [8]:
# 두 개의 데이터프레임을 행을 기준으로 붙임
pd.concat([df1, df2])

Unnamed: 0,student_id,score
0,s1,55
1,s2,90
2,s3,85
3,s4,71
4,s5,63
5,s6,99
0,t1,65
1,t2,99
2,t3,87
3,t4,75


In [9]:
# 두 개의 데이터프레임을 열을 기준으로 붙임
pd.concat([df1, df2], axis=1)

Unnamed: 0,student_id,score,student_id.1,score.1
0,s1,55,t1,65
1,s2,90,t2,99
2,s3,85,t3,87
3,s4,71,t4,75
4,s5,63,t5,57
5,s6,99,t6,88


#### 데이터 병합
- 두 데이터프레임의 고유한 키를 기준으로 병합하는 것
- 데이터프레임의 ```merge()``` 메소드를 사용
- ```df.merge(right, how='inner', on=None, ...)```

<br>

#### 인자
- **right** : 병합할 데이터 프레임
- **how** : 병합할 유형으로 'left', 'right', 'outer', 'inner' 등이 있으며 default는 'inner'
- **on** : 병합을 위한 고유한 키로, 컬럼명을 의미함. 동일한 컬럼명이 두 데이터프레임에 모두 존재해야 함

In [11]:
# 데이터프레임 1 생성
obj1 = {'student_id' : ['s3', 's4', 's5', 's6'],
        'stat_score' : [85, 71, 63, 99] }
df1 = pd.DataFrame(obj1)
df1

Unnamed: 0,student_id,stat_score
0,s3,85
1,s4,71
2,s5,63
3,s6,99


In [12]:
# 데이터프레임 2 생성
obj2 = {'student_id' : ['s1', 's2', 's3', 's4'],
        'math_score' : [65, 99, 87, 75] }
df2 = pd.DataFrame(obj2)
df2

Unnamed: 0,student_id,math_score
0,s1,65
1,s2,99
2,s3,87
3,s4,75


In [13]:
# merge
# 1) 병합 유형 : inner(default)
# 두 데이터프레임의 공통 학생들의 점수만 합쳐짐
df1.merge(df2, on='student_id')

Unnamed: 0,student_id,stat_score,math_score
0,s3,85,87
1,s4,71,75


In [14]:
# 2) 병합 유형 : outer
# 두 데이터프레임의 모든 학생들의 점수가 합쳐짐
df1.merge(df2, on='student_id', how='outer')

Unnamed: 0,student_id,stat_score,math_score
0,s3,85.0,87.0
1,s4,71.0,75.0
2,s5,63.0,
3,s6,99.0,
4,s1,,65.0
5,s2,,99.0


In [15]:
# 3) 병합 유형 : left
# 왼쪽 데이터프레임(df1)에 있는 학생들의 점수들만 반환 (점수가 없는 과목은 NaN 반환)
df1.merge(df2, on='student_id', how='left')

Unnamed: 0,student_id,stat_score,math_score
0,s3,85,87.0
1,s4,71,75.0
2,s5,63,
3,s6,99,


In [16]:
# 4) 병합 유형 : right
# 오른쪽 데이터프레임(df2)에 있는 학생들의 점수들만 반환 (점수가 없는 과목은 NaN 반환)
df1.merge(df2, on='student_id', how='right')

Unnamed: 0,student_id,stat_score,math_score
0,s1,,65
1,s2,,99
2,s3,85.0,87
3,s4,71.0,75


### 2절: 데이터 요약
#### 그룹별 통계 요약
- 특정 컬럼(카테고리형)에 따라 숫자형 값을 하나로 묶어 통계 또는 집계 결과를 얻는 것을 말함
- 데이터프레임의 ```groupby()``` 메소드를 통해 데이터프레임을 특정 기준으로 그룹화한 데이터프레임을 생성
- ```df.groupby(by, as_index=True, ...)```

<br>

#### 인자
- **by** : 그룹할 기준으로, 컬럼명 또는 컬럼명을 담은 리스트 등이 입력됨
- **as_index** : 그룹할 기준을 행 인덱스로 사용할 지에 대한 여부로, True(default)는 행 인덱스로 그룹 기준으로 사용하고 False는 행 인딕스로 행 위치 인덱스 번호를 사용

In [29]:
# 데이터프레임 생성
obj3 = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'stat_score' : [85, 71, 63, 99, 40, 18],
        'math_score' : [88, 49, 76, 22, 13, 80],
        'sex' : ['Female', 'Male', 'Male', 'Female', 'Male', 'Female'],
        'pre_level' : ['B', 'A', 'B', 'B', 'C', 'A'] }
df3 = pd.DataFrame(obj3)
df3

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,s1,85,88,Female,B
1,s2,71,49,Male,A
2,s3,63,76,Male,B
3,s4,99,22,Female,B
4,s5,40,13,Male,C
5,s6,18,80,Female,A


In [31]:
# 그룹화한 후 데이터프레임 메소드 .mean()을 통해 그룹화 평균 계산
idx=['stat_score', 'math_score', 'sex']
df3[idx].groupby('sex').mean()

Unnamed: 0_level_0,stat_score,math_score
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,67.333333,63.333333
Male,58.0,46.0


In [34]:
# 옵션 as_index=False
# 행 인덱스로 행 위치 인덱스번호를 사용
df3[idx].groupby('sex', as_index=False).mean()

Unnamed: 0,sex,stat_score,math_score
0,Female,67.333333,63.333333
1,Male,58.0,46.0


In [38]:
# 여러 열을 기준으로 그룹화하는 방법은 컬럼명을 담은 리스트 사용
idx=['stat_score', 'math_score', 'sex', 'pre_level']
df3[idx].groupby(['sex', 'pre_level'], as_index=False).mean()

Unnamed: 0,sex,pre_level,stat_score,math_score
0,Female,A,18.0,80.0
1,Female,B,92.0,55.0
2,Male,A,71.0,49.0
3,Male,B,63.0,76.0
4,Male,C,40.0,13.0


In [39]:
# describe() 메소드는 여러 종류의 특정한 통계량을 제공
df3.groupby('sex', as_index=False).describe()

Unnamed: 0_level_0,sex,stat_score,stat_score,stat_score,stat_score,stat_score,stat_score,stat_score,stat_score,math_score,math_score,math_score,math_score,math_score,math_score,math_score,math_score
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
0,Female,3.0,67.333333,43.293572,18.0,51.5,85.0,92.0,99.0,3.0,63.333333,36.018514,22.0,51.0,80.0,84.0,88.0
1,Male,3.0,58.0,16.093477,40.0,51.5,63.0,67.0,71.0,3.0,46.0,31.606961,13.0,31.0,49.0,62.5,76.0


- 통계 요약시 사용될 통계 메소드는 한 종류의 통계량이나 ```describe()``` 메소드는 여러 종류의 특정한 통계량들만 제공
- 동시에 원하는 여러 통게량만을 구하거나, 컬럼별로 상이한 통계량들만을 사용하고 싶을 경우 집계 메소드 ```agg()```을 사용하면 됨
- ```df.agg(func)```

<br>

#### 인사
- **func** : 데이터를 집계할 때 사용할 함수로, 함수명, 함수명을 담은 리스트, 딕셔너리(인덱스와 함수명을 담은 리스트를 포함) 등이 입력됨. 단 함수명 입력시 내장함수가 아닐 경우 ```.numpy.함수명```의 형태로 입력이 필요함

In [40]:
import numpy as np

In [43]:
# .agg (동시에 원하는 여러 통계량 도출)
idx=['stat_score', 'math_score', 'sex']
df3[idx].groupby('sex').agg( [np.mean, sum] )

Unnamed: 0_level_0,stat_score,stat_score,math_score,math_score
Unnamed: 0_level_1,mean,sum,mean,sum
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Female,67.333333,202,63.333333,190
Male,58.0,174,46.0,138


In [44]:
# 컬럼별로 상이한 통계량
df3[idx].groupby('sex', as_index=False).agg( {'stat_score':np.mean, 'math_score':sum} )

Unnamed: 0,sex,stat_score,math_score
0,Female,67.333333,190
1,Male,58.0,138


In [45]:
df3[idx].groupby('sex', as_index=False).agg( {'stat_score': [np.mean, np.median],
                                              'math_score': [sum, max]} )

Unnamed: 0_level_0,sex,stat_score,stat_score,math_score,math_score
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,sum,max
0,Female,67.333333,85.0,190,88
1,Male,58.0,63.0,138,76


#### 데이터에 함수 적용하기
- 전체 데이터에 대해 행 혹은 열별로 한 번에 함수를 적용할 수 있는 판다스의 함수
- 시리즈의 요소, 데이터프레임의 행, 열 요소마다 연산을 수행할 수 있으므로 빠르고 쉽게 데이터 요약을 수행하여 원하는 정보를 확인할 수 있음

<br>

#### 시리즈에 함수 적용하기
- 시리즈에 각 요소에 동일한 함수를 적용하고 싶을 경우, 시리즈의 메소드인 ```map()```을 이용하면 됨
- ```map()```은 원래 라벨 인코딩에만 사용하는 것이 아니라 딕셔너리로 정의한 내용을 통해 시리즈의 요소를 변경하는 것이 주요 기능

In [46]:
# 데이터프레임 생성
df3

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,s1,85,88,Female,B
1,s2,71,49,Male,A
2,s3,63,76,Male,B
3,s4,99,22,Female,B
4,s5,40,13,Male,C
5,s6,18,80,Female,A


In [48]:
# pre_level 컬럼 라벨 인코딩
df3['pre_level'].map( {'A':0, 'B':1, 'C':2} )

0    1
1    0
2    1
3    1
4    2
5    0
Name: pre_level, dtype: int64

In [49]:
# sex 칼럼 요소를 한글로 변경
df3['sex'].map( {'Female': '여자', 'Male':'남자'} )

0    여자
1    남자
2    남자
3    여자
4    남자
5    여자
Name: sex, dtype: object

- ```map()```은 사용자 정의 함수를 통해 메소드로 지원하지 않는 함수에 대해서 각 요소에 동일한 함수를 적용할 수 있음
- ```map()```은 시리즈만을 위한 메소드로 데이터프레임에는 사용이 되지 않음

In [51]:
# 시리즈에 사용자 정의 함수
def f(x):
    return x ** 2 + x*2 - 5000

In [52]:
df3['stat_score'].map(f)

0    2395
1     183
2    -905
3    4999
4   -3320
5   -4640
Name: stat_score, dtype: int64

#### 데이터프레임에 함수 적용하기
- 데이터프레임에 각 열/행에 함수 일괄 적용하기 위해서는 데이터프레임의 메소드인 ```apply()```를 사용하면 됨
- ```df.apply(func, axis=0)```

<br>

#### 인자
- **func** : 열/행에 적용할 함수
- **axis** : 0은 행(default)에, 1은 열에 함수 적용

In [53]:
# apply
df3[ ['stat_score', 'math_score'] ].apply(np.sum)

stat_score    376
math_score    328
dtype: int64

In [54]:
# apply 메소드 없이도 가능
df3[ ['stat_score', 'math_score'] ].sum()

stat_score    376
math_score    328
dtype: int64

In [55]:
df3[ ['stat_score', 'math_score'] ].sum(axis=1)

0    173
1    120
2    139
3    121
4     53
5     98
dtype: int64

- ```apply()``` 메소드의 ```func``` 인자는 위와 같이 넘파이 함수를 사용할 수 있으며, 이는 데이터프레임의 메소드로 바로 사용 가능
- 따라서 ```apply()```는 ```func``` 인자에 사용자 정의 함수를 통해 메소드로 지원하지 않는 함수에 대해서 행/열 요소마다 연산을 수행할 함수를 적용하는데 사용
- 그러나 ```map()```과 비교하여 ```apply()```의 사용자 정의 함수를 만드는 것은 단순하지 않음

## Part 02 데이터 핸들링 - 5장 결측치와 이상치
### 1절: 결측치

#### 결측치 인식
- 판다스는 시리즈와 데이터프레임에서 메소드 ```isnull()```과 ```isna()```를 제공함
- 이는 데이터 내의 결측값(NaN)의 여부를 판단하는 함수로 이를 통해 결측치(Missing Value)를 인식할 수 있음
- 결과는 데이터에서 결측인 값은 True, 아닌 요소는 False를 반환하고, 이를 메소드 ```sum()```을 통해 단순히 합하면 숫자 1과 0으로 인식해 결측치의 개수를 쉽게 파악할 수 있음

In [56]:
# 결측치가 포함되도록 df 생성
obj4 = {'student_id' : ['s1', 's2', 's3', 's4', 's5', 's6'],
        'stat_score' : [None, 71, 63, 99, 40, 18],
        'math_score' : [88, None, 76, None, None, 80],
        'sex' : ['Female', 'Male', 'Male', 'Female', None, 'Female'],
        'pre_level' : [None, 'A', 'B', 'B', 'C', None] }
df4 = pd.DataFrame(obj4)
df4

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,s1,,88.0,Female,
1,s2,71.0,,Male,A
2,s3,63.0,76.0,Male,B
3,s4,99.0,,Female,B
4,s5,40.0,,,C
5,s6,18.0,80.0,Female,


In [57]:
# isnull() 결측치 여부 확인
df4.isnull()

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,False,True,False,False,True
1,False,False,True,False,False
2,False,False,False,False,False
3,False,False,True,False,False
4,False,False,True,True,False
5,False,False,False,False,True


In [58]:
# isna() 결측치 여부 확인
df4.isna()

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,False,True,False,False,True
1,False,False,True,False,False
2,False,False,False,False,False
3,False,False,True,False,False
4,False,False,True,True,False
5,False,False,False,False,True


In [59]:
# 컬럼별 결측치 개수
df4.isnull().sum()

student_id    0
stat_score    1
math_score    3
sex           1
pre_level     2
dtype: int64

In [60]:
# 행별 결측치 개수
df4.isnull().sum(axis=1)

0    2
1    1
2    0
3    1
4    2
5    1
dtype: int64

#### 결측치 처리
- 데이터에 결측치가 존재할 때 결측치를 처리하기 위한 방법 중 하나는 **단순 대치법(Single Imputation)**

<br>

#### 분류
- **completes analysis** : 결측값이 존재하는 행을 삭제
- **평균 대치법** : 관측 또는 실험을 통해 얻어진 데이터의 평균으로 결측치를 대치
   - 비조건부 평균 대치법: 관측 데이터의 평균값으로 대치
   - 조건부 평균 대치법: 회귀분석을 활용한 대치법
- **단순확률 대치법** : 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
   - Hot-deck 방법
   - nearest neighbor 방법 등
   
<br>

#### 가. 결측치 제거
- 데이터에서 특정 행의 모든 컬럼 중 결측치가 하나라도 존재하는 경우, 해당 행을 제거한 후 데이터 분석을 진행하고자 할 때 결측치 제거를 수행함
- 데이터프레임의 ```dropna()``` 메소드를 통해 간단히 제거가 가능함

In [64]:
df4

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
0,s1,,88.0,Female,
1,s2,71.0,,Male,A
2,s3,63.0,76.0,Male,B
3,s4,99.0,,Female,B
4,s5,40.0,,,C
5,s6,18.0,80.0,Female,


In [61]:
# dropna
# 결측치가 있는 행을 모두 제거
df4.dropna()

Unnamed: 0,student_id,stat_score,math_score,sex,pre_level
2,s3,63.0,76.0,Male,B


In [62]:
# 열도 가능
df4.dropna(axis=1)

Unnamed: 0,student_id
0,s1
1,s2
2,s3
3,s4
4,s5
5,s6


- ```dropna()``` 메소드는 시리즈에서도 가능하기 때문에 하나 이상의 특정 행/열에 대해서만 결측치가 있는 경우, 모든 행/열을 제거하는 것도 가능

In [63]:
# stat_score 컬럼(시리즈)에서 결측인 요소 제거
df4['stat_score'].dropna()

1    71.0
2    63.0
3    99.0
4    40.0
5    18.0
Name: stat_score, dtype: float64

In [65]:
# 'stat_score'와 'math_score' 컬럼 중 결측치가 있는 모든 행 제거
df4[['stat_score', 'math_score']].dropna()

Unnamed: 0,stat_score,math_score
2,63.0,76.0
5,18.0,80.0


#### 나. 평균 대치법
- 결측치가 존재할 경우, 해당 변수 값들의 평균으로 빈값을 대치
- 데이터프레임의 ```fillna()``` 메소드를 통해 쉽게 적용할 수 있음
- ```fillna()``` 메소드는 본래 fillna(value)의 형태로 value에 원하는 숫자/시리즈/데이터프레임 등을 입력하여 결측값을 대치할 수 있음
- 따라서 value에 통계 메소드 ```mean()```의 결과인 시리즈를 통해 행/열별로 결측값을 대치할 수 있음

In [67]:
# 숫자형 컬럼만 추출
df5 = df4[['stat_score', 'math_score']].copy()
df5

Unnamed: 0,stat_score,math_score
0,,88.0
1,71.0,
2,63.0,76.0
3,99.0,
4,40.0,
5,18.0,80.0


In [68]:
# fillna : 결측치를 모두 0으로 대치
df5.fillna(0)

Unnamed: 0,stat_score,math_score
0,0.0,88.0
1,71.0,0.0
2,63.0,76.0
3,99.0,0.0
4,40.0,0.0
5,18.0,80.0


In [70]:
# 평균 대치 : 컬럼별 평균으로 대치
df5.fillna(df5.mean())

Unnamed: 0,stat_score,math_score
0,58.2,88.0
1,71.0,81.333333
2,63.0,76.0
3,99.0,81.333333
4,40.0,81.333333
5,18.0,80.0


### 2절: 이상치 (Outlier)
#### 이상치란
- 관측된 데이터의 범위에서 많이 벗어나있는 아주 작거나 아주 큰 값으로서 정상 범위 밖에 있는 값을 뜻함
- 이상치는 잘못 입력된 값일 수도 있으나 실제로 존재하는 값을 수도 있으며, 전체 데이터 분포에 큰 영향을 미침
- 이상치가 존재할 경우 분석 결과가 특정한 쪽으로 치우치거나 왜곡될 수 있음
- 따라서 데이터에서 이상치를 인식한 후, 이를 제외하고 분석을 할 지 혹은 포함하여 조정하여 분석을 할지 판단한 후 분석해야 함
- 일반적으로 이상치는 **사분위수**, **정규분포** 등을 활용해 판별

<br>

#### 이상치 인식과 제거
#### 가. 사분위수를 이용한 이상치 판별
- 사분위수는 일반적으로 **상자(수염) 그림(Box Plot)**을 통해서 시각화
- 상자 그림이란 데이터의 분포를 보여주며 숫자형 데이터의 제1사분위수, 제2사분위수(중위수), 제3사분위수, 사분위 범위(IQR), 이상치(Outlier)를 시각화한 그림

<br>

![상자그림](https://builtin.com/sites/www.builtin.com/files/styles/ckeditor_optimize/public/inline-images/1_boxplots.jpg)
- 상자의 시작 선은 제1사분위수(25%), 상자 중간선은 제2분위수(50%), 상자 끝 선은 제3사분위수(75%)를 나타냄
- 따라서 상자의 길이는 전체 데이터의 50%에 해당하는 사분위 범위(IQR = Q3 - Q1)를 시각적으로 나타냄
- 상자 밖으로 이어져 있는 선은 수염(whisker)이라고 하며, 수염의 시작 선(lower whisker)은 $Q1 - 1.5 * IQR$ 보다 큰 값 중에서 가장 작은 수이며, 수염의 마지막 선(upper whisker)은 $Q3 + 1.5 * IQR$ 보다 작은 값 중에서 가장 큰 수를 각각 의미함
- 수염의 각 양옆에 분포된 점들은 이상치(outlier)이며, **upper whisker보다 크거나 lower whisker보다 작은 값**들이 이에 해당
- 숫자들 중 특정 값이 ** $[중앙값-1.5 * IQR ~ 중앙값 + 1.5 * IQR]$ 범위에서 벗어나 있는 경우 이상치로 간주

<br>

#### 나. 이상치 제거
- 사분위수를 이용하여 한 컬럼에 대해 이상치를 판별하고 판별된 이상치가 있는 행을 제거

In [76]:
# 데이터프레임 생성
idx = ['sex', 'pre_level']
df6 = df3.drop(columns=idx, axis=1)

In [77]:
df6

Unnamed: 0,student_id,stat_score,math_score
0,s1,85,88
1,s2,71,49
2,s3,63,76
3,s4,99,22
4,s5,40,13
5,s6,18,80


In [79]:
# 'stat_score' 컬럼에 대해 이상치를 판별하고 제거
q1 = df6['stat_score'].quantile(0.25)    # 제1사분위수
q3 = df6['stat_score'].quantile(0.75)    # 제3사분위수
iqr = q3-q1                              # IQR
lower = q1 - 1.5 * iqr                   # lower whisker
upper = q3 + 1.5 * iqr                   # upper whisker

In [81]:
# 이상치 판별
# upper whisker보다 크거나 lower whisker보다 작은 값들
df6[( df6['stat_score'] < lower) | (df6['stat_score'] > upper) ]

Unnamed: 0,student_id,stat_score,math_score


In [83]:
# 이상치 제거
df6[ (df6['stat_score'] > lower) & (df6['stat_score'] < upper) ]

Unnamed: 0,student_id,stat_score,math_score
0,s1,85,88
1,s2,71,49
2,s3,63,76
3,s4,99,22
4,s5,40,13
5,s6,18,80


## Part 02 데이터 핸들링 - 6장 텍스트와 날짜시간 데이터
### 1절: 텍스트 데이터 다루기

#### 문자열 데이터 전처리
- 단순한 문자열의 경우 인덱싱이나 슬라이싱을 통해 쉽게 문자열을 다룰 수 있지만, **데이터프레임의 값에 들어가있는 문자열**은 시리즈의 **```str```** 메소드를 사용하여 문자열을 처라할 수 있음
- ```str```을 사용하면 인덱싱과 슬라이싱이 가능해지므로 간단한 위치기반의 추출은 **시리즈객체.str[]** 와 같은 형태를 통해 처리할 수 있음
- 이외의 문자열 처리는 ```str``` 의 여러 하위 메소드를 사용해야 함
- ```시리즈.str.하위메소드``` 와 같은 형태

<br>

- **startswith(pat)** : pat(문자열)로 시작한다면 True, 아니면 False 반환
- **endswith(pat)** : pat(문자열)로 끝난다면 True, 아니면 False 반환
- **contains(pat)** : pat(문자열 또는 정규식)이 포함되면 True, 아니면 False 반환
- **split(pat=None)** : pat을 기준으로 문자열을 분할, pat의 default 값은 None으로 공배긍ㄹ 기준으로 분할됨
- **find(sub, start=0, end=None)** : sub가 있는 위치를 start에서부터 end까지에서 찾아 위치값을 반환 (sub가 없을 경우 -1 반환)
- **rfind(sub, start=0, end=None)** : sub가 있는 위치를 start에서부터 end까지에서 찾아 위치값을 반환 (sub가 없을 경우 -1 반환)
- **findall(pat)** : 모든 pat(문자열 또는 정규식) 항목을 반환
- **replace(pat, repl)** : pat를 repl로 대치
- **strip(to_strip=None)** : 선행 및 후행 문자 제거, to_strip의 default 값은 None으로 공백 제거
- **Istrip(to_strip=None)** : 선행 문자를 제거, to_strip의 default 값은 None으로 공백 제거
- **rstrip(to_strip=None)** : 후행 문자를 제거, to_strip의 default 값은 None으로 공백 제거
- **lower()** : 모두 소문자로 변경
- **upper()** : 모두 대문자로 변경
- **swapcase()** : 소문자는 대문자로, 대문자는 소문자로 변경

In [84]:
import pandas as pd

In [86]:
# 데이터프레임 불러오기
# 인코딩 옵션(encoding='CP949')를 사용해 한글이 깨지는 것 방지
df1 = pd.read_csv('data/예제/University_text_after.csv', encoding='CP949')
df1

Unnamed: 0,대학이름,주소
0,서울대학교,서울특별시 관악구 관악로 1
1,KAIST,대전광역시 유성구 대학로 291
2,성균관대학교,서울특별시 종로구 성균관로 25-2
3,연세대학교,서울특별시 서대문구 연세로 50
4,UNIST,울산광역시 울주군 언양읍 유니스트길 50
5,포항공과대학교,경상북도 포항시 남구 청암로 77
6,고려대학교,서울특별시 성북구 안암로 145
7,경희대학교,서울특별시 동대문구 경희대로 26
8,세종대학교,서울특별시 광진구 능동로 209
9,한양대학교,서울특별시 성동구 왕십리로 222


In [87]:
# 시리즈.str[]
# 단순하게 인덱싱과 슬라이싱
df1['주소'].str[0:5]

0     서울특별시
1     대전광역시
2     서울특별시
3     서울특별시
4     울산광역시
5     경상북도 
6     서울특별시
7     서울특별시
8     서울특별시
9     서울특별시
10    광주광역시
11    경기도 수
12    서울특별시
13    서울특별시
14    서울특별시
15    대구광역시
16    울산광역시
17    부산광역시
18    경상북도 
19    서울특별시
Name: 주소, dtype: object

In [89]:
# str.startswith(pat)
# pat(문자열)로 시작하면 True, 아니면 False
df1['주소'].str.startswith("서울")

0      True
1     False
2      True
3      True
4     False
5     False
6      True
7      True
8      True
9      True
10    False
11    False
12     True
13     True
14     True
15    False
16    False
17    False
18    False
19     True
Name: 주소, dtype: bool

In [90]:
# 주소가 '서울'로 시작하는 데이터셋 추출
df1[df1['주소'].str.startswith("서울")]

Unnamed: 0,대학이름,주소
0,서울대학교,서울특별시 관악구 관악로 1
2,성균관대학교,서울특별시 종로구 성균관로 25-2
3,연세대학교,서울특별시 서대문구 연세로 50
6,고려대학교,서울특별시 성북구 안암로 145
7,경희대학교,서울특별시 동대문구 경희대로 26
8,세종대학교,서울특별시 광진구 능동로 209
9,한양대학교,서울특별시 성동구 왕십리로 222
12,중앙대학교,서울특별시 동작구 흑석로 84
13,이화여자대학교,서울특별시 서대문구 이화여대길 52
14,건국대학교,서울특별시 광진구 능동로 120


In [92]:
# 주소가 '서울'로 시작하지 않는 데이터셋 추출
df1[~df1['주소'].str.startswith("서울")]

Unnamed: 0,대학이름,주소
1,KAIST,대전광역시 유성구 대학로 291
4,UNIST,울산광역시 울주군 언양읍 유니스트길 50
5,포항공과대학교,경상북도 포항시 남구 청암로 77
10,GIST,광주광역시 북구 첨단과기로 123
11,아주대학교,경기도 수원시 영통구 월드컵로 206
15,경북대학교,대구광역시 북구 대학로 80
16,울산대학교,울산광역시 남구 대학로 93
17,부산대학교,부산광역시 금정구 부산대학로63번길 2
18,영남대학교,경상북도 경산시 대학로 280


In [93]:
# str.endswith(pat)
# pat(문자열)로 끝난다면 True, 아니면 False
df1['대학이름'].str.endswith("대학교")

0      True
1     False
2      True
3      True
4     False
5      True
6      True
7      True
8      True
9      True
10    False
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
Name: 대학이름, dtype: bool

In [94]:
# 대학 이름이 '대학교'로 끝나는 데이터셋 추출
df1[df1['대학이름'].str.endswith('대학교')]

Unnamed: 0,대학이름,주소
0,서울대학교,서울특별시 관악구 관악로 1
2,성균관대학교,서울특별시 종로구 성균관로 25-2
3,연세대학교,서울특별시 서대문구 연세로 50
5,포항공과대학교,경상북도 포항시 남구 청암로 77
6,고려대학교,서울특별시 성북구 안암로 145
7,경희대학교,서울특별시 동대문구 경희대로 26
8,세종대학교,서울특별시 광진구 능동로 209
9,한양대학교,서울특별시 성동구 왕십리로 222
11,아주대학교,경기도 수원시 영통구 월드컵로 206
12,중앙대학교,서울특별시 동작구 흑석로 84


In [95]:
# 대학 이름이 '대학교'로 끝나지 않는 데이터셋 추출
df1[~df1['대학이름'].str.endswith('대학교')]

Unnamed: 0,대학이름,주소
1,KAIST,대전광역시 유성구 대학로 291
4,UNIST,울산광역시 울주군 언양읍 유니스트길 50
10,GIST,광주광역시 북구 첨단과기로 123


In [96]:
# str.contains(pat)
# pat(문자열 또는 정규식)이 포함되면 True, 아니면 False
df1['주소'].str.contains('광역시')

0     False
1      True
2     False
3     False
4      True
5     False
6     False
7     False
8     False
9     False
10     True
11    False
12    False
13    False
14    False
15     True
16     True
17     True
18    False
19    False
Name: 주소, dtype: bool

In [97]:
# 주소에 '광역시'를 포함하는 데이터셋 추출
df1[df1['주소'].str.contains('광역시')]

Unnamed: 0,대학이름,주소
1,KAIST,대전광역시 유성구 대학로 291
4,UNIST,울산광역시 울주군 언양읍 유니스트길 50
10,GIST,광주광역시 북구 첨단과기로 123
15,경북대학교,대구광역시 북구 대학로 80
16,울산대학교,울산광역시 남구 대학로 93
17,부산대학교,부산광역시 금정구 부산대학로63번길 2


In [98]:
# str.split(pat=None)
# pat을 기준으로 문자열을 분할
df1['주소'].str.split()           # 공백을 기준으로 분리

0             [서울특별시, 관악구, 관악로, 1]
1           [대전광역시, 유성구, 대학로, 291]
2         [서울특별시, 종로구, 성균관로, 25-2]
3           [서울특별시, 서대문구, 연세로, 50]
4     [울산광역시, 울주군, 언양읍, 유니스트길, 50]
5         [경상북도, 포항시, 남구, 청암로, 77]
6           [서울특별시, 성북구, 안암로, 145]
7          [서울특별시, 동대문구, 경희대로, 26]
8           [서울특별시, 광진구, 능동로, 209]
9          [서울특별시, 성동구, 왕십리로, 222]
10         [광주광역시, 북구, 첨단과기로, 123]
11      [경기도, 수원시, 영통구, 월드컵로, 206]
12           [서울특별시, 동작구, 흑석로, 84]
13        [서울특별시, 서대문구, 이화여대길, 52]
14          [서울특별시, 광진구, 능동로, 120]
15            [대구광역시, 북구, 대학로, 80]
16            [울산광역시, 남구, 대학로, 93]
17      [부산광역시, 금정구, 부산대학로63번길, 2]
18           [경상북도, 경산시, 대학로, 280]
19      [서울특별시, 종로구, 창경궁로, 296-12]
Name: 주소, dtype: object

In [99]:
# str.find(sub, start=0, end=None)
# sub가 있는 위치를 start에서부터 end까지에서 찾아 위치값을 반환
df1['주소'].str.find('구')

0      8
1      8
2      8
3      9
4     -1
5     10
6      8
7      9
8      8
9      8
10     7
11    10
12     8
13     9
14     8
15     1
16     7
17     8
18    -1
19     8
Name: 주소, dtype: int64

In [100]:
# str.rfind(sub, start=0, end=None)
# sub가 있는 위치를 start에서부터 end까지에서 찾아 가장 높은 위치값을 반환
df1['주소'].str.rfind(sub=' ')   # 가장 뒤에 있는 공백 위치

0     13
1     13
2     14
3     14
4     19
5     15
6     13
7     15
8     13
9     14
10    14
11    16
12    13
13    16
14    13
15    12
16    12
17    19
18    12
19    14
Name: 주소, dtype: int64

In [101]:
# str.findall(pat)
# 모든 pat(문자열 또는 정규식) 항목 반환
df1['주소'].str.findall('\w+구')      # 구로 끝나는 단어들을 모두 반환

0        [관악구]
1        [유성구]
2        [종로구]
3       [서대문구]
4           []
5         [남구]
6        [성북구]
7       [동대문구]
8        [광진구]
9        [성동구]
10        [북구]
11       [영통구]
12       [동작구]
13      [서대문구]
14       [광진구]
15    [대구, 북구]
16        [남구]
17       [금정구]
18          []
19       [종로구]
Name: 주소, dtype: object

In [103]:
# str.replace(pat.repl)
# pat을 repl로 대치
df1['주소'].str.replace(" ", "_")  # 공백을 _로 대치

0            서울특별시_관악구_관악로_1
1          대전광역시_유성구_대학로_291
2        서울특별시_종로구_성균관로_25-2
3          서울특별시_서대문구_연세로_50
4     울산광역시_울주군_언양읍_유니스트길_50
5         경상북도_포항시_남구_청암로_77
6          서울특별시_성북구_안암로_145
7         서울특별시_동대문구_경희대로_26
8          서울특별시_광진구_능동로_209
9         서울특별시_성동구_왕십리로_222
10        광주광역시_북구_첨단과기로_123
11      경기도_수원시_영통구_월드컵로_206
12          서울특별시_동작구_흑석로_84
13       서울특별시_서대문구_이화여대길_52
14         서울특별시_광진구_능동로_120
15           대구광역시_북구_대학로_80
16           울산광역시_남구_대학로_93
17     부산광역시_금정구_부산대학로63번길_2
18          경상북도_경산시_대학로_280
19     서울특별시_종로구_창경궁로_296-12
Name: 주소, dtype: object

In [105]:
# 데이터프레임 불러오기
df2 = pd.read_csv('data/예제/University_text_before.csv', encoding='CP949')
df2

Unnamed: 0,대학이름,주소
0,서울대학교,/!서울특별시 관악구 관악로 1
1,KAIST,대전광역시 유성구 대학로 291 ##
2,성균관대학교,서울특별시 종로구 성균관로 25-2
3,연세대학교,서울특별시 서대문구 연세로 50
4,UNIST,## 울산광역시 울주군 언양읍 유니스트길 50 %
5,포항공과대학교,경상북도 포항시 남구 청암로 77
6,고려대학교,서울특별시 성북구 안암로 145
7,경희대학교,서울특별시 동대문구 경희대로 26
8,세종대학교,^!서울특별시 광진구 능동로 209
9,한양대학교,서울특별시 성동구 왕십리로 222


In [107]:
# str.strip(to_strip=None)
# 선행 및 후행 문자 제거
df2['주소'].str.strip(to_strip='_^!#? /%')

0            서울특별시 관악구 관악로 1
1          대전광역시 유성구 대학로 291
2        서울특별시 종로구 성균관로 25-2
3          서울특별시 서대문구 연세로 50
4     울산광역시 울주군 언양읍 유니스트길 50
5         경상북도 포항시 남구 청암로 77
6          서울특별시 성북구 안암로 145
7         서울특별시 동대문구 경희대로 26
8          서울특별시 광진구 능동로 209
9         서울특별시 성동구 왕십리로 222
10        광주광역시 북구 첨단과기로 123
11      경기도 수원시 영통구 월드컵로 206
12          서울특별시 동작구 흑석로 84
13       서울특별시 서대문구 이화여대길 52
14         서울특별시 광진구 능동로 120
15           대구광역시 북구 대학로 80
16           울산광역시 남구 대학로 93
17     부산광역시 금정구 부산대학로63번길 2
18          경상북도 경산시 대학로 280
19     서울특별시 종로구 창경궁로 296-12
Name: 주소, dtype: object

In [108]:
# str.lstrip(to_strip=None)
# 선행 문자 제거
df2['주소'].str.lstrip(to_strip='_^!#? /%')

0                    서울특별시 관악구 관악로 1
1               대전광역시 유성구 대학로 291 ##
2                서울특별시 종로구 성균관로 25-2
3                  서울특별시 서대문구 연세로 50
4           울산광역시 울주군 언양읍 유니스트길 50 %
5                 경상북도 포항시 남구 청암로 77
6                  서울특별시 성북구 안암로 145
7                 서울특별시 동대문구 경희대로 26
8                  서울특별시 광진구 능동로 209
9                 서울특별시 성동구 왕십리로 222
10                광주광역시 북구 첨단과기로 123
11              경기도 수원시 영통구 월드컵로 206
12    서울특별시 동작구 흑석로 84              
13               서울특별시 서대문구 이화여대길 52
14                 서울특별시 광진구 능동로 120
15        대구광역시 북구 대학로 80           
16                울산광역시 남구 대학로 93___
17             부산광역시 금정구 부산대학로63번길 2
18                  경상북도 경산시 대학로 280
19             서울특별시 종로구 창경궁로 296-12
Name: 주소, dtype: object

In [109]:
# str.rstrip(to_strip=None)
# 후행 문자 제거
df2['주소'].str.rstrip(to_strip ='_^!#? /%')

0                      /!서울특별시 관악구 관악로 1
1                      대전광역시 유성구 대학로 291
2                    서울특별시 종로구 성균관로 25-2
3                      서울특별시 서대문구 연세로 50
4              ## 울산광역시 울주군 언양읍 유니스트길 50
5                     경상북도 포항시 남구 청암로 77
6                      서울특별시 성북구 안암로 145
7                     서울특별시 동대문구 경희대로 26
8                    ^!서울특별시 광진구 능동로 209
9                     서울특별시 성동구 왕십리로 222
10                    광주광역시 북구 첨단과기로 123
11                  경기도 수원시 영통구 월드컵로 206
12                      서울특별시 동작구 흑석로 84
13         __________서울특별시 서대문구 이화여대길 52
14                     서울특별시 광진구 능동로 120
15                       대구광역시 북구 대학로 80
16                       울산광역시 남구 대학로 93
17                 부산광역시 금정구 부산대학로63번길 2
18                      경상북도 경산시 대학로 280
19                 서울특별시 종로구 창경궁로 296-12
Name: 주소, dtype: object

In [110]:
# 대소문자 변경
# .str.lower() : 모두 소문자로 변경
# .str.upper() : 모두 대문자로 변경
# .str.swapcase() : 소문자는 대문자로, 대문자는 소문자로 변경

### 2절 : 날짜시간 데이터 다루기
#### 데이터 타입
- 날짜 데이터는 파이썬(pandas 포함)에서 datetime형을 가짐
- datetime 형은 날짜와 시간에 대한 문자열로, 데이터에서 문자형인 object형으로 인식되는 경우가 많으므로 변환이 필요함
- datetime형으로 변환하는 방법은 Pandas에서 제공하는 ```to_datetime()``` 등이 있음
- 함수 ```to_datetime()```은 날짜를 나타내는 문자열을 정해진 format을 바탕으로 datetime 형으로 변환하는 역할을 수행함
- ```pandas.to_datetime(arg, format=None, ...)```

<br>

#### 인자
- **arg** : 날짜와 시간에 대한 문자열
- **format** : arg의 형태가 어떤 포맷으로 구성되었는지 구문 분석, default 값은 None으로 자동으로 생성 (e.g. '06/29/2022'의 형태는 format='%d/%m/%Y으로 구문 분석

In [111]:
# 데이터프레임 불러오기
df3 = pd.read_csv('data/예제/University_date.csv', encoding='CP949')
df3

Unnamed: 0,대학이름,창립일
0,서울대학교,1946-10-15
1,KAIST,1971-02-16
2,UNIST,2007-09-03
3,포항공과대학교,1986-12-03
4,고려대학교,1905-05-05
5,GIST,1993-11-17
6,건국대학교,1946-05-15
7,울산대학교,1969-12-24
8,부산대학교,1946-05-15


In [112]:
# 날짜 형태인 문자열
df3['창립일']

0    1946-10-15
1    1971-02-16
2    2007-09-03
3    1986-12-03
4    1905-05-05
5    1993-11-17
6    1946-05-15
7    1969-12-24
8    1946-05-15
Name: 창립일, dtype: object

In [113]:
# pandas.to_datetime()
# 문자열 -> datetime형
pd.to_datetime(df3['창립일'])

0   1946-10-15
1   1971-02-16
2   2007-09-03
3   1986-12-03
4   1905-05-05
5   1993-11-17
6   1946-05-15
7   1969-12-24
8   1946-05-15
Name: 창립일, dtype: datetime64[ns]

In [114]:
# 문자열 -> datetime형
pd.to_datetime(df3['창립일'], format='%Y-%m-%d')

0   1946-10-15
1   1971-02-16
2   2007-09-03
3   1986-12-03
4   1905-05-05
5   1993-11-17
6   1946-05-15
7   1969-12-24
8   1946-05-15
Name: 창립일, dtype: datetime64[ns]

In [120]:
# 기존 창립일 열을 datetime형으로 변환
df3['창립일'] = pd.to_datetime(df3['창립일'])
df3.dtypes

대학이름            object
창립일     datetime64[ns]
dtype: object

- datetime형을 특정 주기(연, 월, 일, ...)을 가지는 시계열(날짜 시퀀스)을 생성하기를 원할 경우 다음과 같은 판다스 함수 **date_range()를 이용하면 쉽게 생성 가능**함
- 생성된 시계열은 DateTimeIndex 객체가 되기 때문에 확인을 원할 경우 다른 데이터형으로 변환해야 함

<br>

- ```pandas.date_range(start, end=None, periods=None, freq='D', ...)```

<br>

#### 인자
- **start** : 시계열의 처음 날짜와 시간
- **end** : 시계열의 마지막 날짜와 시간
- **periods** : 생성할 주기의 수
- **freq** : 주기를 생성할 기준(단위). default -= 'D'로 일(day)의 단위로 생성

In [121]:
# 시계열 생성
# 2000년 1월 1일부터 2000년 1월 10일까지 1일 단위로 생성
pd.date_range("2000-01-01", "2000-01-10")

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04',
               '2000-01-05', '2000-01-06', '2000-01-07', '2000-01-08',
               '2000-01-09', '2000-01-10'],
              dtype='datetime64[ns]', freq='D')

In [123]:
# 2000년 1월 1일부터 1일씩 증가 (3번 반복)
pd.date_range("2000-01-01", periods = 3)        # default는 day

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03'], dtype='datetime64[ns]', freq='D')

In [124]:
# 2000년 1월부터 1달씩 증가 (5번 반복)
# 각 달의 마지막 날짜가 반환됨
pd.date_range("2000-01-01", periods=5, freq='m')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-30',
               '2000-05-31'],
              dtype='datetime64[ns]', freq='M')

#### datetime형의 지원 시간 단위
- datetime형은 입력 데이터 기반으로 자동으로 적용되는 단위에도 많은 시간 단위를 지원함
- 일반적으로 많이 사용되는 연/월/주/일/시간/분/초의 코드는 반드시 숙지해야 함
- 참고) timedelta형도 동일한 단위를 지원하며, timedelta형은 datetime형 간의 차이를 의미하는 단위

<br>

1. **Y** : 연 (year)
2. **M** : 월 (month)
3. **W** : 주 (week)
4. **D** : 일 (day)
5. **h** : 시간 (hour)
6. **m** : 분 (minute)
7. **s** : 초 (second)
8. **ms** : 밀리초 (milli second)
9. **us/μs** : 마이크로초 (micro second)
10. **ns** : 나노 초 (nano second)
11. **ps** : 피코 초 (pico second)
12. **fs** : 펨토 초 (femto second)
13. **as** : 아토 초 (atto second)

#### 데이터 전처리
- datetime형인 시리즈의 **메소드 dt**를 사용하여 여러가지 **날짜와 시간에 대한 정보를 확인**할 수 있음
- 메소드 dt 또한 여러 하위 메소드를 가짐
- ```시리즈.dt.하위메소드```

<br>

1. **date** : 날짜정보 (연월일) (e.g. '2022-02-02')
2. **year** : 연도 (e.g. 2022)
3. **month** : 월 (e.g. 5)
4. **month_name()** : 월이름 (e.g. 'June')
5. **day** : 일 (day)
6. **weekday** : 요일번호 (월요일:0 ~ 일요일:6) (e.g. 2)
7. **day_name()** : 요일이름 (e.g. 'Wednesday')
8. **quarter** : 분기 (e.g. 2)
9. **weekofyear** : 연도기준 주 (e.g. 22)     -> 더이상 사용되지 않는 함수 **dt.isocalendar().week** 로 변경
10. **dayofyear** : 연도기준 일 (e.g. 323)
11. **daysinmonth** : 해당 월의 총 일수 (e.g. 30)
12. **time** : 시간정보(시분초) (e.g. 14:24:30)
13. **hour** : 시 (e.g. 13)
14. **minute** : 분 (e.g. 55)
15. **second** : 초 (e.g. 30)

In [126]:
# 데이터프레임을 불러와 기존의 창립일 열을 datetime형으로 변환
df3['창립일'] = pd.to_datetime(df3['창립일'])
df3.dtypes

대학이름            object
창립일     datetime64[ns]
dtype: object

In [127]:
# 메소드 dt의 하위 메소드를 통한 날짜와 시간에 대한 정보 확인
# dt.date : 날짜정보 (연월일)
df3['창립일'].dt.date

0    1946-10-15
1    1971-02-16
2    2007-09-03
3    1986-12-03
4    1905-05-05
5    1993-11-17
6    1946-05-15
7    1969-12-24
8    1946-05-15
Name: 창립일, dtype: object

In [128]:
# dt.year (연도)
df3['창립일'].dt.year

0    1946
1    1971
2    2007
3    1986
4    1905
5    1993
6    1946
7    1969
8    1946
Name: 창립일, dtype: int32

In [129]:
# dt.month (월)
df3['창립일'].dt.month

0    10
1     2
2     9
3    12
4     5
5    11
6     5
7    12
8     5
Name: 창립일, dtype: int32

In [131]:
# dt.month_name (월이름)
df3['창립일'].dt.month_name()

0      October
1     February
2    September
3     December
4          May
5     November
6          May
7     December
8          May
Name: 창립일, dtype: object

In [133]:
# dt.day (일)
df3['창립일'].dt.day

0    15
1    16
2     3
3     3
4     5
5    17
6    15
7    24
8    15
Name: 창립일, dtype: int32

In [134]:
# dt.weekday (요일번호)
df3['창립일'].dt.weekday

0    1
1    1
2    0
3    2
4    4
5    2
6    2
7    2
8    2
Name: 창립일, dtype: int32

In [135]:
# dt.day_name() (요일 이름)
df3['창립일'].dt.day_name()

0      Tuesday
1      Tuesday
2       Monday
3    Wednesday
4       Friday
5    Wednesday
6    Wednesday
7    Wednesday
8    Wednesday
Name: 창립일, dtype: object

In [137]:
# dt.quarter (분기)
df3['창립일'].dt.quarter

0    4
1    1
2    3
3    4
4    2
5    4
6    2
7    4
8    2
Name: 창립일, dtype: int32

In [141]:
# weekofyear (연도기준 주)
df3['창립일'].dt.weekofyear()          #  이 함수는 더이상 사용되지 않음

AttributeError: 'DatetimeProperties' object has no attribute 'weekofyear'

In [142]:
# weekofyear (연도기준 주)
df3['창립일'].dt.isocalendar().week

0    42
1     7
2    36
3    49
4    18
5    46
6    20
7    52
8    20
Name: week, dtype: UInt32

In [143]:
# dayofyear (연도기준 일)
df3['창립일'].dt.dayofyear

0    288
1     47
2    246
3    337
4    125
5    321
6    135
7    358
8    135
Name: 창립일, dtype: int32

In [144]:
# daysinmonth (해당 월의 총 일수)
df3['창립일'].dt.daysinmonth

0    31
1    28
2    30
3    31
4    31
5    30
6    31
7    31
8    31
Name: 창립일, dtype: int32

In [145]:
# 2022-06-01 16:00:30부터 1초씩 증가(10번 반복)하는 시계열 생성
sr = pd.Series(pd.date_range("2022-06-01 16:00:30", periods=5, freq='s'))
sr

0   2022-06-01 16:00:30
1   2022-06-01 16:00:31
2   2022-06-01 16:00:32
3   2022-06-01 16:00:33
4   2022-06-01 16:00:34
dtype: datetime64[ns]

In [146]:
# dt.time (시간정보(시분초))
sr.dt.time

0    16:00:30
1    16:00:31
2    16:00:32
3    16:00:33
4    16:00:34
dtype: object

In [148]:
# dt.hour (시)
sr.dt.hour

0    16
1    16
2    16
3    16
4    16
dtype: int32

In [149]:
# dt.minute (분)
sr.dt.minute

0    0
1    0
2    0
3    0
4    0
dtype: int32

In [151]:
# dt.second (초)
sr.dt.second

0    30
1    31
2    32
3    33
4    34
dtype: int32