# 문자열 메서드

In [2]:
import pandas as pd

monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam', 'Eric Idle', 'Terry Johes', 'Michael Palin'])

# 소문자 반환
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry johes
5     michael palin
dtype: object

In [3]:
# 글자 수 반환
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [4]:
# 띄어쓰기 기준으로 나누어 리스트로 반환
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Johes]
5     [Michael, Palin]
dtype: object

In [5]:
# 각 요소의 시작 문자와 붙어 있는 그룹을 요청해 각 요소로부터 이름 부분을 추출
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


In [6]:
# 문자열 시작(^)과 문자열 끝($)을 사용해 자음으로 시작하고 끝나는 모든 이름을 찾음
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Johes]
5     [Michael Palin]
dtype: object

In [9]:
full_monte = pd.DataFrame({'name' : monte, 'info' : ['B|C|D', 'B|D', 'A|C', 'B|D', 'B|C', 'B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Johes,B|C
5,Michael Palin,B|C|D


In [10]:
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


# 시계열 다루기
- time_stamp : 특정 시점
- 시간 간격과 기간은 특정 시작점과 종료점 사이의 시간의 길이를 의미
- 시간 델타(time delta)나 지속 기간(duration)은 정확한 시간 길이를 의미

In [13]:
# 정규 날짜 시퀀스, 기본적으로 날짜 주기는 하루로 설정
pd.date_range('2021-01-01', '2021-01-20')

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10', '2021-01-11', '2021-01-12',
               '2021-01-13', '2021-01-14', '2021-01-15', '2021-01-16',
               '2021-01-17', '2021-01-18', '2021-01-19', '2021-01-20'],
              dtype='datetime64[ns]', freq='D')

In [14]:
# 시간단위의 타임 스탬프 범위
pd.date_range('2021-01-01', '2021-01-02', freq='H')

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-01 01:00:00',
               '2021-01-01 02:00:00', '2021-01-01 03:00:00',
               '2021-01-01 04:00:00', '2021-01-01 05:00:00',
               '2021-01-01 06:00:00', '2021-01-01 07:00:00',
               '2021-01-01 08:00:00', '2021-01-01 09:00:00',
               '2021-01-01 10:00:00', '2021-01-01 11:00:00',
               '2021-01-01 12:00:00', '2021-01-01 13:00:00',
               '2021-01-01 14:00:00', '2021-01-01 15:00:00',
               '2021-01-01 16:00:00', '2021-01-01 17:00:00',
               '2021-01-01 18:00:00', '2021-01-01 19:00:00',
               '2021-01-01 20:00:00', '2021-01-01 21:00:00',
               '2021-01-01 22:00:00', '2021-01-01 23:00:00',
               '2021-01-02 00:00:00'],
              dtype='datetime64[ns]', freq='H')

In [17]:
# 기간 정규 시퀀스 / 월 단위 기간
pd.period_range('2021-01', '2021-05', freq='M')

PeriodIndex(['2021-01', '2021-02', '2021-03', '2021-04', '2021-05'], dtype='period[M]', freq='M')

In [21]:
# 시간 단위로 증가하는 기간의 시퀀스를 생성
pd.timedelta_range(0, periods=25, freq='H')

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00', '0 days 10:00:00', '0 days 11:00:00',
                '0 days 12:00:00', '0 days 13:00:00', '0 days 14:00:00',
                '0 days 15:00:00', '0 days 16:00:00', '0 days 17:00:00',
                '0 days 18:00:00', '0 days 19:00:00', '0 days 20:00:00',
                '0 days 21:00:00', '0 days 22:00:00', '0 days 23:00:00',
                '1 days 00:00:00'],
               dtype='timedelta64[ns]', freq='H')

# Pandas 주기 코드

|코드|설명|코드|설명|
|--|--|--|--|
|D|달력상 일|T|분|
|W|주|S|초|
|M|월말|L|밀리초|
|Q|분기말|U|마이크로초|
|A|연말|N|나노초|
|H|시간|||

In [28]:
# 구글 종가 데이터
from pandas_datareader import data

goog = data.DataReader('GOOG',start='2004', end='2016', data_source='yahoo')
goog.head()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2004-08-19,51.835709,47.800831,49.81329,49.982655,44871361.0,49.982655
2004-08-20,54.336334,50.062355,50.316402,53.95277,22942874.0,53.95277
2004-08-23,56.528118,54.321388,55.168217,54.495735,18342897.0,54.495735
2004-08-24,55.591629,51.591621,55.4123,52.239197,15319808.0,52.239197
2004-08-25,53.798351,51.746044,52.284027,52.802086,9232276.0,52.802086


In [29]:
goog = goog['Close']

In [30]:
%matplotlib
import matplotlib.pyplot as plt
import seaborn; seaborn.set()

goog.plot();

Using matplotlib backend: agg


## 리샘플링 및 주기 변경
- resample() : 데이터를 집계 
- asfreq() : 데이터를 선택

In [31]:
# 다운 샘플링_ 영업일 기준 연말 데이터를 리샘플링함
goog.plot(alpha=0.5, style='-')
goog.resample('BA').mean().plot(style=':')
goog.asfreq('BA').plot(style='--');
plt.legend(['input', 'resample', 'asfreq'], loc='upper left');

# resample은 전년도 평균을 / asfreq는 연말 주가를 보여줌

In [32]:
# 영업일 데이터를 일별 주기로 리샘플링함
flg, ax = plt.subplots(2, sharex=True)
data = goog.iloc[:10]

data.asfreq('D').plot(ax=ax[0], marker='o')

data.asfreq('D', method='bfill').plot(ax=ax[1], style='-o')
data.asfreq('D', method='ffill').plot(ax=ax[1], style='--o')
ax[1].legend(["back-fill", "forward-fill"])

# 영업일이 아닌 날은 NA값으로 두기 때문에 그래프 상 표시X
# 순방향 채우기 / 역방향 채우기

<matplotlib.legend.Legend at 0x7fed4000fef0>

## 시간 이동(Time-shift)
- shift() : 데이터를 이동
- tshift() : 인덱스를 이동

In [35]:
# 이동된 값을 이용해 구글 주가의 연간 투자 대비 효과를 계산
ROI = 100 * (goog.tshift(-365) / goog - 1)
ROI.plot()
plt.ylabel('% Return on Investment');

  


ValueError: ignored

In [37]:
# 롤링 윈도우(rolling windows)
rolling = goog.rolling(365, center=True)

data = pd.DataFrame({'input' : goog, 'one-year rolling_mean' : rolling.mean(). 'one-year rolling_std' : rolling.std()})
ax = data.plot(style=['-','--',':'])
ax.lines[0].set_alpha(0,3)

SyntaxError: ignored