# 3장 데이터 분석 시작

- 새로운 데이터셋을 처음으로 조사할 때 수행해야 할 과제들

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

## 1. 데이터 분석 루틴 개발

- 데이터 분석에 대한 표준적인 방식은 없지만 대개 데이터셋을 처음 관찰할 때 수행할 일련의 루틴을 개발해두는 것이 좋다.
- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 형식화된 통계 검정 절차를 사용하지 않고 데이터를 분석하는 모든 절차를 통칭해 부르는 용어다.
- EDA의 많은 부분은 데이터의 흥미로운 패턴이나 가설을 찾아내기 위해 데이터 간의 서로 다른 여러 관계를 시각화하는 과정이 동원된다.

- 메타 데이터는 데이터셋을 설명하는 데이터로 데이터의 데이터다.
- column/row의 개수, 각 column의 데이터 형식, 데이터셋의 소스, 수집일 등이 모두 메타 데이터가 될 수 있다.

### 1. 데이터셋을 읽은 후 head 메서드를 사용해 처음 다섯 줄을 살펴본다.

In [64]:
college = pd.read_csv('../data/college.csv')

In [65]:
college.head()

Unnamed: 0,INSTNM,CITY,STABBR,HBCU,MENONLY,WOMENONLY,RELAFFIL,SATVRMID,SATMTMID,DISTANCEONLY,...,UGDS_2MOR,UGDS_NRA,UGDS_UNKN,PPTUG_EF,CURROPER,PCTPELL,PCTFLOAN,UG25ABV,MD_EARN_WNE_P10,GRAD_DEBT_MDN_SUPP
0,Alabama A & M University,Normal,AL,1.0,0.0,0.0,0,424.0,420.0,0.0,...,0.0,0.0059,0.0138,0.0656,1,0.7356,0.8284,0.1049,30300,33888.0
1,University of Alabama at Birmingham,Birmingham,AL,0.0,0.0,0.0,0,570.0,565.0,0.0,...,0.0368,0.0179,0.01,0.2607,1,0.346,0.5214,0.2422,39700,21941.5
2,Amridge University,Montgomery,AL,0.0,0.0,0.0,1,,,1.0,...,0.0,0.0,0.2715,0.4536,1,0.6801,0.7795,0.854,40100,23370.0
3,University of Alabama in Huntsville,Huntsville,AL,0.0,0.0,0.0,0,595.0,590.0,0.0,...,0.0172,0.0332,0.035,0.2146,1,0.3072,0.4596,0.264,45500,24097.0
4,Alabama State University,Montgomery,AL,1.0,0.0,0.0,0,425.0,430.0,0.0,...,0.0098,0.0243,0.0137,0.0892,1,0.7347,0.7554,0.127,26600,33118.5


### 2. shape attribute를 사용하여 DataFrame의 모양을 확인한다.

In [66]:
college.shape

(7535, 27)

### 3. info() 메서드를 사용하여 각 column의 data type, 누락값 개수, 메모리 사용량 등을 확인한다.

In [67]:
college.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7535 entries, 0 to 7534
Data columns (total 27 columns):
INSTNM                7535 non-null object
CITY                  7535 non-null object
STABBR                7535 non-null object
HBCU                  7164 non-null float64
MENONLY               7164 non-null float64
WOMENONLY             7164 non-null float64
RELAFFIL              7535 non-null int64
SATVRMID              1185 non-null float64
SATMTMID              1196 non-null float64
DISTANCEONLY          7164 non-null float64
UGDS                  6874 non-null float64
UGDS_WHITE            6874 non-null float64
UGDS_BLACK            6874 non-null float64
UGDS_HISP             6874 non-null float64
UGDS_ASIAN            6874 non-null float64
UGDS_AIAN             6874 non-null float64
UGDS_NHPI             6874 non-null float64
UGDS_2MOR             6874 non-null float64
UGDS_NRA              6874 non-null float64
UGDS_UNKN             6874 non-null float64
PPTUG_EF          

### 4. 수치 column의 요약 통계량을 구한 후, 가독성을 위해 transpose 시킨다.

In [68]:
college.describe(include=[np.number]).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
HBCU,7164.0,0.014238,0.118478,0.0,0.0,0.0,0.0,1.0
MENONLY,7164.0,0.009213,0.095546,0.0,0.0,0.0,0.0,1.0
WOMENONLY,7164.0,0.005304,0.072642,0.0,0.0,0.0,0.0,1.0
RELAFFIL,7535.0,0.190975,0.393096,0.0,0.0,0.0,0.0,1.0
SATVRMID,1185.0,522.819409,68.578862,290.0,475.0,510.0,555.0,765.0
SATMTMID,1196.0,530.76505,73.469767,310.0,482.0,520.0,565.0,785.0
DISTANCEONLY,7164.0,0.005583,0.074519,0.0,0.0,0.0,0.0,1.0
UGDS,6874.0,2356.83794,5474.275871,0.0,117.0,412.5,1929.5,151558.0
UGDS_WHITE,6874.0,0.510207,0.286958,0.0,0.2675,0.5557,0.747875,1.0
UGDS_BLACK,6874.0,0.189997,0.224587,0.0,0.036125,0.10005,0.2577,1.0


### 5. object와 category column에 대한 요약 통계량을 구한다.

In [69]:
college.describe(include=[np.object])

Unnamed: 0,INSTNM,CITY,STABBR,MD_EARN_WNE_P10,GRAD_DEBT_MDN_SUPP
count,7535,7535,7535,6413,7503
unique,7535,2514,59,598,2038
top,Miami University-Oxford,New York,CA,PrivacySuppressed,PrivacySuppressed
freq,1,87,773,822,1510


In [70]:
# college.describe(include=[pd.Categorical])

In [71]:
college.describe(include=[np.object, pd.Categorical]).T

Unnamed: 0,count,unique,top,freq
INSTNM,7535,7535,Miami University-Oxford,1
CITY,7535,2514,New York,87
STABBR,7535,59,CA,773
MD_EARN_WNE_P10,6413,598,PrivacySuppressed,822
GRAD_DEBT_MDN_SUPP,7503,2038,PrivacySuppressed,1510


- 넓은 의미에서 데이터는 연속형과 범주형으로 나뉜다.
- 연속형 데이터는 항상 수치이며 키, 몸무게, 연봉처럼 가능한 값이 무한개다.
- 범주형 데이터는 민족, 고용 상태, 차 색깔처럼 가능한 값이 한정된 이산값을 표현한다.

- 범주형 열은 대개 np.object나 pd.Categorical 형식을 가진다.

## 데이터 딕셔너리
- 데이터 분석의 핵심 요소 중 하나는 데이터 딕셔너리를 생성하고 유지하는 것이다.
- 데이터 딕셔너리는 메타 데이터의 표로서 데이터의 각 column에 대한 메모이기도 하다.
- 데이터 딕셔너리를 사용하는 가장 주요한 목적 중 하나는 각 column의 이름이 가진 의미를 설명하는 것이다.

In [72]:
pd.read_csv('../data/college_data_dictionary.csv')

Unnamed: 0,column_name,description
0,INSTNM,Institution Name
1,CITY,City Location
2,STABBR,State Abbreviation
3,HBCU,Historically Black College or University
4,MENONLY,0/1 Men Only
5,WOMENONLY,0/1 Women only
6,RELAFFIL,0/1 Religious Affiliation
7,SATVRMID,SAT Verbal Median
8,SATMTMID,SAT Math Median
9,DISTANCEONLY,Distance Education Only


- STABBR - State Abbreviation
- HBCU - Historically Black College or University
- Religious Affiliation: 종교적 소속
- DISTANCEONLY - Distance Education Only: 실제로 출석하지 않는 교육
- Undergraduate Enrollment: 학부 등록
- PPTUG_EF - Percent Students part-time
- Pell grant: 연방정부의 학자금 보조금
- UG25ABV - Percent Students Older than 25

## 2. 데이터 형식을 변경해 메모리 절약

- object data type을 Categorical type으로 변경하여 메모리 사용량을 줄인다.

In [73]:
college = pd.read_csv('../data/college.csv')

- 몇 개의 column을 선택한다.

In [12]:
different_cols = ['RELAFFIL', 'SATMTMID', 'CURROPER', 'INSTNM', 'STABBR']

In [74]:
col2 = college.loc[:, different_cols]

In [75]:
col2.head()

Unnamed: 0,RELAFFIL,SATMTMID,CURROPER,INSTNM,STABBR
0,0,420.0,1,Alabama A & M University,AL
1,0,565.0,1,University of Alabama at Birmingham,AL
2,1,,1,Amridge University,AL
3,0,590.0,1,University of Alabama in Huntsville,AL
4,0,430.0,1,Alabama State University,AL


- 각 column의 data type을 확인한다.

In [76]:
col2.dtypes

RELAFFIL      int64
SATMTMID    float64
CURROPER      int64
INSTNM       object
STABBR       object
dtype: object

- memory 사용량을 확인한다.

In [77]:
col2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7535 entries, 0 to 7534
Data columns (total 5 columns):
RELAFFIL    7535 non-null int64
SATMTMID    1196 non-null float64
CURROPER    7535 non-null int64
INSTNM      7535 non-null object
STABBR      7535 non-null object
dtypes: float64(1), int64(2), object(2)
memory usage: 235.5+ KB


In [78]:
original_mem = col2.memory_usage(deep=True)

In [79]:
original_mem

Index           40
RELAFFIL     60280
SATMTMID     60280
CURROPER     60280
INSTNM      449092
STABBR      233585
dtype: int64

- RELAFFIL col은 0/1 값만을 가지므로 int64일 필요가 없다.
- int8로 변환한다.

In [80]:
col2['RELAFFIL'] = col2['RELAFFIL'].astype(np.int8)

- dtypes attribute를 확인한다.

In [81]:
col2.dtypes

RELAFFIL       int8
SATMTMID    float64
CURROPER      int64
INSTNM       object
STABBR       object
dtype: object

In [82]:
col2.memory_usage(deep=True)

Index           40
RELAFFIL      7535
SATMTMID     60280
CURROPER     60280
INSTNM      449092
STABBR      233585
dtype: int64

In [83]:
60280 / 7535

8.0

- 메모리를 더 절약하기 위해 값의 중복이 심해 고유한 값이 별로 없는 object의 type을 Categorical르 변경한다.
- nunique() 메서드는 특정 column의 고유값의 개수를 확인할 수 있다.

In [84]:
col2.select_dtypes(include=['object']).nunique()

INSTNM    7535
STABBR      59
dtype: int64

- 고유한 값이 전체의 일부밖에 안되는 STABBR column을 category로 변경한다.

In [85]:
col2['STABBR'] = col2['STABBR'].astype('category')

In [86]:
col2.dtypes

RELAFFIL        int8
SATMTMID     float64
CURROPER       int64
INSTNM        object
STABBR      category
dtype: object

In [87]:
col2['STABBR']

0       AL
1       AL
2       AL
3       AL
4       AL
5       AL
6       AL
7       AL
8       AL
9       AL
10      AL
11      AL
12      AL
13      AL
14      AL
15      AL
16      AL
17      AL
18      AL
19      AL
20      AL
21      AL
22      AL
23      AL
24      AL
25      AL
26      AL
27      AL
28      AL
29      AL
        ..
7505    NJ
7506    NJ
7507    UT
7508    MI
7509    NJ
7510    GA
7511    GA
7512    GA
7513    GA
7514    GA
7515    GA
7516    GA
7517    GA
7518    SC
7519    SC
7520    TX
7521    TX
7522    TX
7523    TX
7524    TX
7525    TX
7526    TX
7527    TX
7528    CA
7529    TX
7530    CA
7531    KS
7532    OH
7533    CA
7534    TX
Name: STABBR, Length: 7535, dtype: category
Categories (59, object): [AK, AL, AR, AS, ..., WA, WI, WV, WY]

In [88]:
new_mem = col2.memory_usage(deep=True)

In [89]:
new_mem

Index           40
RELAFFIL      7535
SATMTMID     60280
CURROPER     60280
INSTNM      449551
STABBR       10900
dtype: int64

In [90]:
new_mem / original_mem

Index       1.000000
RELAFFIL    0.125000
SATMTMID    1.000000
CURROPER    1.000000
INSTNM      1.001022
STABBR      0.046664
dtype: float64

- pandas는 DataFrame 데이터의 필요한 최대값에 상관없이 디폴트로 정수와 실수에 64비트를 사용한다.
- 앞에서 memory_usage(deep=True) 메서드로 출력된 값은 모두 바이트다.

- object col은 메모리를 가장 크게 줄일 가능성이 있는 데이터다.
- pandas는 Numpy에는 없는 category data type을 제공한다.
- category로 변환할 경우 pandas는 내부적으로 정수에서 각 고유한 문자열로 매핑을 생성한다.
- 따라서 각 문자열은 메모리에서 한 번만 유지된다.

- DataFrame을 생성할 때 index를 지정하지 않으면 디폴트로 RangeIndex를 사용한다.
- RangeIndex는 필요에 따라 숫자를 생성하고 index를 생성하기에 필요한 최소한의 정보만을 저장한다.

- MENONLY col의 경우 데이터 딕셔너리에 따르면 0/1 값만 갖는 것으로 보이지만, 실제로 이 col의 type은 float64다.
- float64로 설정된 이유는 np.nan이 포함되어 있기 때문이다.
- 누락값에 해당하는 정수 표현은 존재하지 않는다.
- 단 하나의 누락값만 포함되어 있어도 수치 표현은 실수여야만 한다.

## 3. 최대에서 최소 선택

- 평점이 가장 좋은 100개 영화 중 최저 예산 5개를 nlargest와 nsmallest라는 메서드를 사용하여 찾아본다.

- 영화 데이터셋을 읽은 후 movie_title, imdb_score, budget columns을 선택한다.

In [91]:
movie = pd.read_csv('../data/movie.csv')

In [92]:
movie2 = movie[['movie_title', 'imdb_score', 'budget']]

In [93]:
movie2.head()

Unnamed: 0,movie_title,imdb_score,budget
0,Avatar,7.9,237000000.0
1,Pirates of the Caribbean: At World's End,7.1,300000000.0
2,Spectre,6.8,245000000.0
3,The Dark Knight Rises,8.5,250000000.0
4,Star Wars: Episode VII - The Force Awakens,7.1,


- imdb_score에 의한 상위 100개 영화를 선택하기 위해 nlargest() 메서드를 사용한다.

In [94]:
movie2.nlargest(100, 'imdb_score').head()

Unnamed: 0,movie_title,imdb_score,budget
2725,Towering Inferno,9.5,
1920,The Shawshank Redemption,9.3,25000000.0
3402,The Godfather,9.2,6000000.0
2779,Dekalog,9.1,
4312,Kickboxer: Vengeance,9.1,17000000.0


- nsmallest() 메서드를 사용하여 최저 예산 영화 5개를 찾아낸다.

In [95]:
movie2.nlargest(100, 'imdb_score').nsmallest(5, 'budget')

Unnamed: 0,movie_title,imdb_score,budget
4804,Butterfly Girl,8.7,180000.0
4801,Children of Heaven,8.5,180000.0
4706,12 Angry Men,8.9,350000.0
4550,A Separation,8.4,500000.0
4636,The Other Dream Team,8.4,500000.0


- nlargest() 메서드의 첫 번째 매개변수인 n은 정수, 반환할 row의 개수를 설정한다.
- 두 번째 매개변수인 columns는 col 이름을 문자열로 받는다.
- nlargest(), nsmallest() 메서드의 columns 매개변수에는 col이름들의 list를 전달 할 수 있다.
- 첫 번째 col에서 동률이 있을 경우 다음 col을 사용해 순서를 결정한다.

## 4. 정렬을 통해 각 그룹에서 최대 선택

- 데이터 분석을 할 때 가장 흔히 접하는 연산 중 하나는 그룹 내 특정 col에서 최대값을 가진 row들을 선택하는 것이다.
- 예를 들어 각 연도의 최고 평점 영화, 심의 등급별로 가장 높은 수익을 올린 영화
- 그룹의 각 멤버를 그룹별로 정렬하고, 그룹 내 각 col을 정렬하여 최고값을 찾아낸다.

- 영화 데이터셋을 읽어 movie_title, title_year, imdb_score만 남긴다.

In [122]:
movie = pd.read_csv('../data/movie.csv')

In [123]:
movie2 = movie[['movie_title', 'title_year', 'imdb_score']]

In [124]:
movie2.head()

Unnamed: 0,movie_title,title_year,imdb_score
0,Avatar,2009.0,7.9
1,Pirates of the Caribbean: At World's End,2007.0,7.1
2,Spectre,2015.0,6.8
3,The Dark Knight Rises,2012.0,8.5
4,Star Wars: Episode VII - The Force Awakens,,7.1


- sort_values() 메서드를 사용하여 title_year에 대해 정렬한다.
- 정렬의 디폴트 방향은 오름차순이다.

In [125]:
movie2.sort_values('title_year', ascending=False).head()

Unnamed: 0,movie_title,title_year,imdb_score
3884,The Veil,2016.0,4.7
2375,My Big Fat Greek Wedding 2,2016.0,6.1
2794,Miracles from Heaven,2016.0,6.8
92,Independence Day: Resurgence,2016.0,5.5
153,Kung Fu Panda 3,2016.0,7.2


- 여러 col을 동시에 정렬하려면 list를 사용한다.

In [126]:
movie3 = movie2.sort_values(['title_year', 'imdb_score'], ascending=False)

In [127]:
movie3.head()

Unnamed: 0,movie_title,title_year,imdb_score
4312,Kickboxer: Vengeance,2016.0,9.1
4277,A Beginner's Guide to Snuff,2016.0,8.7
3798,Airlift,2016.0,8.5
27,Captain America: Civil War,2016.0,8.2
98,Godzilla Resurgence,2016.0,8.2


- drop_duplicates() 메서드를 사용하여 각 연도의 첫 행만 남기고 없앤다.

In [128]:
movie_top_year = movie3.drop_duplicates(subset='title_year')

In [129]:
movie_top_year

Unnamed: 0,movie_title,title_year,imdb_score
4312,Kickboxer: Vengeance,2016.0,9.1
3745,Running Forever,2015.0,8.6
4369,Queen of the Mountains,2014.0,8.7
3935,"Batman: The Dark Knight Returns, Part 2",2013.0,8.4
3,The Dark Knight Rises,2012.0,8.5
3853,Samsara,2011.0,8.5
97,Inception,2010.0,8.8
67,Up,2009.0,8.3
66,The Dark Knight,2008.0,9.0
2646,U2 3D,2007.0,8.4


- drop_duplicate() 메서드는 매개변수가 없으면 모든 행에 대하여 중복체크를 한다.
- subset 매개변수에 값을 지정해주면 지정한 col에 대해서만 중복체크를 한다.
- drop_duplicates는 디폴트로 첫 번째 것만 유지한다.
- keep 매개변수를 last로 설정하면 각 그룹의 가장 마지막 행을 선택한다.

- 하나의 col은 오름차순으로 정렬하면서 동시에 다른 col은 내림차순으로 정렬할 수도 있다.
- 이렇게 하려면 ascending 매개변수에 각 col을 어떤 순서로 정렬할 것이지의 불리언 값을 list로 전달하면 된다.

In [130]:
movie4 = movie[['movie_title', 'title_year', 'content_rating', 'budget']]

In [131]:
movie4_sorted = movie4.sort_values(['title_year', 'content_rating', 'budget'],
                                   ascending=[False, False, True])

In [132]:
movie4_sorted.head()

Unnamed: 0,movie_title,title_year,content_rating,budget
4026,Compadres,2016.0,R,3000000.0
3884,The Veil,2016.0,R,4000000.0
3682,Fifty Shades of Black,2016.0,R,5000000.0
3685,The Perfect Match,2016.0,R,5000000.0
3396,The Neon Demon,2016.0,R,7000000.0


In [133]:
movie4_sorted.drop_duplicates(subset=['title_year', 'content_rating']).head(10)

Unnamed: 0,movie_title,title_year,content_rating,budget
4026,Compadres,2016.0,R,3000000.0
4658,Fight to the Finish,2016.0,PG-13,150000.0
4661,Rodeo Girl,2016.0,PG,500000.0
3252,The Wailing,2016.0,Not Rated,
4659,Alleluia! The Devil's Carnival,2016.0,,500000.0
4731,Bizarre,2015.0,Unrated,500000.0
812,The Ridiculous 6,2015.0,TV-14,
4831,The Gallows,2015.0,R,100000.0
4825,Romantic Schemer,2015.0,PG-13,125000.0
3796,R.L. Stine's Monsterville: The Cabinet of Souls,2015.0,PG,4400000.0


- drop_duplicates는 디폴트로 첫 번째 것만 유지하지만, keep 매개변수를 last로 설정하면 각 그룹의 가장 마지막 row를 선택한다.

## 5. sort_values를 사용해 nlargest 복제

- 특정 col의 최대값 n개를 찾는 것은 전체 col을 내림차순으로 정렬한 후, 처음 n개의 값을 취하는 방식

In [134]:
movie = pd.read_csv('../data/movie.csv')

In [135]:
movie2 = movie[['movie_title', 'imdb_score', 'budget']]

In [136]:
movie_smallest_largest = movie2.nlargest(100, 'imdb_score').nsmallest(5, 'budget')

In [137]:
movie_smallest_largest

Unnamed: 0,movie_title,imdb_score,budget
4804,Butterfly Girl,8.7,180000.0
4801,Children of Heaven,8.5,180000.0
4706,12 Angry Men,8.9,350000.0
4550,A Separation,8.4,500000.0
4636,The Other Dream Team,8.4,500000.0


- 위와 동일한 결과를 sort_values를 이용하여 처리

In [138]:
movie2.sort_values('imdb_score', ascending=False).head()

Unnamed: 0,movie_title,imdb_score,budget
2725,Towering Inferno,9.5,
1920,The Shawshank Redemption,9.3,25000000.0
3402,The Godfather,9.2,6000000.0
2779,Dekalog,9.1,
4312,Kickboxer: Vengeance,9.1,17000000.0


In [139]:
movie2.sort_values('imdb_score', ascending=False).head(100)\
      .sort_values('budget').head(5)

Unnamed: 0,movie_title,imdb_score,budget
4815,A Charlie Brown Christmas,8.4,150000.0
4801,Children of Heaven,8.5,180000.0
4804,Butterfly Girl,8.7,180000.0
4706,12 Angry Men,8.9,350000.0
4636,The Other Dream Team,8.4,500000.0


- sort_values() 메서드는 head() 메서드와 체이닝하여 nlargest(), nsmallest()를 거의 복제할 수 있다.

- nlargest()/nsmallest() 메서드를 이용한 것과 sort_values()를 이용한 것의 결과가 다르다.
- 특정 평점이 동일한 영화가 100개가 넘기 때문에 이런 현상이 발생한다.
- nlargest()/nsmallest() 메서드와 sort_values()는 동률이 발생할 경우 처리하는 방법이 다르다.

## 6. 추적 지정 주문가 계산

- 지정가 주문(stop order)
    - 투자자가 주가가 특정 지점에 도달하면 매입이나 매도 주문을 내는 것을 말한다.
- 추적 지정가 주문(trailing stop order)
    - 연속적으로 지정가 주문의 판매가를 수정하여 주식 가치가 상승할 경우 이를 따라가는 것.
    - 100달러에 샀을 경우 10% 낮은 90달러에 매도 주문
    - 동일한 주식이 120달러로 상승하면 10% 낮은 108달러에 매도 주문
    - 110달러로 떨어져도 108달러 매도 주문은 유지

In [140]:
import FinanceDataReader as fdr
fdr.__version__

'0.5.0'

In [141]:
tsla = fdr.DataReader('tsla', '2017-01-01')

In [142]:
tsla.head()

Unnamed: 0_level_0,Close,Open,High,Low,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-01-03,216.99,214.86,220.33,210.96,5920000.0,0.0154
2017-01-04,226.99,214.75,228.0,214.31,11210000.0,0.0461
2017-01-05,226.75,226.42,227.48,221.95,5910000.0,-0.0011
2017-01-06,229.01,226.93,230.31,225.45,5530000.0,0.01
2017-01-09,231.28,228.97,231.92,228.0,3980000.0,0.0099


In [145]:
tsla_close = tsla['Close']

- cummax() 메서드를 사용하여 최근일까지의 누적 최대 종가를 확인한다.
- cummax() 메서드는 최근 값까지 포함해 그중 가장 최대값을 찾는다.

In [146]:
tsla_cummax = tsla_close.cummax()

In [147]:
tsla_cummax.head()

Date
2017-01-03    216.99
2017-01-04    226.99
2017-01-05    226.99
2017-01-06    229.01
2017-01-09    231.28
Name: Close, dtype: float64

- 손실을 10%로 한정하기 위해 0.9를 곱한다.

In [120]:
tsla_trailing_stop = tsla_cummax * .9

In [121]:
tsla_trailing_stop.head()

Date
2018-06-01    262.638
2018-06-04    267.066
2018-06-05    267.066
2018-06-06    287.550
2018-06-07    287.550
Name: Close, dtype: float64

- 종목코드, 구매일, 지정가 %를 입력하여 추적 지정가 주문 가격을 반환하게 할 수 있다.

In [152]:
def set_trailing_loss(symbol, purchase_date, perc):
    close = fdr.DataReader(symbol, purchase_date)['Close']
    return close.cummax() * perc

In [153]:
msft_trailing_stop = set_trailing_loss('msft', '2017-06-01', .85)

In [155]:
msft_trailing_stop.head()

Date
2017-06-01    59.585
2017-06-02    60.996
2017-06-05    61.438
2017-06-06    61.642
2017-06-07    61.642
Name: Close, dtype: float64

- cummax() 메서드와 대척점에 있는 cummin()이라는 메서드도 있다.