# 데이터 분석 시작
* 데이터 분석 루틴 개발
* 데이터딕셔너리
* 데이터 형식 변경으로 메모리 절약
* 최대 중에 최소 선택
* 정렬해 각 그룹에서 가장 큰 항목 선택
* sort_values를  사용해 nlargest 복제
* 추적 지정가 주문 가계 계산

### EDA : 탐색과 이해를 기본으로 데이터 분석을 해서 특성을 요약하고 시각화하는 것
### 메타데이터 : 데이터의 관한 데이터 예) 열/행 개수, 열이름, 결측치 등

## 데이터 분석 루틴 개발

In [2]:
import pandas as pd
import numpy as np
pd.set_option('max_columns', 4, 'max_rows', 10, 'max_colwidth', 12)

In [3]:
college = pd.read_csv('data/college.csv')
college.sample(random_state=42)                       # 42시드인 랜덤한 열을 반환한다

Unnamed: 0,INSTNM,CITY,STABBR,HBCU,MENONLY,WOMENONLY,RELAFFIL,SATVRMID,SATMTMID,DISTANCEONLY,...,UGDS_2MOR,UGDS_NRA,UGDS_UNKN,PPTUG_EF,CURROPER,PCTPELL,PCTFLOAN,UG25ABV,MD_EARN_WNE_P10,GRAD_DEBT_MDN_SUPP
3649,Career Point College,San Antonio,TX,0.0,0.0,0.0,0,,,0.0,...,0.0,0.0,0.0,0.0,1,0.9172,0.9172,0.697,20700,14977


In [4]:
college.shape                                        # .shape으로 DataFrame의 차원을 알 수 있다.

(7535, 27)

In [4]:
college.info()                                       # 칼럼의 이름, 비결측치 개수, 각 칼럼의 데이터 형식과 메모리 사용량을 알 수 있다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7535 entries, 0 to 7534
Data columns (total 27 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   INSTNM              7535 non-null   object 
 1   CITY                7535 non-null   object 
 2   STABBR              7535 non-null   object 
 3   HBCU                7164 non-null   float64
 4   MENONLY             7164 non-null   float64
 5   WOMENONLY           7164 non-null   float64
 6   RELAFFIL            7535 non-null   int64  
 7   SATVRMID            1185 non-null   float64
 8   SATMTMID            1196 non-null   float64
 9   DISTANCEONLY        7164 non-null   float64
 10  UGDS                6874 non-null   float64
 11  UGDS_WHITE          6874 non-null   float64
 12  UGDS_BLACK          6874 non-null   float64
 13  UGDS_HISP           6874 non-null   float64
 14  UGDS_ASIAN          6874 non-null   float64
 15  UGDS_AIAN           6874 non-null   float64
 16  UGDS_N

In [5]:
college.describe(include=[np.number]).T              # np.number타입의 데이터를 요약한다 - np.number는 int,float를 포함한다

Unnamed: 0,count,mean,...,75%,max
HBCU,7164.0,0.014238,...,0.000000,1.0
MENONLY,7164.0,0.009213,...,0.000000,1.0
WOMENONLY,7164.0,0.005304,...,0.000000,1.0
RELAFFIL,7535.0,0.190975,...,0.000000,1.0
SATVRMID,1185.0,522.819409,...,555.000000,765.0
...,...,...,...,...,...
PPTUG_EF,6853.0,0.226639,...,0.376900,1.0
CURROPER,7535.0,0.923291,...,1.000000,1.0
PCTPELL,6849.0,0.530643,...,0.712900,1.0
PCTFLOAN,6849.0,0.522211,...,0.745000,1.0


In [6]:
college.describe(include=[np.object]).T   # np.object타입의 데이터를 요약한다  .T : 전치(행,열 바꾸기)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  college.describe(include=[np.object]).T   # np.object타입의 데이터를 요약한다  - pd.Categorical


Unnamed: 0,count,unique,top,freq
INSTNM,7535,7535,Alabama ...,1
CITY,7535,2514,New York,87
STABBR,7535,59,CA,773
MD_EARN_WNE_P10,6413,598,PrivacyS...,822
GRAD_DEBT_MDN_SUPP,7503,2038,PrivacyS...,1510


* 데이터는 연속형 또는 범주형으로 분류 \
연속형 데이터 : 수치 예로 키, 몸무게 등 \
범주형 데이터 : 특정 기준으로 분류(카테고리형) 할 수 있는 데이터 \
5장에서 자세히....

In [7]:
college.describe(include=[np.number],                     # describe를 이용해서 분위수를 나눌수 있다.
   percentiles=[.01, .05, .10, .25, .5,
                .75, .9, .95, .99]).T

Unnamed: 0,count,mean,...,99%,max
HBCU,7164.0,0.014238,...,1.000000,1.0
MENONLY,7164.0,0.009213,...,0.000000,1.0
WOMENONLY,7164.0,0.005304,...,0.000000,1.0
RELAFFIL,7535.0,0.190975,...,1.000000,1.0
SATVRMID,1185.0,522.819409,...,730.000000,765.0
...,...,...,...,...,...
PPTUG_EF,6853.0,0.226639,...,0.946724,1.0
CURROPER,7535.0,0.923291,...,1.000000,1.0
PCTPELL,6849.0,0.530643,...,0.993908,1.0
PCTFLOAN,6849.0,0.522211,...,0.986368,1.0


## 데이터딕셔너리

In [5]:
pd.read_csv('data/college_data_dictionary.csv')     # 데이터딕셔너리는 메타데이터의 테이블

Unnamed: 0,column_name,description
0,INSTNM,Institution Name
1,CITY,City Location
2,STABBR,State Abbreviation
3,HBCU,Historically Black College or University
4,MENONLY,0/1 Men Only
5,WOMENONLY,0/1 Women only
6,RELAFFIL,0/1 Religious Affiliation
7,SATVRMID,SAT Verbal Median
8,SATMTMID,SAT Math Median
9,DISTANCEONLY,Distance Education Only


## 데이터 형식 변경으로 메모리 절약

In [14]:
college = pd.read_csv('data/college.csv')
different_cols = ['RELAFFIL', 'SATMTMID', 'CURROPER',           # 칼럼의 이름들
   'INSTNM', 'STABBR']
col2 = college.loc[:, different_cols]                           # col2에 인덱스와 컬럼을 넣어줌
col2

Unnamed: 0,RELAFFIL,SATMTMID,CURROPER,INSTNM,STABBR
0,0,420.0,1,Alabama A & M University,AL
1,0,565.0,1,University of Alabama at Birmingham,AL
2,1,,1,Amridge University,AL
3,0,590.0,1,University of Alabama in Huntsville,AL
4,0,430.0,1,Alabama State University,AL
...,...,...,...,...,...
7530,1,,1,SAE Institute of Technology San Francisco,CA
7531,1,,1,Rasmussen College - Overland Park,KS
7532,1,,1,National Personal Training Institute of Cleveland,OH
7533,1,,1,Bay Area Medical Academy - San Jose Satellite ...,CA


* 인덱스는 별도로 지정하지 않으면 기본적으로 RangeIndex로 설정

In [8]:
col2.dtypes                  # 각 열의 데이터 형식

RELAFFIL      int64
SATMTMID    float64
CURROPER      int64
INSTNM       object
STABBR       object
dtype: object

* integer와 float의 데이터 형식은 64비트로 기본 설정

In [9]:
original_mem = col2.memory_usage(deep=True)       # memory_usage 메소드 : 각 열의 메모리 사용량을 바이트 단위로 반환
original_mem                                       # 각 메모리의 사용량

Index          128
RELAFFIL     60280
SATMTMID     60280
CURROPER     60280
INSTNM      660240
STABBR      444565
dtype: int64

* deep=bool, 기본값은 False \
  True 인 경우 object 형식으로 된 열의 정확한 메모리양을 추출

In [10]:
col2['RELAFFIL'] = col2['RELAFFIL'].astype(np.int8)    # 'RELAFFIL'에는 0과 1값만 있어서 굳이 64비트가 필요없기에 8비트로 변환한다

In [11]:
col2.dtypes              # 'RELAFFIL'의 데이터 타입이 바뀌어 있다.

RELAFFIL       int8
SATMTMID    float64
CURROPER      int64
INSTNM       object
STABBR       object
dtype: object

In [12]:
col2[different_cols].memory_usage(deep=True)      # 'RELAFFIL'의 사용량이 줄어듬

Index          128
RELAFFIL      7535
SATMTMID     60280
CURROPER     60280
INSTNM      660240
STABBR      444565
dtype: int64

In [13]:
col2.select_dtypes(include=['object']).nunique()    # 'object'의 데이터타입의 값의 개수(.nunique)를 출력

INSTNM    7535
STABBR      59
dtype: int64

In [16]:
col2['STABBR'] = col2['STABBR'].astype('category')   # 'STABBR' 값의 개수가 1% 미만이므로 데이터타입을 'category'형으로 변경한다
col2.dtypes                                          # category형으로 변경하면서 각 고유 문자열 값으로 매핑한다

RELAFFIL        int8
SATMTMID     float64
CURROPER       int64
INSTNM        object
STABBR      category
dtype: object

In [17]:
new_mem = col2.memory_usage(deep=True)        # STABBR  444565   ->   STABBR  13120  줄어드는 것을 확인
new_mem

Index          128
RELAFFIL      7535
SATMTMID     60280
CURROPER     60280
INSTNM      660699
STABBR       13120
dtype: int64

In [18]:
new_mem / original_mem             # 'RELAFFIL'은 1/8 로 줄었고, 'STABBR'은 원래의 3프로로 줄었다

Index       1.000000
RELAFFIL    0.125000
SATMTMID    1.000000
CURROPER    1.000000
INSTNM      1.000695
STABBR      0.029512
dtype: float64

In [15]:
college.loc[0, 'CURROPER'] = 10000000                            # 'CURROPER'에 10000000값을 넣고
college.loc[0, 'INSTNM'] = college.loc[0, 'INSTNM'] + 'a'        # 'INSTNM'에 'a'를 더한다
college[['CURROPER', 'INSTNM']].memory_usage(deep=True)          # 'CURROPER'은 64비트라 공간이 많아서 사용량이 그대로인데
                                                                 # 'INSTNM'은 'a'를 추가해서 사용량이 늘었다

Index          128
CURROPER     60280
INSTNM      660241
dtype: int64

In [16]:
college['MENONLY'].dtype           # 'MENONLY'은 0과 1로 되어있지만 결측치가 있기 때문에 데이터 형식이 'float64'이다. 

dtype('float64')

In [18]:
college['MENONLY'].astype(np.int8)  # nan 값 때문에 int로 데이터형식 변환이 불가능하다

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [19]:
college.index = pd.Int64Index(college.index)
college.index.memory_usage() # index 사용량 128        # RangeIndex와 Int64Index의 차이

  college.index = pd.Int64Index(college.index)


60280

## 최대 중에 최소 선택

In [20]:
movie = pd.read_csv('data/movie.csv')                            # movie 데이터셋을 읽는다
movie2 = movie[['movie_title', 'imdb_score', 'budget']]          # movie2의 칼럼을 정한다
movie2.head()

Unnamed: 0,movie_title,imdb_score,budget
0,Avatar,7.9,237000000.0
1,Pirates of the Caribbean: At World's End,7.1,300000000.0
2,Spectre,6.8,245000000.0
3,The Dark Knight Rises,8.5,250000000.0
4,Star Wars: Episode VII - The Force Awakens,7.1,


In [21]:
movie2.nlargest(100, 'imdb_score').head()                       # 'nlargest'메서드로 'imdb_score'기준의 상위 100개를 선택

Unnamed: 0,movie_title,imdb_score,budget
2725,Towering Inferno,9.5,
1920,The Shawshank Redemption,9.3,25000000.0
3402,The Godfather,9.2,6000000.0
2779,Dekalog,9.1,
4312,Kickboxer: Vengeance,9.1,17000000.0


In [27]:
(movie2
  .nlargest(100, 'imdb_score')                                  # 'nlargest'메서드로 'imdb_score'기준의 상위 100개를 선택하고
  .nsmallest(5, 'budget')                                       #  그중에 'nsmallest'메서드로 'budget'기준의 하위 5개 선택
)                                                               #  nlargest/nsmallest(반환할 행 개수, columns이름)

Unnamed: 0,movie_title,imdb_score,budget
4804,Butterfl...,8.7,180000.0
4801,Children...,8.5,180000.0
4706,12 Angry...,8.9,350000.0
4550,A Separa...,8.4,500000.0
4636,The Othe...,8.4,500000.0


## 각 그룹에서 가장 큰 항목 정렬해서 선택 

In [23]:
movie = pd.read_csv('data/movie.csv')
movie[['movie_title', 'title_year', 'imdb_score']]                   # movie의 필요한 열만 데이터셋으로 잡는다

Unnamed: 0,movie_title,title_year,imdb_score
0,Avatar,2009.0,7.9
1,Pirates of the Caribbean: At World's End,2007.0,7.1
2,Spectre,2015.0,6.8
3,The Dark Knight Rises,2012.0,8.5
4,Star Wars: Episode VII - The Force Awakens,,7.1
...,...,...,...
4911,Signed Sealed Delivered,2013.0,7.7
4912,The Following,,7.5
4913,A Plague So Pleasant,2013.0,6.3
4914,Shanghai Calling,2012.0,6.3


In [29]:
(movie
  [['movie_title', 'title_year', 'imdb_score']]
  .sort_values('title_year', ascending=False)                       # sort_values를 이용해서 title_year를 기준 내림차순으로 정렬한다
)                                                                    # sort_values의 기본값은 오름차순(True)

Unnamed: 0,movie_title,title_year,imdb_score
3884,The Veil,2016.0,4.7
2375,My Big F...,2016.0,6.1
2794,Miracles...,2016.0,6.8
92,Independ...,2016.0,5.5
153,Kung Fu ...,2016.0,7.2
...,...,...,...
4683,Heroes,,7.7
4688,Home Movies,,8.2
4704,Revolution,,6.7
4752,Happy Va...,,8.5


In [30]:
(movie
  [['movie_title', 'title_year', 'imdb_score']]                      # 연도와 점수를 동시에 정렬
  .sort_values(['title_year','imdb_score'],                          # title_year의 내림차순 정렬에 imdb_score의 내림차순 정렬을 한다
               ascending=False)
)

Unnamed: 0,movie_title,title_year,imdb_score
4312,Kickboxe...,2016.0,9.1
4277,A Beginn...,2016.0,8.7
3798,Airlift,2016.0,8.5
27,Captain ...,2016.0,8.2
98,Godzilla...,2016.0,8.2
...,...,...,...
1391,Rush Hour,,5.8
4031,Creature,,5.0
2165,Meet the...,,3.5
3246,The Bold...,,3.5


In [31]:
(movie
  [['movie_title', 'title_year', 'imdb_score']]
  .sort_values(['title_year','imdb_score'],                    # title_year의 내림차순 정렬에 imdb_score의 내림차순 정렬을 한다
               ascending=False)                               # drop_duplicates - 첫 행만 남기고 행삭제는 이루어지지 않는다
  .drop_duplicates(subset='title_year')                        # drop_duplicates 메소드를 이용해 'title_year'기준으로 첫행만 남긴다
)                                                              # 매년 최고 점수의 영화만 추출한다

Unnamed: 0,movie_title,title_year,imdb_score
4312,Kickboxe...,2016.0,9.1
3745,Running ...,2015.0,8.6
4369,Queen of...,2014.0,8.7
3935,Batman: ...,2013.0,8.4
3,The Dark...,2012.0,8.5
...,...,...,...
2694,Metropolis,1927.0,8.3
4767,The Big ...,1925.0,8.3
4833,Over the...,1920.0,4.8
4695,Intolera...,1916.0,8.0


In [32]:
(movie                                               # groupby 메소드 사용
  [['movie_title', 'title_year', 'imdb_score']]      # groupby를 사용하면 기본으로 그룹 라벨이 index가 된다.
  .groupby('title_year', as_index=False)            # index를 사용하고 싶은 않은 경우에는 as_index=False 를 설정
  .apply(lambda df: df.sort_values('imdb_score',    # apply 이용해서 sort_values로 'imdb_score'의 기준을 내림차순으로 정렬하고 
         ascending=False).head(1))                  # head를 이용해 위의 1개만 출력
  .sort_values('title_year', ascending=False)       # 그리고 title_year기준 내림차순으로 정렬
)

Unnamed: 0,Unnamed: 1,movie_title,title_year,imdb_score
90,4312,Kickboxe...,2016.0,9.1
89,3745,Running ...,2015.0,8.6
88,4369,Queen of...,2014.0,8.7
87,3935,Batman: ...,2013.0,8.4
86,3,The Dark...,2012.0,8.5
...,...,...,...,...
4,4555,Pandora'...,1929.0,8.0
3,2694,Metropolis,1927.0,8.3
2,4767,The Big ...,1925.0,8.3
1,4833,Over the...,1920.0,4.8


In [33]:
(movie
  [['movie_title', 'title_year',                     # 한열을 오름차순으로 정렬하면서 동시에 다른열을 내림차순으로 정렬하기
    'content_rating', 'budget']]
   .sort_values(['title_year',                       # sort_values를 이용해 'title_year','content_rating','budget' 기준으로
       'content_rating', 'budget'],                  # 'title_year' 내림차순으로 정렬하고 그 값에서 content_rating'의 내림차순으로 정렬하고
       ascending=[False, False, True])             # 'budget'기준은 오름차순으로 정렬한다
   .drop_duplicates(subset=['title_year',            # 'title_year','content_rating'에서 중복되는 값 중 첫 행만 유지한다
        'content_rating'])                      
)                                                    

Unnamed: 0,movie_title,title_year,content_rating,budget
4026,Compadres,2016.0,R,3000000.0
4658,Fight to...,2016.0,PG-13,150000.0
4661,Rodeo Girl,2016.0,PG,500000.0
3252,The Wailing,2016.0,Not Rated,
4659,Alleluia...,2016.0,,500000.0
...,...,...,...,...
2558,Lilyhammer,,TV-MA,34000000.0
807,"Sabrina,...",,TV-G,3000000.0
848,Stargate...,,TV-14,1400000.0
2436,Carlos,,Not Rated,


* .drop_duplicates은 기본적으로 첫번째 항목만 유지하지만 keep='last'를 사용하면 마지막 행을 선택하고,\
   keep = False를 사용하면 모든 중복 항목을 삭제한다

## sort_values를 사용해 nlargest 복제

In [7]:
movie = pd.read_csv('data/movie.csv')
(movie
   [['movie_title', 'imdb_score', 'budget']]  
   .nlargest(100, 'imdb_score')                   # .nlargest 메소드를 이용해 'imdb_score'기준 상위 100개까지 출력하고
   .nsmallest(5, 'budget')                        # .nsmallest 메소드로 'budget' 하위 5개 출력
)

Unnamed: 0,movie_title,imdb_score,budget
4804,Butterfl...,8.7,180000.0
4801,Children...,8.5,180000.0
4706,12 Angry...,8.9,350000.0
4550,A Separa...,8.4,500000.0
4636,The Othe...,8.4,500000.0


In [8]:
(movie
   [['movie_title', 'imdb_score', 'budget']]
   .sort_values('imdb_score', ascending=False)   # 'imdb_score' 기준으로 내림차순 정렬하고
   .head(100)                                     # head로 100개를 뽑는다
)

Unnamed: 0,movie_title,imdb_score,budget
2725,Towering...,9.5,
1920,The Shaw...,9.3,25000000.0
3402,The Godf...,9.2,6000000.0
2779,Dekalog,9.1,
4312,Kickboxe...,9.1,17000000.0
...,...,...,...
3799,Anne of ...,8.4,
3777,Requiem ...,8.4,4500000.0
3935,Batman: ...,8.4,3500000.0
4636,The Othe...,8.4,500000.0


In [9]:
(movie
   [['movie_title', 'imdb_score', 'budget']]
   .sort_values('imdb_score', ascending=False)   # 'imdb_score' 기준으로 내림차순 정렬하고
   .head(100)                                     # head로 100개를 뽑는다
   .sort_values('budget')                         # ''budget' 기준으로 오름차순 정렬하고
   .head(5)                                       # head로 5개를 뽑는다
)

Unnamed: 0,movie_title,imdb_score,budget
4815,A Charli...,8.4,150000.0
4801,Children...,8.5,180000.0
4804,Butterfl...,8.7,180000.0
4706,12 Angry...,8.9,350000.0
4636,The Othe...,8.4,500000.0


In [26]:
(movie
   [['movie_title', 'imdb_score', 'budget']]
   .nlargest(100, 'imdb_score')                   # .nlargest 메소드로 'imdb_score'기준 100개를 뽑아
   .tail()                                        # 끝부분만 출력한다
)

Unnamed: 0,movie_title,imdb_score,budget
4023,Oldboy,8.4,3000000.0
4163,To Kill a Mockingbird,8.4,2000000.0
4395,Reservoir Dogs,8.4,1200000.0
4550,A Separation,8.4,500000.0
4636,The Other Dream Team,8.4,500000.0


In [27]:
(movie
   [['movie_title', 'imdb_score', 'budget']]
   .sort_values('imdb_score', ascending=False)     # .sort_values 메소드로 'imdb_score'를 내림차순으로 정렬하고 
   .head(100)                                      # 상위 100개를 뽑아
   .tail()                                         # 끝부분만 출력한다 즉, 결과는 전체 열의 중간부분이 출력 된다
)                                                  # 똑같은 기준을 잡고 정렬을 해도 다른 방식을 이용하면 결과가 다를 수 있다

Unnamed: 0,movie_title,imdb_score,budget
3799,Anne of Green Gables,8.4,
3777,Requiem for a Dream,8.4,4500000.0
3935,"Batman: The Dark Knight Returns, Part 2",8.4,3500000.0
4636,The Other Dream Team,8.4,500000.0
2455,Aliens,8.4,18500000.0


* nlargest : mergesort(병합정렬)을 사용 
* sort_values : quicksort(분할 정복)을 사용

## 추적 지정가 주문 가격 계산

* 추적 지정가 주문 : 주식이 상승하면 지정가가 올라간다 예) 100달러에 구매한 주식이 120달로 상승하면 지정가가 108 달러로 상승
                     지정 가격 변동은 상승 경우에만 발생 하락할땐 변동이 안된다
                     
* 주식시장가격 읽어오는 패키지 필요 / 콘솔창에 conda install pandas-datareader 또는 pip install pandas-datareader 실행

In [15]:
!pip install pandas-datareader



In [16]:
!pip install requests_cache

Collecting requests_cache
  Downloading requests_cache-0.9.1-py3-none-any.whl (46 kB)
Collecting cattrs<2.0,>=1.8
  Downloading cattrs-1.10.0-py3-none-any.whl (29 kB)
Collecting url-normalize<2.0,>=1.4
  Downloading url_normalize-1.4.3-py2.py3-none-any.whl (6.8 kB)
Installing collected packages: url-normalize, cattrs, requests-cache
Successfully installed cattrs-1.10.0 requests-cache-0.9.1 url-normalize-1.4.3


In [17]:
import datetime                                    # datetime 모듈을 불러오기
import pandas_datareader.data as web               # 웹 판다스 리더 모듈 불러오기
import requests_cache                              # requests_cache 모듈 불러오기
session = requests_cache.CachedSession(
   cache_name='cache', backend='sqlite', 
   expire_after=datetime.timedelta(days=90))

In [18]:
tsla = web.DataReader('tsla', data_source='yahoo',              # 야후에서 2017년 첫 거래일부터 테슬라 가격을 불러온다
   start='2017-1-1', session=session)
tsla.head(8)                                                    # 동작이 안돼요

RemoteDataError: Unable to read URL: https://finance.yahoo.com/quote/tsla/history?period1=1483210800&period2=1644173999&interval=1d&frequency=1d&filter=history
Response Text:
b'<!DOCTYPE html>\n  <html lang="en-us"><head>\n  <meta http-equiv="content-type" content="text/html; charset=UTF-8">\n      <meta charset="utf-8">\n      <title>Yahoo</title>\n      <meta name="viewport" content="width=device-width,initial-scale=1,minimal-ui">\n      <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n      <style>\n  html {\n      height: 100%;\n  }\n  body {\n      background: #fafafc url(https://s.yimg.com/nn/img/sad-panda-201402200631.png) 50% 50%;\n      background-size: cover;\n      height: 100%;\n      text-align: center;\n      font: 300 18px "helvetica neue", helvetica, verdana, tahoma, arial, sans-serif;\n  }\n  table {\n      height: 100%;\n      width: 100%;\n      table-layout: fixed;\n      border-collapse: collapse;\n      border-spacing: 0;\n      border: none;\n  }\n  h1 {\n      font-size: 42px;\n      font-weight: 400;\n      color: #400090;\n  }\n  p {\n      color: #1A1A1A;\n  }\n  #message-1 {\n      font-weight: bold;\n      margin: 0;\n  }\n  #message-2 {\n      display: inline-block;\n      *display: inline;\n      zoom: 1;\n      max-width: 17em;\n      _width: 17em;\n  }\n      </style>\n  <script>\n    document.write(\'<img src="//geo.yahoo.com/b?s=1197757129&t=\'+new Date().getTime()+\'&src=aws&err_url=\'+encodeURIComponent(document.URL)+\'&err=%<pssc>&test=\'+encodeURIComponent(\'%<{Bucket}cqh[:200]>\')+\'" width="0px" height="0px"/>\');var beacon = new Image();beacon.src="//bcn.fp.yahoo.com/p?s=1197757129&t="+new Date().getTime()+"&src=aws&err_url="+encodeURIComponent(document.URL)+"&err=%<pssc>&test="+encodeURIComponent(\'%<{Bucket}cqh[:200]>\');\n  </script>\n  </head>\n  <body>\n  <!-- status code : 404 -->\n  <!-- Not Found on Server -->\n  <table>\n  <tbody><tr>\n      <td>\n      <img src="https://s.yimg.com/rz/p/yahoo_frontpage_en-US_s_f_p_205x58_frontpage.png" alt="Yahoo Logo">\n      <h1 style="margin-top:20px;">Will be right back...</h1>\n      <p id="message-1">Thank you for your patience.</p>\n      <p id="message-2">Our engineers are working quickly to resolve the issue.</p>\n      </td>\n  </tr>\n  </tbody></table>\n  </body></html>'

In [None]:
tsla_close = tsla['Close']                                     # 종가를 기준으로 잡는다 

In [None]:
tsla_cummax = tsla_close.cummax()                              # .cummax()메소드는 현재 값을 포함한 누적최댓값을 유지한다
tsla_cummax.head()                                             # .cummax()메소드를 이용해 현재까지의 종가 중 최고가를 추적

In [None]:
(tsla
  ['Close']                                                    # 테슬라 종가에 최고가에 0.9를 곱하여 상위 5개만 나타냄
  .cummax()
  .mul(.9)
  .head()
)