<a href="https://colab.research.google.com/github/zzhining/python_data_basic/blob/main/3%EC%9E%A5/03_03_%EC%8B%A4%EC%8A%B5_%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90%EC%A3%BC%EA%B0%80%EB%8D%B0%EC%9D%B4%ED%84%B0_skeleton.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 3.3.1 데이터 수집

## 야후 파이낸스 데이터 사용 방법


본 실습은 데이터 분석을 위해 미리 다운로드 받아 둔 csv파일을 사용하여 주가 데이터를 분석합니다. 실시간 데이터를 받아 분석하고 싶은 경우, [야후 파이낸스](https://finance.yahoo.com/)로 부터 주가 데이터를 다운로드 받아 분석할 수 있습니다. `pandas-datareader`와 `yfinance`를 라이브러리를 사용하면 야후 파이낸스의 데이터를 쉽게 읽어 올 수 있으므로 두 개의 패키지를 설치합니다.

작업 환경에 따라 `pip` 명령어 또는 `conda` 명령어를 사용하여 패키지를 설치해주세요.
```
pip install pandas-datareader
pip install yfinance
```

```
conda install pandas-datareader
conda install yfinance
```
`yfinance`를 설치한 이후에, *런타임을 재시작(Restart runtime)*합니다. 

두 개의 라이브러리를 설치한 다음, 아래의 코드를 사용하여 주가 데이터를 불러옵니다. 

```
from pandas_datareader import data
import yfinance as yfin

yfin.pdr_override()

# 삼성전자 주가코드: '005930.KS', 2020년 1월 1일부터 2021년 6월 8일까지의 데이터  
df = data.get_data_yahoo('005930.KS', start = '2020-01-01', end = '2021-06-08')
```

In [1]:
!pip install pandas-datareader
!pip install yfinance

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting yfinance
  Downloading yfinance-0.2.12-py2.py3-none-any.whl (59 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.2/59.2 KB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting html5lib>=1.1
  Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m112.2/112.2 KB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
Collecting cryptography>=3.3.2
  Downloading cryptography-39.0.1-cp36-abi3-manylinux_2_28_x86_64.whl (4.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.2/4.2 MB[0m [31m27.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting frozendict>=2.3.4
  Downloading frozendict-2.3.5-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (111 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/zzhining/python_data_basic/main/3%EC%9E%A5/005930.KS.csv', index_col = 0)
df.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-02,55500,56000,55000,55200,52537.17969,12993228
2020-01-03,56000,56600,54900,55500,52822.70703,15422255
2020-01-06,54900,55600,54600,55500,52822.70703,10278951
2020-01-07,55700,56400,55600,55800,53108.23828,10009778
2020-01-08,56200,57400,55900,56800,54059.99219,23501171


각 컬럼의 의미는 다음과 같습니다.
* Open: 시초가
* High: 고가
* Low: 저가
* Close: 종가
* Adj Close: 수정종가(분할, 배당, 배분, 신주 발생이 된 경우를 고려해 주식 가격을 조정한 가격) 
* Volume: 거래량

데이터 분석 시, 데이터의 연속성을 위해서 `종가`보다 `수정 종가`를 사용하는 것이 일반적입니다. 본 실습에서도 `종가`를 분석해야할 경우, `Close` 컬럼 대신 `Adj Close` 컬럼을 사용하겠습니다.

불러온 데이터의 정보를 확인해봅니다.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 363 entries, 2020-01-02 to 2021-06-18
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Open       363 non-null    int64  
 1   High       363 non-null    int64  
 2   Low        363 non-null    int64  
 3   Close      363 non-null    int64  
 4   Adj Close  363 non-null    float64
 5   Volume     363 non-null    int64  
dtypes: float64(1), int64(5)
memory usage: 19.9+ KB


# 3.3.2 데이터 가공

<div class="alert alert-success">
[문제1]  
    
    
데이터프레임(df)의 평균, 표준편차, 사분위수 등 주요 통계 지표를 확인하세요.
</div>

<div class="alert alert-success">
[문제2]  
    
    
종가('Close') 기준 최대값을 구하세요.
</div>

<div class="alert alert-success">
[문제3]  
    
    
종가('Close') 기준 최소값을 구하세요.
</div> 

<div class="alert alert-success">
[문제4]  
    
    
종가('Close') 기준 평균값을 구하세요.
</div> 

<div class="alert alert-success">
[문제5]  
    
    
총 데이터의 (row의 개수)를 확인하세요.
</div> 

<div class="alert alert-success">
[문제6]  

    
특정 컬럼만 선택하세요.(예: ‘Close’ 컬럼만 선택, ‘Higt’와 ‘Low’ 두 개의 컬럼 선택)
</div>

<div class="alert alert-success">
[문제7]  

    
상위 3개의 로우만 선택하세요.
</div> 

<div class="alert alert-success">
[문제8]  

시작가('Open') 대비 종가('Close')가 높았던 날의 데이터만 선택하세요.
</div> 

<div class="alert alert-success">
[문제9]  

종가('Close') 기준 가장 주가가 높았던 날의 데이터(로우)를 선택하세요.
</div> 

<div class="alert alert-success">
[문제 10]  

 종가('Close') 기준 주가가 60,000원 이상이었던 날짜를 반환하세요.
</div> 

<div class="alert alert-success">
[문제 11]  

2022년 3월 15일의 데이터를 반환하세요.
</div> 

<div class="alert alert-success">
[문제 12]  

2022년 6월 28일의 고가('High')와 저가('Low')값을 반환하세요.
</div> 

<div class="alert alert-success">
[문제 13]  

데이터프레임(df)의 100번째 데이터를 선택하세요.
</div> 

<div class="alert alert-success">
[문제 14]  
    
데이터를 날짜 역순으로(최신 데이터가 위에 위치하도록) 정렬하세요.
</div> 

<div class="alert alert-success">
[문제 15]  

종가(‘Close’) 데이터를 가격이 높은 순서대로 정렬하세요.
</div> 

<div class="alert alert-success">
[문제 16]  

인덱스 컬럼을 0부터 순차적으로 증가하는 정수로 변경하세요.
</div> 

<div class="alert alert-success">
[문제 17]  

컬럼명을 Date는 ‘날짜’로, ‘High’는 ‘고가’로, ‘Low’는 ‘저가’로 변경하세요.
</div> 

<div class="alert alert-success">
[문제 18]  

날짜(‘Date’) 컬럼을 삭제하세요.
</div> 

<div class="alert alert-success">
[문제 19]  

 'diff’ 컬럼을 생성하고, 종가(‘Close’)와 시가(‘Open’)의 차이를 계산하여 채워주세요
</div> 

<div class="alert alert-success">
[문제 20]  

 ‘Date’ 필드에 저장된 값을 파싱하여 ‘Year’, ‘Month’, ‘Day’ 필드에 저장하세요
</div> 

<div class="alert alert-success">
[문제 21]  

수정된 종가('Adj Close') 데이터를 소수점 둘째자리까지 표시하세요
</div> 

<div class="alert alert-success">
[문제 22]  

거래량 필드를 생성하고 , 가 들어가도록 변경하기(예: 16949183.0 -> 16,949,183)
</div> 

<div class="alert alert-success">
[문제 23]  

주가 데이터를 월(‘Month’)별로 그룹핑하고, 거래량(‘Volume’)의 평균값을 표시하세요.
</div> 

<div class="alert alert-success">
[문제 24]  

결측치가 있는지 확인하고, 결측치가 있을 경우 결측치를 처리하세요.
</div> 

<div class="alert alert-success">
[문제 25]  

3월의 데이터와 4월의 데이터를 별도의 데이터프레임(march_df, april_df)으로 만들고 두 데
이터프레임을 하나의 데이터프레임으로 이어 붙이세요
</div> 