# 주식 시세 현황 분석

### 1. 문제정의
1. 이직을 하면서 받은 퇴직금으로 전망 좋은 주식 종목에 투자하기로 결심
2. 주로 방문하는 주식시세 확인 웹 사이트에서 종목을 선택하고 분석하여 결과를 보관하고 싶음

### 2. 배경 지식-1
1. 웹 크로링(Web Crawling)
 - 인터넷 웹 사이트에 돌아다니며, 방문한 페이지의 내용과 링크의 복사본을 생성하여 다운로드 후 요약본을 만듬
 - 네이버, 구글처럼 검색창에 키워드를 입력하면 URL을 지닌 페이지와 외부 사이트 링크도 요약본과 함께 노출
 - 검색엔진이 웹 크롤러가 수집한 데이터에 검색 알고리즘을 적용하여 정보를 추출한 결과임
 
2. 웹 스크래핑(Web Scraping)
 - 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해내는 것
 - '스크래퍼 봇'이 특정 웹사이트에 콘텐트를 다운로드하기 위해 HTTP GET 요청을 보내고, HTML 문서를 분석하여 특정 패턴의 데이터 추출
 - 추출한 데이터는 원하느대로 사용할 수 잇도록 데이터베이스에 저장

### 3. 배경 지식-2 - HTML
1. hello.html 작성 및 실행

```html
       <html>
         <head>
             <title> HELLO </title>
           </head>
         <body>
             <h1> hello </h1>
             <p> 안녕하세요 </p>
         </body>
       </html>
```
 - 메모장에 'hello.html'을 작성하고, 웹브라우저로 열어보자

![image-2.png](attachment:image-2.png)

2. html 분석하기
 - 태그(tag) : 꺽쇠(<>)로 감싼 형태이며, 종료 태그는 슬래시(/)가 들어감
  ```html
      <html> ... </html>
  ```
 - \<head> 태그 :  웹 브라우저에 표시되지 않고, 페이지에 대한 metadata를 포함
   ```html
       <html>
         <head>
             <meta charset="utf-8">
             <title> HELLO </title>     - 브라우저에 표시할 제목
           </head>
         ....
       </html>
   ```
  - \<body> 태그 : 실제 웹 브라우저에 표시되는 내용
   ```html
       <html>
         ....
         <body>
             <h1> hello </h1>      -- 큰 글자 표시
             <p> 안녕하세요 </p>   -- 일반 단락을 표시
         </body>
         ....
       </html>
   ```
   
3. 크롬 웹 브라우저 개발자 도구 (검사-inspect)
 ![image-3.png](attachment:image-3.png)

### 3-1 웹 서버 동작의 이해
![image.png](attachment:image.png)

### 3-2 웹 서버로 서비스 요청
![image.png](attachment:image.png)

### 3-3 HTTP 요청
![image.png](attachment:image.png)

### 3-4 HTTP 요청 메시지 분석 후 요청 처리
![image.png](attachment:image.png)

### 3-5 HTTP 요청 메시지 분석 후 요청 처리(DB)
![image.png](attachment:image.png)

### 3-6 HTTP 응답
![image.png](attachment:image.png)

### 3-7 HTTP 응답
![image.png](attachment:image.png)

### 4. 웹 스크래핑
#### 4.1 주식 종목 선택하기
1. 네이버 금융 (https://finance.naver.com/) 데이터를 가져와 활용
2. 삼성전자 주식 정보 검색 - 일별 시세 찾기 (https://finance.naver.com/item/main.naver?code=005930)
![image-2.png](attachment:image-2.png)


#### 4.2 주식 종목 선택하기
1. 삼성전자 주식 정보 검색 -일일 시세만 별도로 업데이트하는 URL 주소 찾기
2. 웹 브라우저 개발자 도구에서 [검사] - [Network] 탭으로 확인
 - 시세 2번 페이지 클릭시, "sise_day.naver?code=005930&page=2" 확인
 
![image-2.png](attachment:image-2.png)

#### 4.3 웹 사이트 동작 방식 -  웹 브라우저에서 페이지 번호 클릭(가령 2페이지)
1. HTTP Request
 - 네이버로 요청 (https://finance.naver.com/item/sise_day.naver?code=005930&page=2)
 - [Headers] 탭 - HTTP 요청 Header (Request URL, path, user-agent 등) 확인하기
 - [Payload] 탭 - HTTP Payload (HTTP 요청을 보낼 때 함께 전송하는 데이터) : 주식코드, 페이지 번호등을 보내고 있음
 
2. HTTP Response
 - [Response] 탭 - 서버가 전송한 HTML 페이지 확인

#### 4.4 웹 스크래핑하기

In [None]:
# 웹 스크래핑을 위한 패키지 로드하기
import requests

# 웹 스크래핑 대상 주소 저장하기
url = 'https://finance.naver.com/item/sise_day.naver?code=005930&page=2'

# HTTP 요청을 대상 주소로 보내고, HTTP 응답을 받아 저장하기
page = requests.get(url)

# 응답 내용 확인하기
page.text

- '페이지를 찾을 수 없습니다'
- 웹 브라우저가 아닌 방식으로 HTTP 요청시 응답을 전송하지 못하도록 막아놓았음

- 요청 헤더에 값을 설정하여 웹 브라우저 방식으로 요청
![image-2.png](attachment:image-2.png)

In [None]:
# 요청 헤더 정보 설정
my_headers = {'user-agent':'Mozilla/5.0'}

# 웹 스크래핑 대상 주소 저장하기 (일일 시세)
url = 'https://finance.naver.com/item/sise_day.naver?code=005930&page=2'

# HTTP 요청을 대상 주소로 보내고, HTTP 응답을 받아 저장하기
page = requests.get(url, headers=my_headers)

# 응답 내용 확인하기
page.text

- '2023.07.03'자 삼성전자 주식 시세 확인
![image.png](attachment:image.png)

### 4.4.1 삼성전자 일별 주가 데이터 수집하기
- 별도의 브라우저 창으로 일별 주가 데이터 확인하기 
- ( https://finance.naver.com/item/sise_day.naver?code=005930&page=2 )

![image.png](attachment:image.png)

- html 테이블 데이터 가져오기
- [Elements] 탭에서 <table> 태그를 이용하여 테이블 데이터 가져오기
![image.png](attachment:image.png)


In [None]:
# 판다스 패키지 로드
import pandas as pd

# HTML 페이지에서 테이블 추출
pages = pd.read_html(page.text)

# 추출한 데이터 타입 확인하기
type(pages)

In [None]:
# 2테이블 데이터로 구성
len(pages)

In [None]:
# 2번 페이지의 삼성전자 일일 주가 테이블
pages[0]

In [None]:
# 페이지 하단의 다른 페이지 네비게이션 리스트 테이블 페이지
pages[1]

### 4.4.2 페이지 처리된 삼성전자 일별 주가 데이터 수집하기

In [None]:
# 웹 스크래핑을 위한 패키지 로드하기
import requests

# 웹 스크래핑 대상 주소 저장하기
# 페이지 번호 생략
new_url = 'https://finance.naver.com/item/sise_day.naver?code=005930&page='

# 데이터(상성전자 일일 주가 페이지)를 축적할 데이터프레임 생성
all_tables = pd.DataFrame()

In [None]:
# 1페이지만 읽어오기
for page_number in range(1, 2):
    # 페이지 번호 추가한 주소 완성
    full_url = new_url + str(page_number)
    
    #주소 확인하기
    print(f'{page_number}번째 페이지 읽어오기({full_url})' )
    
    # HTTP 요청 전송 후 응답 받아오기
    page = requests.get(full_url, headers=my_headers)
          
    # 테이블 추출
    table = pd.read_html(page.text)[0]
          
    # 수행할 내용
    print(f'전체 {len(all_tables.index)} 줄에 {len(table.index)} 줄 추가')
          
    # 데이터 축적용 데이터프레임에 테이블 추가
    all_tables = pd.concat([all_tables, table])

In [None]:
all_tables

In [None]:
# 결측치 제거
all_tables.dropna(inplace=True)

all_tables

In [None]:
# 10 페이지 읽어오기 (100일치 주식 데이터 일어오기)
for page_number in range(1, 11):
    # 페이지 번호 추가한 주소 완성
    full_url = new_url + str(page_number)
    
    #주소 확인하기
    print(f'{page_number}번째 페이지 읽어오기({full_url})' )
    
    # HTTP 요청 전송 후 응답 받아오기
    page = requests.get(full_url, headers=my_headers)
          
    # 테이블 추출
    table = pd.read_html(page.text)[0]
          
    # 수행할 내용
    print(f'전체 {len(all_tables.index)} 줄에 {len(table.index)} 줄 추가')
          
    # 데이터 축적용 데이터프레임에 테이블 추가
    all_tables = pd.concat([all_tables, table])

In [None]:
# 결측치 제거
all_tables.dropna(inplace=True)

all_tables

## 5. 데이터 시각화


#### 5.1 상자 수염 그래프
![image.png](attachment:image.png)

#### 5.2 시각화 대상 그래프 추출하기
1. 한글 변수 이름 영문으로 변경하기
- 한글을 그래프로 표현하면 폰트에 따라 그래프 라벨이 깨져보이는 경우가 있음
|한글 변수 이름 | 영문 변수 이름 |
|:---:|:---|
|날짜 | date |
|종가 | end_price |
|시가 | start_price |
|고가 | highest_price |
|저가 | lowest_price |

In [None]:
# 변수 이름을 영문으로 변경
all_tables.rename(columns= {'날짜' : 'date',
                            '종가' : 'end_price',
                            '시가' : 'start_price',
                            '고가' : 'highest_price',
                            '저가' : 'lowest_price'}, inplace=True)

# 데이터 확인하기
all_tables

2. 필요없는 변수 제거하기

In [None]:
# 필요없는 변수 제거하기
# axis : {0: index, 1: column(변수)}
# inplace : 원본을 변경할지 여부, True인 경우 원본이 변경됨
all_tables.drop(['전일비', '거래량'], axis=1, inplace=True)

# 데이터 확인하기
all_tables

3. 일별 주가 중앙값(최고가와 최저값의 중앙값)을 구하고, 이를 이용하여 상자수염그래프 그리기

In [None]:
# 일별 주가 중앙값 변수 추가
all_tables['median_price'] = (all_tables['highest_price']+ all_tables['lowest_price']) / 2

# 데이터 확인하기
all_tables

4. 일일 주가 시세를 월별로 집계하기 위해  월 정보 추가

In [None]:
all_tables.head()

In [None]:
# 월 정보 추가 (변수 date에서 7문자 추출)
all_tables['month'] = all_tables['date'].str[0:7]

# 데이터 확인하기
all_tables

In [None]:
# 날짜를 색인으로 지정하기
all_tables.set_index('date', inplace=True)

# 데이터 확인하기
all_tables.head()

In [None]:
# 날짜 오름차순으로 정렬하기
all_tables.sort_index(inplace=True)

# 데이터 확인하기
all_tables.head()

5. 그래프 그리기

In [None]:
# 전체 숫자 데이터 선 그래프 그리기
all_tables.plot.line()

In [None]:
# 앞 15일치 데이터 선 그래프 그리기
all_tables[:15].plot.line(rot=45)

In [None]:
# 앞 15일치 데이터 선 그래프 그리기
all_tables[-15:].plot.line(rot=45)

6. 상자 수염 그래프 그리기

In [None]:
# 일일 주가 중앙값 상자 수염 글프 그리기
all_tables.boxplot(column=['median_price'], by=['month'])

- 전반적인 시세는, 지난 100일간 고가(최댓값)은 73,000, 저가(최솟값)은 58,000근처임
- 4월과 5월에는 크게 상승하고 있음

### 과제 1
- 본인이 관심있는 히사의 종목을 선택하여 분석해 보자
- 최근 100일 분량의 데이터를 확보하고, 월 단위 중앙 값을 기준으로 상자수염 그래프를 그린 후 결과를 분석해 본다,


### 과제 2
- 과제 1의 결과의 범위를 1년으로 늘려 보자
- 과제 1과 비교하여 결과를 분석해 본다