# 1. 데이터 수집
- 기본적으로 데이터를 읽고, 핸들링하는데 사용하는 패키지는 `numpy`, `pandas`입니다.
- 패키지를 등록하기 위해서는 `import 패키지명 as 간축어`를 통해서 사용합니다.  

## 1.1 데이터 파일 읽기

In [None]:
# package 등록
import numpy as np
import pandas as pd

In [None]:
# 데이터 읽기
sample = pd.read_csv("sample.csv")
sample.head()

# 엑셀 파일을 읽는 방법
# pd.read_excel("filename.xlsx", sheet_name = "Sheet1", usecols = ["A", "C"])

Unnamed: 0,date,cnt,death,injured
0,19920101,38,2,47
1,19920102,41,0,49
2,19920103,57,1,62
3,19920104,52,2,57
4,19920105,53,0,65


In [None]:
# 데이터 크기 확인
sample.shape

(9497, 4)

In [None]:
# 데이터의 정보 확인
sample.info()
sample.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9497 entries, 0 to 9496
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   date     9497 non-null   int64
 1   cnt      9497 non-null   int64
 2   death    9497 non-null   int64
 3   injured  9497 non-null   int64
dtypes: int64(4)
memory usage: 296.9 KB


Unnamed: 0,date,cnt,death,injured
count,9497.0,9497.0,9497.0,9497.0
mean,20045660.0,38.671475,0.792987,51.946825
std,75008.7,11.284775,0.986803,14.653647
min,19920100.0,9.0,0.0,13.0
25%,19980700.0,31.0,0.0,42.0
50%,20041230.0,37.0,1.0,50.0
75%,20110700.0,44.0,1.0,60.0
max,20171230.0,99.0,10.0,141.0


In [None]:
# 데이터 컬럼 선택
sample['date']

Unnamed: 0,date
0,19920101
1,19920102
2,19920103
3,19920104
4,19920105
...,...
9492,20171227
9493,20171228
9494,20171229
9495,20171230


In [None]:
# 원하는 데이터만 일부 추출
sample[sample['death'] != 0]

Unnamed: 0,date,cnt,death,injured
0,19920101,38,2,47
2,19920103,57,1,62
3,19920104,52,2,57
5,19920106,58,1,75
6,19920107,55,1,59
...,...,...,...,...
9484,20171219,29,1,33
9485,20171220,34,1,50
9491,20171226,21,1,23
9493,20171228,33,1,55


## 1.2. 크롤링을 이용한 데이터 수집 (BeautifulSoup이용)
- 데이터를 직접 다운로드 할 수 있겠지만, 데이터가 따로 업로드 되어있지 않은 경우, 웹 사이트에 있는 원하는 데이터를 추출하는 방법을 스크래핑 혹은 크롤링 이라고 합니다.
- `BeautifulSoup`은 파이썬에서 크롤링을 하기위해 사용하는 대표적인 라이브러리 중 하나입니다.

In [9]:
import requests
from bs4 import BeautifulSoup

# 1. 웹페이지 요청
url = "https://news.naver.com/"   # 네이버 뉴스 메인 페이지
response = requests.get(url)

# 2. HTML 파싱
soup = BeautifulSoup(response.text, features="html.parser")

# 3. 원하는 데이터 추출 (기사 제목)
# strong 태그 중 class="cnf_news_title"만 추출
titles = soup.find_all("strong", class_="cnf_news_title")

print("=== 네이버 뉴스 기사 제목 ===")
for t in titles[:10]:
    print(t.get_text(strip=True))

=== 네이버 뉴스 기사 제목 ===
Former Interior Minister Lee Sang-min indicted over alleged role in Yoon's martial law
열차 사고 CCTV 살펴보니···안전장치 작동했나? 집중 조사
정부 “중대재해 발생 기업 공공 공사 참여 제한”
북 김여정, 이 대통령 실명 비난..."외교 상대도 아냐"
조국 "사과한다고 2030 마음 열겠나" 발언에…박용진 "부적절"
[속보] 실종됐던 ‘이태원 참사’ 출동 소방관 숨진 채 발견
백종원, 점주들에 300억 풀더니 결국…개미들 '비명' [종목+]
국민의힘 “‘뇌물’ 김용 풀려나, 다음은 정진상·이화영인가?…면죄부 공화국”
“美정부, 삼성전자 지분 확보 검토”...오히려 기업엔 기회 될수도?
윤석열 정부 합참, '북한 도발 시 전면전' 계획 세웠다


In [None]:
# 1. 웹페이지 요청
url = "https://news.naver.com/"   # 네이버 뉴스 메인 페이지
response = requests.get(url)
print(response)
print(response.text)

In [5]:
# 2. HTML 파싱
soup = BeautifulSoup(response.text, features="html.parser")
soup


<!DOCTYPE html>

<html lang="ko">
<head>
<title id="browserTitleArea">네이버 뉴스</title>
<script>
	function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
</script>
<script>
	(function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>
<script>
		var g_ssc = 'news.v3_media' || null;
		var bSupportedIntersectionObserver = "IntersectionObserver" in window;
		</script>
<meta charse

In [14]:
# 3. 원하는 데이터 추출 (기사 제목)
# strong 태그 중 class="cnf_news_title"만 추출
titles = soup.find_all("strong", class_="cnf_news_title")
print(titles[0])
print(" ")
print(" ")
print(" ")
print("=== 네이버 뉴스 기사 제목 ===")
# 10개 정도만 우선 불러오기
for t in titles[:10]:
    print(t.get_text(strip=True))

<strong class="cnf_news_title">Former Interior Minister Lee Sang-min indicted over alleged role in Yoon's martial law</strong>
 
 
 
=== 네이버 뉴스 기사 제목 ===
Former Interior Minister Lee Sang-min indicted over alleged role in Yoon's martial law
열차 사고 CCTV 살펴보니···안전장치 작동했나? 집중 조사
정부 “중대재해 발생 기업 공공 공사 참여 제한”
북 김여정, 이 대통령 실명 비난..."외교 상대도 아냐"
조국 "사과한다고 2030 마음 열겠나" 발언에…박용진 "부적절"
[속보] 실종됐던 ‘이태원 참사’ 출동 소방관 숨진 채 발견
백종원, 점주들에 300억 풀더니 결국…개미들 '비명' [종목+]
국민의힘 “‘뇌물’ 김용 풀려나, 다음은 정진상·이화영인가?…면죄부 공화국”
“美정부, 삼성전자 지분 확보 검토”...오히려 기업엔 기회 될수도?
윤석열 정부 합참, '북한 도발 시 전면전' 계획 세웠다
