# 1. 데이터 수집
- 기본적으로 데이터를 읽고, 핸들링하는데 사용하는 패키지는 `numpy`, `pandas`입니다.
- 패키지를 등록하기 위해서는 `import 패키지명 as 간축어`를 통해서 사용합니다.  

## 1.1 데이터 파일 읽기

In [None]:
# package 등록
import numpy as np
import pandas as pd

In [None]:
# 데이터 읽기
sample = pd.read_csv("sample.csv")
sample.head()

# 엑셀 파일을 읽는 방법
# pd.read_excel("filename.xlsx", sheet_name = "Sheet1", usecols = ["A", "C"])

In [None]:
# 데이터 크기 확인
sample.shape

In [None]:
# 데이터의 정보 확인
sample.info()
sample.describe()

In [None]:
# 데이터 컬럼 선택
sample['date']

In [None]:
# 원하는 데이터만 일부 추출
sample[sample['death'] != 0]

In [None]:
# 원하는 데이터 행 선택
#sample[1:2]
#sample.iloc[2]

# tail의 의미
#sample.tail()
#sample.iloc[-5:]

# 원하는 열 선택
#sample.iloc[:, 0:2]
#sample[['date', 'cnt']]

# 원하는 행 삭제
#sample.drop(0)
#sample.drop([0,1])

# 원하는 열 삭제
#sample.drop('date', axis = 1)

## 1.2. 크롤링을 이용한 데이터 수집 (BeautifulSoup이용)
- 데이터를 직접 다운로드 할 수 있겠지만, 데이터가 따로 업로드 되어있지 않은 경우, 웹 사이트에 있는 원하는 데이터를 추출하는 방법을 스크래핑 혹은 크롤링 이라고 합니다.
- `BeautifulSoup`은 파이썬에서 크롤링을 하기위해 사용하는 대표적인 라이브러리 중 하나입니다.

In [None]:
import requests
from bs4 import BeautifulSoup

# 1. 웹페이지 요청
url = "https://news.naver.com/"   # 네이버 뉴스 메인 페이지
response = requests.get(url)

# 2. HTML 파싱
soup = BeautifulSoup(response.text, features="html.parser")

# 3. 원하는 데이터 추출 (기사 제목)
# strong 태그 중 class="cnf_news_title"만 추출
titles = soup.find_all("strong", class_="cnf_news_title")

print("=== 네이버 뉴스 기사 제목 ===")
for t in titles[:10]:
    print(t.get_text(strip=True))

In [None]:
# 1. 웹페이지 요청
url = "https://news.naver.com/"   # 네이버 뉴스 메인 페이지
response = requests.get(url)
print(response)
print(response.text)

In [None]:
# 2. HTML 파싱
soup = BeautifulSoup(response.text, features="html.parser")
soup

In [None]:
# 3. 원하는 데이터 추출 (기사 제목)
# strong 태그 중 class="cnf_news_title"만 추출
titles = soup.find_all("strong", class_="cnf_news_title")
print(titles[0])
print(" ")
print(" ")
print(" ")
print("=== 네이버 뉴스 기사 제목 ===")
# 10개 정도만 우선 불러오기
for t in titles[:10]:
    print(t.get_text(strip=True))