## Week 04 : 웹 크롤링 I

In [1]:
import re
import pandas as pd
import numpy as np
import json
import time
from datetime import datetime, timedelta

import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
from collections import Counter
from itertools import chain
from operator import itemgetter

**크롤링을 시작할 때...**
- basic_header : python으로 접속한 것이 들키지(?) 않기 위해 사용. 직접 dictionary로 입력.
- session = requests.Session() : 크롤링을 맨 처음에 시작할 때 선언
- req = session.get(url, headers=basic_header, allow_redirects=True) : 만약 웹 사이트를 제대로 호출했다면 req 값이 200으로 나옴. 300대 번호의 경우 권한 부족, 400대 번호의 경우 주소가 없거나 서버 문제 발생
- soup = BeautifulSoup(req.text, 'lxml') : 웹브라우저 F12창에 나온 코드처럼 들여쓰기(indenting)까지 포함해서 예쁘게 + 가공하기 쉽게 req.text에 나온 HTML을 변환해줌.

In [2]:
basic_header = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5)\AppleWebKit 537.36 (KHTML, like Gecko) Chrome",
                "Accept":"text/html,application/xhtml+xml,application/xml;\q=0.9,imgwebp,*/*;q=0.8"}

url = 'http://underscore.kr/'

session = requests.Session()
req = session.get(url, headers=basic_header, allow_redirects=True)
soup = BeautifulSoup(req.text, 'lxml')

**\<p id='login'>로그인<\/p>**
- p : 태그(tag)
- id : 속성(attribute)
- 'login' : 속성값(arguments)

**BeautifulSoup 기초 사용법**
- **soup.find(태그, {속성:속성값})**
- soup.find('example') : example이라는 tag 중 맨 위 첫 번째 soup element를 찾음
- soup.find('example', {'x':'abc'}) : example이라는 tag에서 x라는 속성의 값이 abc인 맨 위 첫 번째 soup element를 찾음
- soup.find_all('example') : example이라는 tag를 갖고 있는 모든 soup element를 찾아서 list 형태로 반환
- soup element에서 '안에 있는 다른 tag'로 타고 들어갈 때는 **마침표(.)안에있는tag이름**을 사용
- soup element에서 속성값을 찾을 때에는 dictionary index 주듯이 속성명을 입력함

In [3]:
soup.find('h2')

<h2 class="title-post entry-title"><a href="http://underscore.kr/istrollingcontagious/" rel="bookmark">왜 자꾸 어그로를 끄는 거야!</a></h2>

In [4]:
soup.find('h2', {'class':'title-post entry-title'})

<h2 class="title-post entry-title"><a href="http://underscore.kr/istrollingcontagious/" rel="bookmark">왜 자꾸 어그로를 끄는 거야!</a></h2>

In [5]:
soup.find('h2').a

<a href="http://underscore.kr/istrollingcontagious/" rel="bookmark">왜 자꾸 어그로를 끄는 거야!</a>

In [6]:
soup.find('h2').a['href']

'http://underscore.kr/istrollingcontagious/'

In [7]:
soup.find_all('h2')

[<h2 class="title-post entry-title"><a href="http://underscore.kr/istrollingcontagious/" rel="bookmark">왜 자꾸 어그로를 끄는 거야!</a></h2>,
 <h2 class="title-post entry-title"><a href="http://underscore.kr/politaku/" rel="bookmark">페이스북으로 ‘정잘알’이 될 수 있을까?</a></h2>,
 <h2 class="title-post entry-title"><a href="http://underscore.kr/genderindanger/" rel="bookmark">당신은 남자답지 않습니다</a></h2>,
 <h2 class="title-post entry-title"><a href="http://underscore.kr/goodhigschoolanduniv/" rel="bookmark">좋은 고등학교를 가면 대학 입시에서 유리할까?</a></h2>,
 <h2 class="title-post entry-title"><a href="http://underscore.kr/hotweatherkillspeople/" rel="bookmark">덥다, 더워! 데이터가 알려주는 더위와 자살률의 관계</a></h2>,
 <h2 class="title-post entry-title"><a href="http://underscore.kr/arenoobsmoreconfident/" rel="bookmark">진짜로 잘 모르는 사람이 더 용감할까?</a></h2>]

In [8]:
# 방식 1 : 일반적인 for문
title_list = []
suburl_list = []
for each in soup.find_all('h2') :
    title_list.append(each.a.text)
    suburl_list.append(each.a['href'])

# 방식 2 : List Comprehension을 사용해서 한 줄로 처리
title_list = [each.a.text for each in soup.find_all('h2')]
suburl_list = [each.a['href'] for each in soup.find_all('h2')]

**Pandas 사용법**
- pd.DataFrame(zip(x,y,z), columns=['a', 'b', 'c']) : x, y, z라는 list를 묶어서(zip) 각각을 변수(variable/column)로 하는 pandas DataFrame으로 만들어주며, 이 때 변수명은 앞에서부터 순서대로 'a', 'b', 'c'로 설정
- 특정 변수/행 선택은 "데이터프레임이름[변수명]"
- 여러 개의 변수/행 선택은 index에 list형태로 넣어줌. "데이터프레임이름[[변수명1, 변수명2]]"
- 각각의 변수의 data type은 pandas.Series이며, 이는 list와 달리 직접적으로 연산을 적용해 볼 수 있음
- 글자(string)에 적용할 수 있는 함수의 경우 "데이터프레임이름[변수명].str.함수명"의 형태로 직접 적용해줄 수 있음

In [9]:
underscoredf = pd.DataFrame(zip(title_list, suburl_list), columns=['title', 'url'])

underscoredf['len_title'] = underscoredf['title'].str.len()
underscoredf['len_url'] = underscoredf['url'].str.len()
underscoredf['source'] = 'underscore'
underscoredf['digit_len_title'] = underscoredf['len_title'].astype(str).str.len()
underscoredf['doubled_len_title'] = underscoredf['len_title']*2

In [10]:
underscoredf

Unnamed: 0,title,url,len_title,len_url,source,digit_len_title,doubled_len_title
0,왜 자꾸 어그로를 끄는 거야!,http://underscore.kr/istrollingcontagious/,16,42,underscore,2,32
1,페이스북으로 ‘정잘알’이 될 수 있을까?,http://underscore.kr/politaku/,22,30,underscore,2,44
2,당신은 남자답지 않습니다,http://underscore.kr/genderindanger/,13,36,underscore,2,26
3,좋은 고등학교를 가면 대학 입시에서 유리할까?,http://underscore.kr/goodhigschoolanduniv/,25,42,underscore,2,50
4,"덥다, 더워! 데이터가 알려주는 더위와 자살률의 관계",http://underscore.kr/hotweatherkillspeople/,29,43,underscore,2,58
5,진짜로 잘 모르는 사람이 더 용감할까?,http://underscore.kr/arenoobsmoreconfident/,21,43,underscore,2,42


In [11]:
underscoredf[['title', 'len_url', 'url']]

Unnamed: 0,title,len_url,url
0,왜 자꾸 어그로를 끄는 거야!,42,http://underscore.kr/istrollingcontagious/
1,페이스북으로 ‘정잘알’이 될 수 있을까?,30,http://underscore.kr/politaku/
2,당신은 남자답지 않습니다,36,http://underscore.kr/genderindanger/
3,좋은 고등학교를 가면 대학 입시에서 유리할까?,42,http://underscore.kr/goodhigschoolanduniv/
4,"덥다, 더워! 데이터가 알려주는 더위와 자살률의 관계",43,http://underscore.kr/hotweatherkillspeople/
5,진짜로 잘 모르는 사람이 더 용감할까?,43,http://underscore.kr/arenoobsmoreconfident/
