# 2. 웹 크롤링 시작하기

## 웹 크롤링이란?
* Web상에 존재하는 Contents를 수집하는 작업
* Web은 HTML 이라는 코드로 이루어져 있으며, 이러한 HTML 코드 중 필요한 내용을 담고 있는 코드를 가져와 우리가 사용할 수 있는 형태로 변화 시키는 과정

## 웹 크롤링 시작하기
* 파이썬으로 많은 일을 할 수 있지만 파이썬만 설치한다고 모든 것을 할 수는 없습니다.
* 파이썬만 설치하면 기본적인 작업만 할 수 있으며 추가 작업을 위해서는 라이브러리를 추가해야 합니다.
* 라이브러리란 특정한 기능을 수행하는 여러 함수를 모아놓은 것이라 생각하면 됩니다.
* 파이썬에서 웹 크롤링 기능을 구현하기 위해서는 기본적으로 BeautifulSoup이라는 라이브러리가 필요합니다.

BeautifulSoup 라이브러리를 추가하는 코드는 아래와 같습니다.

In [1]:
from bs4 import BeautifulSoup

웹 크롤링은 웹 싸이트의 내용을 수집하는 겁니다. 그렇기 때문에 웹 싸이트의 내용을 읽어들일 수 있는 라이브러리도 필요합니다.

In [2]:
from urllib.request import urlopen

그럼 웹 싸이트의 내용을 크롤링을 통해 가져오는 방법을 알아보겠습니다.

In [3]:
# 해당 싸이트의 정보(코드)를 가져오는 코드
html = urlopen('http://pythonscraping.com/pages/page1.html')

# 가져온 정보를 웹 크롤링을 하기 위한 형태로 변환
bs = BeautifulSoup(html.read(), 'html.parser')

# 가져온 데이터 출력
print(bs)

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>



위의 내용을 보면 <>로 감싸진 글자가 보입니다. 이를 태그라고 합니다.  
웹 싸이트는 이러한 태그로 구성되어 있습니다.  
그리고 이러한 태그는 대부분 여는 태그와 닫는 태그로 구성되어 있습니다.

In [4]:
# title 태그의 내용을 출력
print(bs.title)

<title>A Useful Page</title>


In [5]:
# h1 태그의 내용을 출력
print(bs.h1)

<h1>An Interesting Title</h1>


In [6]:
# div 태그의 내용을 출력
print(bs.div)

<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>


### 웹 크롤링 고급

In [7]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, 'html.parser')
print(bs)

<html>
<head>
<style>
.green{
	color:#55ff55;
}
.red{
	color:#ff5555;
}
#text{
	width:50%;
}
</style>
</head>
<body>
<h1>War and Peace</h1>
<h2>Chapter 1</h2>
<div id="text">
"<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.</span>"
<p></p>
It was in July, 1805, and the speaker was the well-known <span class="green">Anna
Pavlovna Scherer</span>, maid of honor and favorite of the <span class="green">Empress Marya
Fedorovna</span>. With these words she greeted <span class="green">Prince Vasili Kuragin</span>, a man
of high rank and importance, who was the firs

In [9]:
# find()함수는 태그를 찾아주지만 가장 첫번째 태그만 찾아줍니다.
spanTag = bs.find('span')
print(spanTag)

<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.</span>


In [10]:
# findAll() 함수는 모든 태그를 찾아줍니다.
spanTag = bs.findAll('span')
print(spanTag)

[<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.</span>, <span class="green">Anna
Pavlovna Scherer</span>, <span class="green">Empress Marya
Fedorovna</span>, <span class="green">Prince Vasili Kuragin</span>, <span class="green">Anna Pavlovna</span>, <span class="green">St. Petersburg</span>, <span class="red">If you have nothing better to do, Count [or Prince], and if the
prospect of spending an evening with a poor invalid is not too
terrible, I shall be very charmed to see you tonight between 7 and 10-
Annette Scherer.</span>, <span class="red">Heavens! w

In [11]:
# 아래의 코드는 span 태그 중  class 속성이 green인 태그를 모두 찾습니다.
nameList = bs.findAll('span', class_='green')

count = len(nameList)
print('span 태그의 개수 =', count)

# 찾은 태그의 text 정보를 출력합니다.
for name in nameList:
    print(name.get_text())

span 태그의 개수 = 41
Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [12]:
# 데이터를 표 형태로 만들어주는 라이브러브 추가
import pandas as pd

In [13]:
#위에서 추출한 데이터를 pandas에 사용할 수 있는 형태로 구성
data = {
    'name':nameList
}

df = pd.DataFrame(data)
df
#df.to_excel('result1.xlsx')

Unnamed: 0,name
0,[Anna\nPavlovna Scherer]
1,[Empress Marya\nFedorovna]
2,[Prince Vasili Kuragin]
3,[Anna Pavlovna]
4,[St. Petersburg]
5,[the prince]
6,[Anna Pavlovna]
7,[Anna Pavlovna]
8,[the prince]
9,[the prince]


In [14]:
student_info = {
    '이름' : ['이순신', '신사임당', '김유신']
    , '나이' : [20, 30, 40]
    , '점수' : [80, 85, 90]
}

df = pd.DataFrame(student_info)

df

Unnamed: 0,이름,나이,점수
0,이순신,20,80
1,신사임당,30,85
2,김유신,40,90
