# 웹 크롤링

* 웹 스크래핑의 개념과 목적
    - 웹 페이지에서 데이터를 추출하여 수집하는 것을 말합니다. 주로 데이터 수집 및 분석, 기업 비교 및 분석 등의 목적으로 사용됩니다.
* 웹 스크래핑의 장단점
    - 장점으로는 대량의 데이터 수집, 효율적인 데이터 분석, 비용 절감 등이 있습니다. 단점으로는 웹사이트의 로봇 배제 표준에 따른 규제, 데이터 보안 위협 등이 있습니다.


In [1]:
# 모듈 설치
#     모듈 설치하기: pip를 이용하여 requests 모듈을 설치합니다.

# requests 모듈
#     requests 모듈은 HTTP 요청을 보내고, 응답을 받는 기능을 제공합니다. 즉, 웹 사이트의 HTML 코드를 가져오는 데 사용됩니다. 

# bs4 모듈
#     bs4 모듈은 HTML, XML 등의 문서에서 데이터를 추출하는 기능을 제공합니다. 
# 즉, 웹 사이트에서 필요한 정보를 가져오는 데 사용됩니다. 
# HTML 태그를 이용하여 원하는 정보를 선택할 수 있으며, 정규 표현식 등을 이용하여 문자열을 검색할 수도 있습니다.


# !pip install requests
# !pip install bs4

In [2]:
# 한겨레 신문의 오늘의 뉴스 기사 제목을 크롤링

import requests
from bs4 import BeautifulSoup

url = "https://www.hani.co.kr/arti/list.html?sec=news&subsec=politics"
response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")
titles = soup.find_all("h4", class_="article-title")
for title in titles:
    print(title.text.strip())


6월 30일 문학 새 책
12층서 추락한 고양이 2마리…카라 “동물 학대 정황”
사각의 링에선 최강자 데이비스… 사각의 감옥에 갇히다
공무원인재개발원장 내정자 “좌파들, 노무현 안죽을 수 없도록 압력 가해”
6월 30일 출판 새 책
윤, 차관 내정자들에 “약탈적 이권카르텔에 맞서 싸워달라”
함평 60대 실종자 숨진 채 발견
중국, 미국 제재 맞선 대외관계법 재정…“부당 공격땐 맞대응”
18년 만에 장애인 전동휠체어 건강보험 지원액 13% 인상
대통령실, ‘서해선 개통식’ 야당 의원·도지사 따돌렸나
7월 경기 전망 ‘흐림’…업황 전망지수 5개월 만에 다시 꺾여
[사설] 청문회·장관 허수아비 만든 ‘용산 낙하산’ 차관 인사
[사설] 감사원을 대통령 하부기관으로 만든 윤석열 정부
[Interview] Dear Korean men, It’s OK to admit you’re not always strong
지난해 종부세 1명당 42% 줄었다…화끈한 감세


In [3]:
# requests.get(url)

# get() 메서드가 반환하는 객체는 Response 객체입니다. 
# 이 객체는 HTTP 응답에 대한 정보를 가지고 있으며, HTML 코드는 text 속성에 저장되어 있습니다.
# response.text를 이용하여 HTTP 응답에서 HTML 코드를 가져와서, 웹 스크래핑에 활용할 수 있습니다.

import requests
from bs4 import BeautifulSoup

url = "https://www.hani.co.kr/arti/list.html?sec=news&subsec=politics"
response = requests.get(url)
print(response.text)


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!--[if IE]><![endif]-->
<!--[if lt IE 7 ]><html class="no-js ie6" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraph.org/schema/" lang="ko" xml:lang="ko"><![endif]-->
<!--[if IE 7 ]><html class="no-js ie7" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraph.org/schema/" lang="ko" xml:lang="ko"><![endif]-->
<!--[if IE 8 ]><html class="no-js ie8" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraph.org/schema/" lang="ko" xml:lang="ko"><![endif]-->
<!--[if IE 9 ]><html class="no-js ie9" xmlns:fb="http://ogp.me/ns/fb#" lang="ko" xml:lang="ko"><![endif]-->
<!--[if (gt IE 9)|!(IE)]><!-->
<html class="no-js" xmlns:fb="http://ogp.me/ns/fb#" lang="ko" xml:lang="ko">
<!--<![endif]-->
	<head>
		<meta name="google-site-verification" content="dt63OsLHBDl6pOR7vXCWFYhwXyOcS9libHHWJJ-r9GQ" />
<link rel="shortcut icon" hre

In [4]:
# BeautifulSoup(response.text, "html.parser")

#     BeautifulSoup()는 HTML, XML 등의 문서를 파싱하여 파이썬에서 사용할 수 있는 객체로 만드는 클래스입니다.

#         soup = BeautifulSoup(markup, features)

#     markup (필수): 파싱할 HTML, XML 등의 코드
#     features: 파서 엔진의 종류를 지정합니다. 기본값은 html.parser입니다. 다른 파서 엔진으로 lxml, html5lib 등을 지정할 수 있습니다.

#     soup 객체를 이용하여 HTML 코드에서 필요한 데이터를 추출하거나 탐색


In [5]:
# titles = soup.find_all("h4", class_="article-title")

#     BeautifulSoup 객체 soup에서 find_all() 메서드를 이용하여, HTML 코드에서 h4 태그 중 class 속성이 "article-title"인 요소를 찾는 코드

#     find_all() 메서드
#     조건에 맞는 모든 태그를 찾아서 리스트 형태로 반환합니다. 

#     h4 태그를 찾고, 이 중 class 속성이 "article-title"인 요소를 모두 찾아서 titles 변수에 할당


### Beautifulsoup 객체에서 주로 사용되는 메서드

* find(): 조건에 맞는 첫 번째 태그를 찾아 반환합니다.
    - Name: 태그 이름을 지정합니다.
    - Attrs: 태그의 속성과 값을 지정합니다.
    - Recursive: 하위 태그를 포함하여 검색할지 여부를 지정합니다.

* Find_all(): 조건에 맞는 모든 태그를 찾아 리스트형태로 반환합니다.
    - name: 태그 이름을 지정합니다.
    - attrs: 태그의 속성과 값을 지정합니다.
    - recursive: 하위 태그를 포함하여 검색할지 여부를 지정합니다.
    - limit: 반환할 최대 태그 개수를 지정합니다.

* select_one() 메서드는 선택된 태그 중에서 첫 번째 태그만을 반환합니다.

* select(): CSS 선택자를 이용하여 선택된 모든 태그를 리스트 형태로 반환합니다. 

* text(): 태그의 텍스트 내용을 반환합니다.
* get(): 태그의 속성 값을 반환합니다.


### Beautifulsoup 객체 메서드
* find_parents(): 해당 태그의 모든 부모 태그를 반환합니다. 반환값은 ResultSet 객체입니다.
* find_parent(): 해당 태그의 첫 번째 부모 태그를 반환합니다. 반환값은 Tag 객체입니다.
* find_next_siblings(): 해당 태그 다음에 나오는 모든 형제 태그들을 반환합니다. 반환값은 ResultSet 객체입니다.
* find_next_sibling(): 해당 태그 다음에 나오는 첫 번째 형제 태그를 반환합니다. 반환값은 Tag 객체입니다.
* find_previous_siblings(): 해당 태그 이전에 나온 모든 형제 태그들을 반환합니다. 반환값은 ResultSet 객체입니다.
* find_previous_sibling(): 해당 태그 이전에 나온 첫 번째 형제 태그를 반환합니다. 반환값은 Tag 객체입니다.


In [6]:
# find()와 find_all() 메서드를 사용한 예시

#     find() 메서드는 HTML 코드에서 조건에 맞는 첫 번째 태그를 찾아서 반환합니다. 
#     find_all() 메서드는 HTML 코드에서 조건에 맞는 모든 태그를 찾아서 리스트 형태로 반환합니다.

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="menu">
    <ul>
        <li><a href="/home">Home</a></li>
        <li><a href="/about">About</a></li>
        <li><a href="/contact">Contact</a></li>
    </ul>
</div>
<div class="content">
    <h1>Hello, World!</h1>
    <p>This is an example of using Beautifulsoup.</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# find() 메서드 사용 예시
div_menu = soup.find('div', {'class': 'menu'})
print(div_menu)

# find_all() 메서드 사용 예시
links = soup.find_all('a')
for link in links:
    print(link.get('href'))


<div class="menu">
<ul>
<li><a href="/home">Home</a></li>
<li><a href="/about">About</a></li>
<li><a href="/contact">Contact</a></li>
</ul>
</div>
/home
/about
/contact


In [7]:
# select() 메서드

#     첫 번째 select() 메서드 예시에서는 . 기호를 이용하여 class 이름을 지정하여 menu 클래스를 가지는 div 태그를 선택합니다. 
#     두 번째 select() 메서드 예시에서는 div.menu a와 같이 복합 선택자를 이용하여 div 태그 중 menu 클래스를 가지는 하위 a 태그를 선택합니다.

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="menu">
    <ul>
        <li><a href="/home">Home</a></li>
        <li><a href="/about">About</a></li>
        <li><a href="/contact">Contact</a></li>
    </ul>
</div>
<div class="content">
    <h1>Hello, World!</h1>
    <p>This is an example of using Beautifulsoup.</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# CSS 선택자를 이용하여 태그 선택하기
menu = soup.select('.menu')
for m in menu:
    print(m)

# 복합 CSS 선택자를 이용하여 태그 선택하기
links = soup.select('div.menu a')
for link in links:
    print(link.get('href'))


<div class="menu">
<ul>
<li><a href="/home">Home</a></li>
<li><a href="/about">About</a></li>
<li><a href="/contact">Contact</a></li>
</ul>
</div>
/home
/about
/contact


In [8]:
# select_one()와 select() 메서드
#     select_one() 메서드를 사용하여 h1 태그와 a 태그를 선택한 결과는 모두 Tag 객체로 반환
#     select() 메서드를 사용하여 선택한 p 태그는 여러 개이므로, ResultSet 객체로 반환됩니다. ResultSet 객체는 리스트와 유사한 형태로 여러 개의 Tag 객체를 원소로 가지므로, for문을 이용하여 원소를 순회하며 각 태그의 텍스트 내용을 출력

import requests
from bs4 import BeautifulSoup

html_doc = """
<html>
    <body>
        <h1>제목</h1>
        <p class="content">내용 1</p>
        <p class="content">내용 2</p>
        <a href="http://www.example.com">링크</a>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# select_one() 메서드 사용 예시
title_tag = soup.select_one('h1')
print(type(title_tag))  # <class 'bs4.element.Tag'>
print(title_tag.text)   # 제목

link_tag = soup.select_one('a')
print(type(link_tag))   # <class 'bs4.element.Tag'>
print(link_tag.text)    # 링크

# select() 메서드 사용 예시
content_tags = soup.select('.content')
print(type(content_tags))  # <class 'bs4.element.ResultSet'>
for content_tag in content_tags:
    print(content_tag.text)  # 내용 1, 내용 2


<class 'bs4.element.Tag'>
제목
<class 'bs4.element.Tag'>
링크
<class 'bs4.element.ResultSet'>
내용 1
내용 2


In [9]:
# text()와 get() 메서드
#     text() 메서드를 사용하여 h1 태그의 텍스트 내용을 반환합니다. 
#     get() 메서드를 사용하여 a 태그의 href 속성과 target 속성 값을 반환합니다.
from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class="menu">
    <ul>
        <li><a href="/home">Home</a></li>
        <li><a href="/about">About</a></li>
        <li><a href="/contact">Contact</a></li>
    </ul>
</div>
<div class="content">
    <h1>Hello, World!</h1>
    <p>This is an example of using Beautifulsoup.</p>
    <a href="https://www.google.com" target="_blank">Google</a>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

# text() 메서드 사용 예시
h1 = soup.find('h1')
print(h1.text)

# get() 메서드 사용 예시
a = soup.find('a')
print(a.get('href'))
print(a.get('target'))


Hello, World!
/home
None


### 웹 스크래핑 예시

In [10]:
#    네이버 블로그에서 특정 키워드에 대한 포스트 제목과 링크를 가져오는 예시

import requests
from bs4 import BeautifulSoup

# 네이버 블로그에서 키워드 "파이썬"에 대한 포스트 검색 페이지에서 HTML 코드 가져오기
url = 'https://search.naver.com/search.naver'
params = {'query': '파이썬', 'where': 'blog'}
response = requests.get(url, params=params)
#print(response.url)

# HTML 코드 파싱하기
soup = BeautifulSoup(response.text, 'html.parser')

# 포스트 정보 태그 가져오기
posts = soup.select('.total_tit')

# 포스트 정보 출력하기
for post in posts:
    # 제목과 링크 가져오기
    title = post.text
    link = post.get('href')
    print(title)
    print(link)
    print('-' * 50)


파이썬 학원 다녀본 후기
https://blog.naver.com/wkddpfka1/223123747880
--------------------------------------------------
시대에 파이썬 독학을 위한 책 추천, 코딩은 처음이라 파이썬!
https://blog.naver.com/nkj2001/223095668983
--------------------------------------------------
파이썬 배워본 후기
https://blog.naver.com/yeonsun23/223142081108
--------------------------------------------------
강남파이썬학원 : 자기개발로 시작하여 취업까지
https://blog.naver.com/urmyver/223079591746
--------------------------------------------------
파이썬으로 최대공약수 계산기 만들고 값 구하는법
https://blog.naver.com/hj_bw/223122660212
--------------------------------------------------
대구파이썬학원. 중위권 진로로드맵
https://blog.naver.com/hma778/223117429542
--------------------------------------------------
데이터안심구역에서 인공지능 빅데이터 분석과 파이썬 무료... 
https://blog.naver.com/moimoi1357/223116965255
--------------------------------------------------
웹크롤링 파이썬 몰라도 챗GPT 사용법만 알아도 된다.
https://blog.naver.com/ocmarketing/223040044418
--------------------------------------------------
[부천역코딩학원] 파이썬 어디까지 활용할 수 있어요?... 


In [11]:
# 구글 뉴스의 제목과 링크를 출력하는 예시

import requests
from bs4 import BeautifulSoup

url = 'https://news.google.com/topstories?hl=ko&gl=KR&ceid=KR:ko'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

titles = soup.select('.WwrzSb')
for title in titles:
    print(title.get('aria-label'))
    print('https://news.google.com' + title['href'][1:])
    print('-' * 50)


None
https://news.google.com/articles/CBMiPmh0dHBzOi8vd3d3LmhhbmkuY28ua3IvYXJ0aS9pbnRlcm5hdGlvbmFsL2FtZXJpY2EvMTA5ODAxOC5odG1s0gEA?hl=ko&gl=KR&ceid=KR%3Ako
--------------------------------------------------
None
https://news.google.com/articles/CBMiLGh0dHBzOi8vbS5raGFuLmNvLmtyL2FydGljbGUvMjAyMzA2MjkwODA1MDEx0gFEaHR0cHM6Ly9tLmtoYW4uY28ua3Ivd29ybGQvZXVyb3BlLXJ1c3NpYS9hcnRpY2xlLzIwMjMwNjI5MDgwNTAxMS9hbXA?hl=ko&gl=KR&ceid=KR%3Ako
--------------------------------------------------
None
https://news.google.com/articles/CBMiPGh0dHBzOi8vd3d3Lmhhbmt5dW5nLmNvbS9pbnRlcm5hdGlvbmFsL2FydGljbGUvMjAyMzA2Mjg5ODU0WdIBOGh0dHBzOi8vd3d3Lmhhbmt5dW5nLmNvbS9pbnRlcm5hdGlvbmFsL2FtcC8yMDIzMDYyODk4NTRZ?hl=ko&gl=KR&ceid=KR%3Ako
--------------------------------------------------
None
https://news.google.com/articles/CBMiKGh0dHBzOi8vd3d3Lm5vY3V0bmV3cy5jby5rci9uZXdzLzU5NjgwNTfSAQA?hl=ko&gl=KR&ceid=KR%3Ako
--------------------------------------------------
None
https://news.google.com/articles/CBMiOGh0dHBzOi8vbS5oYW5r

In [12]:
# 다음 영화 예매 순위 정보를 출력하는 예시

import requests
from bs4 import BeautifulSoup

url = 'https://movie.daum.net/ranking/reservation'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

rank_list = soup.select('div.thumb_cont > strong > a')
rank_rate = soup.select('span.txt_append > span > span')

for rank, title in enumerate(rank_list, 1):
    print(f'{rank}위: {title.text} 예매율({rank_rate[rank-1].text})')



1위: 엘리멘탈 예매율(8.6)
2위: 인디아나 존스: 운명의 다이얼 예매율(31.5%)
3위: 스파이더맨: 어크로스 더 유니버스 예매율(8.3)
4위: 범죄도시3 예매율(20.8%)
5위: 귀공자 예매율(8.3)
6위: 2022 영탁 단독 콘서트 - 탁쇼 예매율(9.7%)
7위: 악마들 예매율(6.6)
8위: 여름날 우리 예매율(8.5%)
9위: 애스터로이드 시티 예매율(8.1)
10위: 극장판 도라에몽: 진구와 하늘의 유토피아 예매율(6.7%)
11위: 명탐정코난: 하이바라 아이 이야기 ~흑철의 미스터리 트레인 예매율(9.5)
12위: 파이어하트 예매율(4.9%)
13위: 플래시 예매율(8.8)
14위: 라방 예매율(2.7%)
15위: 수라 예매율(7.9)
16위: 샤이닝 예매율(2.2%)
17위: 엔니오: 더 마에스트로 예매율(6.9)
18위: 보 이즈 어프레이드 예매율(1.6%)
19위: 빈틈없는 사이 예매율(10.0)
20위: 하나님의 마음 예매율(1.2%)


In [13]:
# 다음 영화 예매 순위 정보를 출력하는 예시

import requests
from bs4 import BeautifulSoup

url = 'https://movie.daum.net/ranking/reservation'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

ol = soup.select_one('.list_movieranking')
print(ol)


<ol class="list_movieranking">
<li>
<div class="item_poster">
<div class="thumb_item">
<div class="poster_movie">
<img alt="엘리멘탈" class="img_thumb" src="https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fe4ce2c6ae33edb0ef32d5614b367f85c10a7316c"/>
<span class="rank_num">1</span>
<span class="txt_tag">
<span class="ico_movie ico_see">전체관람가</span>
</span>
</div>
<div class="poster_info">
<a class="link_story" data-tiara-layer="poster" href="/moviedb/main?movieId=163777">
                                        디즈니·픽사의 놀라운 상상력!올여름, 세상이 살아 숨 쉰다불, 물, 공기, 흙 4개의 원소들이 살고 있는 ‘엘리멘트 시티’재치 있고 불처럼 열정 넘치는 ‘앰버'는 어느 날 우연히유쾌하고 감성적이며 물 흐르듯 사는 '웨이드'를 만나 특별한 우정을 쌓으며,지금껏 믿어온 모든 것들이 흔들리는 새로운 경험을 하게 되는데...제 76회 칸 영화제 폐막작 선정!&lt;굿 다이노&gt; 피터 손 감독 연출&lt;인사이드 아웃&gt;, &lt;소울&gt; 피트 닥터 제작 참여6월 14일 극장 대개봉, 웰컴 투 ‘엘리멘트 시티’!
                                    </a>
</div>
</div>
<div class="thumb_cont">
<strong class="tit_item">
<a class="link_txt" data-tiara-layer="moviename" href=

In [14]:
li_list = ol.find_all('li')
print(li_list)


[<li>
<div class="item_poster">
<div class="thumb_item">
<div class="poster_movie">
<img alt="엘리멘탈" class="img_thumb" src="https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fe4ce2c6ae33edb0ef32d5614b367f85c10a7316c"/>
<span class="rank_num">1</span>
<span class="txt_tag">
<span class="ico_movie ico_see">전체관람가</span>
</span>
</div>
<div class="poster_info">
<a class="link_story" data-tiara-layer="poster" href="/moviedb/main?movieId=163777">
                                        디즈니·픽사의 놀라운 상상력!올여름, 세상이 살아 숨 쉰다불, 물, 공기, 흙 4개의 원소들이 살고 있는 ‘엘리멘트 시티’재치 있고 불처럼 열정 넘치는 ‘앰버'는 어느 날 우연히유쾌하고 감성적이며 물 흐르듯 사는 '웨이드'를 만나 특별한 우정을 쌓으며,지금껏 믿어온 모든 것들이 흔들리는 새로운 경험을 하게 되는데...제 76회 칸 영화제 폐막작 선정!&lt;굿 다이노&gt; 피터 손 감독 연출&lt;인사이드 아웃&gt;, &lt;소울&gt; 피트 닥터 제작 참여6월 14일 극장 대개봉, 웰컴 투 ‘엘리멘트 시티’!
                                    </a>
</div>
</div>
<div class="thumb_cont">
<strong class="tit_item">
<a class="link_txt" data-tiara-layer="moviename" href="/moviedb/main?movieId=163777"

In [15]:
for li in li_list:
    rank = li.select_one('.rank_num').text
    name = li.select_one('.link_txt').text
    see = li.select_one('.ico_see').text
    grade = li.select_one('.txt_grade').text
    num = li.select_one('.txt_num').text
    mvdate = li.select_one('.txt_info > .txt_num').text
    print(rank, name, see, grade, num, mvdate)

1 엘리멘탈 전체관람가 8.6 31.5% 23.06.14
2 인디아나 존스: 운명의 다이얼 12세이상관람가 8.3 20.8% 23.06.28
3 스파이더맨: 어크로스 더 유니버스 전체관람가 8.3 9.7% 23.06.21
4 범죄도시3 15세이상관람가 6.6 8.5% 23.05.31
5 귀공자 청소년관람불가 8.1 6.7% 23.06.21
6 2022 영탁 단독 콘서트 - 탁쇼 전체관람가 9.5 4.9% 23.06.28
7 악마들 청소년관람불가 8.8 2.7% 23.07.05
8 여름날 우리 12세이상관람가 7.9 2.2% 23.06.28
9 애스터로이드 시티 12세이상관람가 6.9 1.6% 23.06.28
10 극장판 도라에몽: 진구와 하늘의 유토피아 전체관람가 10.0 1.2% 23.06.30
11 명탐정코난: 하이바라 아이 이야기 ~흑철의 미스터리 트레인 12세이상관람가 8.9 1.1% 23.06.23
12 파이어하트 전체관람가 8.5 0.8% 23.06.28
13 플래시 12세이상관람가 7.9 0.7% 23.06.14
14 라방 청소년관람불가 8.8 0.7% 23.06.28
15 수라 전체관람가 9.8 0.5% 23.06.21
16 샤이닝 청소년관람불가 8.0 0.3% 23.06.28
17 엔니오: 더 마에스트로 12세이상관람가 10.0 0.3% 23.07.05
18 보 이즈 어프레이드 청소년관람불가 10.0 0.3% 23.07.05
19 빈틈없는 사이 15세이상관람가 9.2 0.2% 23.07.05
20 하나님의 마음 12세이상관람가 8.4 0.2% 23.06.28


In [16]:
movie = []

for li in li_list:
    rank = li.select_one('.rank_num').text
    name = li.select_one('.link_txt').text
    see = li.select_one('.ico_see').text
    grade = li.select_one('.txt_grade').text
    num = li.select_one('.txt_num').text
    mvdate = li.select_one('.txt_info > .txt_num').text
    movie.append([rank, name, see, grade, num, mvdate])

#
movie

[['1', '엘리멘탈', '전체관람가', '8.6', '31.5%', '23.06.14'],
 ['2', '인디아나 존스: 운명의 다이얼', '12세이상관람가', '8.3', '20.8%', '23.06.28'],
 ['3', '스파이더맨: 어크로스 더 유니버스', '전체관람가', '8.3', '9.7%', '23.06.21'],
 ['4', '범죄도시3', '15세이상관람가', '6.6', '8.5%', '23.05.31'],
 ['5', '귀공자', '청소년관람불가', '8.1', '6.7%', '23.06.21'],
 ['6', '2022 영탁 단독 콘서트 - 탁쇼', '전체관람가', '9.5', '4.9%', '23.06.28'],
 ['7', '악마들', '청소년관람불가', '8.8', '2.7%', '23.07.05'],
 ['8', '여름날 우리', '12세이상관람가', '7.9', '2.2%', '23.06.28'],
 ['9', '애스터로이드 시티', '12세이상관람가', '6.9', '1.6%', '23.06.28'],
 ['10', '극장판 도라에몽: 진구와 하늘의 유토피아', '전체관람가', '10.0', '1.2%', '23.06.30'],
 ['11',
  '명탐정코난: 하이바라 아이 이야기 ~흑철의 미스터리 트레인',
  '12세이상관람가',
  '8.9',
  '1.1%',
  '23.06.23'],
 ['12', '파이어하트', '전체관람가', '8.5', '0.8%', '23.06.28'],
 ['13', '플래시', '12세이상관람가', '7.9', '0.7%', '23.06.14'],
 ['14', '라방', '청소년관람불가', '8.8', '0.7%', '23.06.28'],
 ['15', '수라', '전체관람가', '9.8', '0.5%', '23.06.21'],
 ['16', '샤이닝', '청소년관람불가', '8.0', '0.3%', '23.06.28'],
 ['17', '엔니오: 더 마에스트로', '12세이상관람가'

In [17]:
import pandas as pd

df = pd.DataFrame(movie, columns=['순위', '영화명', '관람가', '평점', '예매율', '개봉일'])
df

Unnamed: 0,순위,영화명,관람가,평점,예매율,개봉일
0,1,엘리멘탈,전체관람가,8.6,31.5%,23.06.14
1,2,인디아나 존스: 운명의 다이얼,12세이상관람가,8.3,20.8%,23.06.28
2,3,스파이더맨: 어크로스 더 유니버스,전체관람가,8.3,9.7%,23.06.21
3,4,범죄도시3,15세이상관람가,6.6,8.5%,23.05.31
4,5,귀공자,청소년관람불가,8.1,6.7%,23.06.21
5,6,2022 영탁 단독 콘서트 - 탁쇼,전체관람가,9.5,4.9%,23.06.28
6,7,악마들,청소년관람불가,8.8,2.7%,23.07.05
7,8,여름날 우리,12세이상관람가,7.9,2.2%,23.06.28
8,9,애스터로이드 시티,12세이상관람가,6.9,1.6%,23.06.28
9,10,극장판 도라에몽: 진구와 하늘의 유토피아,전체관람가,10.0,1.2%,23.06.30


In [18]:
df.info()
# Dtype 이 전부 Object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   순위      20 non-null     object
 1   영화명     20 non-null     object
 2   관람가     20 non-null     object
 3   평점      20 non-null     object
 4   예매율     20 non-null     object
 5   개봉일     20 non-null     object
dtypes: object(6)
memory usage: 1.1+ KB


In [19]:
df.to_csv('movie_info.csv', index=False, encoding='cp949')

df = pd.read_csv('movie_info.csv', encoding='cp949')
df.info()
# 파일로 저장 후 다시 읽으면 Dtype이 자동으로 지정됨.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   순위      20 non-null     int64  
 1   영화명     20 non-null     object 
 2   관람가     20 non-null     object 
 3   평점      20 non-null     float64
 4   예매율     20 non-null     object 
 5   개봉일     20 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 1.1+ KB


In [20]:
df['개봉일'] = pd.to_datetime(df['개봉일'], format="%y.%m.%d")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   순위      20 non-null     int64         
 1   영화명     20 non-null     object        
 2   관람가     20 non-null     object        
 3   평점      20 non-null     float64       
 4   예매율     20 non-null     object        
 5   개봉일     20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 1.1+ KB


In [21]:
# 한국은행의 기준금리 정보를 가져오는 예시

import requests
from bs4 import BeautifulSoup

url = 'https://www.bok.or.kr/portal/singl/baseRate/list.do?dataSeCd=01&menuNo=200643'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

#rate = soup.select_one('#content > div.table.tac > table > tbody > tr:nth-child(1) > td:nth-child(3)').text
#rate = soup.select('#content > div.table.tac > table > tbody > tr > td:nth-child(3)')[0].text
# rate = soup.select('#content > div.table.tac > table > tbody > tr > td')[2].text
rate = soup.select('#content > div > table > tbody > tr > td')[2].text

print(f'기준금리: {rate}')



기준금리: 3.50


In [22]:
파이썬 과목 시험 : 공유 데이터 혹은 웹 크롤링 결과를 가지고 데이터 분석(전처리, 그래프 그리기)
7/3 까지 제출

1. 웹 크롤링 (화면 출력)
2. 정부 공유 데이터 csv 파일 데이터 분석(전처리, 그래프)

or

1. 웹 크롤링(csv 파일 저장) + 데이터 분석(전처리, 그래프)

SyntaxError: invalid syntax (1733196032.py, line 1)