In [9]:
import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib as mpl
import matplotlib.pyplot as plt
import json

%matplotlib inline

# 한글 폰트 문제 해결
import platform
from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~')


# 노란색 글씨의 warining 문구 강제 생략
import warnings
warnings.filterwarnings(action='ignore')
    

# 차트 축 <- 음수 부호 지원
import matplotlib
matplotlib.rcParams['axes.unicode_minus'] = False


print('numpy version - ' , np.__version__)
print('pandas version - ' , pd.__version__)

# 크롤링
from bs4 import BeautifulSoup
from urllib.request import urlopen , urlretrieve
from urllib.error   import HTTPError
from urllib.error   import URLError

import requests
import re


numpy version -  1.21.5
pandas version -  1.4.4


#### 학습목표
- 스크래핑   : 웹 사이트 상에서 위치를 지정하여 원하는 데이터를 추출하는 방법 (정적파일)
- 크롤링     : 자동화 봇을 이용하여 링크를 따라서연결된 페이지를 가져와 원하는 데이터를 추출 (동적파일)

- 라이브러리 : BeautifulSoup & Selenium



In [12]:
# 1 요청하기
url = 'https://www.daangn.com/hot_articles'
response = requests.get(url)

# 요청(request - response 확인)

print('status - ' , response)
print()

# 출력은 문자열이며, 이 문자열을 구분하기위해 BS(BeautlfulSoup ) 라이브러리가 필요하다.
print('text   - ' , response.text)

status -  <Response [200]>

text   -  <!DOCTYPE html>
<html lang="ko">
<head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=no">
  
      <link rel="canonical" href="https://www.daangn.com/hot_articles" />

  <title>당근마켓 중고거래 | 당신 근처의 당근마켓</title>
<meta name="description" content="당근마켓에서 거래되는 인기 중고 매물을 소개합니다. 지금 당근마켓에서 거래되고 있는 다양한 매물을 구경해보세요." />
<link rel="author" href="당근마켓" />
<meta property="og:url" content="https://www.daangn.com/hot_articles" />
<meta property="og:title" content="당근마켓 중고거래 | 당신 근처의 당근마켓" />
<meta property="og:description" content="당근마켓에서 거래되는 인기 중고 매물을 소개합니다. 지금 당근마켓에서 거래되고 있는 다양한 매물을 구경해보세요." />
<meta property="og:site_name" content="당근마켓" />
<meta property="og:image" content="https://www.daangn.com/images/meta/home/flea_market.png" />
<meta property="og:type" content="article" />
<meta property="og:locale" content="ko_KR" />
<meta

In [18]:
# text를 BS로 변환

soup = BeautifulSoup(response.text , 'html.parser')
soup

# 특정 문자열을 가져올 수 있다.

print(soup.p)
print(soup.p.string)

<p>당근마켓 앱에서 따뜻한 거래를 직접 경험해보세요!</p>
당근마켓 앱에서 따뜻한 거래를 직접 경험해보세요!


In [19]:
# 단순 태그 서칭시 가장 먼저 만나는 해당 태그를 찾아온다. -> 내가 원하는 태그를 찾기 힘들다.
print('<h1> - ' , soup.h1)

<h1> -  <h1 class="head-title" id="hot-articles-head-title">
      
      
      중고거래 인기매물
  </h1>


In [20]:
# ul의 서브리스트를 확인해보자 해당 홈페이지 개발툴에서 태그를 찾아오자
print('<ul> - ' , soup.ul)

<ul> -  <ul class="_1knjz49m _1s38h9c5"><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2 _1knjz49q" href="https://www.daangn.com">중고거래</a></li><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/jobs/">알바</a></li><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/realty/">부동산 직거래</a></li></ul>


In [21]:
# ul 태그의 아래 태그들을 검색
for child in soup.ul.children :
    print(child)

<li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2 _1knjz49q" href="https://www.daangn.com">중고거래</a></li>
<li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/jobs/">알바</a></li>
<li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/realty/">부동산 직거래</a></li>


In [22]:
# ul 캐그의 상위 태그들을 검색
for parent in soup.ul.parents :
    print(parent)

<nav class="_1knjz49k _1s38h9c0"><ul class="_1knjz49m _1s38h9c5"><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2 _1knjz49q" href="https://www.daangn.com">중고거래</a></li><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/jobs/">알바</a></li><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/realty/">부동산 직거래</a></li></ul></nav>
<div class="_1knjz491 _1s38h9c0"><a aria-label="logo" class="_1knjz492" href="https://www.daangn.com"><span class="_1knjz493"><svg fill="none" height="28" viewbox="0 0 100 28" width="100" xmlns="http://www.w3.org/2000/svg"><path d="M10.6241 5.1897C4.76013 5.1897 0 9.94831 0 15.8104C0 18.2759 0.845096 20.5345 2.24209 22.3276C2.34557 22.4655 2.4663 22.6035 2.56978 22.7414C2.74225 22.9311 2.89747 23.1207 3.08719 23.3104L3.10443 23.3276C5.13956 25.4828 7.70934 27.1207 10.6068 28C13.5043 27.1207 16.0741 25.4828 18.1092 23.3276L18.1264 23.3104C18.2989 23.1207 18.4714 22.9311 18.6439 22.7414C18.7646 22.6035 18.8681 22

- BS : find_all() : 원하는 부분을 모두 가져올 때 사용

In [27]:
# find_all() 해당 태그를 모두 가져온다.
# list형식으로 가져온다.

soup.find_all('h1')
print()
print('type - ' , type(soup.find_all('h2')))
display(soup.find_all('h2'))
print()

for h in soup.find_all('h2') :
    print(h.string)


type -  <class 'bs4.element.ResultSet'>


[<h2 class="card-title">냄비#스타우브#꼬꼬떼 무쇠 주물냄비 22cm</h2>,
 <h2 class="card-title">아이폰14pro 512gb 선물받은거에요</h2>,
 <h2 class="card-title">미사용 밀폐용기 스텐락 18종</h2>,
 <h2 class="card-title">각도절단기 손봐서 쓰실분~</h2>,
 <h2 class="card-title">20kg 쌀 팝니다</h2>,
 <h2 class="card-title">옷가게 정리 해요</h2>,
 <h2 class="card-title">스토케 트립트랩 하이체어</h2>,
 <h2 class="card-title">몽클레어 무스너클 패딩조끼 저렴하게 팝니다.</h2>,
 <h2 class="card-title">전동드릴팝니다</h2>,
 <h2 class="card-title">다이슨청소기</h2>,
 <h2 class="card-title">아이폰 12 128기가</h2>,
 <h2 class="card-title">방 소품 싹 다팝니다</h2>,
 <h2 class="card-title">철제 선반</h2>,
 <h2 class="card-title">몽클레어 패딩자켓 105</h2>,
 <h2 class="card-title">김치냉장고_딤채_WDL12CETPS</h2>,
 <h2 class="card-title">몽클레어 패딩 판매</h2>,
 <h2 class="card-title">4단 선반</h2>,
 <h2 class="card-title">참치캔 햄통조림 스팸 리챔 로스팜</h2>,
 <h2 class="card-title">급아이폰 13 현금 급해서 싸게올립니다.</h2>,
 <h2 class="card-title">플레이스테이션4 팝니다(상태최상 거의새거) 남편 몰래 팔아요!!</h2>,
 <h2 class="card-title">미니 냉장고 팝니다.</h2>,
 <h2 class="card-title">아이폰13pro 시에라 블루</h2


냄비#스타우브#꼬꼬떼 무쇠 주물냄비 22cm
아이폰14pro 512gb 선물받은거에요
미사용 밀폐용기 스텐락 18종
각도절단기 손봐서 쓰실분~
20kg 쌀 팝니다
옷가게 정리 해요
스토케 트립트랩 하이체어
몽클레어 무스너클 패딩조끼 저렴하게 팝니다.
전동드릴팝니다
다이슨청소기
아이폰 12 128기가
방 소품 싹 다팝니다
철제 선반
몽클레어 패딩자켓 105
김치냉장고_딤채_WDL12CETPS
몽클레어 패딩 판매
4단 선반
참치캔 햄통조림 스팸 리챔 로스팜
급아이폰 13 현금 급해서 싸게올립니다.
플레이스테이션4 팝니다(상태최상 거의새거) 남편 몰래 팔아요!!
미니 냉장고 팝니다.
아이폰13pro 시에라 블루
4단 앵글 선반
4단 철제 선반
김치냉장고(냉동가능)
카페정리
밥솥판매해요 !
75인치 UHD 4K TV
네이처하이크 화목난로 팝니다
새상품 크롬 캐스트 오디오
티비
어항 옮기는거 도와주실 분
아이폰14 프로
김치냉장고 팔아요
이케아 트롤리
3년 된 55인치 필립스 Tv판매합니다.
플립3 급처 빠르게
이사갑니다 필요한 물건 연락 주세요
위니아딤체 김치냉장고 입니다
선반 팝니다.
엘지 퓨리케어 공기청정기
오락실 게임기
자전거
자전거 팜
곶감팔아요
말볼골프 골프의류 골프티셔츠 말본 골프웨어 골프 연습복 맨투맨 바람막이
엘지 냉장고
엔틱 가구 콘솔 협탁
스텐레스 선반
방탄소년단 BTS 콘서트 dvd들
삼성스텐드 김치냉장고
코스트코 크리스마스트리
전자레인지
밭에서 직접뽑아드릴게요
캠핑용품 정리합니다
목수공구
신세계상품권 10
크리스마스 장식품겸 오르골
캠핑 침상
프라다 두블레 미니
LG 가습기(공기청정기)
아이팜 미끄럼틀 팝니다
이케아 2단 철제선반
꽂감 하시는분 참조  가져가세요!
LG 전자레인지 판매합니다
삼성 tv 대략 55인치
이사로 인해 떨이합니다. 책상.의자.세재.온풍기 등
다이슨청소기v10
냉장고
철재선반
쇼파 5만원에 급쳐합니다
냉장고, 세탁기 팝니다
중고 화목 난로
다이슨 V8 앱솔루트 무선 청소기 팝니다. 최상위 기종 새배터리
검정서리태콩
z플립

- 정규표현식(re)
- 메타문자 : 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자
- ex ) - . $ ? * \ [] () 등
- 문자 클래스 [문자들과 매치] ex) 알파벳 모두 [a-zA-Z]
- 문자 클래스 [^문자] : not ex) 숫자를 제외 [^0-9]

- \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
- \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
- \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
- \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
- \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
- \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.


- Dot(.)  : \n을 제외한 모든 문자와 매치됨을 의미 ex) a.b ( a + 모든 문자 + b)
- 반복 *  : 무한대로 반복  ex ) ca * t 바로 앞의 a 가 0~무한 반복
- 반복 +  : 무한대로 반복 1 ~ 무한 반복
- 반복 {} : 횟수제한 ca{2}t == caat , {2,5}
- 있어도 되고 없어도 된다 - 필수적이지 않다 ? : ab?c =>  abc or ac


re - match() , search() , findall() , finditer()

In [29]:
m = re.compile('[a-zA-Z0-9_]')
m

re.compile(r'[a-z]+', re.UNICODE)

In [32]:
m.match('python')

<re.Match object; span=(0, 6), match='python'>

In [33]:
result = m.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


In [36]:
print('ol ul 포함하는 값을 추출하고 싶다면? - ')
soup.find_all(re.compile('[ou]l'))

ol ul 포함하는 값을 추출하고 싶다면? - 


[<ul class="_1knjz49m _1s38h9c5"><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2 _1knjz49q" href="https://www.daangn.com">중고거래</a></li><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/jobs/">알바</a></li><li class="_1knjz49o"><a class="_1knjz49p _1s38h9c4 _1s38h9c2" href="/kr/realty/">부동산 직거래</a></li></ul>,
 <ul class="_1trxeqsa"><li class="_1trxeqsp"><a class="undefined _1trxeqso" href="https://www.daangn.com/hot_articles" target="_blank">중고거래</a></li><li class="_1trxeqsp"><a class="undefined _1trxeqso" href="https://town.daangn.com" target="_blank">동네가게</a></li><li class="_1trxeqsp"><a class="undefined _1trxeqso" href="https://www.daangn.com/kr/jobs" target="_blank">당근알바</a></li></ul>,
 <ul class="_1trxeqsa"><li class="_1trxeqsp"><a class="undefined _1trxeqso" href="https://business.daangn.com" target="_blank">당근비즈니스</a></li><li class="_1trxeqsp"><a class="undefined _1trxeqso" href="https://chat.daangn.com/onboarding" target="_blank">채팅하기</a></li><

In [37]:
print(soup.find_all(re.compile('h[1-9]')))

[<h1 class="head-title" id="hot-articles-head-title">
      
      
      중고거래 인기매물
  </h1>, <h2 class="card-title">냄비#스타우브#꼬꼬떼 무쇠 주물냄비 22cm</h2>, <h2 class="card-title">아이폰14pro 512gb 선물받은거에요</h2>, <h2 class="card-title">미사용 밀폐용기 스텐락 18종</h2>, <h2 class="card-title">각도절단기 손봐서 쓰실분~</h2>, <h2 class="card-title">20kg 쌀 팝니다</h2>, <h2 class="card-title">옷가게 정리 해요</h2>, <h2 class="card-title">스토케 트립트랩 하이체어</h2>, <h2 class="card-title">몽클레어 무스너클 패딩조끼 저렴하게 팝니다.</h2>, <h2 class="card-title">전동드릴팝니다</h2>, <h2 class="card-title">다이슨청소기</h2>, <h2 class="card-title">아이폰 12 128기가</h2>, <h2 class="card-title">방 소품 싹 다팝니다</h2>, <h2 class="card-title">철제 선반</h2>, <h2 class="card-title">몽클레어 패딩자켓 105</h2>, <h2 class="card-title">김치냉장고_딤채_WDL12CETPS</h2>, <h2 class="card-title">몽클레어 패딩 판매</h2>, <h2 class="card-title">4단 선반</h2>, <h2 class="card-title">참치캔 햄통조림 스팸 리챔 로스팜</h2>, <h2 class="card-title">급아이폰 13 현금 급해서 싸게올립니다.</h2>, <h2 class="card-title">플레이스테이션4 팝니다(상태최상 거의새거) 남편 몰래 팔아요!!</h2>, <h2 class="c

- 속성을 활용하는 방법 : attrs

In [42]:
# class 속성으로 찾아오기
# class 이름으로 찾아올 수 있다.

lst =  soup.find_all(attrs = {'class' : 'card-title'})
for title in lst :
    print(title.string)

냄비#스타우브#꼬꼬떼 무쇠 주물냄비 22cm
아이폰14pro 512gb 선물받은거에요
미사용 밀폐용기 스텐락 18종
각도절단기 손봐서 쓰실분~
20kg 쌀 팝니다
옷가게 정리 해요
스토케 트립트랩 하이체어
몽클레어 무스너클 패딩조끼 저렴하게 팝니다.
전동드릴팝니다
다이슨청소기
아이폰 12 128기가
방 소품 싹 다팝니다
철제 선반
몽클레어 패딩자켓 105
김치냉장고_딤채_WDL12CETPS
몽클레어 패딩 판매
4단 선반
참치캔 햄통조림 스팸 리챔 로스팜
급아이폰 13 현금 급해서 싸게올립니다.
플레이스테이션4 팝니다(상태최상 거의새거) 남편 몰래 팔아요!!
미니 냉장고 팝니다.
아이폰13pro 시에라 블루
4단 앵글 선반
4단 철제 선반
김치냉장고(냉동가능)
카페정리
밥솥판매해요 !
75인치 UHD 4K TV
네이처하이크 화목난로 팝니다
새상품 크롬 캐스트 오디오
티비
어항 옮기는거 도와주실 분
아이폰14 프로
김치냉장고 팔아요
이케아 트롤리
3년 된 55인치 필립스 Tv판매합니다.
플립3 급처 빠르게
이사갑니다 필요한 물건 연락 주세요
위니아딤체 김치냉장고 입니다
선반 팝니다.
엘지 퓨리케어 공기청정기
오락실 게임기
자전거
자전거 팜
곶감팔아요
말볼골프 골프의류 골프티셔츠 말본 골프웨어 골프 연습복 맨투맨 바람막이
엘지 냉장고
엔틱 가구 콘솔 협탁
스텐레스 선반
방탄소년단 BTS 콘서트 dvd들
삼성스텐드 김치냉장고
코스트코 크리스마스트리
전자레인지
밭에서 직접뽑아드릴게요
캠핑용품 정리합니다
목수공구
신세계상품권 10
크리스마스 장식품겸 오르골
캠핑 침상
프라다 두블레 미니
LG 가습기(공기청정기)
아이팜 미끄럼틀 팝니다
이케아 2단 철제선반
꽂감 하시는분 참조  가져가세요!
LG 전자레인지 판매합니다
삼성 tv 대략 55인치
이사로 인해 떨이합니다. 책상.의자.세재.온풍기 등
다이슨청소기v10
냉장고
철재선반
쇼파 5만원에 급쳐합니다
냉장고, 세탁기 팝니다
중고 화목 난로
다이슨 V8 앱솔루트 무선 청소기 팝니다. 최상위 기종 새배터리
검정서리태콩
z플립3

- css 선택자를 이용하는 방법 soup.select(id : #, class : .)

In [46]:
# '.class_name'  : . 은 클래스임을 의미하고 .class_name으로 class를 지칭하여 select로 가져올 수 있다.

lst = soup.select('.card-title')
for title in lst :
    print(title.get_text())

냄비#스타우브#꼬꼬떼 무쇠 주물냄비 22cm
아이폰14pro 512gb 선물받은거에요
미사용 밀폐용기 스텐락 18종
각도절단기 손봐서 쓰실분~
20kg 쌀 팝니다
옷가게 정리 해요
스토케 트립트랩 하이체어
몽클레어 무스너클 패딩조끼 저렴하게 팝니다.
전동드릴팝니다
다이슨청소기
아이폰 12 128기가
방 소품 싹 다팝니다
철제 선반
몽클레어 패딩자켓 105
김치냉장고_딤채_WDL12CETPS
몽클레어 패딩 판매
4단 선반
참치캔 햄통조림 스팸 리챔 로스팜
급아이폰 13 현금 급해서 싸게올립니다.
플레이스테이션4 팝니다(상태최상 거의새거) 남편 몰래 팔아요!!
미니 냉장고 팝니다.
아이폰13pro 시에라 블루
4단 앵글 선반
4단 철제 선반
김치냉장고(냉동가능)
카페정리
밥솥판매해요 !
75인치 UHD 4K TV
네이처하이크 화목난로 팝니다
새상품 크롬 캐스트 오디오
티비
어항 옮기는거 도와주실 분
아이폰14 프로
김치냉장고 팔아요
이케아 트롤리
3년 된 55인치 필립스 Tv판매합니다.
플립3 급처 빠르게
이사갑니다 필요한 물건 연락 주세요
위니아딤체 김치냉장고 입니다
선반 팝니다.
엘지 퓨리케어 공기청정기
오락실 게임기
자전거
자전거 팜
곶감팔아요
말볼골프 골프의류 골프티셔츠 말본 골프웨어 골프 연습복 맨투맨 바람막이
엘지 냉장고
엔틱 가구 콘솔 협탁
스텐레스 선반
방탄소년단 BTS 콘서트 dvd들
삼성스텐드 김치냉장고
코스트코 크리스마스트리
전자레인지
밭에서 직접뽑아드릴게요
캠핑용품 정리합니다
목수공구
신세계상품권 10
크리스마스 장식품겸 오르골
캠핑 침상
프라다 두블레 미니
LG 가습기(공기청정기)
아이팜 미끄럼틀 팝니다
이케아 2단 철제선반
꽂감 하시는분 참조  가져가세요!
LG 전자레인지 판매합니다
삼성 tv 대략 55인치
이사로 인해 떨이합니다. 책상.의자.세재.온풍기 등
다이슨청소기v10
냉장고
철재선반
쇼파 5만원에 급쳐합니다
냉장고, 세탁기 팝니다
중고 화목 난로
다이슨 V8 앱솔루트 무선 청소기 팝니다. 최상위 기종 새배터리
검정서리태콩
z플립3

In [51]:
# '#id_name' : #은 id 임을 의미하고 #id_name으로 id를 지칭하여 select로 가져올 수 있다.
# > div  : 자손 선택자 '>' 표현으로 하위태그로 내려갈 수 있다.

soup.select('#hot-articles-go-download')
soup.select('#hot-articles-go-download > div')
soup.select('#hot-articles-go-download > div > a')
soup.select('#hot-articles-go-download > div > a > div')

[<div class="home-apple-store-bar-white"></div>,
 <div class="download-text">App Store</div>,
 <div class="home-google-play-bar-white"></div>,
 <div class="download-text">Google Play</div>]

In [55]:
# 예외처리를 하여 오류를 잡도록 하자.

try :
    html = urlopen('https://www.daangn.com/hot_articles')
except HTTPError as he :
    print('http error')
except URLError  as ue :
    print('url error')
else :
    soup = BeautifulSoup(html.read() , 'html.parser')

In [56]:
# https://www.pythonscraping.com/pages/page3.html
# response = requests.get(url)

<http.client.HTTPResponse at 0x12e21391ca0>

In [117]:
try :
    html = urlopen('https://www.pythonscraping.com/pages/page3.html')
except HTTPError as he :
    print('http error')
except URLError  as ue :
    print('url error')
else :
    soup = BeautifulSoup(html.read() , 'html.parser')

In [120]:
table = soup.find('table' , {'id' : 'giftList'})
table

<table id="giftList">
<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>
<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>
<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>
<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gift

In [147]:
title_lst = []
desc_lst  = []
cost_lst  = []
img_lst   = []

for tr in table.find_all('tr') :
    tds = tr.find_all('td')
    for td in tds :
        print(td)
        print('------------------')
        
        if td.find('img') :
            print()
            print('********* pass if ***********')
            print()
            title = tds[0].text.strip()
            title_lst.append(title)
            desc = tds[1].text.strip()
            desc_lst.append(desc)
            cost = tds[2].text.strip()
            cost_lst.append(cost)
            img  = tds[3].find('img')['src']
            img_lst.append(img)

display(title_lst)
display(desc_lst)
display(cost_lst)
display(img_lst)


<td>
Vegetable Basket
</td>
------------------
<td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td>
------------------
<td>
$15.00
</td>
------------------
<td>
<img src="../img/gifts/img1.jpg"/>
</td>
------------------

********* pass if ***********

<td>
Russian Nesting Dolls
</td>
------------------
<td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td>
------------------
<td>
$10,000.52
</td>
------------------
<td>
<img src="../img/gifts/img2.jpg"/>
</td>
------------------

********* pass if ***********

<td>
Fish Painting
</td>
------------------
<td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td>
----

['Vegetable Basket',
 'Russian Nesting Dolls',
 'Fish Painting',
 'Dead Parrot',
 'Mystery Box']

['This vegetable basket is the perfect gift for your health conscious (or overweight) friends!\nNow with super-colorful bell peppers!',
 'Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! 8 entire dolls per set! Octuple the presents!',
 "If something seems fishy about this painting, it's because it's a fish! Also hand-painted by trained monkeys!",
 "This is an ex-parrot! Or maybe he's only resting?",
 'If you love suprises, this mystery box is for you! Do not place on light-colored surfaces. May cause oil staining. Keep your friends guessing!']

['$15.00', '$10,000.52', '$10,005.00', '$0.50', '$1.50']

['../img/gifts/img1.jpg',
 '../img/gifts/img2.jpg',
 '../img/gifts/img3.jpg',
 '../img/gifts/img4.jpg',
 '../img/gifts/img6.jpg']

In [152]:
df = {'title' : title_lst , 
      'desc'  : desc_lst  , 
      'cost'  : cost_lst  , 
      'img'   : img_lst }
df
pd.DataFrame(df)

Unnamed: 0,title,desc,cost,img
0,Vegetable Basket,This vegetable basket is the perfect gift for ...,$15.00,../img/gifts/img1.jpg
1,Russian Nesting Dolls,"Hand-painted by trained monkeys, these exquisi...","$10,000.52",../img/gifts/img2.jpg
2,Fish Painting,"If something seems fishy about this painting, ...","$10,005.00",../img/gifts/img3.jpg
3,Dead Parrot,This is an ex-parrot! Or maybe he's only resting?,$0.50,../img/gifts/img4.jpg
4,Mystery Box,"If you love suprises, this mystery box is for ...",$1.50,../img/gifts/img6.jpg


In [134]:
lst = []
for i in [0,4,8,16] :
    print(i)
    print(soup.select('.gift > td')[i].text.strip())
    lst.append(soup.select('.gift > td')[i].text.strip())
lst

0
Vegetable Basket
4
Russian Nesting Dolls
8
Fish Painting
16
Mystery Box


['Vegetable Basket', 'Russian Nesting Dolls', 'Fish Painting', 'Mystery Box']

In [114]:
m = re.compile('[^\n]')
# m = re.compile('[a-z]')
#m = re.compile('\S')
data = soup.select('.gift > td')[0].string
data
m.findall(data)


['V',
 'e',
 'g',
 'e',
 't',
 'a',
 'b',
 'l',
 'e',
 ' ',
 'B',
 'a',
 's',
 'k',
 'e',
 't']

In [93]:
m = re.compile('[a-z]+')
m
result = m.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


In [None]:
re - match() , search() , findall() , finditer()