# Data
- 수집: 내부데이터 + 외부데이터 (공공데이터 + Web Data) 
- 저장: 파일형태 저장, Database에 직접 저장도 가능
- 처리: Pandas Library 사용
- 분석: Pandas + Scikit Learn + Seaborn
- 스크래핑: 웹 문서상 데이터를 가져오는 것
- 여러 개의 페이지로 구성, 페이지를 통해 데이터를 수집, 웹 형식 HTML
- Web Pasing
- 1) Crawling: 웹 또는 어플리케이션 개발단계, 개발된 프로그램을 테스트하는 용도
- 2) 웹 데이터 수집 시, 자동으로 페이지를 넘어 다니면서 데이터 수집 (Scraping + Crawling)
- 크롤링: 데이터를 자동으로 웹에서 수집 및 저장하는 것

# Library: 특정 기능을 수행하는 함수 집합
- Pandas: 데이터 전처리(Preprocessing)시 사용하는 라이브러리 / 데이터를 수집해오고 저장하는 역할
- Selenium: Crawling + (chrome driver) (웹에서 데이터를 가져옴)
- Request(웹데이터 수집)
- Urllib: 이미지 데이터 스크래핑 및 저장



In [1]:
from selenium import webdriver

In [2]:
from selenium.webdriver.common.keys import Keys # 문법이 개정되어서 Keys를 무조건 import해야함

In [3]:
driver = webdriver.Chrome('chromedriver') # chrome에 자동으로 접속(가상환경)

In [4]:
driver.quit() #(자동으로 꺼줌)

# 이마트 데이터 수집 

In [5]:
driver = webdriver.Chrome('chromedriver')
driver.get('https://emart.ssg.com/')

In [6]:
driver.find_element_by_xpath('//*[@id="skip_gnb"]/div/div[1]/button').send_keys(Keys.ENTER) # .Enter() -> .send_keys(Keys.Enter)로 문법이 개정됨

In [7]:
driver.find_element_by_xpath('//*[@id="skip_gnb"]/div/div[1]/div/div/ul/li[10]/a').send_keys(Keys.ENTER)

In [8]:
driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div/a/div[1]/span[2]').text

'제주삼다수 그린 2L 6병'

In [9]:
driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div/a/div[2]/div[1]/div/em').text

'6,480'

In [10]:
driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[84]/div/a/div[1]/span[2]').text

'[웅진] 자연은 사과 주스 1.5L'

In [11]:
# 1번째 데이터
# '//*[@id="ty_thmb_view"]/ul/li[1]/div/a/div[1]/span[2]'
# 2번째 데이터
# '//*[@id="ty_thmb_view"]/ul/li[84]/div/a/div[1]/span[2]'
# 를 비교해보면 /ul/li[1] 과 /ul/li[84] 만 차이가 나는걸 확인할 수 있다.

In [12]:
product_list = [] # 리스트로 만드는 이유는 하나의 데이터 프레임으로 만들 수 있기 때문이다.
price_list = [] # 리스트로 만드는 이유는 하나의 데이터 프레임으로 만들 수 있기 때문이다.
for i in range(1, 85):
    product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div/a/div[1]')
    price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[' + str(i) + ']/div/a/div[2]/div[1]')
    product_list.append(product_name.text) 
    price_list.append(price.text)

In [13]:
product_list

['삼다수 제주삼다수 그린 2L 6병',
 '해태htb 강원 평창수 2L*6입 (무라벨)',
 '동원에프앤비 [동원] 동원샘물 2L',
 '빙그레 따옴 오렌지주스 1600ml',
 '빙그레 따옴 오렌지 730ml',
 '빙그레 산토리니 플레인 500ml*20개입',
 '피코크 트루워터 2L X 6(무라벨 생수)',
 '피코크 트루워터 330ml X 20(무라벨 생수)',
 '서울우유 아침에주스 오렌지 1.8L',
 '코카콜라 1.8L',
 '코카콜라 1.8L 2입 기획',
 '농심 백산수 2L* 6입(무라벨)',
 '갈배사이다 1.5L',
 '웅진 _티즐 제로 피치우롱티500mL',
 '코카콜라 215ml 12입',
 '롯데칠성 [롯데] 게토레이 1.5L',
 '코카콜라 제로 215ml*12',
 '웅진 _초록매실 1.35L',
 '웅진 자연은 토마토 주스 1.5L',
 '웅진 _티즐 제로유자그린티500mL',
 '롯데칠성 아이시스8.0ECO 2L*6입',
 '롯데칠성 펩시 제로슈거 라임향 210ml*10',
 '노브랜드 Fresh제주감귤음료1.5L',
 '웅진 자연은 알로에 주스 1.5L',
 '삼다수 330ml',
 '코카콜라 300ml*12PET',
 '트레비 라임 300ml*20입',
 '롯데칠성 [트레비] 플레인300ml*20입',
 '해태htb 갈아만든 배 1L',
 '서울우유 아침에주스 오렌지 950ml',
 '펩시 제로슈거 라임향 무라벨 300ml*12',
 '야채듬뿍 더진한 레드 125ml*4팩',
 '롯데칠성 칠성사이다210캔*10',
 '스프라이트 제로 1L',
 '서울우유 아침에주스 포도 1.8L',
 '롯데칠성 [트레비] 레몬 300ml*20',
 '델몬트 드링크 버라이어티팩 (오렌지+포도+망고+사과) 190㎖*12팩',
 '농심 백산수 500ml',
 '웅진식품 티즐 제로 피치얼그레이 500ml',
 '코카콜라 스프라이트 1L',
 '자연주의 유기농 식혜 1.8L',
 '해태htb [해태] 영진 구론산 바몬드 오리지날액 150ml*10

In [14]:
price_list

['판매가격\n6,480\n원',
 '판매가격\n5,880\n원',
 '판매가격\n501\n원',
 '판매가격\n7,180\n원',
 '판매가격\n3,280\n원',
 '정상가격\n13,900 원',
 '정상가격\n3,480 원',
 '정상가격\n4,980 원',
 '판매가격\n4,280\n원',
 '판매가격\n1,980\n원',
 '판매가격\n3,960\n원',
 '판매가격\n5,460\n원',
 '판매가격\n3,280\n원',
 '판매가격\n1,600\n원',
 '판매가격\n7,780\n원',
 '판매가격\n3,480\n원',
 '판매가격\n7,780\n원',
 '판매가격\n3,980\n원',
 '판매가격\n4,280\n원',
 '판매가격\n1,600\n원',
 '정상가격\n5,760 원',
 '판매가격\n4,980\n원',
 '판매가격\n1,880\n원',
 '판매가격\n4,280\n원',
 '판매가격\n430\n원',
 '판매가격\n10,400\n원',
 '정상가격\n10,780 원',
 '정상가격\n10,780 원',
 '판매가격\n1,500\n원',
 '판매가격\n3,580\n원',
 '정상가격\n10,880 원',
 '판매가격\n4,980\n원',
 '판매가격\n4,980\n원',
 '판매가격\n980\n원',
 '정상가격\n5,380 원',
 '정상가격\n10,780 원',
 '정상가격\n4,980 원',
 '판매가격\n400\n원',
 '판매가격\n1,600\n원',
 '판매가격\n980\n원',
 '정상가격\n7,980 원',
 '판매가격\n11,680\n원',
 '판매가격\n4,980\n원',
 '판매가격\n2,880\n원',
 '판매가격\n3,600\n원',
 '판매가격\n2,380\n원',
 '판매가격\n2,880\n원',
 '판매가격\n3,480\n원',
 '판매가격\n4,980\n원',
 '판매가격\n2,180\n원',
 '정상가격\n5,680 원',
 '판매가격\n1,600\n원',
 '판매가격\n3,600\n원',
 '판매가격\n

In [15]:
import pandas as pd

In [16]:
df1 = pd.DataFrame({'상품명': product_list, '가격': price_list})
df1
df1.to_excel('result1.xlsx')

In [17]:
image1 = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div/div[1]/a/div/img')
image1.get_attribute('src')

'https://sitem.ssgcdn.com/51/85/52/item/1000165528551_i1_290.jpg'

In [18]:
for i in range(1,85):
    images = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+ str(i) + ']/div/div[1]/a/div/img')
    img_url = images.get_attribute('src')
    print(img_url)

https://sitem.ssgcdn.com/51/85/52/item/1000165528551_i1_290.jpg
https://sitem.ssgcdn.com/95/78/62/item/1000518627895_i1_290.jpg
https://sitem.ssgcdn.com/90/23/95/item/2097000952390_i1_290.jpg
https://sitem.ssgcdn.com/99/84/67/item/1000004678499_i1_290.jpg
https://sitem.ssgcdn.com/75/41/01/item/0000009014175_i1_290.jpg
https://sitem.ssgcdn.com/66/37/14/item/2097001143766_i1_290.jpg
https://sitem.ssgcdn.com/71/57/91/item/1000092915771_i1_290.jpg
https://sitem.ssgcdn.com/80/57/91/item/1000092915780_i1_290.jpg
https://sitem.ssgcdn.com/43/60/51/item/1000015516043_i1_290.jpg
https://sitem.ssgcdn.com/66/38/61/item/0000006613866_i1_290.jpg
https://sitem.ssgcdn.com/22/03/71/item/1000009710322_i1_290.jpg
https://sitem.ssgcdn.com/11/84/68/item/1000072688411_i1_290.jpg
https://sitem.ssgcdn.com/05/02/30/item/1000028300205_i1_290.jpg
https://sitem.ssgcdn.com/68/08/62/item/1000043620868_i1_290.jpg
https://sitem.ssgcdn.com/59/08/89/item/1000033890859_i1_290.jpg
https://sitem.ssgcdn.com/28/02/61/item/0

In [19]:
import urllib.request # 크롤링한 데이터를 저장하는 라이브러리

In [20]:
for i in range(1,85):
    images = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+ str(i) + ']/div/div[1]/a/div/img')
    img_url = images.get_attribute('src')
    print(img_url)
    urllib.request.urlretrieve(img_url, 'image_data/image'+str(i)+'.png') # image_data 폴더에 image1.png 이런식으로 저장

https://sitem.ssgcdn.com/51/85/52/item/1000165528551_i1_290.jpg
https://sitem.ssgcdn.com/95/78/62/item/1000518627895_i1_290.jpg
https://sitem.ssgcdn.com/90/23/95/item/2097000952390_i1_290.jpg
https://sitem.ssgcdn.com/99/84/67/item/1000004678499_i1_290.jpg
https://sitem.ssgcdn.com/75/41/01/item/0000009014175_i1_290.jpg
https://sitem.ssgcdn.com/66/37/14/item/2097001143766_i1_290.jpg
https://sitem.ssgcdn.com/71/57/91/item/1000092915771_i1_290.jpg
https://sitem.ssgcdn.com/80/57/91/item/1000092915780_i1_290.jpg
https://sitem.ssgcdn.com/43/60/51/item/1000015516043_i1_290.jpg
https://sitem.ssgcdn.com/66/38/61/item/0000006613866_i1_290.jpg
https://sitem.ssgcdn.com/22/03/71/item/1000009710322_i1_290.jpg
https://sitem.ssgcdn.com/11/84/68/item/1000072688411_i1_290.jpg
https://sitem.ssgcdn.com/05/02/30/item/1000028300205_i1_290.jpg
https://sitem.ssgcdn.com/68/08/62/item/1000043620868_i1_290.jpg
https://sitem.ssgcdn.com/59/08/89/item/1000033890859_i1_290.jpg
https://sitem.ssgcdn.com/28/02/61/item/0

In [21]:
driver.implicitly_wait(10) # 10초 기다렸다가 자동적으로 동작되게 만드는 함수

In [22]:
# product_list = [] # 리스트로 만드는 이유는 하나의 데이터 프레임으로 만들 수 있기 때문이다.
# price_list = [] # 리스트로 만드는 이유는 하나의 데이터 프레임으로 만들 수 있기 때문이다.
# for j in range(1,11):
#     for i in range(1, 85):
#         product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div/a/div[1]')
#         price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[' + str(i) + ']/div/a/div[2]/div[1]')
#         product_list.append(product_name.text) 
#         price_list.append(price.text)

# ### 한페이지에 있는 데이터를 리스트에 담은 후 다음 페이지로 넘어가는 과정
#     driver.find_element_by_xpath('//*[@id="area_itemlist"]/div[2]/div/a[' + str(j) +']').send_keys(Keys.ENTER)
# #     Message: no such element: Unable to locate elemen 오류가 나는 이유는 아직 페이지가 띄어지지 않은 상태에서 크롤링을 하려다보니깐 오류가 나는 것임.

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="ty_thmb_view"]/ul/li[81]/div/a/div[1]"}
  (Session info: chrome=121.0.6167.86)


In [None]:
# 코드에 오류가 발생하더라도 skip하는 
try: #정상
    print('문장1')
except: #오류
    print('오류')
finally: # the end
    print('종료')

In [30]:
driver = webdriver.Chrome('chromedriver')
driver.get('http://emart.ssg.com/')
driver.find_element_by_xpath('//*[@id="skip_gnb"]/div/div[1]/button').send_keys(Keys.ENTER) # .Enter() -> .send_keys(Keys.Enter)로 문법이 개정됨
driver.find_element_by_xpath('//*[@id="skip_gnb"]/div/div[1]/div/div/ul/li[10]/a').send_keys(Keys.ENTER)

driver.implicitly_wait(10) # 10초 기다렸다가 자동적으로 동작되게 만드는 함수

product_list = [] # 리스트로 만드는 이유는 하나의 데이터 프레임으로 만들 수 있기 때문이다.
price_list = [] # 리스트로 만드는 이유는 하나의 데이터 프레임으로 만들 수 있기 때문이다.
for j in range(1,3):
    for i in range(1, 85):
        try:
            product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div/a/div[1]')
            price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[' + str(i) + ']/div/a/div[2]/div[1]')
            image1 = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+ str(i) + ']/div/div[1]/a/div/img')
            img_url = image1.get_attribute('src')
            urllib.request.urlretrieve(img_url, 'image_data/' + str(j) + 'image'+str(i)+'.png') # image_data 폴더에 페이지별 image1.png 이런식으로 저장
            product_list.append(product_name.text) 
            price_list.append(price.text)
        
        except Exception as e:
            print(e)
        
        finally:
            pass

# for문이 다 돌고 끝났을 때 그 다음 페이지로 넘어가는 Logic
### 한페이지에 있는 데이터를 리스트에 담은 후 다음 페이지로 넘어가는 과정
    driver.find_element_by_xpath('//*[@id="area_itemlist"]/div[2]/div/a[' + str(j) +']').send_keys(Keys.ENTER)    
    print(j, 'page Done')
driver.quit()
#     Message: no such element: Unable to locate elemen 오류가 나는 이유는 아직 페이지가 띄어지지 않은 상태에서 크롤링을 하려다보니깐 오류가 나는 것임.

1 page Done
Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="ty_thmb_view"]/ul/li[81]/div/a/div[1]"}
  (Session info: chrome=121.0.6167.86)

Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="ty_thmb_view"]/ul/li[82]/div/a/div[1]"}
  (Session info: chrome=121.0.6167.86)

Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="ty_thmb_view"]/ul/li[83]/div/a/div[1]"}
  (Session info: chrome=121.0.6167.86)

Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="ty_thmb_view"]/ul/li[84]/div/a/div[1]"}
  (Session info: chrome=121.0.6167.86)

2 page Done


In [31]:
df1 = pd.DataFrame({'상품명': product_list, '가격':price_list})
df1.to_excel('result2.xlsx')