In [7]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = 'https://www.oliveyoung.co.kr/store/display/getMCategoryList.do?dispCatNo=100000100010014&fltDispCatNo=&prdSort=01&pageIdx={}&rowsPerPage=24&searchTypeSort=btn_thumb&plusButtonFlag=N&isLoginCnt=0&aShowCnt=0&bShowCnt=0&cShowCnt=0&trackingCd=Cat100000100010014_Small&amplitudePageGubun=&t_page=&t_click=&midCategory=%EC%97%90%EC%84%BC%EC%8A%A4%2F%EC%84%B8%EB%9F%BC%2F%EC%95%B0%ED%94%8C&smallCategory=%EC%A0%84%EC%B2%B4&checkBrnds=&lastChkBrnd='

page_index = 1
data = []

while True:
    url = base_url.format(page_index)
    response = requests.get(url)
    
    if response.status_code != 200:
        break  # 요청이 실패하면 종료

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 데이터 추출
    brands = [brand.text.strip() for brand in soup.select('.tx_brand')]
    products = [product.text.strip() for product in soup.select('.tx_name')]
    
    prices = []
    price_tags = soup.select('.prd_price')
    for tag in price_tags:
        child_tags = tag.find_all()
        
        if len(child_tags) == 2:
            price = child_tags[1].text.strip()  # 두 번째 태그의 텍스트
        elif len(child_tags) == 1:
            price = child_tags[0].text.strip()  # 첫 번째 태그의 텍스트
        else:
            price = None  # 자식 태그가 없을 경우
        
        prices.append(price)

    # 페이지당 데이터가 없으면 종료
    if not brands or not products or not prices:
        break

    # 각 데이터 항목을 조합
    for brand, product, price in zip(brands, products, prices):
        data.append({
            'Brand': brand,
            'Product': product,
            'Price': price
        })

    page_index += 1  # 다음 페이지로 이동

# 데이터프레임으로 변환
df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)

# CSV로 저장 (원하는 경우)
# df.to_csv('oliveyoung_products.csv', index=False)


     Brand                                            Product    Price
0      아누아         [10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획     None
1    이니스프리        [10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획     None
2      웰라쥬  [10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...     None
3    이니스프리     [10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml)     None
4    코스알엑스  [오늘의 특가]  코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...     None
..     ...                                                ...      ...
697   피지오겔           [잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml     None
698    LBB                      [뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml   73,000
699   에스테덤                         [NEW]에스테덤 에이지 프로테옴 세럼 30ml  138,000
700    LBB        [기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml   48,000
701    LBB                  [끌어올리는 탄력세럼]LBB 인텐시브 케어 인 세럼 30ml   83,000

[702 rows x 3 columns]


In [6]:
df.Price.isnull

Unnamed: 0,Brand,Product,Price
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,
...,...,...,...
691,아비브,[3일투명잡티] 아비브 글루타치온좀 잡티 세럼 비타 드롭 50ml 기획 (+글루타치...,
692,라로슈포제,라로슈포제 멜라B3 세럼 30ml 기획 (+3ml 증정),
693,로벡틴,[품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml,
695,비플레인,[크림증정][모공탄력] 비플레인 녹두 모공 타이트업 세럼 30ml (+15ml+크림...,


In [8]:
base_url = 'https://www.oliveyoung.co.kr/store/display/getMCategoryList.do?dispCatNo=100000100010014&fltDispCatNo=&prdSort=01&pageIdx={}&rowsPerPage=24&searchTypeSort=btn_thumb&plusButtonFlag=N&isLoginCnt=0&aShowCnt=0&bShowCnt=0&cShowCnt=0&trackingCd=Cat100000100010014_Small&amplitudePageGubun=&t_page=&t_click=&midCategory=%EC%97%90%EC%84%BC%EC%8A%A4%2F%EC%84%B8%EB%9F%BC%2F%EC%95%B0%ED%94%8C&smallCategory=%EC%A0%84%EC%B2%B4&checkBrnds=&lastChkBrnd='

page_index = 1
data = []

while True:
    url = base_url.format(page_index)
    response = requests.get(url)
    
    if response.status_code != 200:
        break  # 요청이 실패하면 종료

    soup = BeautifulSoup(response.text, 'html.parser')


    prices = []
    price_tags = soup.select('.prd_price')
    for tag in price_tags:
        child_tags = tag.find_all()
        print(child_tags)
        print(len(child_tags))
        if len(child_tags) == 2:
            price = child_tags[1].text.strip()  # 두 번째 태그의 텍스트
        elif len(child_tags) == 1:
            price = child_tags[0].text.strip()  # 첫 번째 태그의 텍스트
        else:
            price = None  # 자식 태그가 없을 경우
        print() 
        prices.append(price)

    if not brands or not products or not prices:
        break

[<span class="tx_org"><span class="tx_num">54,000</span>원 </span>, <span class="tx_num">54,000</span>, <span class="tx_cur"><span class="tx_num">29,500</span>원 </span>, <span class="tx_num">29,500</span>]
4

[<span class="tx_org"><span class="tx_num">40,000</span>원 ~</span>, <span class="tx_num">40,000</span>, <span class="tx_cur"><span class="tx_num">29,900</span>원 ~</span>, <span class="tx_num">29,900</span>]
4

[<span class="tx_org"><span class="tx_num">46,000</span>원 </span>, <span class="tx_num">46,000</span>, <span class="tx_cur"><span class="tx_num">29,200</span>원 </span>, <span class="tx_num">29,200</span>]
4

[<span class="tx_org"><span class="tx_num">40,000</span>원 </span>, <span class="tx_num">40,000</span>, <span class="tx_cur"><span class="tx_num">28,400</span>원 </span>, <span class="tx_num">28,400</span>]
4

[<span class="tx_org"><span class="tx_num">46,000</span>원 </span>, <span class="tx_num">46,000</span>, <span class="tx_cur"><span class="tx_num">26,500</span>원 </span

In [9]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = 'https://www.oliveyoung.co.kr/store/display/getMCategoryList.do?dispCatNo=100000100010014&fltDispCatNo=&prdSort=01&pageIdx={}&rowsPerPage=24&searchTypeSort=btn_thumb&plusButtonFlag=N&isLoginCnt=0&aShowCnt=0&bShowCnt=0&cShowCnt=0&trackingCd=Cat100000100010014_Small&amplitudePageGubun=&t_page=&t_click=&midCategory=%EC%97%90%EC%84%BC%EC%8A%A4%2F%EC%84%B8%EB%9F%BC%2F%EC%95%B0%ED%94%8C&smallCategory=%EC%A0%84%EC%B2%B4&checkBrnds=&lastChkBrnd='

page_index = 1
data = []

while True:
    url = base_url.format(page_index)
    response = requests.get(url)
    
    if response.status_code != 200:
        break  # 요청이 실패하면 종료

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 데이터 추출
    brands = [brand.text.strip() for brand in soup.select('.tx_brand')]
    products = [product.text.strip() for product in soup.select('.tx_name')]
    
    prices = []
    price_tags = soup.select('.prd_price')
    for tag in price_tags:
        # 'tx_cur'가 있는지 확인
        current_price_tag = tag.select_one('.tx_cur .tx_num')
        if current_price_tag:
            price = current_price_tag.text.strip()  # 현재 가격 텍스트
        else:
            original_price_tag = tag.select_one('.tx_org .tx_num')
            if original_price_tag:
                price = original_price_tag.text.strip()  # 원래 가격 텍스트
            else:
                price = None  # 가격 정보가 없는 경우
        
        prices.append(price)

    # 페이지당 데이터가 없으면 종료
    if not brands or not products or not prices:
        break

    # 각 데이터 항목을 조합
    for brand, product, price in zip(brands, products, prices):
        data.append({
            'Brand': brand,
            'Product': product,
            'Price': price
        })

    page_index += 1  # 다음 페이지로 이동

# 데이터프레임으로 변환
df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)

# CSV로 저장 (원하는 경우)
# df.to_csv('oliveyoung_products.csv', index=False)


     Brand                                            Product    Price
0      아누아         [10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획   29,500
1    이니스프리        [10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획   29,900
2      웰라쥬  [10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...   29,200
3    이니스프리     [10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml)   28,400
4    코스알엑스  [오늘의 특가]  코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...   26,500
..     ...                                                ...      ...
697   피지오겔           [잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml   39,900
698    LBB                      [뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml   73,000
699   에스테덤                         [NEW]에스테덤 에이지 프로테옴 세럼 30ml  138,000
700    LBB        [기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml   48,000
701    LBB                  [끌어올리는 탄력세럼]LBB 인텐시브 케어 인 세럼 30ml   83,000

[702 rows x 3 columns]


In [12]:
df.isnull().sum()

Brand      0
Product    0
Price      0
dtype: int64

In [16]:
df.Brand.value_counts().head(5)

Brand
디오디너리    30
코스알엑스    23
차앤박      16
라로슈포제    15
바이오힐보    13
Name: count, dtype: int64

In [17]:
len(df.Brand.value_counts())

196

In [23]:
df.groupby('Brand').filter(lambda x: len(x) == 1)

Unnamed: 0,Brand,Product,Price
11,내추럴더마프로젝트,[윤은혜 PICK] 내추럴더마프로젝트 베베바이옴 생기탄력 세럼 20ml,27000
36,반코르,반코르 바쿠치올 세럼 30ml,23370
46,더마토리,[도경수PICK/리필기획] 더마토리 히알샷 베리어 B5 앰플 50ml 리필기획(+5...,27000
58,셀리맥스,[단독기획] 셀리맥스 더 리얼 노니 에너지 앰플 90ml 에디션 (80ml+10ml),29700
74,더하르나이,[화잘먹앰플/1+1단독기획]더하르나이 앰플세럼 50ml 리필기획(본품+리필),25600
...,...,...,...
648,닥터리핏,[뷰티마스터 한창서 PICK] 닥터리핏 입체돌기 당김실 탄력 리프팅 콜라겐실 앰플 ...,33600
650,EGF올로지,이지에프올로지 액티브 이지에프 리제너레이팅 세럼 스타터,109000
654,비마이셀프,비마이셀프 AX 퓨어 비타C 15 앰플 15ml,44900
660,세타필,[민감피부진정] 세타필 페이셜 수분세럼 30ml,25000


In [24]:
# 브랜드 개수 계산
brand_counts = df['Brand'].value_counts()

# 값이 1인 브랜드 추출
single_count_brands = brand_counts[brand_counts == 1].index

# 해당 브랜드만 추출
single_count_df = df[df['Brand'].isin(single_count_brands)]

print(single_count_df)


         Brand                                            Product    Price
11   내추럴더마프로젝트            [윤은혜 PICK] 내추럴더마프로젝트 베베바이옴 생기탄력 세럼 20ml   27,000
36         반코르                                   반코르 바쿠치올 세럼 30ml   23,370
46        더마토리  [도경수PICK/리필기획] 더마토리 히알샷 베리어 B5 앰플 50ml 리필기획(+5...   27,000
58        셀리맥스    [단독기획] 셀리맥스 더 리얼 노니 에너지 앰플 90ml 에디션 (80ml+10ml)   29,700
74       더하르나이         [화잘먹앰플/1+1단독기획]더하르나이 앰플세럼 50ml 리필기획(본품+리필)   25,600
..         ...                                                ...      ...
648       닥터리핏  [뷰티마스터 한창서 PICK] 닥터리핏 입체돌기 당김실 탄력 리프팅 콜라겐실 앰플 ...   33,600
650     EGF올로지                     이지에프올로지 액티브 이지에프 리제너레이팅 세럼 스타터  109,000
654      비마이셀프                         비마이셀프 AX 퓨어 비타C 15 앰플 15ml   44,900
660        세타필                         [민감피부진정] 세타필 페이셜 수분세럼 30ml   25,000
669       어바웃미                               어바웃미 숲 진정 수분 세럼 50ml   28,000

[82 rows x 3 columns]


In [25]:
df

Unnamed: 0,Brand,Product,Price
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500
...,...,...,...
697,피지오겔,[잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml,39900
698,LBB,[뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml,73000
699,에스테덤,[NEW]에스테덤 에이지 프로테옴 세럼 30ml,138000
700,LBB,[기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml,48000


In [29]:
df.Price = df.Price.replace(',','',regex=True)

In [30]:
df.Price

0       29500
1       29900
2       29200
3       28400
4       26500
        ...  
697     39900
698     73000
699    138000
700     48000
701     83000
Name: Price, Length: 702, dtype: object

In [31]:
df.head()

Unnamed: 0,Brand,Product,Price
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500


In [43]:
df['Volume'] = df['Product'].str.findall(r'(\d+)\s*(ml|g)')

In [48]:
df.loc[4]['Product']

'[오늘의 특가]  코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획 ( 20g * 2EA)'

In [60]:
for i in df.loc[4]['Volume']:
    print(i[0])

20
20


In [65]:
df['Volume'] = df['Volume'].apply(lambda x: ','.join([item[0] for item in x]) if x else None)

In [68]:
df

Unnamed: 0,Brand,Product,Price,Volume,Volume_Unit
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500,30,30
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900,30,30
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200,7510,7510
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400,2525,2525
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500,2020,2020
...,...,...,...,...,...
697,피지오겔,[잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml,39900,20,20
698,LBB,[뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml,73000,60,60
699,에스테덤,[NEW]에스테덤 에이지 프로테옴 세럼 30ml,138000,30,30
700,LBB,[기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml,48000,150,150


In [70]:
df.drop('Volume_Unit',inplace=True,axis=1)

In [71]:
df

Unnamed: 0,Brand,Product,Price,Volume
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500,30
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900,30
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200,7510
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400,2525
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500,2020
...,...,...,...,...
697,피지오겔,[잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml,39900,20
698,LBB,[뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml,73000,60
699,에스테덤,[NEW]에스테덤 에이지 프로테옴 세럼 30ml,138000,30
700,LBB,[기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml,48000,150


In [73]:
df[df['Volume'].str.contains(',', na=False)]

Unnamed: 0,Brand,Product,Price,Volume
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200,7510
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400,2525
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500,2020
5,아누아,[10월 올영픽] 아누아 피디알엔 히알루론산 캡슐 100 세럼 30ml 기획 (+...,22900,301
6,메디힐,[1+1][흔적세럼] 마데카소사이드 흔적 리페어 세럼 더블 기획(40ml+40ml),22900,4040
...,...,...,...,...
681,이즈앤트리,이즈앤트리 어니언 뉴페어 B5 앰플 50ml 증정 기획 (+겔크림20ml+패드2매),24000,5020
685,에스트라,에스트라 에이시카365 흔적 진정 세럼 40ml+40ml 리필기획,57000,4040
689,차앤박,차앤박(CNP) 프로폴리스 앰플 1+1 스페셜기획 (앰플30ml*2+앰플마스크1매+...,39900,3050
692,라로슈포제,라로슈포제 멜라B3 세럼 30ml 기획 (+3ml 증정),46900,303


In [74]:
df.loc[695]['Product']

'[크림증정][모공탄력] 비플레인 녹두 모공 타이트업 세럼 30ml (+15ml+크림20ml)'