In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = 'https://www.oliveyoung.co.kr/store/display/getMCategoryList.do?dispCatNo=100000100010014&fltDispCatNo=&prdSort=01&pageIdx={}&rowsPerPage=24&searchTypeSort=btn_thumb&plusButtonFlag=N&isLoginCnt=0&aShowCnt=0&bShowCnt=0&cShowCnt=0&trackingCd=Cat100000100010014_Small&amplitudePageGubun=&t_page=&t_click=&midCategory=%EC%97%90%EC%84%BC%EC%8A%A4%2F%EC%84%B8%EB%9F%BC%2F%EC%95%B0%ED%94%8C&smallCategory=%EC%A0%84%EC%B2%B4&checkBrnds=&lastChkBrnd='

page_index = 1
data = []

while True:
    url = base_url.format(page_index)
    response = requests.get(url)
    
    if response.status_code != 200:
        break  # 요청이 실패하면 종료

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 데이터 추출
    brands = [brand.text.strip() for brand in soup.select('.tx_brand')]
    products = [product.text.strip() for product in soup.select('.tx_name')]
    
    prices = []
    price_tags = soup.select('.prd_price')
    for tag in price_tags:
        child_tags = tag.find_all()
        
        if len(child_tags) == 2:
            price = child_tags[1].text.strip()  # 두 번째 태그의 텍스트
        elif len(child_tags) == 1:
            price = child_tags[0].text.strip()  # 첫 번째 태그의 텍스트
        else:
            price = None  # 자식 태그가 없을 경우
        
        prices.append(price)

    # 페이지당 데이터가 없으면 종료
    if not brands or not products or not prices:
        break

    # 각 데이터 항목을 조합
    for brand, product, price in zip(brands, products, prices):
        data.append({
            'Brand': brand,
            'Product': product,
            'Price': price
        })

    page_index += 1  # 다음 페이지로 이동

# 데이터프레임으로 변환
df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)

# CSV로 저장 (원하는 경우)
# df.to_csv('oliveyoung_products.csv', index=False)


     Brand                                            Product    Price
0    이니스프리        [10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획     None
1    이니스프리     [10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml)     None
2    이니스프리  [10월 올영픽/단독기획] 이니스프리 비타C 7일 톤업 세럼 30ML 리필 기획(+...     None
3      웰라쥬  [10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...     None
4       구달  [리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...     None
..     ...                                                ...      ...
696    로벡틴                [품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml     None
697    설화수                                   설화수맨 본윤에센스 140ml   73,000
698     달바                    [4만비타캡슐/유리알광채] 달바 비타 캡슐 세럼 50ml   38,000
699   피지오겔           [잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml     None
700   에스테덤                         [NEW]에스테덤 에이지 프로테옴 세럼 30ml  138,000

[701 rows x 3 columns]


In [6]:
df.Price.isnull

Unnamed: 0,Brand,Product,Price
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,
...,...,...,...
691,아비브,[3일투명잡티] 아비브 글루타치온좀 잡티 세럼 비타 드롭 50ml 기획 (+글루타치...,
692,라로슈포제,라로슈포제 멜라B3 세럼 30ml 기획 (+3ml 증정),
693,로벡틴,[품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml,
695,비플레인,[크림증정][모공탄력] 비플레인 녹두 모공 타이트업 세럼 30ml (+15ml+크림...,


In [8]:
base_url = 'https://www.oliveyoung.co.kr/store/display/getMCategoryList.do?dispCatNo=100000100010014&fltDispCatNo=&prdSort=01&pageIdx={}&rowsPerPage=24&searchTypeSort=btn_thumb&plusButtonFlag=N&isLoginCnt=0&aShowCnt=0&bShowCnt=0&cShowCnt=0&trackingCd=Cat100000100010014_Small&amplitudePageGubun=&t_page=&t_click=&midCategory=%EC%97%90%EC%84%BC%EC%8A%A4%2F%EC%84%B8%EB%9F%BC%2F%EC%95%B0%ED%94%8C&smallCategory=%EC%A0%84%EC%B2%B4&checkBrnds=&lastChkBrnd='

page_index = 1
data = []

while True:
    url = base_url.format(page_index)
    response = requests.get(url)
    
    if response.status_code != 200:
        break  # 요청이 실패하면 종료

    soup = BeautifulSoup(response.text, 'html.parser')


    prices = []
    price_tags = soup.select('.prd_price')
    for tag in price_tags:
        child_tags = tag.find_all()
        print(child_tags)
        print(len(child_tags))
        if len(child_tags) == 2:
            price = child_tags[1].text.strip()  # 두 번째 태그의 텍스트
        elif len(child_tags) == 1:
            price = child_tags[0].text.strip()  # 첫 번째 태그의 텍스트
        else:
            price = None  # 자식 태그가 없을 경우
        print() 
        prices.append(price)

    if not brands or not products or not prices:
        break

[<span class="tx_org"><span class="tx_num">54,000</span>원 </span>, <span class="tx_num">54,000</span>, <span class="tx_cur"><span class="tx_num">29,500</span>원 </span>, <span class="tx_num">29,500</span>]
4

[<span class="tx_org"><span class="tx_num">40,000</span>원 ~</span>, <span class="tx_num">40,000</span>, <span class="tx_cur"><span class="tx_num">29,900</span>원 ~</span>, <span class="tx_num">29,900</span>]
4

[<span class="tx_org"><span class="tx_num">46,000</span>원 </span>, <span class="tx_num">46,000</span>, <span class="tx_cur"><span class="tx_num">29,200</span>원 </span>, <span class="tx_num">29,200</span>]
4

[<span class="tx_org"><span class="tx_num">40,000</span>원 </span>, <span class="tx_num">40,000</span>, <span class="tx_cur"><span class="tx_num">28,400</span>원 </span>, <span class="tx_num">28,400</span>]
4

[<span class="tx_org"><span class="tx_num">46,000</span>원 </span>, <span class="tx_num">46,000</span>, <span class="tx_cur"><span class="tx_num">26,500</span>원 </span

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = 'https://www.oliveyoung.co.kr/store/display/getMCategoryList.do?dispCatNo=100000100010014&fltDispCatNo=&prdSort=01&pageIdx={}&rowsPerPage=24&searchTypeSort=btn_thumb&plusButtonFlag=N&isLoginCnt=0&aShowCnt=0&bShowCnt=0&cShowCnt=0&trackingCd=Cat100000100010014_Small&amplitudePageGubun=&t_page=&t_click=&midCategory=%EC%97%90%EC%84%BC%EC%8A%A4%2F%EC%84%B8%EB%9F%BC%2F%EC%95%B0%ED%94%8C&smallCategory=%EC%A0%84%EC%B2%B4&checkBrnds=&lastChkBrnd='

page_index = 1
data = []

while True:
    url = base_url.format(page_index)
    response = requests.get(url)
    
    if response.status_code != 200:
        break  # 요청이 실패하면 종료

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 데이터 추출
    brands = [brand.text.strip() for brand in soup.select('.tx_brand')]
    products = [product.text.strip() for product in soup.select('.tx_name')]
    
    prices = []
    price_tags = soup.select('.prd_price')
    for tag in price_tags:
        # 'tx_cur'가 있는지 확인
        current_price_tag = tag.select_one('.tx_cur .tx_num')
        if current_price_tag:
            price = current_price_tag.text.strip()  # 현재 가격 텍스트
        else:
            original_price_tag = tag.select_one('.tx_org .tx_num')
            if original_price_tag:
                price = original_price_tag.text.strip()  # 원래 가격 텍스트
            else:
                price = None  # 가격 정보가 없는 경우
        
        prices.append(price)

    # 페이지당 데이터가 없으면 종료
    if not brands or not products or not prices:
        break

    # 각 데이터 항목을 조합
    for brand, product, price in zip(brands, products, prices):
        data.append({
            'Brand': brand,
            'Product': product,
            'Price': price
        })

    page_index += 1  # 다음 페이지로 이동

# 데이터프레임으로 변환
df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)

# CSV로 저장 (원하는 경우)
# df.to_csv('oliveyoung_products.csv', index=False)


     Brand                                            Product    Price
0    이니스프리        [10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획   29,800
1    이니스프리     [10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml)   28,400
2    이니스프리  [10월 올영픽/단독기획] 이니스프리 비타C 7일 톤업 세럼 30ML 리필 기획(+...   25,800
3      웰라쥬  [10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...   29,000
4       구달  [리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...   34,400
..     ...                                                ...      ...
696    로벡틴                [품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml   25,600
697    설화수                                   설화수맨 본윤에센스 140ml   73,000
698     달바                    [4만비타캡슐/유리알광채] 달바 비타 캡슐 세럼 50ml   38,000
699   피지오겔           [잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml   39,900
700   에스테덤                         [NEW]에스테덤 에이지 프로테옴 세럼 30ml  138,000

[701 rows x 3 columns]


In [3]:
df.isnull().sum()

Brand      0
Product    0
Price      0
dtype: int64

In [16]:
df.Brand.value_counts().head(5)

Brand
디오디너리    30
코스알엑스    23
차앤박      16
라로슈포제    15
바이오힐보    13
Name: count, dtype: int64

In [17]:
len(df.Brand.value_counts())

196

In [23]:
df.groupby('Brand').filter(lambda x: len(x) == 1)

Unnamed: 0,Brand,Product,Price
11,내추럴더마프로젝트,[윤은혜 PICK] 내추럴더마프로젝트 베베바이옴 생기탄력 세럼 20ml,27000
36,반코르,반코르 바쿠치올 세럼 30ml,23370
46,더마토리,[도경수PICK/리필기획] 더마토리 히알샷 베리어 B5 앰플 50ml 리필기획(+5...,27000
58,셀리맥스,[단독기획] 셀리맥스 더 리얼 노니 에너지 앰플 90ml 에디션 (80ml+10ml),29700
74,더하르나이,[화잘먹앰플/1+1단독기획]더하르나이 앰플세럼 50ml 리필기획(본품+리필),25600
...,...,...,...
648,닥터리핏,[뷰티마스터 한창서 PICK] 닥터리핏 입체돌기 당김실 탄력 리프팅 콜라겐실 앰플 ...,33600
650,EGF올로지,이지에프올로지 액티브 이지에프 리제너레이팅 세럼 스타터,109000
654,비마이셀프,비마이셀프 AX 퓨어 비타C 15 앰플 15ml,44900
660,세타필,[민감피부진정] 세타필 페이셜 수분세럼 30ml,25000


In [24]:
# 브랜드 개수 계산
brand_counts = df['Brand'].value_counts()

# 값이 1인 브랜드 추출
single_count_brands = brand_counts[brand_counts == 1].index

# 해당 브랜드만 추출
single_count_df = df[df['Brand'].isin(single_count_brands)]

print(single_count_df)


         Brand                                            Product    Price
11   내추럴더마프로젝트            [윤은혜 PICK] 내추럴더마프로젝트 베베바이옴 생기탄력 세럼 20ml   27,000
36         반코르                                   반코르 바쿠치올 세럼 30ml   23,370
46        더마토리  [도경수PICK/리필기획] 더마토리 히알샷 베리어 B5 앰플 50ml 리필기획(+5...   27,000
58        셀리맥스    [단독기획] 셀리맥스 더 리얼 노니 에너지 앰플 90ml 에디션 (80ml+10ml)   29,700
74       더하르나이         [화잘먹앰플/1+1단독기획]더하르나이 앰플세럼 50ml 리필기획(본품+리필)   25,600
..         ...                                                ...      ...
648       닥터리핏  [뷰티마스터 한창서 PICK] 닥터리핏 입체돌기 당김실 탄력 리프팅 콜라겐실 앰플 ...   33,600
650     EGF올로지                     이지에프올로지 액티브 이지에프 리제너레이팅 세럼 스타터  109,000
654      비마이셀프                         비마이셀프 AX 퓨어 비타C 15 앰플 15ml   44,900
660        세타필                         [민감피부진정] 세타필 페이셜 수분세럼 30ml   25,000
669       어바웃미                               어바웃미 숲 진정 수분 세럼 50ml   28,000

[82 rows x 3 columns]


In [25]:
df

Unnamed: 0,Brand,Product,Price
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500
...,...,...,...
697,피지오겔,[잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml,39900
698,LBB,[뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml,73000
699,에스테덤,[NEW]에스테덤 에이지 프로테옴 세럼 30ml,138000
700,LBB,[기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml,48000


In [4]:
df.Price = df.Price.replace(',','',regex=True)

In [5]:
df.Price

0       29800
1       28400
2       25800
3       29000
4       34400
        ...  
696     25600
697     73000
698     38000
699     39900
700    138000
Name: Price, Length: 701, dtype: object

In [31]:
df.head()

Unnamed: 0,Brand,Product,Price
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500


In [9]:
df['Volume'] = df['Product'].str.findall(r'(\d+)\s*(ml|g|ML|Ml)')

In [48]:
df.loc[4]['Product']

'[오늘의 특가]  코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획 ( 20g * 2EA)'

In [60]:
for i in df.loc[4]['Volume']:
    print(i[0])

20
20


In [10]:
df['Volume'] = df['Volume'].apply(lambda x: ','.join([item[0] for item in x]) if x else None)

In [11]:
df

Unnamed: 0,Brand,Product,Price,Volume
0,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29800,30
1,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400,2525
2,이니스프리,[10월 올영픽/단독기획] 이니스프리 비타C 7일 톤업 세럼 30ML 리필 기획(+...,25800,3030
3,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29000,7510
4,구달,[리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...,34400,505050
...,...,...,...,...
696,로벡틴,[품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml,25600,30
697,설화수,설화수맨 본윤에센스 140ml,73000,140
698,달바,[4만비타캡슐/유리알광채] 달바 비타 캡슐 세럼 50ml,38000,50
699,피지오겔,[잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml,39900,20


In [70]:
df.drop('Volume_Unit',inplace=True,axis=1)

In [71]:
df

Unnamed: 0,Brand,Product,Price,Volume
0,아누아,[10월 올영픽] 아누아 복숭아 70 나이아신아마이드 세럼 30ml 더블기획,29500,30
1,이니스프리,[10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획,29900,30
2,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29200,7510
3,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400,2525
4,코스알엑스,[오늘의 특가] 코스알엑스 더 비타민C 23 톤업 미백 잡티세럼 20g 더블 기획...,26500,2020
...,...,...,...,...
697,피지오겔,[잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml,39900,20
698,LBB,[뿌리는 스파광채]LBB 인텐시브 수딩 앰플 60ml,73000,60
699,에스테덤,[NEW]에스테덤 에이지 프로테옴 세럼 30ml,138000,30
700,LBB,[기미잡티 에센스]LBB 골드렐라 펩타이드 28 안티 멜라닌 에센스 150ml,48000,150


In [12]:
df[df['Volume'].str.contains(',', na=False)]

Unnamed: 0,Brand,Product,Price,Volume
1,이니스프리,[10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml),28400,2525
2,이니스프리,[10월 올영픽/단독기획] 이니스프리 비타C 7일 톤업 세럼 30ML 리필 기획(+...,25800,3030
3,웰라쥬,[10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...,29000,7510
4,구달,[리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...,34400,505050
7,넘버즈인,[10월올영픽]넘버즈인 1번 판토텐산 액티브업 수딩세럼 50ml 리필기획(50ml+...,21660,505050
...,...,...,...,...
684,메이크프렘,[단독기획] 메이크프렘 엔드포어 베지티놀 모공세럼 50ml 기획 (+인테카크림 31ml),28000,5031
685,이즈앤트리,이즈앤트리 어니언 뉴페어 B5 앰플 50ml 증정 기획 (+겔크림20ml+패드2매),24000,5020
687,에스트라,에스트라 리제덤365 모공탄력 캡슐세럼 30ml+7ml 기획 (+리제덤 크림 10m...,33600,30710
688,에스트라,에스트라 에이시카365 흔적 진정 세럼 40ml+40ml 리필기획,57000,4040


In [None]:
# ml,ML,Ml,g앞에 수를 추출 -> +뒤에 글자나오면 +는 추출하지않기 -> 배제하고나서 값만 더함
# 더블기획, 1+1, 1 + 1이라는 글이 있다면 처음 나오는 ml앞 숫자에 *2를 한다 -> + 뒤에 글자 or + 뒤에 공백 다음에 글자는 배제

In [28]:
import re

def extract_total(product):
    # 더블기획, 1+1, 1 + 1 체크
    double_plan = bool(re.search(r'(더블기획|1\s*\+\s*1)', product))

    # 주 수치 추출 (ml 앞 숫자)
    main_match = re.search(r'(\d+)\s*(ml|ML|Ml|g)', product)
    if main_match:
        main_volume = int(main_match.group(1))
    else:
        return None  # 숫자가 없는 경우

    total_volume = main_volume  # 시작 볼륨

    # 추가 볼륨 추출
    additional_volumes = re.findall(r'\+\s*(\d+)\s*(ml|ML|Ml|g)', product)

    # 포함해야 할 단어 리스트
    included_words = ['세럼', '에센스', '앰플']

    for vol in additional_volumes:
        # + 뒤 한글 확인
        following_han = re.search(r'\+\s*([가-힣]+)', product[product.index(vol[0])-2:])
        if following_han:
            if following_han.group(1) in included_words:
                total_volume += int(vol[0])  # 해당 수치 추가
        else:
            total_volume += int(vol[0])  # 추가할 수치

    # 더블기획인 경우 세 배
    if double_plan:
        total_volume *= 2

    return total_volume

# total 컬럼 생성
df['total'] = df['Product'].apply(extract_total)

# 결과 확인
print(df[['Product', 'total']])

                                               Product  total
0          [10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획   30.0
1       [10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml)   50.0
2    [10월 올영픽/단독기획] 이니스프리 비타C 7일 톤업 세럼 30ML 리필 기획(+...   30.0
3    [10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...  150.0
4    [리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...   50.0
..                                                 ...    ...
696                [품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml   30.0
697                                   설화수맨 본윤에센스 140ml  140.0
698                    [4만비타캡슐/유리알광채] 달바 비타 캡슐 세럼 50ml   50.0
699           [잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml   20.0
700                         [NEW]에스테덤 에이지 프로테옴 세럼 30ml   30.0

[701 rows x 2 columns]


In [30]:
def extract_total(product):
    # 더블기획, 1+1, 1 + 1 체크
    double_plan = bool(re.search(r'(더블기획|1\s*\+\s*1)', product))

    # ml 앞 숫자 추출
    main_match = re.search(r'(\d+)\s*(ml|ML|Ml|g)', product)
    if main_match:
        main_volume = int(main_match.group(1))
    else:
        return None  # 숫자가 없는 경우

    # + 뒤에 한글이 나오거나 공백 뒤에 한글이 나오면 그 수 배제
    excluded_volumes = re.findall(r'\+\s*[가-힣]+\s*\d*\s*(ml|ML|Ml|g)', product)
    # ml가 있는 수치 추출
    additional_volumes = re.findall(r'\+\s*(\d+)\s*(ml|ML|Ml|g)', product)

    total_volume = main_volume  # 시작 볼륨

    for vol in additional_volumes:
        if not any(excluded in vol for excluded in excluded_volumes):
            total_volume += int(vol[0])  # 숫자 부분만 더함

    if double_plan:
        total_volume *= 2  # 더블기획일 경우 두 배

    return total_volume

# total 컬럼 생성
df['total'] = df['Product'].apply(extract_total)

# 결과 확인
print(df[['Product', 'total']])

                                               Product  total
0          [10월 올영픽/Lee콜라보] 이니스프리 레티놀 시카 흔적 앰플 30ml 기획   30.0
1       [10월 올영픽] 이니스프리 레티놀 피디알엔 스킨부스터 앰플 25ml (+25ml)   50.0
2    [10월 올영픽/단독기획] 이니스프리 비타C 7일 톤업 세럼 30ML 리필 기획(+...   30.0
3    [10월 올영픽/한정기획] 웰라쥬 리얼 히알루로닉 블루 100 앰플 75ml 1+1...  150.0
4    [리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...  100.0
..                                                 ...    ...
696                [품절 대란/형광등 세럼] 로벡틴 비타 다크 스팟 세럼 30ml   30.0
697                                   설화수맨 본윤에센스 140ml  140.0
698                    [4만비타캡슐/유리알광채] 달바 비타 캡슐 세럼 50ml   50.0
699           [잡티개선] 피지오겔 사이언수티컬즈 디멜라나이저 토닝 앰플 세럼 20ml   20.0
700                         [NEW]에스테덤 에이지 프로테옴 세럼 30ml   30.0

[701 rows x 2 columns]


In [31]:
df[df['Volume'].str.count(',') >= 2]

Unnamed: 0,Brand,Product,Price,Volume,total
4,구달,[리필기획] 구달 청귤 비타C 잡티케어 세럼 50ml 콜라보기획 (50ml+50ml...,34400,505050,100.0
7,넘버즈인,[10월올영픽]넘버즈인 1번 판토텐산 액티브업 수딩세럼 50ml 리필기획(50ml+...,21660,505050,100.0
8,아이오페,[10월 올영픽][모공/탄력/에센스]아이오페 레티놀 슈퍼 바운스 세럼 30ml 기획...,40000,302025,50.0
15,넘버즈인,[10월올영픽]넘버즈인 3번 보들보들 결 세럼 50ml 리필기획(50ml+50ml),27080,505050,100.0
23,리쥬란,리쥬란 힐러 턴오버 앰플 듀얼 이펙트 30ml 기획(+턴오버앰플 1ml*7+더마힐러...,47000,3011023,30.0
24,에스트라,[10월올영픽]에스트라 리제덤 365 모공탄력 캡슐세럼 30ml 기획 (+세럼15m...,33600,3015103,30.0
35,에스네이처,[인보라PICK/1+1] 에스네이처 아쿠아 스쿠알란 세럼 50ml 기획(+50ml ...,22900,505010,100.0
37,성분에디터,[올영픽/30ml+30ml] 성분에디터 머루포도 비타C 잡티앰플 30ml 1+1 더...,17200,303030,120.0
42,아벤느,[이나연PICK]아벤느 HAB3 탄력 액티브 세럼 30ml 기획 (+이드랑스 에센스...,38900,30257,30.0
50,셀리맥스,[단독기획] 셀리맥스 더 리얼 노니 에너지 앰플 90ml 에디션 (80ml+10ml),29700,908010,100.0


In [32]:
df.to_csv('oli_serum.csv', index=False, encoding='utf-8')

In [None]:
# 가장 많은 브랜드(주력 브랜드)
# 가성비 갑 제품 (ml를 따져서 가격과 계산)
# 0부터 인기가 제일 많은 상품임 top 10과 tail 10의 가격차이는?
# 제품이 가장 좋은지 알 수 있는건 피부타입과 가장 연관이 있음 
# 소비자 : 어떤 제품이 제일 좋은가 / 가성비가 좋은가
# 판매처 : 어떤 상품이 제일 인기가 많은가 ? / 어떤 홍보를 했을 때 잘 팔렸는가 / 소비자의 관심 추이 