# SKN13-3rd-3Team: Data Preprocessing

1. Preprocessing

2. ~~Sentiment Analysis for metadata~~

In [None]:
import pandas as pd

df = pd.read_csv('oliveyoung_cream_1_11.csv')
df.head()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 116418 entries, 0 to 116417
Data columns (total 19 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   제품명            116418 non-null  object
 1   이미지 URL        116418 non-null  object
 2   내용물의 용량 또는 중량  116418 non-null  object
 3   제품 주요 사양       116418 non-null  object
 4   사용기한           116418 non-null  object
 5   사용방법           116418 non-null  object
 6   제조업자 등         116418 non-null  object
 7   제조국            115787 non-null  object
 8   성분             115787 non-null  object
 9   기능성 여부         115787 non-null  object
 10  주의사항           115787 non-null  object
 11  품질보증기준         115787 non-null  object
 12  소비자상담          115787 non-null  object
 13  리뷰 ID          116418 non-null  object
 14  별점             116418 non-null  object
 15  피부타입           116418 non-null  object
 16  피부고민           116418 non-null  object
 17  자극도            116418 non-null  object
 18  리뷰  

## Preprocessing: cleansing, outliers, and missing values

- 결측치를 제거합니다.
- 제품명에 들어간 불필요한 요소를 전처리합니다.
    - ‘리필’ 또는 ‘기획’이 들어간 경우 데이터 포인트 자체를 제거합니다.
    - 괄호(`[]`, `()` 등)와 괄호 안의 문자열을 제거합니다.
    - 제품명에 증정품 관련 문자열이 있는 경우 제거합니다.
        > e.g.
        >    
        >    ‘A사 a 로션 + 토너 50ml’의 경우 ‘ + 토너 50ml’를 제품명에서 제거합니다.
            
- 리뷰가 100개 미만인 제품은 이상치로 간주하여 제거합니다.
- 불필요한 열을 제거합니다. **이 부분은 같이 얘기해봐요**
- 리뷰를 문장 단위로 split합니다.
    - `kss.split_sentences`
    - 분리된 문장만큼 행을 확장합니다
        > e.g.
        >
        > A 제품의 리뷰들 중 k번째 리뷰는 4개의 문장으로 구성되어 있습니다.
        >
        > 이 리뷰가 차지하는 행은 1개였지만, split이 완료되면 4개가 됩니다.

In [None]:
df.dropna(inplace=True)
df.isna().sum()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 115787 entries, 0 to 116417
Data columns (total 19 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   제품명            115787 non-null  object
 1   이미지 URL        115787 non-null  object
 2   내용물의 용량 또는 중량  115787 non-null  object
 3   제품 주요 사양       115787 non-null  object
 4   사용기한           115787 non-null  object
 5   사용방법           115787 non-null  object
 6   제조업자 등         115787 non-null  object
 7   제조국            115787 non-null  object
 8   성분             115787 non-null  object
 9   기능성 여부         115787 non-null  object
 10  주의사항           115787 non-null  object
 11  품질보증기준         115787 non-null  object
 12  소비자상담          115787 non-null  object
 13  리뷰 ID          115787 non-null  object
 14  별점             115787 non-null  object
 15  피부타입           115787 non-null  object
 16  피부고민           115787 non-null  object
 17  자극도            115787 non-null  object
 18  리뷰       

In [None]:
df = df[~((df['제품명'].str.contains('리필')) | (df['제품명'].str.contains('기획')))]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 37638 entries, 0 to 114334
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   제품명            37638 non-null  object
 1   이미지 URL        37638 non-null  object
 2   내용물의 용량 또는 중량  37638 non-null  object
 3   제품 주요 사양       37638 non-null  object
 4   사용기한           37638 non-null  object
 5   사용방법           37638 non-null  object
 6   제조업자 등         37638 non-null  object
 7   제조국            37638 non-null  object
 8   성분             37638 non-null  object
 9   기능성 여부         37638 non-null  object
 10  주의사항           37638 non-null  object
 11  품질보증기준         37638 non-null  object
 12  소비자상담          37638 non-null  object
 13  리뷰 ID          37638 non-null  object
 14  별점             37638 non-null  object
 15  피부타입           37638 non-null  object
 16  피부고민           37638 non-null  object
 17  자극도            37638 non-null  object
 18  리뷰             37638 non-null 

In [None]:
counts = df['제품명'].value_counts()
over100 = counts[counts >= 100].index.tolist()
df = df[df['제품명'].isin(over100)]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 35351 entries, 776 to 114334
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   제품명            35351 non-null  object
 1   이미지 URL        35351 non-null  object
 2   내용물의 용량 또는 중량  35351 non-null  object
 3   제품 주요 사양       35351 non-null  object
 4   사용기한           35351 non-null  object
 5   사용방법           35351 non-null  object
 6   제조업자 등         35351 non-null  object
 7   제조국            35351 non-null  object
 8   성분             35351 non-null  object
 9   기능성 여부         35351 non-null  object
 10  주의사항           35351 non-null  object
 11  품질보증기준         35351 non-null  object
 12  소비자상담          35351 non-null  object
 13  리뷰 ID          35351 non-null  object
 14  별점             35351 non-null  object
 15  피부타입           35351 non-null  object
 16  피부고민           35351 non-null  object
 17  자극도            35351 non-null  object
 18  리뷰             35351 non-nul

In [None]:
df['제품명'].value_counts().describe()

count      67.000000
mean      527.626866
std       363.948832
min       102.000000
25%       154.500000
50%       456.000000
75%       995.000000
max      1000.000000
Name: count, dtype: float64

In [None]:
import kss
from tqdm.auto import tqdm

tqdm.pandas(desc='Tokenizing...')
df['문장리스트'] = df['리뷰'].progress_apply(kss.split_sentences)
df = df.explode('문장리스트', ignore_index=True)
df = df.rename(columns={'문장리스트':'문장'})
df = df.drop(columns=['리뷰'])
df.head(3)

Tokenizing...:   0%|          | 0/35351 [00:00<?, ?it/s]

[Kss]: Oh! You have mecab in your environment. Kss will take this as a backend! :D



Unnamed: 0,제품명,이미지 URL,내용물의 용량 또는 중량,제품 주요 사양,사용기한,사용방법,제조업자 등,제조국,성분,기능성 여부,주의사항,품질보증기준,소비자상담,리뷰 ID,별점,피부타입,피부고민,자극도,문장
0,[탱글장벽크림/NEW] 퍼셀 픽셀바이옴 히알 콜라겐 스플래쉬 크림 50ml,https://image.oliveyoung.co.kr/cfimages/cf-goo...,50ml,모든 피부 타입,제조일로부터 36개월/개봉 후 12개월,스킨케어 마지막 단계에서 적당량을 덜어 골고루 펴 발라 줍니다.,코스맥스(주) / (주)퍼셀,대한민국,"정제수, 비닐다이메티콘, 글리세린, 부틸렌글라이콜, 비피다발효용해물(2.25%), ...",화장품법에 따른 기능성 화장품 심사(또는 보고)를 필함,"가. 화장품 사용 시 또는 사용 후 직사광선에 의하여 사용부위가 붉은 반점, 부어오...",본 제품은 공정거래위원회고시 소비자분쟁해결 기준에 의거 교환 또는 보상 받을 수 있...,1833-9544,코더긔,5점만점에 5점,건성에 좋아요,보습에 좋아요,자극없이 순해요,"✨ 여름 쿨 라이트 / 21~22호 / 건성, 민감성 피부 ✨\n\n🐤 구매 가격\..."
1,[탱글장벽크림/NEW] 퍼셀 픽셀바이옴 히알 콜라겐 스플래쉬 크림 50ml,https://image.oliveyoung.co.kr/cfimages/cf-goo...,50ml,모든 피부 타입,제조일로부터 36개월/개봉 후 12개월,스킨케어 마지막 단계에서 적당량을 덜어 골고루 펴 발라 줍니다.,코스맥스(주) / (주)퍼셀,대한민국,"정제수, 비닐다이메티콘, 글리세린, 부틸렌글라이콜, 비피다발효용해물(2.25%), ...",화장품법에 따른 기능성 화장품 심사(또는 보고)를 필함,"가. 화장품 사용 시 또는 사용 후 직사광선에 의하여 사용부위가 붉은 반점, 부어오...",본 제품은 공정거래위원회고시 소비자분쟁해결 기준에 의거 교환 또는 보상 받을 수 있...,1833-9544,코더긔,5점만점에 5점,건성에 좋아요,보습에 좋아요,자극없이 순해요,보통의 겔크림은 살짝은 두께감 있게 피부에 올라가거나 끈적임?
2,[탱글장벽크림/NEW] 퍼셀 픽셀바이옴 히알 콜라겐 스플래쉬 크림 50ml,https://image.oliveyoung.co.kr/cfimages/cf-goo...,50ml,모든 피부 타입,제조일로부터 36개월/개봉 후 12개월,스킨케어 마지막 단계에서 적당량을 덜어 골고루 펴 발라 줍니다.,코스맥스(주) / (주)퍼셀,대한민국,"정제수, 비닐다이메티콘, 글리세린, 부틸렌글라이콜, 비피다발효용해물(2.25%), ...",화장품법에 따른 기능성 화장품 심사(또는 보고)를 필함,"가. 화장품 사용 시 또는 사용 후 직사광선에 의하여 사용부위가 붉은 반점, 부어오...",본 제품은 공정거래위원회고시 소비자분쟁해결 기준에 의거 교환 또는 보상 받을 수 있...,1833-9544,코더긔,5점만점에 5점,건성에 좋아요,보습에 좋아요,자극없이 순해요,같은 게 남는데 퍼셀 겔크림은 그런 느낌 전혀 없었어요!


In [None]:
df['문장'][:10]

0    ✨ 여름 쿨 라이트 / 21~22호 / 건성, 민감성 피부 ✨\n\n🐤 구매 가격\...
1                   보통의 겔크림은 살짝은 두께감 있게 피부에 올라가거나 끈적임?
2                      같은 게 남는데 퍼셀 겔크림은 그런 느낌 전혀 없었어요!
3           초경량 겔크림이라는 말이 바로 와닿을 정도로 가볍게 바를 수 있어 좋았어요!
4     흡수도 매우 빠른 편이라 겉도는 느낌이 없어 메이크업 전에 바르기도 좋았어요!\n\n🐤
5                효과\n✔️ 퍼셀 픽셀바이옴 원액 잘 맞는 분들께 정말 추천드려요!
6    저는 기존에 퍼셀 픽셀바이옴 원액 사용하고 피부결 개선이나 장벽 개선에 정말 도움을...
7    아직 사용한지 오래 되진 않아서 콜라겐 효과는 체감하지 못했지만 수분 채워주는 데에...
8                  총평\n✔️ 용량 대비 가격이 다소 비싸다는 느낌이 들었어요 🥹
9             한 손에 쏙 들어오는 사이즈인데 할인해서 23,400원..... ㅜㅜㅜㅜ
Name: 문장, dtype: object