In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [3]:
# 한글 문제
# matplotlit의 기본 폰트에서 한글 지원되지 않기 때문에
# matplotlib의 폰트 변경 필요
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':  # 맥OS
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':  # 윈도우
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system...  sorry~~~')

In [None]:
data = pd.read_csv('./data/total.csv', encoding = 'utf-8', low_memory=False)
data.head()

Unnamed: 0.1,Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점
0,0,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,휠라 아동용 푸퍼 부츠 3HM01158F,http://www.coupang.com/vp/products/7614782467?...,4,5.0
1,1,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,민트스쿨 남아 여아 아동 네오프렌 수영복 다이빙수트 웻수트,http://www.coupang.com/vp/products/7188787135?...,187,4.5
2,2,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,산리오 아동용 CH 쿠로미 윈터 방한부츠,http://www.coupang.com/vp/products/7684694458?...,38,5.0
3,3,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,마미트리 아동용 RW마스터 방한부츠,http://www.coupang.com/vp/products/330109285?i...,370,4.5
4,4,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,"코코릭 유아동 와이드렌즈 물안경, 큐브 핑크민트",http://www.coupang.com/vp/products/1593283444?...,4261,5.0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12631 entries, 0 to 12630
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  12631 non-null  int64  
 1   카테고리1       12631 non-null  object 
 2   카테고리2       12631 non-null  object 
 3   카테고리 url    12631 non-null  object 
 4   제품명         12631 non-null  object 
 5   제품 url      12631 non-null  object 
 6   리뷰 개수       12631 non-null  int64  
 7   상품 별점       12631 non-null  float64
dtypes: float64(1), int64(2), object(5)
memory usage: 789.6+ KB


In [None]:
# 각 컬럼별 결측치 확인
data.isnull().sum(axis = 0)

Unnamed: 0    0
카테고리1         0
카테고리2         0
카테고리 url      0
제품명           0
제품 url        0
리뷰 개수         0
상품 별점         0
dtype: int64

In [None]:
# 불필요한 컬럼 drop하여 삭제
data.drop(['Unnamed: 0'], axis = 1, inplace = True)

In [None]:
data.head()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점
0,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,휠라 아동용 푸퍼 부츠 3HM01158F,http://www.coupang.com/vp/products/7614782467?...,4,5.0
1,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,민트스쿨 남아 여아 아동 네오프렌 수영복 다이빙수트 웻수트,http://www.coupang.com/vp/products/7188787135?...,187,4.5
2,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,산리오 아동용 CH 쿠로미 윈터 방한부츠,http://www.coupang.com/vp/products/7684694458?...,38,5.0
3,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,마미트리 아동용 RW마스터 방한부츠,http://www.coupang.com/vp/products/330109285?i...,370,4.5
4,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,"코코릭 유아동 와이드렌즈 물안경, 큐브 핑크민트",http://www.coupang.com/vp/products/1593283444?...,4261,5.0


In [None]:
data["제품명수정"] = data["제품명"].str.replace(pat=r'[^\w]', repl=r' ', regex=True)

In [None]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,제품명수정
12626,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,http://www.coupang.com/vp/products/7147377526?...,5,5.0,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트
12627,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319, 1개",http://www.coupang.com/vp/products/4604590891?...,12,5.0,아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319 1개
12628,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 엔터프라이즈 프라모델 전함 CV-6 14224, 1개",http://www.coupang.com/vp/products/42777026?it...,61,5.0,아카데미과학 엔터프라이즈 프라모델 전함 CV 6 14224 1개
12629,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"초이락 헬로카봇 비트런1, 헬로카봇 비트런",http://www.coupang.com/vp/products/7140931355?...,65,5.0,초이락 헬로카봇 비트런1 헬로카봇 비트런
12630,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"반다이 라이즈 스탠다드 블랙 워그레이몬 피규어, 1개",http://www.coupang.com/vp/products/7590151789?...,369,4.5,반다이 라이즈 스탠다드 블랙 워그레이몬 피규어 1개


In [None]:
lst = data['제품명수정'].str.split(' ').str[0]
lst2 = data['제품명수정'].str.split(' ').str[1]
lst3 = data['제품명수정'].str.split(' ').str[2]
lst4 = data['제품명수정'].str.split(' ').str[3]
lst5 = data['제품명수정'].str.split(' ').str[4]

In [None]:
data['First'] = lst
data['Second'] = lst2
data['Third'] = lst3
data['Fourth'] = lst4
data['Fifth'] = lst5

In [None]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,제품명수정,First,Second,Third,Fourth,Fifth
12626,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,http://www.coupang.com/vp/products/7147377526?...,5,5.0,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,반다이,기계전대,젠카이쟈,미니프라,전계합체
12627,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319, 1개",http://www.coupang.com/vp/products/4604590891?...,12,5.0,아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319 1개,아카데미과학,포니,수집품,124,피규어포함
12628,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 엔터프라이즈 프라모델 전함 CV-6 14224, 1개",http://www.coupang.com/vp/products/42777026?it...,61,5.0,아카데미과학 엔터프라이즈 프라모델 전함 CV 6 14224 1개,아카데미과학,엔터프라이즈,프라모델,전함,CV
12629,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"초이락 헬로카봇 비트런1, 헬로카봇 비트런",http://www.coupang.com/vp/products/7140931355?...,65,5.0,초이락 헬로카봇 비트런1 헬로카봇 비트런,초이락,헬로카봇,비트런1,,헬로카봇
12630,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"반다이 라이즈 스탠다드 블랙 워그레이몬 피규어, 1개",http://www.coupang.com/vp/products/7590151789?...,369,4.5,반다이 라이즈 스탠다드 블랙 워그레이몬 피규어 1개,반다이,라이즈,스탠다드,블랙,워그레이몬


In [None]:
data['First'].duplicated().sum()

7968

In [None]:
data['Second'].duplicated().sum()

7109

In [None]:
data['Third'].duplicated().sum()

7301

In [None]:
data['Fourth'].duplicated().sum()

7909

In [None]:
data['Fifth'].duplicated().sum()

8521

In [None]:
data.drop_duplicates(['Fourth'], keep='first')

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,제품명수정,First,Second,Third,Fourth,Fifth
0,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,휠라 아동용 푸퍼 부츠 3HM01158F,http://www.coupang.com/vp/products/7614782467?...,4,5.0,휠라 아동용 푸퍼 부츠 3HM01158F,휠라,아동용,푸퍼,부츠,3HM01158F
1,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,민트스쿨 남아 여아 아동 네오프렌 수영복 다이빙수트 웻수트,http://www.coupang.com/vp/products/7188787135?...,187,4.5,민트스쿨 남아 여아 아동 네오프렌 수영복 다이빙수트 웻수트,민트스쿨,남아,여아,아동,네오프렌
2,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,산리오 아동용 CH 쿠로미 윈터 방한부츠,http://www.coupang.com/vp/products/7684694458?...,38,5.0,산리오 아동용 CH 쿠로미 윈터 방한부츠,산리오,아동용,CH,쿠로미,윈터
3,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,마미트리 아동용 RW마스터 방한부츠,http://www.coupang.com/vp/products/330109285?i...,370,4.5,마미트리 아동용 RW마스터 방한부츠,마미트리,아동용,RW마스터,방한부츠,
4,출산/유아동,유아동패션,http://www.coupang.com/np/categories/508565?pa...,"코코릭 유아동 와이드렌즈 물안경, 큐브 핑크민트",http://www.coupang.com/vp/products/1593283444?...,4261,5.0,코코릭 유아동 와이드렌즈 물안경 큐브 핑크민트,코코릭,유아동,와이드렌즈,물안경,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
12623,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,반다이 포켓몬스터프라콜렉션 No.54 셀렉트 시리즈 그란돈,http://www.coupang.com/vp/products/7793994126?...,2,5.0,반다이 포켓몬스터프라콜렉션 No 54 셀렉트 시리즈 그란돈,반다이,포켓몬스터프라콜렉션,No,54,셀렉트
12624,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"반다이 RG 즈고크 샤아 전용기 프라모델, 1개",http://www.coupang.com/vp/products/6566440794?...,255,4.5,반다이 RG 즈고크 샤아 전용기 프라모델 1개,반다이,RG,즈고크,샤아,전용기
12626,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,http://www.coupang.com/vp/products/7147377526?...,5,5.0,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,반다이,기계전대,젠카이쟈,미니프라,전계합체
12627,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319, 1개",http://www.coupang.com/vp/products/4604590891?...,12,5.0,아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319 1개,아카데미과학,포니,수집품,124,피규어포함


In [None]:
lst = data['제품명수정'].str.split().str[:4].str.join(" ")

In [None]:
data['4단어'] = lst

In [None]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,제품명수정,4단어
12626,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,http://www.coupang.com/vp/products/7147377526?...,5,5.0,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,반다이 기계전대 젠카이쟈 미니프라
12627,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319, 1개",http://www.coupang.com/vp/products/4604590891?...,12,5.0,아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319 1개,아카데미과학 포니 수집품 124
12628,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 엔터프라이즈 프라모델 전함 CV-6 14224, 1개",http://www.coupang.com/vp/products/42777026?it...,61,5.0,아카데미과학 엔터프라이즈 프라모델 전함 CV 6 14224 1개,아카데미과학 엔터프라이즈 프라모델 전함
12629,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"초이락 헬로카봇 비트런1, 헬로카봇 비트런",http://www.coupang.com/vp/products/7140931355?...,65,5.0,초이락 헬로카봇 비트런1 헬로카봇 비트런,초이락 헬로카봇 비트런1 헬로카봇
12630,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"반다이 라이즈 스탠다드 블랙 워그레이몬 피규어, 1개",http://www.coupang.com/vp/products/7590151789?...,369,4.5,반다이 라이즈 스탠다드 블랙 워그레이몬 피규어 1개,반다이 라이즈 스탠다드 블랙


In [None]:
newdata_ver4 = data.drop_duplicates(['4단어'], keep='first')

In [None]:
newdata_ver4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9454 entries, 0 to 12630
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   카테고리1     9454 non-null   object 
 1   카테고리2     9454 non-null   object 
 2   카테고리 url  9454 non-null   object 
 3   제품명       9454 non-null   object 
 4   제품 url    9454 non-null   object 
 5   리뷰 개수     9454 non-null   int64  
 6   상품 별점     9454 non-null   float64
 7   제품명수정     9454 non-null   object 
 8   4단어       9454 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 738.6+ KB


In [None]:
newdata_ver4.to_csv('./data/newdata_ver4.csv', index=False)

In [None]:
lst = data['제품명수정'].str.split().str[:3].str.join(" ")

In [None]:
data['3단어'] = lst

In [None]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,제품명수정,3단어
12626,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,http://www.coupang.com/vp/products/7147377526?...,5,5.0,반다이 기계전대 젠카이쟈 미니프라 전계합체 시리즈01 젠카이오 쥬라가온 전5종 세트,반다이 기계전대 젠카이쟈
12627,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319, 1개",http://www.coupang.com/vp/products/4604590891?...,12,5.0,아카데미과학 포니 수집품 124 피규어포함 현대자동차 프라모델 5WB77319 1개,아카데미과학 포니 수집품
12628,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"아카데미과학 엔터프라이즈 프라모델 전함 CV-6 14224, 1개",http://www.coupang.com/vp/products/42777026?it...,61,5.0,아카데미과학 엔터프라이즈 프라모델 전함 CV 6 14224 1개,아카데미과학 엔터프라이즈 프라모델
12629,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"초이락 헬로카봇 비트런1, 헬로카봇 비트런",http://www.coupang.com/vp/products/7140931355?...,65,5.0,초이락 헬로카봇 비트런1 헬로카봇 비트런,초이락 헬로카봇 비트런1
12630,완구/취미,프라모델,http://www.coupang.com/np/categories/332492?pa...,"반다이 라이즈 스탠다드 블랙 워그레이몬 피규어, 1개",http://www.coupang.com/vp/products/7590151789?...,369,4.5,반다이 라이즈 스탠다드 블랙 워그레이몬 피규어 1개,반다이 라이즈 스탠다드


In [None]:
newdata_ver3 = data.drop_duplicates(['3단어'], keep='first')

In [None]:
newdata_ver3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9055 entries, 0 to 12630
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   카테고리1     9055 non-null   object 
 1   카테고리2     9055 non-null   object 
 2   카테고리 url  9055 non-null   object 
 3   제품명       9055 non-null   object 
 4   제품 url    9055 non-null   object 
 5   리뷰 개수     9055 non-null   int64  
 6   상품 별점     9055 non-null   float64
 7   제품명수정     9055 non-null   object 
 8   3단어       9055 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 707.4+ KB


In [None]:
newdata_ver3.to_csv('./data/newdata_ver3.csv', index=False)

In [None]:
lst = data['제품명수정'].str.split().str[:2].str.join(" ")

In [None]:
data['2단어'] = lst

In [None]:
newdata_ver2 = data.drop_duplicates(['2단어'], keep='first')

In [None]:
newdata_ver2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8167 entries, 0 to 12630
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   카테고리1     8167 non-null   object 
 1   카테고리2     8167 non-null   object 
 2   카테고리 url  8167 non-null   object 
 3   제품명       8167 non-null   object 
 4   제품 url    8167 non-null   object 
 5   리뷰 개수     8167 non-null   int64  
 6   상품 별점     8167 non-null   float64
 7   제품명수정     8167 non-null   object 
 8   2단어       8167 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 638.0+ KB


In [None]:
newdata_ver2.to_csv('./data/newdata_ver2.csv', index=False)

In [16]:
data = pd.read_csv('../json_csv_files/reduced_products/food_products.csv', encoding = 'utf-8', low_memory=False)
data.head()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점
0,식품,유기농/친환경 전문관,http://www.coupang.com/np/campaigns/10076?page=1,"동원홈푸드 유기농 인증 소고기 다짐육 (냉장), 200g, 2개",http://www.coupang.com/vp/products/6903058843?...,739,4.5
1,식품,유기농/친환경 전문관,http://www.coupang.com/np/campaigns/10076?page=1,"동물복지목장 유기농 목초우유, 750ml, 2개",http://www.coupang.com/vp/products/5715337840?...,1548,5.0
2,식품,유기농/친환경 전문관,http://www.coupang.com/np/campaigns/10076?page=1,"백미당 동물복지 인증 유기농 우유, 750ml, 3개",http://www.coupang.com/vp/products/7178841331?...,2155,5.0
3,식품,유기농/친환경 전문관,http://www.coupang.com/np/campaigns/10076?page=1,"유가원 유기농 구운 아몬드, 340g, 1개",http://www.coupang.com/vp/products/401762?item...,433,5.0
4,식품,유기농/친환경 전문관,http://www.coupang.com/np/campaigns/10076?page=1,"프레시밀 샤브샤브재료 밀키트, 880g, 2팩",http://www.coupang.com/vp/products/267253959?i...,12943,5.0


In [17]:
urllst = data['제품 url'].str.split('/').str[5]

In [18]:
data['url1'] = urllst

In [19]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,url1
955,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"올즙 올바른 도라지배스틱, 1개, 750ml",http://www.coupang.com/vp/products/1132782838?...,3653,5.0,1132782838?itemId=2101441427&vendorItemId=7010...
956,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"유기농마루 갈아만든 ABC 주스, 100ml, 50개",http://www.coupang.com/vp/products/5286468666?...,8556,5.0,5286468666?itemId=3517392723&vendorItemId=8074...
957,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"비에날씬 프로 다이어트 유산균 김희선유산균 30캡슐, 30정, 1개",http://www.coupang.com/vp/products/6061251650?...,4555,4.5,6061251650?itemId=19132787990&vendorItemId=880...
958,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"피토틱스 콜린 이노시톨 60p, 150g, 1개",http://www.coupang.com/vp/products/6139270733?...,2561,5.0,6139270733?itemId=11763169940&vendorItemId=790...
959,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"루솔 진한 배도라지즙, 20개, 100ml",http://www.coupang.com/vp/products/1391879995?...,2591,5.0,1391879995?itemId=2427267389&vendorItemId=7042...


In [20]:
urllst2 = data['url1'].str.split('?').str[0]

In [21]:
data['url2'] = urllst2

In [22]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,url1,url2
955,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"올즙 올바른 도라지배스틱, 1개, 750ml",http://www.coupang.com/vp/products/1132782838?...,3653,5.0,1132782838?itemId=2101441427&vendorItemId=7010...,1132782838
956,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"유기농마루 갈아만든 ABC 주스, 100ml, 50개",http://www.coupang.com/vp/products/5286468666?...,8556,5.0,5286468666?itemId=3517392723&vendorItemId=8074...,5286468666
957,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"비에날씬 프로 다이어트 유산균 김희선유산균 30캡슐, 30정, 1개",http://www.coupang.com/vp/products/6061251650?...,4555,4.5,6061251650?itemId=19132787990&vendorItemId=880...,6061251650
958,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"피토틱스 콜린 이노시톨 60p, 150g, 1개",http://www.coupang.com/vp/products/6139270733?...,2561,5.0,6139270733?itemId=11763169940&vendorItemId=790...,6139270733
959,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"루솔 진한 배도라지즙, 20개, 100ml",http://www.coupang.com/vp/products/1391879995?...,2591,5.0,1391879995?itemId=2427267389&vendorItemId=7042...,1391879995


In [23]:
data.drop(['url1'], axis = 1, inplace = True)

In [24]:
data.tail()

Unnamed: 0,카테고리1,카테고리2,카테고리 url,제품명,제품 url,리뷰 개수,상품 별점,url2
955,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"올즙 올바른 도라지배스틱, 1개, 750ml",http://www.coupang.com/vp/products/1132782838?...,3653,5.0,1132782838
956,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"유기농마루 갈아만든 ABC 주스, 100ml, 50개",http://www.coupang.com/vp/products/5286468666?...,8556,5.0,5286468666
957,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"비에날씬 프로 다이어트 유산균 김희선유산균 30캡슐, 30정, 1개",http://www.coupang.com/vp/products/6061251650?...,4555,4.5,6061251650
958,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"피토틱스 콜린 이노시톨 60p, 150g, 1개",http://www.coupang.com/vp/products/6139270733?...,2561,5.0,6139270733
959,식품,건강식품,http://www.coupang.com/np/categories/196076?pa...,"루솔 진한 배도라지즙, 20개, 100ml",http://www.coupang.com/vp/products/1391879995?...,2591,5.0,1391879995


In [25]:
newdata_url = data.drop_duplicates(['url2'], keep='first')

In [26]:
newdata_url.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 867 entries, 0 to 959
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   카테고리1     867 non-null    object 
 1   카테고리2     867 non-null    object 
 2   카테고리 url  867 non-null    object 
 3   제품명       867 non-null    object 
 4   제품 url    867 non-null    object 
 5   리뷰 개수     867 non-null    int64  
 6   상품 별점     867 non-null    float64
 7   url2      867 non-null    object 
dtypes: float64(1), int64(1), object(6)
memory usage: 61.0+ KB


In [27]:
newdata_url.to_csv('../json_csv_files/distinct_review/food_distinct.csv', index=False, encoding="utf-8-sig")