In [1]:
import pandas as pd
import re
import numpy as np

In [2]:
pd.set_option('display.max_columns', None)  # 모든 컬럼 출력

# 데이터 로드 및 통합

In [3]:
# df_1 = pd.read_csv("../data/wine/wine21_data_1.csv")
# df_2 = pd.read_csv("../data/wine/wine21_data_2.csv")
# df_3 = pd.read_csv("../data/wine/wine21_data_3.csv")

df_1 = pd.read_csv("../../crawling/data/wine/wine21_data_1.csv")
df_2 = pd.read_csv("../../crawling/data/wine/wine21_data_2.csv")
df_3 = pd.read_csv("../../crawling/data/wine/wine21_data_3.csv")

In [4]:
len(df_1) + len(df_2) + len(df_3)

2280

In [5]:
df = pd.concat([df_1, df_2, df_3], axis=0, ignore_index=True)
df

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,pairing
0,137197,알타이르,Altair,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,137197.jpg,칠레,카베르네 소비뇽 Cabernet Sauvignon,"110,000원 (750ml)",1,4,4,5,14~15,레드,"소고기, 한식"
1,137198,"알타이르, 시데랄","Altair, Sideral",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,137198.jpg,칠레,카베르네 소비뇽 Cabernet Sauvignon,"220,000원 (750ml)",1,3,4,4,14~15,레드,"소고기, 치즈"
2,137199,바론 듀 발 레드,Baron du Val Red,no_image,no_image,프랑스,까리냥 Carignan/Carignane,가격정보없음 (750ml),2,3,2,2,11~12,레드,"양고기, 닭/오리, 치즈"
3,137200,바론 듀 발 화이트,Baron du Val White,no_image,no_image,프랑스,까리냥 Carignan/Carignane,가격정보없음 (750ml),1,3,1,2,11~12,화이트,해산물
4,137201,"벤지거, 까베르네 소비뇽","Benziger, Cabernet Sauvignon",no_image,no_image,미국,카베르네 소비뇽 Cabernet Sauvignon,,1,3,4,3,13~14,레드,양고기
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2275,140213,마쏠리노 바롤로 파라파다,Massolino Barolo Parafada,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140213.jpg,이탈리아,네비올로 Nebbiolo,"60,000원 (750ml)",1,4,4,3,13.5~14.5,레드,"양고기, 닭/오리, 치즈"
2276,140214,마쏠리노 바롤로 비냐 리온다 리제르바,Massolino Barolo Vigna Rionda Riserva,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140214.jpg,이탈리아,네비올로 Nebbiolo,"60,000원 (750ml)",1,4,5,5,13.5~14.5,레드,"소고기, 치즈"
2277,140215,마쏠리노 바롤로 마르게리아,Massolino Barolo Margheria,no_image,no_image,이탈리아,네비올로 Nebbiolo,,1,0,0,4,14.5,레드,
2278,140216,마쏠리노 랑게 샤르도네,Massolino Langhe Chardonnay,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140216.jpg,이탈리아,샤르도네 Chardonnay,"60,000원 (750ml)",1,3,1,3,13~14,화이트,"한식, 양식"


# 데이터 전처리 1 : 문자열 정리
- 도수 : 뒷자리 숫자 사용
- 포도종류 : 영문 제거
- 가격 : '가격정보없음' NaN 처리

In [6]:
# 알콜 도수 전처리
def alcohol_pre(txt):
    if isinstance(txt, str) and '~' in txt:
        front, back = txt.split('~')
        return back
    return txt

In [7]:
df['alcohol_content'] = df['alcohol_content'].apply(alcohol_pre)
df['alcohol_content'] = df['alcohol_content'].astype(float)

In [8]:
# grape 영문 제거
def grape_pre(txt):
    # txt = re.sub(r"[^가-힣]", "", txt) # 공백 제거
    txt = re.sub(r"[^가-힣\s]", "", txt)
    return txt

In [9]:
df['grape'] = df['grape'].apply(grape_pre)

In [10]:
df['price'] = df['price'].apply(lambda x : np.nan if '가격정보없음' in str(x) else x)
df.sample(10)

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,pairing
379,137633,"도멘 자크 프리외르, 본 프르미에 크뤼 샹삐몽 블랑","Domaine Jacques Prieur, Beaune 1er Cru Champs ...",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,137633.jpg,프랑스,샤르도네,,1,3,1,4,13.0,화이트,
360,137612,까사 포르타 그랑 컬렉션 까베르네 소비뇽,Casa Porta Grand Collection Cabernet Sauvignon,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,137612.jpg,칠레,카베르네 소비뇽,"25,000원 (750ml)",1,3,4,4,14.2,레드,"닭/오리, 한식, 치즈"
1898,139710,"마테틱, 이큐 시라","Matetic, EQ Syrah",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,139710.jpg,칠레,시라쉬라즈,,1,3,4,4,14.0,레드,"돼지고기, 양고기, 건육, 한식, 치즈"
1347,139045,무똥 까데 리저브 소떼른 375ml,Mouton Cadet Reserve Sauternes 375ml,no_image,no_image,프랑스,세미용,,5,0,0,5,13.5,화이트,
1977,139805,"세븐힐, 멀롯","Sevenhill, Merlot",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,139805.jpg,호주,메를로,,1,3,3,4,14.2,레드,"소고기, 닭/오리"
992,138576,케이머스 빈야드 나파 밸리 카버네 소비뇽,Caymus Vineyards Napa Valley Cabernet Sauvignon,no_image,no_image,미국,카베르네 소비뇽,,1,0,0,4,,레드,
1023,138625,샤또 드 깔락 루즈,Chateau de Callac Rouge,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,138625.jpg,프랑스,카베르네 소비뇽,,1,4,3,3,12.5,레드,채소/샐러드
1041,138669,샤또 삐숑 롱그빌 꽁떼스 드 라랑드,Chateau Pichon Longueville Comtesse de Lalande,no_image,no_image,프랑스,카베르네 소비뇽,,1,0,0,4,12.5,레드,
964,138540,"부샤르 뻬레 에 피스, 마르사네","Bouchard Pere & Fils, Marsannay",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,138540.jpg,프랑스,피노 누아,,1,3,2,3,13.5,레드,"소고기, 치즈"
1821,139619,다니엘 베씨에르 리저브 화이트,Daniel Bessiere Reserve Bianco,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,139619.jpg,프랑스,우니 블랑,,1,3,1,2,11.5,화이트,


In [11]:
df['alcohol_content'].unique()

array([15. , 12. , 14. , 13. , 11.5, 12.5,  nan, 11. , 13.5, 14.5, 15.5,
        9.5, 10. , 18. ,  9. ,  6. ,  7. , 13.7, 13.9, 10.5, 13.8,  8. ,
       14.3, 14.1, 13.2,  6.5,  7.5, 14.2, 12.4, 12.2, 16. , 13.4, 12.7,
       19. , 11.6,  5.5,  8.5, 20. , 14.4, 14.8, 14.7, 13.3,  7.2, 42. ,
       40. , 11.7,  7.9, 15.2, 15.6, 15.8, 14.6, 13.6, 12.9, 14.9,  6.9,
        5.4,  2. ,  5. ,  4.5])

In [12]:
df[df['alcohol_content'] == 2.]

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,pairing
1778,139564,"발레벨보, 두에그라디","Vallebelbo, Duegradi",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,139564.jpg,이탈리아,모스카토,"25,000원 (750ml)",4,2,1,2,2.0,화이트,"채소/샐러드, 과일/건과일"


# 데이터 전처리2 : 리스트 매핑
- 리스트에 들어있는 값을 기준으로 컬럼 생성하고 해당 컬럼에 1로 표기 (one-hot encoding)

In [13]:
df['pairing'] = df['pairing'].str.replace(' ', '')

In [14]:
# 'pairing' 컬럼을 쉼표 기준으로 나누어 리스트로 변환
df['pairing_list'] = df['pairing'].str.split(',')

In [15]:
all_pairings_set = set()

# 모든 고유 음식 카테고리 추출 (고유값)
for items in df['pairing_list']:
    # print('=>', items)
    
    if isinstance(items, float) and pd.isna(items):  # NaN 값 확인
        continue  # NaN 값은 건너뛰기
    
    if isinstance(items, str):  # items가 문자열일 경우
        all_pairings_set.add(items.strip())  # 공백 제거 후 셋에 추가
    elif isinstance(items, list):  # items가 리스트일 경우
        for item in items:
            if isinstance(item, str):  # 리스트 항목이 문자열일 경우
                # print(item)  # 각 항목 출력
                all_pairings_set.add(item.strip())  # 공백 제거 후 셋에 추가

print(all_pairings_set)  # 고유 음식 카테고리 출력


{'한식', '중식', '닭/오리', '양고기', '생선', '과일/건과일', '디저트', '채소/샐러드', '돼지고기', '해산물', '튀김', '아시아음식', '소고기', '양식', '건육', '치즈'}


In [16]:
df.columns

Index(['idx', 'kr_name', 'en_name', '와인_이미지_URL', '와인_이미지_파일명', 'country',
       'grape', 'price', 'sweetness', 'acidity', 'tannin', 'body',
       'alcohol_content', 'type', 'pairing', 'pairing_list'],
      dtype='object')

In [17]:
# NaN 값이 있는 경우 리스트로 변환
df['pairing_list'] = df['pairing_list'].apply(lambda x: x if isinstance(x, list) else ([] if pd.isna(x) else [i.strip() for i in str(x).split(',')]))

# 고유한 음식 카테고리 가져오기 (공백 제거)
all_pairings_set = set(pair.strip() for sublist in df['pairing_list'] for pair in sublist)

# 새로운 컬럼 생성 (음식 카테고리별 1/0 값)
for pairing in all_pairings_set:
    df[pairing] = df['pairing_list'].apply(lambda x: 1 if pairing in x else 0)


In [18]:
df.tail(5)

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,pairing,pairing_list,한식,중식,닭/오리,양고기,생선,과일/건과일,디저트,채소/샐러드,돼지고기,해산물,튀김,아시아음식,소고기,양식,건육,치즈
2275,140213,마쏠리노 바롤로 파라파다,Massolino Barolo Parafada,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140213.jpg,이탈리아,네비올로,"60,000원 (750ml)",1,4,4,3,14.5,레드,"양고기,닭/오리,치즈","[양고기, 닭/오리, 치즈]",0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1
2276,140214,마쏠리노 바롤로 비냐 리온다 리제르바,Massolino Barolo Vigna Rionda Riserva,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140214.jpg,이탈리아,네비올로,"60,000원 (750ml)",1,4,5,5,14.5,레드,"소고기,치즈","[소고기, 치즈]",0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
2277,140215,마쏠리노 바롤로 마르게리아,Massolino Barolo Margheria,no_image,no_image,이탈리아,네비올로,,1,0,0,4,14.5,레드,,[],0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2278,140216,마쏠리노 랑게 샤르도네,Massolino Langhe Chardonnay,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140216.jpg,이탈리아,샤르도네,"60,000원 (750ml)",1,3,1,3,14.0,화이트,"한식,양식","[한식, 양식]",1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
2279,140217,마쏠리노 바르베라 달바,Massolino Barbera d'Alba,no_image,no_image,이탈리아,바르베라,,1,0,0,0,14.5,레드,,[],0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [19]:
df_category = df.copy()
df_category

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,pairing,pairing_list,한식,중식,닭/오리,양고기,생선,과일/건과일,디저트,채소/샐러드,돼지고기,해산물,튀김,아시아음식,소고기,양식,건육,치즈
0,137197,알타이르,Altair,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,137197.jpg,칠레,카베르네 소비뇽,"110,000원 (750ml)",1,4,4,5,15.0,레드,"소고기,한식","[소고기, 한식]",1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0
1,137198,"알타이르, 시데랄","Altair, Sideral",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,137198.jpg,칠레,카베르네 소비뇽,"220,000원 (750ml)",1,3,4,4,15.0,레드,"소고기,치즈","[소고기, 치즈]",0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
2,137199,바론 듀 발 레드,Baron du Val Red,no_image,no_image,프랑스,까리냥,,2,3,2,2,12.0,레드,"양고기,닭/오리,치즈","[양고기, 닭/오리, 치즈]",0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1
3,137200,바론 듀 발 화이트,Baron du Val White,no_image,no_image,프랑스,까리냥,,1,3,1,2,12.0,화이트,해산물,[해산물],0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
4,137201,"벤지거, 까베르네 소비뇽","Benziger, Cabernet Sauvignon",no_image,no_image,미국,카베르네 소비뇽,,1,3,4,3,14.0,레드,양고기,[양고기],0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2275,140213,마쏠리노 바롤로 파라파다,Massolino Barolo Parafada,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140213.jpg,이탈리아,네비올로,"60,000원 (750ml)",1,4,4,3,14.5,레드,"양고기,닭/오리,치즈","[양고기, 닭/오리, 치즈]",0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1
2276,140214,마쏠리노 바롤로 비냐 리온다 리제르바,Massolino Barolo Vigna Rionda Riserva,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140214.jpg,이탈리아,네비올로,"60,000원 (750ml)",1,4,5,5,14.5,레드,"소고기,치즈","[소고기, 치즈]",0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
2277,140215,마쏠리노 바롤로 마르게리아,Massolino Barolo Margheria,no_image,no_image,이탈리아,네비올로,,1,0,0,4,14.5,레드,,[],0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2278,140216,마쏠리노 랑게 샤르도네,Massolino Langhe Chardonnay,https://wine21.speedgabia.com/WINE_MST/TITLE/0...,140216.jpg,이탈리아,샤르도네,"60,000원 (750ml)",1,3,1,3,14.0,화이트,"한식,양식","[한식, 양식]",1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0


In [20]:
df_category = df_category.drop(columns=['pairing', 'pairing_list'])
df_category.columns

Index(['idx', 'kr_name', 'en_name', '와인_이미지_URL', '와인_이미지_파일명', 'country',
       'grape', 'price', 'sweetness', 'acidity', 'tannin', 'body',
       'alcohol_content', 'type', '한식', '중식', '닭/오리', '양고기', '생선', '과일/건과일',
       '디저트', '채소/샐러드', '돼지고기', '해산물', '튀김', '아시아음식', '소고기', '양식', '건육', '치즈'],
      dtype='object')

In [21]:
df_category.sample(5)

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,한식,중식,닭/오리,양고기,생선,과일/건과일,디저트,채소/샐러드,돼지고기,해산물,튀김,아시아음식,소고기,양식,건육,치즈
1709,139467,"제롬 갈레양, 제브리 샹베르땡","Jerome Galeyrand, Gevrey Chambertin",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,139467.jpg,프랑스,피노 누아,,1,5,2,2,13.0,레드,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0
1298,138994,"페어뷰, 고트 로티","Fairview, Goat Roti",no_image,no_image,남아프리카,시라쉬라즈,,1,0,0,3,14.0,레드,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1150,138818,"휘겔 에 피스, 피노 그리 트라디시옹","Hugel & Fils, Pinot Gris Tradition",no_image,no_image,프랑스,피노 그리,,1,0,0,3,,화이트,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1609,139355,"마스 드 도마스 가삭, 루즈","Mas de Daumas Gassac, Rouge",no_image,no_image,프랑스,카베르네 소비뇽,,1,0,0,0,13.0,레드,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1605,139351,샤또 라퐁 로쉐,Chateau Lafon Rochet,no_image,no_image,프랑스,카베르네 소비뇽,,1,0,0,5,13.0,레드,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


# 데이터 전처리 3 : 범주화
- 와인 타입 범주화

In [22]:
# type to type_id 매핑 딕셔너리 추가
type_mapping = {
    '레드': 1,
    '화이트': 2,
    '스파클링': 3,
    '로제': 4
}

# DataFrame에 type_id 컬럼 추가
df_category['type_id'] = df_category['type'].map(type_mapping)

In [23]:
# NaN이 아닌 값만 처리
# df['price'] = df['price'].str.split('원').str[0].str.replace(',', '').astype(int)
mask = df_category['price'].notna()  # NaN이 아닌 값들의 마스크 생성
df_category.loc[mask, 'price'] = df_category.loc[mask, 'price'].str.split('원').str[0].str.replace(',', '').astype(int)

In [24]:
df_category.sample(3)

Unnamed: 0,idx,kr_name,en_name,와인_이미지_URL,와인_이미지_파일명,country,grape,price,sweetness,acidity,tannin,body,alcohol_content,type,한식,중식,닭/오리,양고기,생선,과일/건과일,디저트,채소/샐러드,돼지고기,해산물,튀김,아시아음식,소고기,양식,건육,치즈,type_id
705,138125,"닥터 타니쉬, 베른카스텔 닥터 리슬링 카비네트","Dr. H. Thanisch, Berncasteler Doctor Riesling ...",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,138125.jpg,독일,리슬링,279000.0,1,5,1,3,9.5,화이트,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,2.0
1433,139161,"펠시나, 마에스트로 라로","Felsina, Maestro Raro",no_image,no_image,이탈리아,카베르네 소비뇽,,1,0,0,0,13.0,레드,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1.0
1239,138917,"포지오 디 소토, 브루넬로 디 몬탈치노","Poggio Di Sotto, Brunello di Montalcino",https://wine21.speedgabia.com/WINE_MST/TITLE/0...,138917.jpg,이탈리아,산지오베제,390000.0,1,4,4,4,14.0,레드,0,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,1.0


In [25]:
# 데이터 저장
# df_category.to_csv("../wine_data.csv", index=False, encoding="utf-8-sig")