# 만개의 레시피 데이터 정제

In [1]:
import pandas as pd
import ast

# CSV 파일 읽기
df = pd.read_csv('../result/10000recipe.csv')

# ingredients 컬럼을 문자열에서 리스트로 변환
df['ingredients'] = df['ingredients'].apply(ast.literal_eval)

# cooking_order 컬럼을 문자열에서 리스트로 변환
df['cooking_order'] = df['cooking_order'].apply(ast.literal_eval)

print(df.dtypes)
df

food_name         object
type              object
servings           int64
ingredients       object
cooking_order     object
views              int64
tips             float64
dtype: object


Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips
0,새송이버섯소고기볶음 끼니마다 가족들이 이것만 찾아요~ ‼️,밑반찬,3,"[새송이버섯(4개), 국거리소고기(150g), 양파(1/2개), 대파(1/2대), ...","[소고기 150g 진간장 1큰술, 참기름 1큰술 넣어 조물조물 밑간합니다., 새송이...",19041,
1,소고기두부볶음 - 아이들 반찬/이유식 반찬으로도 최고죠~옛생각이 절로...,밑반찬,3,"[두부(1/2모), 다진소고기(140g), 다진소고기(140g), 맛술(1/2큰술)...","[다진소고기는 140그람이 있어서 준비.뭐~~더 많이 넣으셔도 됩니다., 소고기는 ...",203540,
2,"볶음밥, 주먹밥 어디든 잘 어울리는 '만능 소고기볶음'",밑반찬,2,"[소고기(200g), 다진마늘(0.5t), 진간장(3t), 맛술(3t), 설탕(1....","[식용유를 두르고 소고기, 다진마늘을 넣어 볶아줍니다.중불타지 않도록 잘 볶아 주세...",65176,
3,밥에 넣고 비벼먹어도 맛있는 소고기오이볶음,밑반찬,3,"[오이(1개), 소고기(100g), 간장(1작은술), 통깨(1큰술), 소금, 오일,...","[오이는 굵은 소금을 이용해 겉을 비벼가며 씻어 물기를 제거한뒤, 동글동글 썰어 소...",34313,
4,진정한 밥도둑 소고기 볶음 고추장,밑반찬,6,"[갈은 소고기(480g), 양파(2개), 고추장(9T), 다진 마늘(2T), 후추(...","[넉넉한 크기의 그릇에 갈은 소고기와 다진마늘, 간장, 설탕, 후추를 넣고 잘 섞어...",271829,
...,...,...,...,...,...,...,...
91853,초보도 뚝딱! 시간이 만들어주는 명절음료 계피생강식혜(감주):D,차/음료/술,6,"[흰밥(2공기), 설탕(3숟가락), 엿기름(3팩), 계피가루(1티스푼), 생강청(3...","[밥 짓기.* 물을 평소보다 좀 적게해서 고슬고슬하게 짓습니다., 골고루 섞고 설탕...",6522,
91854,식혜 만들기 엿기름 티백으로 만드는법 추석명절음식,차/음료/술,4,"[밥(2공기), 물(4.5L), 티백(6봉지), 설탕(적당량), 얇게 썬 생강(3~...",[고두밥 짓기 쌀은 불리지 않고 씻어서 내솥에 넣고 물을 동량으로 넣어주고 전기밥솥...,4722,
91855,엿기름 식혜 만드는법 밥솥 식혜 감주 만들기,차/음료/술,6,"[엿기름(500g), 물(5L), 밥 2공기(300g), 설탕, 편생강(1~2개)]","[엿기름 500g에 물 2.5리터를 부어 1시간정도 엿기름을 불려 줍니다., 1시간...",14814,
91856,초초간편하고 깔끔한 맛이 좋은 식혜(감주):D,차/음료/술,6,"[밥(2공기), 설탕(5숟가락), 엿기름(3팩)]","[밥을 고슬고슬하게 짓고 설탕넣고 골고루 섞어주기., 엿기름 넣기., 미지근한 물 ...",6877,


## 3개의 데이터에 맞게 타입 정제
- 밑반찬, 메인반찬 -> 반찬
- 국/탕, 찌개 -> 국/찌개
- 빵, 과자 -> 빵/과자
- 디저트
- 면/만두
- 밥/죽/떡
- 양식
- 스프
- 샐러드
- 양념/잼/소스
- 차/음료/술
- 퓨전

In [2]:
# type 컬럼의 값을 변경하기 위한 매핑 딕셔너리
type_mapping = {
    '밑반찬': '반찬',
    '메인반찬': '반찬',
    '국/탕': '국/찌개',
    '찌개': '국/찌개',
    '빵': '빵/과자',
    '과자': '빵/과자'
}

# 변경할 값 외에는 그대로 유지
df['type'] = df['type'].replace(type_mapping)

# 디저트, 면/만두, 밥/죽/떡, 양식, 스프, 샐러드, 양념/잼/소스, 차/음료/술, 퓨전은 변경하지 않으므로 따로 처리 필요 없음

In [3]:
# type 컬럼의 요약 통계 확인
type_description = df['type'].describe()
print(type_description)

count     91858
unique       12
top          반찬
freq      39879
Name: type, dtype: object


In [4]:
# type 컬럼의 각 항목별 개수 확인
type_counts = df['type'].value_counts()
print(type_counts)

type
반찬         39879
밥/죽/떡      14054
국/찌개        8502
빵/과자        6807
면/만두        6584
디저트         4873
양식          3757
샐러드         2520
양념/잼/소스     1652
퓨전          1365
차/음료/술      1022
스프           843
Name: count, dtype: int64


### 숫자와 레시피 완전 분리 예제

In [5]:
import re

# 원본 텍스트
text = '1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?'

# 정규 표현식을 사용해 숫자-숫자. 패턴으로 분리
split_text = re.split(r'(?<=\d\.\s)|(?=\d+-\d+\.\s)', text)

# 결과 리스트
split_text = [segment.strip() for segment in split_text if segment.strip()]

print(split_text)


['1.', '전통방식 호박전', '1-1.', '호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?']


### 숫자를 기준으로 레시피 분리

In [6]:
import re

# 원본 텍스트
text = '1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?'

# 정규 표현식을 사용해 숫자-숫자. 패턴을 우선적으로 처리하고 그 다음 숫자. 패턴을 처리
split_text = re.split(r'(?=\d+-\d+\.\s)|(?<=\d\.\s)(?=\d+\.\s)', text)

# 결과 리스트
split_text = [segment.strip() for segment in split_text if segment.strip()]

print(split_text)


['1. 전통방식 호박전', '1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?']


## 확인 : Cooking order에서 조릿순서가 이미 포함된 것들

### 깔끔 버전

In [7]:

# 보고 싶은 요리 이름 목록
keywords = ['[낭만국수] 고명 듬뿍 잔치국수 꿀조합']

# food_name에서 해당 문자열만 필터링
filtered_df = df[df['food_name'].isin(keywords)].loc[:, ['food_name', 'cooking_order']]

# 각 행을 보기 좋게 출력
for index, row in filtered_df.iterrows():
    print(f"Food Name: {row['food_name']}")
    for cook in row['cooking_order']:
        print(cook)
    print("-" * 40)  # 구분선 출력

Food Name: [낭만국수] 고명 듬뿍 잔치국수 꿀조합
고명은 채소 기본고명으로 애호박 듬뿍(좋아해서용 ㅋㅋ), 표고, 당근과 김장김치 쫑쫑, 달걀지단을 추가했는데요. 다진 소고기를 불고기 양념에 볶아 올리거나 부추 또는 시금치를 살짝 데쳐 올리거나 김가루 고명, 단무지 등을 사용해도 맛있어요.
1. 황태육수 내기 낭만네는 김치용 재료를 중심으로 황태육수를 끓여서 고추와 간장을 더했는데요. 파뿌리, 생강, 마늘, 멸치나 디포리 등을 입맛에 따라 추가하셔도 좋습니다.
1-1. 무 나박썰기 육수용 채소 준비합니다. 무는 나박썰어 넣으면 단면에서 단맛이 잘 빠져 나와요. 표고와 고추는 마른표고와 고추가 향이 더 진하게 잘 우러나오는데 저는 생표고와 생고추만 있어서 생을 썼어요.
1-2. 끓이기 큰 냄비에 물과 황태대가리, 양파, 다시마, 무, 표고를 넣고 끓여주세요.
1-3. 거품 걷어내기 중간에 거품이 올라올 때 건져내면 황태의 비린 향이 깔끔히 제거됩니다. 냉동보관을 오래한 경우에는 맛술을 추가해도 좋습니다.
1-4. 다시마 건지기 물이 끓어 5분 정도 지나면 다시마를 먼저 건져내고요. 중불로 줄여 30분 정도 충분히 육수를 우려낸 뒤 건더기 전체를 건지고 국물을 맑게 걸러냅니다
1-5. 간하기 30분 쯤 지나 육수가 충분히 우러나 구수한 황태향이 잘 우러나면 맑게 걸러요. (이 단계에서 김치용은 충분히 식혀서 부어주었어요.) 남은 황태육수는 고추와 국간장, 소금으로 각자의 입맛에 맞게 간을 더해 국수국물을 완성합니다. *마른 고추가 있으면 가장 좋고 홍고추 또는 청양고추를 넣으면 국물이 칼칼해 더 맛나지만 아이들이 있거나 맵찔 군단은 생략합니다.건고추, 국간장*멸치육수를 좋아하시면 깔끔개운한 멸치를 우려도 좋은데요. 멸치육수는 채수를 먼저 충분히 끓이다가 다시마를 건진 뒤에. 채수 끓는 사이 내장 제거하고 마른 팬에 기름 없이 볶아 비린내를 날린 멸치와 맛술을 넣어 30분 정도 충분히 끓이면 비린내 없이 맑은 국물을 낼 수 있어요. 채수엔 파뿌리 추가하면 

### 큰 전처리가 필요한 버전

In [8]:
# 보고 싶은 요리 이름 목록
keywords = ['[추석요리] 호박전을 부치는 세 가지 방법 (달걀물 황금비율)',
            '누구나 좋아하는 여름보양식 소불고기 전골',
            '알싸 담백한 \'마늘햄 유부초밥\'']

# food_name에서 해당 문자열만 필터링
filtered_df = df[df['food_name'].isin(keywords)].loc[:, ['food_name', 'cooking_order']]

# 각 행을 보기 좋게 출력
for index, row in filtered_df.iterrows():
    print(f"Food Name: {row['food_name']}")
    for cook in row['cooking_order']:
        print(cook)
    print("-" * 40)  # 구분선 출력


Food Name: [추석요리] 호박전을 부치는 세 가지 방법 (달걀물 황금비율)
1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?
1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.
1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다
1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.
2. 새우살 품은 호박 & 양파링 전2-1. 1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.
2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 

In [9]:

# 보고 싶은 요리 이름 목록
keywords = ['추억의 베니건스 몬테크리스토 샌드위치 레시피']

# food_name에서 해당 문자열만 필터링
filtered_df = df[df['food_name'].isin(keywords)].loc[:, ['food_name', 'cooking_order']]

# 각 행을 보기 좋게 출력
for index, row in filtered_df.iterrows():
    print(f"Food Name: {row['food_name']}")
    for cook in row['cooking_order']:
        print(cook)
    print("-" * 40)  # 구분선 출력

Food Name: 추억의 베니건스 몬테크리스토 샌드위치 레시피
*베니건스 몬테크리스토 샌드위치 레시피 베니건스 몬테크리스토 재료 (2인분 기준) - 재료 : 식빵 6장 / 슬라이스햄 4장 / 체다치즈(치즈종류는 상관없음) 4장 딸기쨈 / 머스타드 소스 / 계란 3개 ------------------------------------- 첫번째 단계!!! 식빵 6장의 테두리를 잘라준다.
자~ 이제부터 몬테크리스토 샌드위치를 만들기 가장 중요한포인트!!! 소스 바르고 햄. 치즈 넣고 탑쌓기 순서!!!!
1. 식빵 테두리를 자르고 흰 부분만 남긴 식빵 6장을 준비후 첫번째 식빵은 = 머스타드 소스 -> 슬라이스햄 -> 체다치즈 -> 순으로 1-1. 머스타드
1-2. 머스타드소스 - > 슬라이스햄
1-2.슬라이스햄 -> 슬라이스치즈
2. 슬라이스치즈위로 두번째 식빵을 올리고 = 딸기쨈을 양면으로 발라주고 덮은뒤 -> 체다치즈 -> 슬라이스햄
2-1. 딸기쩀 위로 -> 슬라이스햄
마지막 세번째 식빵의 한면에 머스타드 소스를 바르고 덮어 주면 끝!!! +_+
이상태에서 덮어주면 완성!!!!
2인분을 만들기 때문에 양쪽에 탑을 쌓는 스킬! ㅎㅎ 순서만 제대로 알면 정말 만들기 쉬운 몬테크리스토 샌드위치.
50% 완성된 몬테 크리스토 샌드위치. 이대로도 먹을수 있지만... 그렇게 하면 몬테크리스토 샌드위치가 아니겠죠..ㅎㅎ
계란물을 만들어 두고~ 샌드위치 전체를 계란물을 입혀준다... (생각보다 계란이 많이 필요함 1개는 부족함으로... 2인분 기준. 3개정도가 필요함. )
달군 후라이팬에 버터를 녹여서 계란물 입힌 식빵을 올려준다. **** 집에 오븐이 있다. 또는 에어프라이어가 있다!!! 하면. 후라이팬 사용 안하고 오븐이나 에어프라이어를 사용하길 추천. ** 계란물 입힌상태에서 - 빵가루를 덮어서 오븐이나 에어프라이어에 구워주면 더 맛있음!!!
버터를 녹인 팬에 전면을 골고루 돌려가며 조심스럽게 익혀준다. (집게사용!!!)
노릇노릇하게. 모양이 흐트러지지않게 잘 뒤집어야

In [10]:
# 보고 싶은 요리 이름 목록
keywords = ['양배추찜과 양배추쌈밥', '바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상', '■※통통한 리얼 돈까스 김밥※■']

# food_name에서 해당 문자열만 필터링
filtered_df = df[df['food_name'].isin(keywords)].loc[:, ['food_name', 'cooking_order']]

# 각 행을 보기 좋게 출력
for index, row in filtered_df.iterrows():
    print(f"Food Name: {row['food_name']}")
    for cook in row['cooking_order']:
        print(cook)
    print("-" * 40)  # 구분선 출력

Food Name: ■※통통한 리얼 돈까스 김밥※■
슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가운물에 담궜다가 채반에 걸쳐 물기를 빼줍니다
등심에 소금, 후추로 밑간을하고 길게 썰어 밀가루, 계란, 빵가루 순서로 묻혀주세요
160도에 5분간 튀겨줍니다
밥에 참기름과 소금으로 밑간을 조금 해주세요
김에 밥을 얇게 깔아서 야채수북히 올리고 시판 돈까스소스 뿌려요 그위에 튀긴돈까스 올리고 소스를 다시한번 더 뿌려 꼭꼭 말아줍니다
와사비 1t, 마요네즈 2T, 꿀 1T, 레몬즙 1T, 소금후추 약간넣으면와사비 마요소스 완성김밥을 찍어드시면 훨씬 맛있어요
----------------------------------------
Food Name: 양배추찜과 양배추쌈밥
신선한 양배추 1통을 점선대로 먼저 잘라주세요~
쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요
자른 양배추는 깨끗한 물에 여러번 씻어주세요
찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다
찜통 뚜껑을 열고 양배추를 식혀주세요
반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요
쌈 하나에
한입크기 밥과
콩알만한 쌈장을 올려서
보자기싸듯 네모서리에서 양배추를 착착 겹치면
네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~
----------------------------------------
Food Name: 바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상
돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요.
시래기는 미리 불려서 껍질을 벗겨 냉동해놓았던 것을 해동했어요. 시래기만 넣는 것보다 무우, 표고버섯, 양파 등을 잘게 다지거나 채썰어서 같이 넣으면 더욱 영양과 풍부한 맛을 느낄 수 있습니다
특히 시래기밥을 야채만으로 하는것보다 마지막 뜸들일때 굴이나 바지락을 넣어서 하면 두배이상 풍미도 좋고 훨씬 맛이 좋아집니다.
시래기는

### 뭔가 전처리 해보기

- [추석요리] 호박전을 부치는 세 가지 방법 (달걀물 황금비율)
- 누구나 좋아하는 여름보양식 소불고기 전골
- 알싸 담백한 '마늘햄 유부초밥’
- 추억의 베니건스 몬테크리스토 샌드위치 레시피 (역대급 난해)
- 양배추찜과 양배추쌈밥
- 바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상
- ■※통통한 리얼 돈까스 김밥※■

In [11]:
# 보고 싶은 요리 이름 목록
keywords = [
    '[추석요리] 호박전을 부치는 세 가지 방법 (달걀물 황금비율)',
    '누구나 좋아하는 여름보양식 소불고기 전골',
    '알싸 담백한 \'마늘햄 유부초밥\'',
    '추억의 베니건스 몬테크리스토 샌드위치 레시피 (역대급 난해)',
    '양배추찜과 양배추쌈밥',
    '바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상',
    '■※통통한 리얼 돈까스 김밥※■'
]

# food_name에서 해당 문자열만 필터링
filtered_df = df[df['food_name'].isin(keywords)]

# 결과 확인
filtered_df

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips
39674,[추석요리] 호박전을 부치는 세 가지 방법 (달걀물 황금비율),반찬,2,"[애호박(1개), 밀가루(1국자), 달걀(1-2개), 소금(1-2꼬집), 소금물, ...",[1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게...,665,
44874,누구나 좋아하는 여름보양식 소불고기 전골,국/찌개,4,"[소불고기(600g), 간장(9T), 간 양파(1개), 설탕(1T), 올리고당(2T...","[1-1. 키친타올로 핏물을 깨끗이 제거해줍니다.1-2. 배, 양파나 파인애플, 키...",15585,
66345,알싸 담백한 '마늘햄 유부초밥',밥/죽/떡,2,"[유부초밥 2인분용 팩(1개), 마늘(2알), 햄(1/4개), 참기름(3T), 통깨...","[1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다.1-2. ...",1950,
70068,■※통통한 리얼 돈까스 김밥※■,밥/죽/떡,3,"[김(3장), 쌀밥(3인분), 돈까스용 돼지고기 등심(2장), 당근(약간), 깻잎(...",[슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가...,3664,
70307,양배추찜과 양배추쌈밥,밥/죽/떡,6,"[양배추(1통), 물(1-1.5L), 쌈장]","[신선한 양배추 1통을 점선대로 먼저 잘라주세요~, 쌈을 싸먹을 때 편하라고 사각 ...",936,
72009,"바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상",밥/죽/떡,3,"[시래기(300g), 무우(150g), 표고버섯(4개), 양파(1/4개), 파(1/...","[돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요., 시래기는 미리...",3208,


In [12]:
filtered_df["cooking_order"][39674]

['1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?',
 '1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.',
 '1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다',
 '1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.',
 '2. 새우살 품은 호박 & 양파링 전2-1. 1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.',
 '2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 양파링 안 쪽에 눌러가며 단단

In [13]:
import re

def split_steps_detailed(text_list):
    # 빈 리스트 초기화
    result = []
    
    # 입력 리스트의 각 요소에 대해 정규 표현식 적용
    for text in text_list:
        # 정규 표현식을 사용해 숫자-숫자. 패턴을 우선적으로 처리하고 그 다음 숫자. 패턴을 처리
        split_text = re.split(r'(?=\d+-\d+\.\s)|(?<=\d\.\s)(?=\d+\.\s)', text)
        
        # 결과 리스트에 추가 (공백을 제거하고 비어 있지 않은 항목만)
        result.extend([segment.strip() for segment in split_text if segment.strip()])
    
    return result

# 사용 예시
text_list = [
    '1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?',
    '1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.',
    '1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다',
    '1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.',
    '2. 새우살 품은 호박 & 양파링 전2-1. 1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.',
    '2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 양파링 안 쪽에 눌러가며 단단히 채워줍니다.',
    '2-4. 부치기-일반 호박전과 마찬가지로, 밀가루-달걀물 순서로 옷 입혀서 달군 프라이팬에 기름을 충분히 둘러 은근한 불에서 노릇하게 익혀 주면 완성! ※ 밀가루와 달걀물은 완자에도 고루 입혀야 먹을 때 빠져나오지 않고 깔끔합니다. ※ 완자링 채울때 잘 안붙으면 녹말가루 솔솔.',
    '3. 빵가루 호박전3-1. 기본호박전과 역시 같은 방법으로, 호박은 썰어서 소금물에 담갔다 건져 물기 제거합니다. 3-2. 밀가루-달걀물-빵가루 순서로 옷을 입혀줍니다. 3-3. 달궈진 팬에 일반 호박전보다 약간만 많은 양의 기름을 둘러서 부쳐내는데 기름의 온도 역시 다른 전보다는 조금 높게, 중불로 부쳐내면 바삭합니다. 온도가 낮으면 빵가루가 기름을 많이 먹게 되거든요. ※ 기름기가 싫다면 오븐에 구워내도 담백한 맛을 즐길 수 있습니다.'
]

# 함수 호출
split_result = split_steps_detailed(text_list)
for i in text_list:
    print(i)

1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?
1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.
1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다
1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.
2. 새우살 품은 호박 & 양파링 전2-1. 1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.
2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 양파링 안 쪽에 눌러가며 단단히 채워줍니다.
2-4. 부치기-일반 호

In [14]:
import re

def clean_text(text):
    # 대괄호로 감싼 텍스트 제거
    text = re.sub(r"\[.*?\]", "", text)
    # 불필요한 기호와 이모티콘 제거
    text = re.sub(r"[■※☆★~♡♥]+", "", text)
    # 불필요한 감탄사와 의미 없는 텍스트 제거
    text = re.sub(r"[\+\-_~^]+", "", text)
    text = re.sub(r"\s*ㅎㅎ|\s*^^|\s*\+_\+", "", text)
    # 공백 정리
    text = re.sub(r"\s{2,}", " ", text)
    return text.strip()

def split_steps_detailed(text_list):
    # 빈 리스트 초기화
    result = []
    
    # 입력 리스트의 각 요소에 대해 정규 표현식 적용
    for text in text_list:
        # 정규 표현식을 사용해 숫자-숫자. 패턴을 우선적으로 처리하고 그 다음 숫자. 패턴을 처리
        split_text = re.split(r'(?=\d+-\d+\.\s)|(?<=\d\.\s)(?=\d+\.\s)', text)
        
        # 결과 리스트에 추가 (공백을 제거하고 비어 있지 않은 항목만)
        result.extend([segment.strip() for segment in split_text if segment.strip()])
    
    return result


def preprocess_recipe(df):
    # 원본의 복사본 생성
    df = df.copy()
    # 데이터프레임의 각 레시피를 전처리
    df['food_name'] = df['food_name'].apply(clean_text)
    # 단계별로 세분화하여 리스트로 저장
    df['cooking_order_split'] = df['cooking_order'].apply(split_steps_detailed)
    return df

# 사용 예시
preprocessed_df = preprocess_recipe(filtered_df)


preprocessed_df

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips,cooking_order_split
39674,호박전을 부치는 세 가지 방법 (달걀물 황금비율),반찬,2,"[애호박(1개), 밀가루(1국자), 달걀(1-2개), 소금(1-2꼬집), 소금물, ...",[1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게...,665,,"[1. 전통방식 호박전, 1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런..."
44874,누구나 좋아하는 여름보양식 소불고기 전골,국/찌개,4,"[소불고기(600g), 간장(9T), 간 양파(1개), 설탕(1T), 올리고당(2T...","[1-1. 키친타올로 핏물을 깨끗이 제거해줍니다.1-2. 배, 양파나 파인애플, 키...",15585,,"[1-1. 키친타올로 핏물을 깨끗이 제거해줍니다., 1-2. 배, 양파나 파인애플,..."
66345,알싸 담백한 '마늘햄 유부초밥',밥/죽/떡,2,"[유부초밥 2인분용 팩(1개), 마늘(2알), 햄(1/4개), 참기름(3T), 통깨...","[1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다.1-2. ...",1950,,"[1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다., 1-2..."
70068,통통한 리얼 돈까스 김밥,밥/죽/떡,3,"[김(3장), 쌀밥(3인분), 돈까스용 돼지고기 등심(2장), 당근(약간), 깻잎(...",[슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가...,3664,,[슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가...
70307,양배추찜과 양배추쌈밥,밥/죽/떡,6,"[양배추(1통), 물(1-1.5L), 쌈장]","[신선한 양배추 1통을 점선대로 먼저 잘라주세요~, 쌈을 싸먹을 때 편하라고 사각 ...",936,,"[신선한 양배추 1통을 점선대로 먼저 잘라주세요~, 쌈을 싸먹을 때 편하라고 사각 ..."
72009,"바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상",밥/죽/떡,3,"[시래기(300g), 무우(150g), 표고버섯(4개), 양파(1/4개), 파(1/...","[돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요., 시래기는 미리...",3208,,"[돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요., 시래기는 미리..."


In [15]:
# 하이라이팅을 위한 스타일링 함수
def highlight_diff(row):
    if row['cooking_order'] != row['cooking_order_split']:
        return ['background-color: yellow'] * len(row)
    else:
        return [''] * len(row)

# 두 컬럼의 값을 나란히 보여주고 차이점을 하이라이팅
comparison_df = preprocessed_df[['cooking_order', 'cooking_order_split']].style.apply(highlight_diff, axis=1)

# 결과 출력
comparison_df

Unnamed: 0,cooking_order,cooking_order_split
39674,"['1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?', '1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.', '1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다', '1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.', '2. 새우살 품은 호박 & 양파링 전2-1. 1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.', '2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 양파링 안 쪽에 눌러가며 단단히 채워줍니다.', '2-4. 부치기-일반 호박전과 마찬가지로, 밀가루-달걀물 순서로 옷 입혀서 달군 프라이팬에 기름을 충분히 둘러 은근한 불에서 노릇하게 익혀 주면 완성! ※ 밀가루와 달걀물은 완자에도 고루 입혀야 먹을 때 빠져나오지 않고 깔끔합니다. ※ 완자링 채울때 잘 안붙으면 녹말가루 솔솔.', '3. 빵가루 호박전3-1. 기본호박전과 역시 같은 방법으로, 호박은 썰어서 소금물에 담갔다 건져 물기 제거합니다. 3-2. 밀가루-달걀물-빵가루 순서로 옷을 입혀줍니다. 3-3. 달궈진 팬에 일반 호박전보다 약간만 많은 양의 기름을 둘러서 부쳐내는데 기름의 온도 역시 다른 전보다는 조금 높게, 중불로 부쳐내면 바삭합니다. 온도가 낮으면 빵가루가 기름을 많이 먹게 되거든요. ※ 기름기가 싫다면 오븐에 구워내도 담백한 맛을 즐길 수 있습니다.']","['1. 전통방식 호박전', '1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?', '1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.', '1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다', '1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.', '2. 새우살 품은 호박 & 양파링 전', '2-1.', '1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.', '2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 양파링 안 쪽에 눌러가며 단단히 채워줍니다.', '2-4. 부치기-일반 호박전과 마찬가지로, 밀가루-달걀물 순서로 옷 입혀서 달군 프라이팬에 기름을 충분히 둘러 은근한 불에서 노릇하게 익혀 주면 완성! ※ 밀가루와 달걀물은 완자에도 고루 입혀야 먹을 때 빠져나오지 않고 깔끔합니다. ※ 완자링 채울때 잘 안붙으면 녹말가루 솔솔.', '3. 빵가루 호박전', '3-1. 기본호박전과 역시 같은 방법으로, 호박은 썰어서 소금물에 담갔다 건져 물기 제거합니다.', '3-2. 밀가루-달걀물-빵가루 순서로 옷을 입혀줍니다.', '3-3. 달궈진 팬에 일반 호박전보다 약간만 많은 양의 기름을 둘러서 부쳐내는데 기름의 온도 역시 다른 전보다는 조금 높게, 중불로 부쳐내면 바삭합니다. 온도가 낮으면 빵가루가 기름을 많이 먹게 되거든요. ※ 기름기가 싫다면 오븐에 구워내도 담백한 맛을 즐길 수 있습니다.']"
44874,"['1-1. 키친타올로 핏물을 깨끗이 제거해줍니다.1-2. 배, 양파나 파인애플, 키위 간것을 넣어주고 양념하여 20분 이상 재워둡니다.단, 파인애플은 특히나 많이 물러지는 성질(연육)이 강하니 주의하세요.600g 기준으로, 간장 9스푼, 올리고당, 간마늘, 참기름 1T와 후춧가루 적당량 뿌려줍니다.다시한번 살살 조물조물 만져주세요. 이러고 1시간 이상 숙성시켜주면 더 맛나지만, 시간없으면 바로 해 드셔도 됩니다. ^^', '야채썰기파, 당근, 표고나 느타리(식감이나 향은 표고가 가장 잘 어울리지만, 딱 떨어진관계로 느타리 사용했어요.조금 아쉽네요. 표고버섯 향과 맛이 어우러지면 참 좋은데요.)', '고기를 약한불에 서서히 볶다가 채썰어 놓은 야채추가합니다.야채는 2-3분 정도만 같이 볶아 넘 숨죽지 않도록 하고 통깨 솔솔 뿌려주세요.위에 파 송송썬것 생으로 얹어서 한번 뒤적여 주면 더욱 향긋합니다. ^^', '소불고기에도 역시나 당근이나 굵은 대파 흰대는 먼저 넣어줘요.', '버섯과 양파넣고 2-3분간 ~~', '따순밥 한 그릇만 있어도 맛이 최고인 소불고기 완성입니다. ^^']","['1-1. 키친타올로 핏물을 깨끗이 제거해줍니다.', '1-2. 배, 양파나 파인애플, 키위 간것을 넣어주고 양념하여 20분 이상 재워둡니다.단, 파인애플은 특히나 많이 물러지는 성질(연육)이 강하니 주의하세요.600g 기준으로, 간장 9스푼, 올리고당, 간마늘, 참기름 1T와 후춧가루 적당량 뿌려줍니다.다시한번 살살 조물조물 만져주세요. 이러고 1시간 이상 숙성시켜주면 더 맛나지만, 시간없으면 바로 해 드셔도 됩니다. ^^', '야채썰기파, 당근, 표고나 느타리(식감이나 향은 표고가 가장 잘 어울리지만, 딱 떨어진관계로 느타리 사용했어요.조금 아쉽네요. 표고버섯 향과 맛이 어우러지면 참 좋은데요.)', '고기를 약한불에 서서히 볶다가 채썰어 놓은 야채추가합니다.야채는 2-3분 정도만 같이 볶아 넘 숨죽지 않도록 하고 통깨 솔솔 뿌려주세요.위에 파 송송썬것 생으로 얹어서 한번 뒤적여 주면 더욱 향긋합니다. ^^', '소불고기에도 역시나 당근이나 굵은 대파 흰대는 먼저 넣어줘요.', '버섯과 양파넣고 2-3분간 ~~', '따순밥 한 그릇만 있어도 맛이 최고인 소불고기 완성입니다. ^^']"
66345,"['1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다.1-2. 찬밥을 담은 그릇에 유부초밥용 소스와 후레이크를 뿌린다.유부초밥세트, 찬밥약불유부 국물까지 다해서 후라이팬에 살짝 달궈주면 단맛이 더 살아나요.그리고 이미 찬밥을 담아서 후레이크와 소스를 넣어두면 시간 절약이 됩니다.', '2-1. 햄과 마늘을 작게 썰인다.2-2.썰인 햄과 마늘을 후라이팬에 올린 후참기름 1스푼붓고 볶아준다.참기름, 햄, 마늘약불', '볶은 햄과 마늘을 앞에 준비해둔 밥에다통깨와 같이 추가해서 잘 섞어준다.통깨, 참기름', '식은 유부 안에 재료를 잘 섞은 밥을 넣어주면 완성입니다!']","['1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다.', '1-2. 찬밥을 담은 그릇에 유부초밥용 소스와 후레이크를 뿌린다.유부초밥세트, 찬밥약불유부 국물까지 다해서 후라이팬에 살짝 달궈주면 단맛이 더 살아나요.그리고 이미 찬밥을 담아서 후레이크와 소스를 넣어두면 시간 절약이 됩니다.', '2-1. 햄과 마늘을 작게 썰인다.2-2.썰인 햄과 마늘을 후라이팬에 올린 후참기름 1스푼붓고 볶아준다.참기름, 햄, 마늘약불', '볶은 햄과 마늘을 앞에 준비해둔 밥에다통깨와 같이 추가해서 잘 섞어준다.통깨, 참기름', '식은 유부 안에 재료를 잘 섞은 밥을 넣어주면 완성입니다!']"
70068,"['슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가운물에 담궜다가 채반에 걸쳐 물기를 빼줍니다', '등심에 소금, 후추로 밑간을하고 길게 썰어 밀가루, 계란, 빵가루 순서로 묻혀주세요', '160도에 5분간 튀겨줍니다', '밥에 참기름과 소금으로 밑간을 조금 해주세요', '김에 밥을 얇게 깔아서 야채수북히 올리고 시판 돈까스소스 뿌려요 그위에 튀긴돈까스 올리고 소스를 다시한번 더 뿌려 꼭꼭 말아줍니다', '와사비 1t, 마요네즈 2T, 꿀 1T, 레몬즙 1T, 소금후추 약간넣으면와사비 마요소스 완성김밥을 찍어드시면 훨씬 맛있어요']","['슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가운물에 담궜다가 채반에 걸쳐 물기를 빼줍니다', '등심에 소금, 후추로 밑간을하고 길게 썰어 밀가루, 계란, 빵가루 순서로 묻혀주세요', '160도에 5분간 튀겨줍니다', '밥에 참기름과 소금으로 밑간을 조금 해주세요', '김에 밥을 얇게 깔아서 야채수북히 올리고 시판 돈까스소스 뿌려요 그위에 튀긴돈까스 올리고 소스를 다시한번 더 뿌려 꼭꼭 말아줍니다', '와사비 1t, 마요네즈 2T, 꿀 1T, 레몬즙 1T, 소금후추 약간넣으면와사비 마요소스 완성김밥을 찍어드시면 훨씬 맛있어요']"
70307,"['신선한 양배추 1통을 점선대로 먼저 잘라주세요~', '쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요', '자른 양배추는 깨끗한 물에 여러번 씻어주세요', '찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다', '찜통 뚜껑을 열고 양배추를 식혀주세요', '반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요', '쌈 하나에', '한입크기 밥과', '콩알만한 쌈장을 올려서', '보자기싸듯 네모서리에서 양배추를 착착 겹치면', '네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~']","['신선한 양배추 1통을 점선대로 먼저 잘라주세요~', '쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요', '자른 양배추는 깨끗한 물에 여러번 씻어주세요', '찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다', '찜통 뚜껑을 열고 양배추를 식혀주세요', '반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요', '쌈 하나에', '한입크기 밥과', '콩알만한 쌈장을 올려서', '보자기싸듯 네모서리에서 양배추를 착착 겹치면', '네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~']"
72009,"['돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요.', '시래기는 미리 불려서 껍질을 벗겨 냉동해놓았던 것을 해동했어요. 시래기만 넣는 것보다 무우, 표고버섯, 양파 등을 잘게 다지거나 채썰어서 같이 넣으면 더욱 영양과 풍부한 맛을 느낄 수 있습니다', '특히 시래기밥을 야채만으로 하는것보다 마지막 뜸들일때 굴이나 바지락을 넣어서 하면 두배이상 풍미도 좋고 훨씬 맛이 좋아집니다.', '시래기는 해동후 썰어서 약간의 된장, 국간장, 마늘약간을 넣고 주물럭거린 후 들기름을 넣어 10분정도 재워둡니다', '돌솥에 쌀을 넣고 각종 야채와 시래기를 얹고 물을 부어줍니다', '물은 손가락이 잠길 정도~ 1-1.5센티 까지 물을 부워주고 강불에 앉힙니다.', '양념장은 간장에물 약간, 파, 양파, 청량고추를 다져놓고, 마늘 약간, 고춧가루를 넣고 깨소금과 들기름을 넣어 완성', '취향에 따라 물엿이나 설탕을 조금 첨가합니다', '5분정도 강불-중불-약불 순으로 줄여주고 뜸들일때 바지락을 넣습니다.']","['돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요.', '시래기는 미리 불려서 껍질을 벗겨 냉동해놓았던 것을 해동했어요. 시래기만 넣는 것보다 무우, 표고버섯, 양파 등을 잘게 다지거나 채썰어서 같이 넣으면 더욱 영양과 풍부한 맛을 느낄 수 있습니다', '특히 시래기밥을 야채만으로 하는것보다 마지막 뜸들일때 굴이나 바지락을 넣어서 하면 두배이상 풍미도 좋고 훨씬 맛이 좋아집니다.', '시래기는 해동후 썰어서 약간의 된장, 국간장, 마늘약간을 넣고 주물럭거린 후 들기름을 넣어 10분정도 재워둡니다', '돌솥에 쌀을 넣고 각종 야채와 시래기를 얹고 물을 부어줍니다', '물은 손가락이 잠길 정도~ 1-1.5센티 까지 물을 부워주고 강불에 앉힙니다.', '양념장은 간장에물 약간, 파, 양파, 청량고추를 다져놓고, 마늘 약간, 고춧가루를 넣고 깨소금과 들기름을 넣어 완성', '취향에 따라 물엿이나 설탕을 조금 첨가합니다', '5분정도 강불-중불-약불 순으로 줄여주고 뜸들일때 바지락을 넣습니다.']"


In [16]:
# 두 컬럼의 값을 나란히 비교하여 출력
for index, row in preprocessed_df.iterrows():
    print(f"Row {index + 1}:")
    print(f"Original: {row['cooking_order']}")
    print(f"Split: {row['cooking_order_split']}")
    print("-" * 50)

Row 39675:
Original: ['1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?', '1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.', '1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다', '1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.', '2. 새우살 품은 호박 & 양파링 전2-1. 1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.', '2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 

## cooking order에서 조리 순서 앞에 순서 표기
- 만약 순서표기가 없으면 표기함
- 만약 기존에 순서표기가 있으면 표기하지 않음

In [17]:
import re

def assign_order_to_list(items):
    # 패턴: 숫자-숫자. 또는 숫자.
    pattern = re.compile(r'^(\d+)(-\d+)?\.\s')
    ordered_list = []
    counter = 1
    
    for item in items:
        match = pattern.match(item)
        # 패턴이 있으면 해당 번호를 기준으로 사용하고 카운터 조정
        if match:
            current_number = int(match.group(1))
            # 현재 번호가 카운터보다 크면 카운터를 업데이트
            if current_number >= counter:
                counter = current_number + 1
            ordered_list.append(item)
        else:
            # 패턴이 없으면 순차적으로 번호를 추가
            ordered_list.append(f"{counter}. {item}")
            counter += 1

    return ordered_list

# 예시 입력
items = [
    "1. Heat oil in a pan.",
    "Chop the onions.",
    "3-2. Add onions to the pan and cook.",
    "Stir occasionally."
]

# 함수 실행
result = assign_order_to_list(items)
print(result)


['1. Heat oil in a pan.', '2. Chop the onions.', '3-2. Add onions to the pan and cook.', '4. Stir occasionally.']


In [18]:
preprocessed_df["cooking_order_split"][39674]

['1. 전통방식 호박전',
 '1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게 썰어 호박이 잠길 정도의 소금물에 3-5분 담가 두세요. (물 3국자에 소금 1/3티스푼 넣었습니다) →살짝 절이면 부치면서 물이 나와 눅눅해지는 걸 방지해줍니다. 삼투압 원리, 아시지요?',
 '1-2. 고명 준비호박이 절여지는 사이,고명으로 올릴 붉은 고추를 원하는 모양으로 작게 썰어 준비해 둡니다. 동글동글 단면 모양을 살려도 좋고 마름모로 잘라도 곱고요. 쑥갓은 이파리를 작게 10피스 떼어둡니다.',
 '1-3. 옷입히기소금물에 담가둔 호박을 건져 물기 제거한뒤, 호박 앞뒤로 얇고 균일하게 밀가루를 묻혀 여분의 밀가루 잘 털어 주세요. 풀어둔 달걀물에 밀가루 입힌 호박을 퐁당- → 호박을 절였으므로 달걀물엔 소금은 1꼬집 정도만 넣거나, 심심하게 드시면 생략합니다. 부침가루를 사용하는 경우엔 이미 간이 되어있으므로 역시 소금은 생략합니다',
 '1-4. 호박전 부치기길들인 프라이팬에 기름을 충분히 두르고 약불로 줄여 호박전을 부칩니다. → 윗면의 달걀옷이 완전히 익기 전에 고추고명을 예쁘게 올려 살짝 눌러 준 뒤 뒤집어 부치면 완성.→ 익기전에 일찍 뒤집으면 모양이 망가집니다. 한면이 은근한 불로 노릇하게 익은 뒤 뒤집습니다. 음식은 기다림이니까요.',
 '2. 새우살 품은 호박 & 양파링 전',
 '2-1.',
 '1. 링 모양 만들기 - 호박은 기본전처럼 0.4-0.5cm 두께로 썰어 소금물에 3-5분 담갔다 건져 물기 제거합니다. - 양파도 링 모양을 살려 같은 두께로 썰어 줍니다. - 호박 가운데를 칼이나 틀로 동그랗게 도려내고 양파도 가운데를 톡 밀어 역시 링모양 만듭니다. → 도려낸 호박 속은 찌개에 재활용, 양파 속은 2에서 재활용합니다.',
 '2-2. 새우완자 만들기새우살, 1에서 남은 양파, 부추(또는 깻잎)을 다져 녹말가루 2-3티스푼 넣고 끈기가 생기도록 잘 버무려 줍니다. 소금 후추 약간으로 간 맞춘 뒤, 충분히 치댄 완자를 호박과 양파

In [19]:
preprocessed_df["cooking_order_split"][70307]

['신선한 양배추 1통을 점선대로 먼저 잘라주세요~',
 '쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요',
 '자른 양배추는 깨끗한 물에 여러번 씻어주세요',
 '찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다',
 '찜통 뚜껑을 열고 양배추를 식혀주세요',
 '반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요',
 '쌈 하나에',
 '한입크기 밥과',
 '콩알만한 쌈장을 올려서',
 '보자기싸듯 네모서리에서 양배추를 착착 겹치면',
 '네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~']

In [20]:
def assign_order_to_list(items):
    # 패턴: 숫자-숫자. 또는 숫자.
    pattern = re.compile(r'^(\d+)(-\d+)?\.\s')
    ordered_list = []
    counter = 1
    
    for item in items:
        match = pattern.match(item)
        # 패턴이 있으면 해당 번호를 기준으로 사용하고 카운터 조정
        if match:
            current_number = int(match.group(1))
            # 현재 번호가 카운터보다 크면 카운터를 업데이트
            if current_number >= counter:
                counter = current_number + 1
            ordered_list.append(item)
        else:
            # 패턴이 없으면 순차적으로 번호를 추가
            ordered_list.append(f"{counter}. {item}")
            counter += 1

    return ordered_list

# cooking_order 컬럼에 대해 순서 추가 함수 적용
preprocessed_df['cooking_order_split'] = preprocessed_df['cooking_order_split'].apply(assign_order_to_list)

preprocessed_df

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips,cooking_order_split
39674,호박전을 부치는 세 가지 방법 (달걀물 황금비율),반찬,2,"[애호박(1개), 밀가루(1국자), 달걀(1-2개), 소금(1-2꼬집), 소금물, ...",[1. 전통방식 호박전1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런하게...,665,,"[1. 전통방식 호박전, 1-1. 호박 썰기&절이기 호박은 0.4cm 두께로 가지런..."
44874,누구나 좋아하는 여름보양식 소불고기 전골,국/찌개,4,"[소불고기(600g), 간장(9T), 간 양파(1개), 설탕(1T), 올리고당(2T...","[1-1. 키친타올로 핏물을 깨끗이 제거해줍니다.1-2. 배, 양파나 파인애플, 키...",15585,,"[1-1. 키친타올로 핏물을 깨끗이 제거해줍니다., 1-2. 배, 양파나 파인애플,..."
66345,알싸 담백한 '마늘햄 유부초밥',밥/죽/떡,2,"[유부초밥 2인분용 팩(1개), 마늘(2알), 햄(1/4개), 참기름(3T), 통깨...","[1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다.1-2. ...",1950,,"[1-1. 유부초밥을 후라이팬에 올려 살짝 달군 후, 접시에 담아 식힌다., 1-2..."
70068,통통한 리얼 돈까스 김밥,밥/죽/떡,3,"[김(3장), 쌀밥(3인분), 돈까스용 돼지고기 등심(2장), 당근(약간), 깻잎(...",[슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어요차가...,3664,,[1. 슬라이스한 당근 4-5개와 깻잎은 채썰고 양배추는 슬라이서로 아주 얇게 밀어...
70307,양배추찜과 양배추쌈밥,밥/죽/떡,6,"[양배추(1통), 물(1-1.5L), 쌈장]","[신선한 양배추 1통을 점선대로 먼저 잘라주세요~, 쌈을 싸먹을 때 편하라고 사각 ...",936,,"[1. 신선한 양배추 1통을 점선대로 먼저 잘라주세요~, 2. 쌈을 싸먹을 때 편하..."
72009,"바지락시래기밥 만드는법, 시래기밥 만들기, 봄철 건강밥상",밥/죽/떡,3,"[시래기(300g), 무우(150g), 표고버섯(4개), 양파(1/4개), 파(1/...","[돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요., 시래기는 미리...",3208,,"[1. 돌솥밥으로 할거라서 쌀을 1+1/2컵정도 20분 이상 불려놓아요., 2. 시..."


In [21]:
preprocessed_df["cooking_order_split"][70307]

['1. 신선한 양배추 1통을 점선대로 먼저 잘라주세요~',
 '2. 쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요',
 '3. 자른 양배추는 깨끗한 물에 여러번 씻어주세요',
 '4. 찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다',
 '5. 찜통 뚜껑을 열고 양배추를 식혀주세요',
 '6. 반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요',
 '7. 쌈 하나에',
 '8. 한입크기 밥과',
 '9. 콩알만한 쌈장을 올려서',
 '10. 보자기싸듯 네모서리에서 양배추를 착착 겹치면',
 '11. 네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~']

In [22]:
# 사용 예시
df = preprocess_recipe(df)

df["cooking_order"].apply(assign_order_to_list)[230]

['1. @ 소고기 핏물제거와 손질하기1. 고기는 핏물을 행궈 씻어 주고,',
 '2. 찬물을 2~3회 바꿔주면서, 1~2시간 담궈 핏물제거.***** 누린내 잡기는 핏물 제거가 필수 *****',
 '3. 고기의 결을 살려 4~5cm 크기로 도톰하게 썰기***** 고기 크기에 따라 조리는 시간을 조정해 주세요 *****',
 '4. @ 초벌삶기4. 끓는 물에 양파(껍질째) 1/2, 고추씨 반컵, 대파(뿌리째) 1대, 후추가루 1큰술, 커피 약간을 넣고,***** 고추씨는 잡내제거와 칼칼함을 더해줍니다 *****',
 '5. 손질한 고기를 넣고 10~15분 삶기',
 '6. 삶은 고기는 찬물에 이물이 남지 않도록 행궈 씻기',
 '7. @ 양념하기7. 냄비에 고기를 넣고, 고기가 자작하게 잠기게 물붓기',
 '8. 간장 2컵, 설탕 4큰술, 올리고당 2큰술, 요리술(맛술) 4큰술, 매실청 2큰술, 후추가루 1/2큰술, 생강 3쪽, 대추 5~6알, 마른표고버섯 3개분량을 넣고,',
 '9. 강불에 20~25분 조리기',
 '10. 깐마늘 200g, 메추리알 1kg(1봉지)를 넣고, 메추리알이 살짝 잠기도록 물보충 해주고,',
 '11. 청양고추(꽈리고추) 150g을 넣고 10~15분 조리기***** 마늘이 무르지 않을 시간 만큼만 조리세요 *****',
 '12. 참기름 2큰술을 넣고 불끄기',
 '13. 고기는 한김 날려 식혀 주고,',
 '14. 결대로 찢거나, 결 반대로 썰어 드세요.']

In [23]:
# df의 null 값 개수 확인
null_counts = df.isnull().sum()
print(null_counts)

food_name                  0
type                       0
servings                   0
ingredients                0
cooking_order              0
views                      0
tips                   91858
cooking_order_split        0
dtype: int64


In [24]:
import re
import pandas as pd

# 입력 예시 리스트
a = [
    '신선한 양배추 1통을 점선대로 먼저 잘라주세요~',
    '1. 쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요',
    '자른 양배추는 깨끗한 물에 여러번 씻어주세요',
    '찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다',
    '찜통 뚜껑을 열고 양배추를 식혀주세요',
    '반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요',
    '7. 쌈 하나에',
    '한입크기 밥과',
    '9. 콩알만한 쌈장을 올려서',
    '10. 보자기싸듯 네모서리에서 양배추를 착착 겹치면',
    '네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~'
]

def assign_order_to_list(items):
    # 패턴: 숫자-숫자. 또는 숫자.
    pattern = re.compile(r'^(\d+)(-\d+)?\.\s')
    ordered_list = []
    counter = 1
    
    for item in items:
        match = pattern.match(item)
        # 패턴이 있으면 해당 번호를 기준으로 사용하고 카운터 조정
        if match:
            current_number = int(match.group(1))
            # 현재 번호가 카운터보다 크면 카운터를 업데이트
            if current_number >= counter:
                counter = current_number + 1
            ordered_list.append(item)
        else:
            # 패턴이 없으면 순차적으로 번호를 추가
            ordered_list.append(f"{counter}. {item}")
            counter += 1

    return ordered_list

# DataFrame 생성
preprocessed_df = pd.DataFrame({
    'cooking_order_split': [a]
})

# cooking_order 컬럼에 대해 순서 추가 함수 적용
preprocessed_df['cooking_order_split'] = preprocessed_df['cooking_order_split'].apply(assign_order_to_list)

# 결과 출력
for i in preprocessed_df['cooking_order_split']:
    print(i)


['1. 신선한 양배추 1통을 점선대로 먼저 잘라주세요~', '1. 쌈을 싸먹을 때 편하라고 사각 모양으로 잘라줬어요', '2. 자른 양배추는 깨끗한 물에 여러번 씻어주세요', '3. 찜통에 물을 붓고 끓여서 김이 나면 찜용 양배추를 얹어 7분 쪄냅니다', '4. 찜통 뚜껑을 열고 양배추를 식혀주세요', '5. 반찬통에 담으면 양배추찜 완성입니다 다음은 쌈밥을 만들어보아요', '7. 쌈 하나에', '8. 한입크기 밥과', '9. 콩알만한 쌈장을 올려서', '10. 보자기싸듯 네모서리에서 양배추를 착착 겹치면', '11. 네모난 모양의 쌈밥이 완성되요^^ 양껏 만들어 드시면 될 것 같습니다. 도시락으로 싸가도 손색없는 모양과 맛을 느낄 수 있답니다~~~']


# 정리

### 타입 전처리
- 특정 항목들을 통합하여 간소화:
  - '밑반찬', '메인반찬' → '반찬'
  - '국/탕', '찌개' → '국/찌개'
  - '빵', '과자' → '빵/과자'
- 나머지 카테고리는 변경하지 않음:
  - 디저트, 면/만두, 밥/죽/떡, 양식, 스프, 샐러드, 양념/잼/소스, 차/음료/술, 퓨전

### 데이터 전처리
- **조리 순서 분해**: 조리 단계가 한 문장에 연속적으로 표기된 경우, 순서를 기준으로 분해
- **텍스트 정리**:
  - 대괄호 및 괄호로 감싼 텍스트 제거
  - 불필요한 기호, 이모티콘, 감탄사 제거
  - 중복된 공백 제거 및 양 끝의 공백 트림
  - 비어 있는 텍스트는 `None`으로 처리
- **조리 순서 번호 부여**:
  - 순서 표기가 잘못된 경우 자동으로 번호 재정렬
- **데이터 정리**:
  - `food_name`이 1글자 이하인 행 제거
  - 주요 컬럼(`tips` 제외)에 `null` 값이 있는 행 제거

In [1]:
import pandas as pd
import ast

# CSV 파일 읽기
df = pd.read_csv('../result/10000recipe.csv')

# ingredients 컬럼을 문자열에서 리스트로 변환
df['ingredients'] = df['ingredients'].apply(ast.literal_eval)

# cooking_order 컬럼을 문자열에서 리스트로 변환
df['cooking_order'] = df['cooking_order'].apply(ast.literal_eval)

print(df.dtypes)
df

food_name         object
type              object
servings           int64
ingredients       object
cooking_order     object
views              int64
tips             float64
dtype: object


Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips
0,새송이버섯소고기볶음 끼니마다 가족들이 이것만 찾아요~ ‼️,밑반찬,3,"[새송이버섯(4개), 국거리소고기(150g), 양파(1/2개), 대파(1/2대), ...","[소고기 150g 진간장 1큰술, 참기름 1큰술 넣어 조물조물 밑간합니다., 새송이...",19041,
1,소고기두부볶음 - 아이들 반찬/이유식 반찬으로도 최고죠~옛생각이 절로...,밑반찬,3,"[두부(1/2모), 다진소고기(140g), 다진소고기(140g), 맛술(1/2큰술)...","[다진소고기는 140그람이 있어서 준비.뭐~~더 많이 넣으셔도 됩니다., 소고기는 ...",203540,
2,"볶음밥, 주먹밥 어디든 잘 어울리는 '만능 소고기볶음'",밑반찬,2,"[소고기(200g), 다진마늘(0.5t), 진간장(3t), 맛술(3t), 설탕(1....","[식용유를 두르고 소고기, 다진마늘을 넣어 볶아줍니다.중불타지 않도록 잘 볶아 주세...",65176,
3,밥에 넣고 비벼먹어도 맛있는 소고기오이볶음,밑반찬,3,"[오이(1개), 소고기(100g), 간장(1작은술), 통깨(1큰술), 소금, 오일,...","[오이는 굵은 소금을 이용해 겉을 비벼가며 씻어 물기를 제거한뒤, 동글동글 썰어 소...",34313,
4,진정한 밥도둑 소고기 볶음 고추장,밑반찬,6,"[갈은 소고기(480g), 양파(2개), 고추장(9T), 다진 마늘(2T), 후추(...","[넉넉한 크기의 그릇에 갈은 소고기와 다진마늘, 간장, 설탕, 후추를 넣고 잘 섞어...",271829,
...,...,...,...,...,...,...,...
91853,초보도 뚝딱! 시간이 만들어주는 명절음료 계피생강식혜(감주):D,차/음료/술,6,"[흰밥(2공기), 설탕(3숟가락), 엿기름(3팩), 계피가루(1티스푼), 생강청(3...","[밥 짓기.* 물을 평소보다 좀 적게해서 고슬고슬하게 짓습니다., 골고루 섞고 설탕...",6522,
91854,식혜 만들기 엿기름 티백으로 만드는법 추석명절음식,차/음료/술,4,"[밥(2공기), 물(4.5L), 티백(6봉지), 설탕(적당량), 얇게 썬 생강(3~...",[고두밥 짓기 쌀은 불리지 않고 씻어서 내솥에 넣고 물을 동량으로 넣어주고 전기밥솥...,4722,
91855,엿기름 식혜 만드는법 밥솥 식혜 감주 만들기,차/음료/술,6,"[엿기름(500g), 물(5L), 밥 2공기(300g), 설탕, 편생강(1~2개)]","[엿기름 500g에 물 2.5리터를 부어 1시간정도 엿기름을 불려 줍니다., 1시간...",14814,
91856,초초간편하고 깔끔한 맛이 좋은 식혜(감주):D,차/음료/술,6,"[밥(2공기), 설탕(5숟가락), 엿기름(3팩)]","[밥을 고슬고슬하게 짓고 설탕넣고 골고루 섞어주기., 엿기름 넣기., 미지근한 물 ...",6877,


In [2]:
# type 컬럼의 값을 변경하기 위한 매핑 딕셔너리
type_mapping = {
    '밑반찬': '반찬',
    '메인반찬': '반찬',
    '국/탕': '국/찌개',
    '찌개': '국/찌개',
    '빵': '빵/과자',
    '과자': '빵/과자'
}

# 변경할 값 외에는 그대로 유지
df['type'] = df['type'].replace(type_mapping)

# 디저트, 면/만두, 밥/죽/떡, 양식, 스프, 샐러드, 양념/잼/소스, 차/음료/술, 퓨전은 변경하지 않으므로 따로 처리 필요 없음

In [3]:
import re

def clean_text(text):
    # 대괄호와 괄호로 감싼 텍스트 제거
    text = re.sub(r"\[.*?\]|\(.*?\)", "", text)
    # 불필요한 기호와 이모티콘 제거
    text = re.sub(r"[■※☆★~♡♥!?\-]+", "", text)
    # 불필요한 감탄사와 의미 없는 텍스트 제거
    text = re.sub(r"[\+\-_~^]+", "", text)
    text = re.sub(r"\s*ㅎㅎ|\s*^^|\s*\+_\+", "", text)
    # 여러개의 공백을 하나의 공백으로 정리
    text = re.sub(r"\s{2,}", " ", text)
    # 양 끝의 공백 제거
    text = text.strip()
    
    # 전처리 후 텍스트가 비어 있다면 None 반환
    return text if text else None

def split_steps_detailed(text_list):
    # 빈 리스트 초기화
    result = []
    
    # 입력 리스트의 각 요소에 대해 정규 표현식 적용
    for text in text_list:
        # 정규 표현식을 사용해 숫자-숫자. 패턴을 우선적으로 처리하고 그 다음 숫자. 패턴을 처리
        split_text = re.split(r'(?=\d+-\d+\.\s)|(?<=\d\.\s)(?=\d+\.\s)', text)
        
        # 결과 리스트에 추가 (공백을 제거하고 비어 있지 않은 항목만)
        result.extend([segment.strip() for segment in split_text if segment.strip()])
    
    return result

def assign_order_to_list(text_list):
    # 패턴: 숫자-숫자. 또는 숫자.
    pattern = re.compile(r'^(\d+)(-\d+)?\.\s')
    ordered_list = []
    counter = 1
    
    for item in text_list:
        match = pattern.match(item)
        # 패턴이 있으면 해당 번호를 기준으로 사용하고 카운터 조정
        if match:
            current_number = int(match.group(1))
            # 현재 번호가 카운터보다 크면 카운터를 업데이트
            if current_number >= counter:
                counter = current_number + 1
            ordered_list.append(item)
        else:
            # 패턴이 없으면 순차적으로 번호를 추가
            ordered_list.append(f"{counter}. {item}")
            counter += 1

    return ordered_list

def preprocess_recipe(df):
    # 원본의 복사본 생성
    df = df.copy()
    # 데이터프레임의 각 레시피를 전처리
    df['food_name'] = df['food_name'].apply(clean_text)
    # food_name이 1글자 이하인 경우 행 제거
    df = df[df['food_name'].str.len() > 1]
    # 단계별로 세분화하여 리스트로 저장
    df['cooking_order'] = df['cooking_order'].apply(split_steps_detailed)
    # 조리 순서가 없는 경우 추가
    df['cooking_order'] = df['cooking_order'].apply(assign_order_to_list)
    # tips 컬럼 제외한 나머지에서 null 값이 있으면 제거
    df = df.dropna(subset=['food_name', 'type', 'servings', 'ingredients', 'cooking_order', 'views'])
    return df


preprocessed_df = preprocess_recipe(df)

preprocessed_df

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips
0,새송이버섯소고기볶음 끼니마다 가족들이 이것만 찾아요 ‼️,반찬,3,"[새송이버섯(4개), 국거리소고기(150g), 양파(1/2개), 대파(1/2대), ...","[1. 소고기 150g 진간장 1큰술, 참기름 1큰술 넣어 조물조물 밑간합니다., ...",19041,
1,소고기두부볶음 아이들 반찬/이유식 반찬으로도 최고죠옛생각이 절로...,반찬,3,"[두부(1/2모), 다진소고기(140g), 다진소고기(140g), 맛술(1/2큰술)...","[1. 다진소고기는 140그람이 있어서 준비.뭐~~더 많이 넣으셔도 됩니다., 2....",203540,
2,"볶음밥, 주먹밥 어디든 잘 어울리는 '만능 소고기볶음'",반찬,2,"[소고기(200g), 다진마늘(0.5t), 진간장(3t), 맛술(3t), 설탕(1....","[1. 식용유를 두르고 소고기, 다진마늘을 넣어 볶아줍니다.중불타지 않도록 잘 볶아...",65176,
3,밥에 넣고 비벼먹어도 맛있는 소고기오이볶음,반찬,3,"[오이(1개), 소고기(100g), 간장(1작은술), 통깨(1큰술), 소금, 오일,...","[1. 오이는 굵은 소금을 이용해 겉을 비벼가며 씻어 물기를 제거한뒤, 동글동글 썰...",34313,
4,진정한 밥도둑 소고기 볶음 고추장,반찬,6,"[갈은 소고기(480g), 양파(2개), 고추장(9T), 다진 마늘(2T), 후추(...","[1. 넉넉한 크기의 그릇에 갈은 소고기와 다진마늘, 간장, 설탕, 후추를 넣고 잘...",271829,
...,...,...,...,...,...,...,...
91853,초보도 뚝딱 시간이 만들어주는 명절음료 계피생강식혜:D,차/음료/술,6,"[흰밥(2공기), 설탕(3숟가락), 엿기름(3팩), 계피가루(1티스푼), 생강청(3...","[1. 밥 짓기.* 물을 평소보다 좀 적게해서 고슬고슬하게 짓습니다., 2. 골고루...",6522,
91854,식혜 만들기 엿기름 티백으로 만드는법 추석명절음식,차/음료/술,4,"[밥(2공기), 물(4.5L), 티백(6봉지), 설탕(적당량), 얇게 썬 생강(3~...",[1. 고두밥 짓기 쌀은 불리지 않고 씻어서 내솥에 넣고 물을 동량으로 넣어주고 전...,4722,
91855,엿기름 식혜 만드는법 밥솥 식혜 감주 만들기,차/음료/술,6,"[엿기름(500g), 물(5L), 밥 2공기(300g), 설탕, 편생강(1~2개)]","[1. 엿기름 500g에 물 2.5리터를 부어 1시간정도 엿기름을 불려 줍니다., ...",14814,
91856,초초간편하고 깔끔한 맛이 좋은 식혜:D,차/음료/술,6,"[밥(2공기), 설탕(5숟가락), 엿기름(3팩)]","[1. 밥을 고슬고슬하게 짓고 설탕넣고 골고루 섞어주기., 2. 엿기름 넣기., 3...",6877,


In [4]:
preprocessed_df.iloc[150]

food_name                                                   소고기완자전
type                                                            반찬
servings                                                         4
ingredients      [다진소고기(200~300g), 당근, 양파, 브로콜리, 파프리카, 계란(1개), ...
cooking_order    [1. 소고기는 신선한걸 사면 핏물을 제거할게 별로없네요. 키친타올로 눌러서 제게해...
views                                                        18951
tips                                                           NaN
Name: 151, dtype: object

In [5]:
# DataFrame의 기본 정보 보기
preprocessed_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 91807 entries, 0 to 91857
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   food_name      91807 non-null  object 
 1   type           91807 non-null  object 
 2   servings       91807 non-null  int64  
 3   ingredients    91807 non-null  object 
 4   cooking_order  91807 non-null  object 
 5   views          91807 non-null  int64  
 6   tips           0 non-null      float64
dtypes: float64(1), int64(2), object(4)
memory usage: 5.6+ MB


In [12]:
preprocessed_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 91807 entries, 0 to 91857
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   food_name      91807 non-null  object 
 1   type           91807 non-null  object 
 2   servings       91807 non-null  int64  
 3   ingredients    91807 non-null  object 
 4   cooking_order  91807 non-null  object 
 5   views          91807 non-null  int64  
 6   tips           0 non-null      float64
dtypes: float64(1), int64(2), object(4)
memory usage: 5.6+ MB


In [13]:
preprocessed_df.iloc[39674]

food_name                                 스마트리빙 <한끼뚝딱>참치깻잎전 만들기...
type                                                            반찬
servings                                                         2
ingredients      [깻잎(12장), 두부(1/2모), 참치캔(1개), 양파(1/3개), 마늘(1T),...
cooking_order    [1. 깻잎은 깨끗이 씻어, 2. 물기를 탈탈 털어요., 3. 두부는 면보에 싸서,...
views                                                         1824
tips                                                           NaN
Name: 39702, dtype: object

In [8]:
# food_name이 3글자 이하인 행을 필터링
short_food_names = df[df['food_name'].str.len() <= 1]

# 필터링된 데이터프레임 출력
short_food_names

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips
7030,ㅊ,반찬,4,"[달걀(10개), 물(1000cc), 간장(700cc), 물(1400cc), 꿀(3...",[달걀을 물 1000cc와 소금 1스푼 넣고 삶습니다. 달걀은 상온에 서너시간 내어...,904,
67346,굿,밥/죽/떡,2,"[감자, 양파, 소고기, 당근, 김, 밥, 카레스프, 물]","[당근,양파,감자를 깍둑썰어 주세요감자 손질법 레시피, 고기를 넣어 잘 볶아주세요,...",52,


In [9]:
# food_name이 3글자 이하인 행을 필터링
short_food_names = preprocessed_df[preprocessed_df['food_name'].str.len() <= 1]

# 필터링된 데이터프레임 출력
short_food_names

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips


In [14]:
preprocessed_df

Unnamed: 0,food_name,type,servings,ingredients,cooking_order,views,tips
0,새송이버섯소고기볶음 끼니마다 가족들이 이것만 찾아요 ‼️,반찬,3,"[새송이버섯(4개), 국거리소고기(150g), 양파(1/2개), 대파(1/2대), ...","[1. 소고기 150g 진간장 1큰술, 참기름 1큰술 넣어 조물조물 밑간합니다., ...",19041,
1,소고기두부볶음 아이들 반찬/이유식 반찬으로도 최고죠옛생각이 절로...,반찬,3,"[두부(1/2모), 다진소고기(140g), 다진소고기(140g), 맛술(1/2큰술)...","[1. 다진소고기는 140그람이 있어서 준비.뭐~~더 많이 넣으셔도 됩니다., 2....",203540,
2,"볶음밥, 주먹밥 어디든 잘 어울리는 '만능 소고기볶음'",반찬,2,"[소고기(200g), 다진마늘(0.5t), 진간장(3t), 맛술(3t), 설탕(1....","[1. 식용유를 두르고 소고기, 다진마늘을 넣어 볶아줍니다.중불타지 않도록 잘 볶아...",65176,
3,밥에 넣고 비벼먹어도 맛있는 소고기오이볶음,반찬,3,"[오이(1개), 소고기(100g), 간장(1작은술), 통깨(1큰술), 소금, 오일,...","[1. 오이는 굵은 소금을 이용해 겉을 비벼가며 씻어 물기를 제거한뒤, 동글동글 썰...",34313,
4,진정한 밥도둑 소고기 볶음 고추장,반찬,6,"[갈은 소고기(480g), 양파(2개), 고추장(9T), 다진 마늘(2T), 후추(...","[1. 넉넉한 크기의 그릇에 갈은 소고기와 다진마늘, 간장, 설탕, 후추를 넣고 잘...",271829,
...,...,...,...,...,...,...,...
91853,초보도 뚝딱 시간이 만들어주는 명절음료 계피생강식혜:D,차/음료/술,6,"[흰밥(2공기), 설탕(3숟가락), 엿기름(3팩), 계피가루(1티스푼), 생강청(3...","[1. 밥 짓기.* 물을 평소보다 좀 적게해서 고슬고슬하게 짓습니다., 2. 골고루...",6522,
91854,식혜 만들기 엿기름 티백으로 만드는법 추석명절음식,차/음료/술,4,"[밥(2공기), 물(4.5L), 티백(6봉지), 설탕(적당량), 얇게 썬 생강(3~...",[1. 고두밥 짓기 쌀은 불리지 않고 씻어서 내솥에 넣고 물을 동량으로 넣어주고 전...,4722,
91855,엿기름 식혜 만드는법 밥솥 식혜 감주 만들기,차/음료/술,6,"[엿기름(500g), 물(5L), 밥 2공기(300g), 설탕, 편생강(1~2개)]","[1. 엿기름 500g에 물 2.5리터를 부어 1시간정도 엿기름을 불려 줍니다., ...",14814,
91856,초초간편하고 깔끔한 맛이 좋은 식혜:D,차/음료/술,6,"[밥(2공기), 설탕(5숟가락), 엿기름(3팩)]","[1. 밥을 고슬고슬하게 짓고 설탕넣고 골고루 섞어주기., 2. 엿기름 넣기., 3...",6877,


In [15]:
# df를 10000recipe1.csv.csv 파일로 저장
preprocessed_df.to_csv('../result/10000recipe1.csv', index=False)

# 전체 요약 통계 보기
- food_name (음식 이름): 총 91,858개의 항목이 있으며, 이 중 87,875개가 고유한 이름입니다. 가장 빈번하게 등장하는 이름은 48번 나타납니다.
- type (유형): 12개의 고유 카테고리가 있으며, "반찬"이 가장 많이 등장하고 39,879번 나타납니다.
- servings (인분): 평균 약 2.8인분이며, 최소 1인분에서 최대 6인분까지 다양합니다.
- views (조회수): 평균 조회수는 약 165,864이며, 최대 조회수는 4,593,954입니다.

In [10]:
# 전체 요약 통계 보기
df.describe(include='all')