In [1]:
import pandas as pd


In [52]:
df = pd.read_csv('충주_1차_전처리.csv')

In [53]:
def melt_reviews_with_location(df, location_column="0", review_prefix="review"):
    """
    장소 정보를 포함해 리뷰 데이터를 melt로 변환하는 함수
    
    Args:
        df (pd.DataFrame): 원본 데이터프레임
        location_column (str): 장소 정보가 포함된 열 이름
        review_prefix (str): 리뷰 열의 접두사 (기본값: "review")
    
    Returns:
        pd.DataFrame: melt로 변환된 데이터프레임
    """
    # 리뷰 열 선택
    review_columns = [col for col in df.columns if col.startswith(review_prefix)]
    
    # Melt 변환
    df_melted = df.melt(
        id_vars=[location_column],  # 장소 정보 열 유지
        value_vars=review_columns,  # 리뷰 열만 선택
        var_name="review_type",  # 변환된 리뷰 열 이름
        value_name="review"      # 리뷰 내용 열 이름
    )
    
    # NaN 제거 (빈 리뷰 제거)
    df_melted = df_melted.dropna(subset=["review"]).reset_index(drop=True)
    
    return df_melted

In [54]:
# 함수 실행 예시
result = melt_reviews_with_location(df)

# 결과 확인
print(result.head())

         0 review_type                                             review
0     활옥동굴    review_1  한여름   그러나 그안은  한 가을  ㅎㅎ나가기 싫었어요  시원  재미  흥미  사...
1     수주팔봉    review_1             국토종주중...경치 좋은  곳이 넘 많아요.쉬엄쉬엄 구경하고 가요~~
2  수안보온천랜드    review_1  탕이 딱 차가운 거, 뜨거운 거, 중간이 있어 좋고, 온수가 안 나와서 시원하게 목...
3      탄금대    review_1  둘레길맨발  걷기 ,  세족장  , 신발장  별도로 있어요70분 정도면  다 돌아볼...
4     능암온천    review_1                            탄산온천으로는 끝내 줌. 청소상태는 불량.


In [55]:
# 0열 기준으로 정렬
result_sorted = result.sort_values(by=["0"]).reset_index(drop=True)

# 결과 확인
print(result_sorted.head())

            0 review_type                                             review
0         가섭산    review_1                                   가섭사에서 바라본 조망이 훌륭
1  건지마을 풍경포인트    review_2                                               고백맛집
2  건지마을 풍경포인트    review_1  충주댐에 들렸다가 내비보고 간곳이 아니라 문듯 산을 바라보다가 예쁘다하고 올라가보니...
3         계명산    review_1  ⛰️충북 충주 계명산(명산100+) 계명산자연휴양림 최단코스 블랙야크BAC🗓등산일자...
4         계명산    review_3                                                초딩때


In [56]:
result_sorted.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 473 entries, 0 to 472
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   0            473 non-null    object
 1   review_type  473 non-null    object
 2   review       473 non-null    object
dtypes: object(3)
memory usage: 11.2+ KB


In [57]:
# review_type 열 삭제
result_final = result_sorted.drop(columns=["review_type"])

# 결과 확인
print(result_final.head())

            0                                             review
0         가섭산                                   가섭사에서 바라본 조망이 훌륭
1  건지마을 풍경포인트                                               고백맛집
2  건지마을 풍경포인트  충주댐에 들렸다가 내비보고 간곳이 아니라 문듯 산을 바라보다가 예쁘다하고 올라가보니...
3         계명산  ⛰️충북 충주 계명산(명산100+) 계명산자연휴양림 최단코스 블랙야크BAC🗓등산일자...
4         계명산                                                초딩때


In [58]:
# 리뷰가 없는 데이터 (NaN 또는 빈 문자열) 삭제
result_cleaned = result_final[result_final["review"].notna()]  # NaN 제거
result_cleaned = result_cleaned[result_cleaned["review"].str.strip() != ""]  # 빈 문자열 제거

# 결과 확인
print(result_cleaned.head())

            0                                             review
0         가섭산                                   가섭사에서 바라본 조망이 훌륭
1  건지마을 풍경포인트                                               고백맛집
2  건지마을 풍경포인트  충주댐에 들렸다가 내비보고 간곳이 아니라 문듯 산을 바라보다가 예쁘다하고 올라가보니...
3         계명산  ⛰️충북 충주 계명산(명산100+) 계명산자연휴양림 최단코스 블랙야크BAC🗓등산일자...
4         계명산                                                초딩때


In [59]:
result_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 471 entries, 0 to 472
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       471 non-null    object
 1   review  471 non-null    object
dtypes: object(2)
memory usage: 11.0+ KB


In [60]:
# 결과 저장 (선택 사항)
result_cleaned.to_csv("충주리뷰멜트.csv",encoding='UTF-8-sig', index=False)