# scraping한 rawdata 전처리
- 형식에 맞게 클리닝

In [1]:
import pandas as pd

## info 데이터 전처리 (완료)
1. 모든 뮤지컬, 연극 하나의 파일로 합치기
2. 클리닝
    - location: 장소 ~ (자세히) 없애기
    - performance_time: 공연기간\n 없애기
    - period: 공연시간\n ~ 분 없애기
    - age_requirement: 관람연령\n 없애기

In [2]:
import os

def concat_info_data():
    folder_path = "../data/rawdata/"
    infos = []

    for file_path in os.listdir(folder_path):
        if "info" in file_path:
            info = pd.read_csv(folder_path + file_path)
            infos.append(info)

    df = pd.concat(infos, ignore_index=True)
    df.to_csv(f"../data/preprocessed_data/total_info.csv", index=False, encoding='utf-8')

    return df

In [3]:
df = concat_info_data()
df

Unnamed: 0,performance_id,title,performance_type,location,period,performance_time,age_requirement
0,23008837,레베카,뮤지컬,장소블루스퀘어 신한카드홀(자세히),공연기간\n2023.08.19 ~2023.11.19,공연시간\n175분(인터미션 20분 포함),관람연령\n8세이상 관람가능
1,24001487,브론테,뮤지컬,장소링크아트센터드림 드림1관(자세히),공연기간\n2024.03.04 ~2024.06.02,공연시간\n100분,관람연령\n초등학생이상 관람가
2,23001653#,영웅,뮤지컬,장소블루스퀘어 신한카드홀(자세히),공연기간\n2023.03.17 ~2023.05.21,공연시간\n160분(인터미션 20분 포함),관람연령\n8세이상 관람가능
3,24001224,오즈,뮤지컬,장소대학로 TOM(티오엠) 2관(자세히),공연기간\n2024.02.27 ~2024.05.06,공연시간\n100분,관람연령\n8세이상 관람가능
4,24002031,웨스턴 스토리,뮤지컬,장소인터파크 유니플렉스 1관(자세히),공연기간\n2024.03.13 ~2024.06.09,공연시간\n145분(인터미션 15분 포함),관람연령\n14세 이상 관람가
5,22001159,늘근도둑이야기,연극,장소대학로 아트포레스트 1관(자세히),공연기간\n2022.03.05 ~2024.05.31,공연시간\n100분,관람연령\n12세이상
6,19018229#,쉬어매드니스,연극,장소콘텐츠박스(KONTENTZ BOX)(자세히),공연기간\n2015.11.12 ~오픈런,공연시간\n110분(인터미션 7분 포함),관람연령\n만 15세이상
7,24000171,연극 라면,연극,장소대학로 해피씨어터(자세히),공연기간\n2024.02.01 ~2024.05.31,공연시간\n100분,관람연령\n만 11세이상
8,23008491,죽여주는 이야기,연극,장소지인시어터(구.알과핵소극장)(자세히),공연기간\n2023.07.01 ~오픈런,공연시간\n100분,관람연령\n8세이상 관람가능
9,22014277#,한뼘사이,연극,장소라온아트홀(자세히),공연기간\n2017.03.01 ~오픈런,공연시간\n100분,관람연령\n만 12세이상


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   performance_id    10 non-null     object
 1   title             10 non-null     object
 2   performance_type  10 non-null     object
 3   location          10 non-null     object
 4   period            10 non-null     object
 5   performance_time  10 non-null     object
 6   age_requirement   10 non-null     object
dtypes: object(7)
memory usage: 688.0+ bytes


- location: 장소 ~ (자세히) 없애기
- performance_time: 공연기간\n 없애기
- period: 공연시간\n ~ 분 없애기
- age_requirement: 관람연령\n 없애기

In [5]:
# location 클리닝
df["location"] = df["location"].apply(lambda x: x[2:-5])

# performance_time 클리닝
df["performance_time"] = df["performance_time"].apply(lambda x: x.split("\n")[1])

# period 클리닝
df["period"] = df["period"].apply(lambda x: x.split("\n")[1])

# age_requirement 클리닝
df["age_requirement"] = df["age_requirement"].apply(lambda x: x.split("\n")[1])

- 공연 기간 start_date, end_date 로 분할 period 컬럼 삭제

In [6]:
df[['start_date', 'end_date']] = df['period'].str.split(' ~', expand=True)
df.drop("period", axis=1, inplace=True)

In [7]:
df

Unnamed: 0,performance_id,title,performance_type,location,performance_time,age_requirement,start_date,end_date
0,23008837,레베카,뮤지컬,블루스퀘어 신한카드홀,175분(인터미션 20분 포함),8세이상 관람가능,2023.08.19,2023.11.19
1,24001487,브론테,뮤지컬,링크아트센터드림 드림1관,100분,초등학생이상 관람가,2024.03.04,2024.06.02
2,23001653#,영웅,뮤지컬,블루스퀘어 신한카드홀,160분(인터미션 20분 포함),8세이상 관람가능,2023.03.17,2023.05.21
3,24001224,오즈,뮤지컬,대학로 TOM(티오엠) 2관,100분,8세이상 관람가능,2024.02.27,2024.05.06
4,24002031,웨스턴 스토리,뮤지컬,인터파크 유니플렉스 1관,145분(인터미션 15분 포함),14세 이상 관람가,2024.03.13,2024.06.09
5,22001159,늘근도둑이야기,연극,대학로 아트포레스트 1관,100분,12세이상,2022.03.05,2024.05.31
6,19018229#,쉬어매드니스,연극,콘텐츠박스(KONTENTZ BOX),110분(인터미션 7분 포함),만 15세이상,2015.11.12,오픈런
7,24000171,연극 라면,연극,대학로 해피씨어터,100분,만 11세이상,2024.02.01,2024.05.31
8,23008491,죽여주는 이야기,연극,지인시어터(구.알과핵소극장),100분,8세이상 관람가능,2023.07.01,오픈런
9,22014277#,한뼘사이,연극,라온아트홀,100분,만 12세이상,2017.03.01,오픈런


In [8]:
# csv로 저장
df.to_csv(f"../data/preprocessed_data/total_info_cleaning.csv", index=False, encoding='utf-8')

---

## review 데이터 클리닝 (진행 중)
1. review 데이터 합치기
2. 클리닝
    - column별 type 맞추기
    - user_id: id / 예매자 여부 분할
    - view_count: 조회 없애기 (숫자만 남기기)
    - like_count: 공감 ~ \n공감하기 없애기 (숫자만 남기기)
    - title, text
        - 특수기호 처리
        - 토큰화
        - 등등등

In [52]:
import os

def concat_review_data():
    folder_path = "../data/rawdata/"
    infos = []

    for file_path in os.listdir(folder_path):
        if "review" in file_path:
            info = pd.read_csv(folder_path + file_path)
            infos.append(info)

    df = pd.concat(infos, ignore_index=True)
    df.to_csv(f"../data/preprocessed_data/total_review.csv", index=False, encoding='utf-8')

    return df

In [None]:
review = concat_review_data()

In [53]:
df = pd.read_csv("../data/rawdata/뮤지컬_브론테_review.csv", encoding='utf-8')

In [54]:
df

Unnamed: 0,performance_id,review_id,rating,user_id,date,view_count,like_count,title,text
0,24001487,0,5,a***예매자,2024.04.15,조회 1,공감 0\n공감하기,극이 많이바뀌었다.,여전히 넘버는 좋고\n배우들은 너무 잘하고\n드아센 1층으로 와서 조금 목사관이 커...
1,24001487,1,1,a***예매자,2024.04.15,조회 2,공감 0\n공감하기,아니 왜 권종 변경 안해줘서 실망,극은 참 좋았다.\n물론 나의 실수 이긴 한데.\n자매들의 편지 예매를 똑같이 50...
2,24001487,2,5,yujin***예매자,2024.04.15,조회 2,공감 0\n공감하기,브론테,너무너무 재밌게봤습니다\n세 분의 연기와 노래가 충격적이었어요!!\n밴드 연주도 강...
3,24001487,3,5,sjsj0***예매자,2024.04.15,조회 2,공감 0\n공감하기,우린 글쓰기에 미친 인간들,이렇게 아름다운 세 자매의 이야기를 어디서 또 볼 수 있을까요?\n서로를 향한 질투...
4,24001487,4,5,sjsj0***예매자,2024.04.15,조회 3,공감 0\n공감하기,시간이 흐르면 너의 글은 더욱 더 빛나게 될거야 오직 너만을 믿으면 돼,오직 자기 자신을 믿으면 언젠간 빛나게 된다는 대사를 통해 또 한 번 위로를 받았습...
...,...,...,...,...,...,...,...,...,...
1440,24001487,1440,5,j***예매자,2024.03.05,조회 91,공감 0\n공감하기,써내려가 써내려가,3자매의 이야기 소름돋게 노래도 연기도 잘하셔서 몰입해서 보다 울면서 끝났네요.\n...
1441,24001487,1441,5,cjstksla***예매자,2024.03.05,조회 43,공감 0\n공감하기,재밌어요,내용도 탄탄하고 재밌어요
1442,24001487,1442,5,dse00***예매자,2024.03.05,조회 57,공감 0\n공감하기,역씌나 브론테!!!,약 2년간 기다리던 브론테가 드디어 돌아왔ㅠㅠㅠㅠ\n명불허전 넘버들은 돌아오고 서사...
1443,24001487,1443,5,ehalst***예매자,2024.03.05,조회 61,공감 0\n공감하기,브론테는 브론테,바뀐 부분이 좋기도하고 아쉽기도하지만 브론테를 다시 볼 수 있다는게 너무 좋았어요


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1445 entries, 0 to 1444
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   performance_id  1445 non-null   int64 
 1   review_id       1445 non-null   int64 
 2   rating          1445 non-null   int64 
 3   user_id         1445 non-null   object
 4   date            1445 non-null   object
 5   view_count      1445 non-null   object
 6   like_count      1445 non-null   object
 7   title           1445 non-null   object
 8   text            1445 non-null   object
dtypes: int64(3), object(6)
memory usage: 101.7+ KB
