# 2. 필요이상으로 긴 데이터 날려버리기
- 목적이 다른 글일 가능성이 크다 ex) 기사
- 500자 이상은 날려버린다

## 2-a. 함수 만들기

In [4]:
import pandas as pd

# 시간 측정 데코레이터
import time

def time_decorator(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Function '{func.__name__}' executed in {end_time - start_time} seconds.")
        return result
    return wrapper

@time_decorator
def make_length_filtered_csv_file(read_file_path, text_column_name, save_file_path):
    
    # 1. 데이터 읽어오기
    print("[progress 1/5] 데이터 읽어오기")
    df = pd.read_csv(read_file_path, encoding="utf-8")

    # 2. 'text_length' 칼럼 계산
    print("[progress 2/5] 'text_length' 칼럼 계산")
    df['text_length'] = df[text_column_name].str.len()
    
    # 3. 500자 지점이 상위 몇 %인지 계산
    print("[progress 3/5] 500자 지점이 상위 몇 %인지 계산")
    percentile_500 = (df['text_length'] <= 500).mean() * 100
    print(f"{percentile_500} 퍼센트의 text만 보존합니다 ")
    
    # 4. 500자 초과하는 텍스트 제거
    print("[progress 4/5] 500자 초과하는 텍스트 제거")
    df_filtered = df[df['text_length'] <= 500]
    
    
    
    # 5. 파일로 저장
    print("[progress 5/5] 파일로 저장")
    df_filtered.to_csv(save_file_path, index=False, encoding="utf-8")
    

    print("[done]")

## 2-b. 함수 적용

In [5]:
read_file_path = "1_cleansed_ecopro_text.csv"
text_column_name = "cleansed_text"
save_file_path = "2_length_filtered_ecopro_text.csv"
make_length_filtered_csv_file(read_file_path, text_column_name, save_file_path)

[progress 1/5] 데이터 읽어오기
[progress 2/5] 'text_length' 칼럼 계산
[progress 3/5] 500자 지점이 상위 몇 %인지 계산
98.95720303823323 퍼센트의 text만 보존합니다 
[progress 4/5] 500자 초과하는 텍스트 제거
[progress 5/5] 파일로 저장
[done]
Function 'make_length_filtered_csv_file' executed in 0.6988341808319092 seconds.


## 2-c. 부동산 갤러리 날려버리기
- text 분석 결과, 주식 관련 글이 아닌, 아파트에 대한 글이 많아서 전부 날려버린다

In [10]:
# 부동산갤이 푸르지오, 힐스테이트 등 에코프로와 관련없는 text를 내포한다고 판단하여 없애버리겠다
import pandas as pd

# 1. 데이터 읽어오기
df = pd.read_csv("2_length_filtered_ecopro_text.csv", encoding="utf-8")
df.info()

# 'gall_id'가 'immovables'인 행을 제거
df = df[df['gall_id'] != 'immovables']

# 결과 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 124029 entries, 0 to 124028
Data columns (total 10 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   community       124029 non-null  object
 1   gall_id         124029 non-null  object
 2   search_keyword  124029 non-null  object
 3   number          124029 non-null  int64 
 4   date_created    124029 non-null  object
 5   time_created    124029 non-null  object
 6   author          124029 non-null  object
 7   is_reply        124029 non-null  int64 
 8   cleansed_text   124029 non-null  object
 9   text_length     124029 non-null  int64 
dtypes: int64(3), object(7)
memory usage: 9.5+ MB
<class 'pandas.core.frame.DataFrame'>
Index: 108945 entries, 0 to 124028
Data columns (total 10 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   community       108945 non-null  object
 1   gall_id         108945 non-null  object
 2   search_k

In [12]:
df.to_csv("2_filtered_ecopro_text.csv", index=False, encoding="utf-8")