# *****************************************************************************
#
#	brief : JSON 데이터에서 추출한 csv파일을 라벨링 및 전처리 하기 위해 작성 하였습니다.
#           비활동성은 0으로 라벨링하였으며 데이터수는 780,000개입니다.
#           활동성은 1으로 라벨링하였으며 데이터수 1,000,000개이기에 랜덤한 데이터를 삭제하여 780,000개로 줄여
#           merged_file.csv로 병합하였습니다
#	file : csv_labeling.ipynb
#	date : 2023-10-16
#	autor : 김선민
#
# *****************************************************************************

In [5]:
print("qwd")

qwd


In [4]:
import pandas as pd
import numpy as np
import csv

In [4]:
columes=['reviews', 'label']

##비활동성 데이터 0으로 라벨링##

In [None]:
df = pd.read_csv("Json_PreProcessing/CSV_DATA/dactivate.csv",encoding="utf-8-sig",names=columes)
df.head()

# 'label' 열의 누락된 값(NaN)을 0으로 채우고 정수로 변환
df['label'] = df['label'].fillna(0).astype(int)
df.head()
df.to_csv("Json_PreProcessing/CSV_DATA/Pre_deactivate1.csv", sep="\t", header=False, index=False)

df = pd.read_csv("Json_PreProcessing/CSV_DATA/Pre_deactivate1.csv", sep="\t", header=None, encoding="utf-8-sig",names=columes)
print(len(df))
df.head()

##활동성 데이터는 비활동성 데이터보다 데이터량이 많아 780,000개로 랜덤하게 줄이고, 1으로 라벨링##

In [None]:
import random

df = pd.read_csv("Json_PreProcessing/CSV_DATA/activate.csv",encoding="utf-8-sig",names=columes)
df.head()

# 'label' 열의 누락된 값(NaN)을 1으로 채우고 정수로 변환
df['label'] = df['label'].fillna(1).astype(int)
df.head()
df.to_csv("Json_PreProcessing/CSV_DATA/Pre_activate1.csv", sep="\t", header=False, index=False)

df = pd.read_csv("Json_PreProcessing/CSV_DATA/Pre_activate1.csv", sep="\t", header=None, encoding="utf-8-sig",names=columes)
print(len(df))
df.head()

#원하는 길이 설정
desired_length = 780000

if len(df) > desired_length:
    # 데이터프레임에서 인덱스를 무작위로 선택하여 삭제.
    indices_to_remove = random.sample(range(len(df)), len(df) - desired_length)
    df = df.drop(indices_to_remove)

# 새로운 CSV 파일에 저장
output_file_path = 'Json_PreProcessing/CSV_DATA/Pre_activate1.csv'
df.to_csv(output_file_path, index=False)

##비활동, 활동 데이터 병합##

In [4]:
import csv
import pandas as pd

# 두 개의 CSV 파일 경로
input_file1 = "/Users/sun/PycharmProjects/EmotionAnalysis_SNS_v2/Json_PreProcessing/CSV_DATA/Pre_activate1.csv"
input_file2 = "/Users/sun/PycharmProjects/EmotionAnalysis_SNS_v2/Json_PreProcessing/CSV_DATA/Pre_deactivate1.csv"
output_file = "merged_file_1.csv"  # 병합된 CSV 파일 이름

# 데이터를 저장할 DataFrame
merged_data = pd.DataFrame()

# 첫 번째 CSV 파일 읽기
df1 = pd.read_csv(input_file1, sep="\t", header=None, encoding="utf-8-sig")
merged_data = pd.concat([merged_data, df1])

# 두 번째 CSV 파일 읽기
df2 = pd.read_csv(input_file2, sep="\t", header=None, encoding="utf-8-sig")
merged_data = pd.concat([merged_data, df2])

# 병합된 데이터를 CSV 파일로 저장
merged_data.to_csv(output_file, sep="\t", header=None, index=False, encoding="utf-8-sig")

print(f"CSV files merged into {output_file}")

CSV files merged into merged_file_1.csv


In [6]:
import pandas as pd

# 두 개의 CSV 파일 경로
input_file1 = "/Users/sun/PycharmProjects/EmotionAnalysis_SNS_v2/Json_PreProcessing/CSV_DATA/Pre_activate1.csv"
input_file2 = "/Users/sun/PycharmProjects/EmotionAnalysis_SNS_v2/Json_PreProcessing/CSV_DATA/Pre_deactivate1.csv"
output_file = "merged_file_1.csv"  # 병합된 CSV 파일 이름

# 첫 번째 CSV 파일 읽기
df1 = pd.read_csv(input_file1, sep="\t", header=None, encoding="utf-8-sig")

# 두 번째 CSV 파일 읽기
df2 = pd.read_csv(input_file2, sep="\t", header=None, encoding="utf-8-sig")

# 번갈아가면서 병합
merged_df = pd.concat([df1, df2], axis=1)

# 결과를 새로운 CSV 파일로 저장
merged_df.to_csv('병합된_파일.csv', index=False)

print(f"CSV files merged into {output_file}")

CSV files merged into merged_file_1.csv


In [5]:
import pandas as pd

# 병합된 CSV 파일 경로
input_file = "/Users/sun/PycharmProjects/EmotionAnalysis_SNS_v2/Json_PreProcessing/merged_file_1.csv"
output_file = "shuffled_file.csv"  # 섞인 CSV 파일 이름

# 병합된 CSV 파일 읽기
merged_data = pd.read_csv(input_file, sep="\t", header=None, encoding="utf-8-sig")

# 데이터를 섞기
shuffled_data = merged_data.sample(frac=1).reset_index(drop=True)

# 섞인 데이터를 CSV 파일로 저장
shuffled_data.to_csv(output_file, sep="\t", header=None, index=False, encoding="utf-8-sig")

print(f"CSV file shuffled and saved as {output_file}")

CSV file shuffled and saved as shuffled_file.csv


In [3]:
import pandas as pd

# 기존 CSV 파일 경로
input_file = "/Users/sun/PycharmProjects/EmotionAnalysis_SNS_v2/Json_PreProcessing/merged_file_1.csv"
output_file = "modified_file.csv"  # 수정된 CSV 파일 이름

# 기존 CSV 파일 읽기
data = pd.read_csv(input_file, sep='\t', header=None)

# 2번째 열을 정수로 변환
data[1] = data[1].astype(int)

# 수정된 데이터를 새로운 CSV 파일로 저장
data.to_csv(output_file, sep='\t', header=None, index=False)

print(f"CSV file modified and saved as {output_file}")

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer