In [1]:
import nltk

# 'punkt' 리소스 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\windows\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
import pandas as pd

df = pd.read_csv('finance_data.csv', encoding='utf-8')
df

Unnamed: 0,labels,sentence,kor_sentence
0,neutral,"According to Gran, the company has no plans to...","Gran에 따르면, 그 회사는 회사가 성장하고 있는 곳이지만, 모든 생산을 러시아로..."
1,neutral,Technopolis plans to develop in stages an area...,테크노폴리스는 컴퓨터 기술과 통신 분야에서 일하는 회사들을 유치하기 위해 10만 평...
2,negative,The international electronic industry company ...,"국제 전자산업 회사인 엘코텍은 탈린 공장에서 수십 명의 직원을 해고했으며, 이전의 ..."
3,positive,With the new production plant the company woul...,새로운 생산공장으로 인해 회사는 예상되는 수요 증가를 충족시킬 수 있는 능력을 증가...
4,positive,According to the company's updated strategy fo...,"2009-2012년 회사의 업데이트된 전략에 따르면, Basware는 20% - 4..."
...,...,...,...
4841,negative,LONDON MarketWatch -- Share prices ended lower...,런던 마켓워치 -- 은행주의 반등이 FTSE 100지수의 약세를 상쇄하지 못하면서 ...
4842,neutral,Rinkuskiai's beer sales fell by 6.5 per cent t...,린쿠스키아의 맥주 판매량은 416만 리터로 6.5% 감소했으며 카우노 알루스의 맥주...
4843,negative,Operating profit fell to EUR 35.4 mn from EUR ...,"영업이익은 2007년 68.8 mn에서 35.4 mn으로 떨어졌으며, 선박 판매 이..."
4844,negative,Net sales of the Paper segment decreased to EU...,페이퍼 부문 순매출은 2008년 2분기 241.1 mn에서 2009년 2분기 221...


1. Text Cleaning

In [3]:
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

nltk.download('stopwords')

# CSV 파일을 pandas DataFrame으로 로드
file_path = r'finance_data.csv'
df = pd.read_csv(file_path)

# 영어 Text Cleaning 함수
def clean_english_text(text):
    # 모든 문자를 소문자로 변환
    text = text.lower()
    # 알파벳, 숫자 및 공백을 제외한 모든 문자 제거
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)
    # 여러 개의 공백을 하나의 공백으로 변환
    text = re.sub(r'\s+', ' ', text)
    return text

# 한국어 Text Cleaning 함수
def clean_korean_text(text):
    # 모든 문자를 소문자로 변환 -> 한국어에는 영향 없음
    text = text.lower()
    # 한글, 알파벳, 숫자 및 공백을 제외한 모든 문자 제거
    text = re.sub(r'[^가-힣a-zA-Z0-9\s]', '', text)
    # 여러 개의 공백을 하나의 공백으로 변환
    text = re.sub(r'\s+', ' ', text)
    return text

# Text Cleaning 적용
df['cleaned_sentence'] = df['sentence'].apply(clean_english_text)
df['cleaned_kor_sentence'] = df['kor_sentence'].apply(clean_korean_text)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\windows\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


2. Tokenization

In [4]:
# 영어 텍스트 Tokenization(토큰화) 함수
def tokenize_text(text):
    return word_tokenize(text)

# 한국어 텍스트 간단한 Tokenization 함수
def tokenize_kor_text(text):
    # 공백을 기준으로 단어 Tokenization
    return text.split()

# Tokenization된 데이터 생성
df['tokenized_sentence'] = df['cleaned_sentence'].apply(tokenize_text)
df['tokenized_kor_sentence'] = df['cleaned_kor_sentence'].apply(tokenize_kor_text)

# Text Cleaning 및 Tokenization된 데이터 출력
print(df[['labels', 'tokenized_sentence', 'tokenized_kor_sentence']])

        labels                                 tokenized_sentence  \
0      neutral  [according, to, gran, the, company, has, no, p...   
1      neutral  [technopolis, plans, to, develop, in, stages, ...   
2     negative  [the, international, electronic, industry, com...   
3     positive  [with, the, new, production, plant, the, compa...   
4     positive  [according, to, the, companys, updated, strate...   
...        ...                                                ...   
4841  negative  [london, marketwatch, share, prices, ended, lo...   
4842   neutral  [rinkuskiais, beer, sales, fell, by, 65, per, ...   
4843  negative  [operating, profit, fell, to, eur, 354, mn, fr...   
4844  negative  [net, sales, of, the, paper, segment, decrease...   
4845  negative  [sales, in, finland, decreased, by, 105, in, j...   

                                 tokenized_kor_sentence  
0     [gran에, 따르면, 그, 회사는, 회사가, 성장하고, 있는, 곳이지만, 모든, ...  
1     [테크노폴리스는, 컴퓨터, 기술과, 통신, 분야에서, 일하는, 회사들을, 유치하기,...

In [5]:
df

Unnamed: 0,labels,sentence,kor_sentence,cleaned_sentence,cleaned_kor_sentence,tokenized_sentence,tokenized_kor_sentence
0,neutral,"According to Gran, the company has no plans to...","Gran에 따르면, 그 회사는 회사가 성장하고 있는 곳이지만, 모든 생산을 러시아로...",according to gran the company has no plans to ...,gran에 따르면 그 회사는 회사가 성장하고 있는 곳이지만 모든 생산을 러시아로 옮...,"[according, to, gran, the, company, has, no, p...","[gran에, 따르면, 그, 회사는, 회사가, 성장하고, 있는, 곳이지만, 모든, ..."
1,neutral,Technopolis plans to develop in stages an area...,테크노폴리스는 컴퓨터 기술과 통신 분야에서 일하는 회사들을 유치하기 위해 10만 평...,technopolis plans to develop in stages an area...,테크노폴리스는 컴퓨터 기술과 통신 분야에서 일하는 회사들을 유치하기 위해 10만 평...,"[technopolis, plans, to, develop, in, stages, ...","[테크노폴리스는, 컴퓨터, 기술과, 통신, 분야에서, 일하는, 회사들을, 유치하기,..."
2,negative,The international electronic industry company ...,"국제 전자산업 회사인 엘코텍은 탈린 공장에서 수십 명의 직원을 해고했으며, 이전의 ...",the international electronic industry company ...,국제 전자산업 회사인 엘코텍은 탈린 공장에서 수십 명의 직원을 해고했으며 이전의 해...,"[the, international, electronic, industry, com...","[국제, 전자산업, 회사인, 엘코텍은, 탈린, 공장에서, 수십, 명의, 직원을, 해..."
3,positive,With the new production plant the company woul...,새로운 생산공장으로 인해 회사는 예상되는 수요 증가를 충족시킬 수 있는 능력을 증가...,with the new production plant the company woul...,새로운 생산공장으로 인해 회사는 예상되는 수요 증가를 충족시킬 수 있는 능력을 증가...,"[with, the, new, production, plant, the, compa...","[새로운, 생산공장으로, 인해, 회사는, 예상되는, 수요, 증가를, 충족시킬, 수,..."
4,positive,According to the company's updated strategy fo...,"2009-2012년 회사의 업데이트된 전략에 따르면, Basware는 20% - 4...",according to the companys updated strategy for...,20092012년 회사의 업데이트된 전략에 따르면 basware는 20 40 범위의...,"[according, to, the, companys, updated, strate...","[20092012년, 회사의, 업데이트된, 전략에, 따르면, basware는, 20..."
...,...,...,...,...,...,...,...
4841,negative,LONDON MarketWatch -- Share prices ended lower...,런던 마켓워치 -- 은행주의 반등이 FTSE 100지수의 약세를 상쇄하지 못하면서 ...,london marketwatch share prices ended lower in...,런던 마켓워치 은행주의 반등이 ftse 100지수의 약세를 상쇄하지 못하면서 월요일...,"[london, marketwatch, share, prices, ended, lo...","[런던, 마켓워치, 은행주의, 반등이, ftse, 100지수의, 약세를, 상쇄하지,..."
4842,neutral,Rinkuskiai's beer sales fell by 6.5 per cent t...,린쿠스키아의 맥주 판매량은 416만 리터로 6.5% 감소했으며 카우노 알루스의 맥주...,rinkuskiais beer sales fell by 65 per cent to ...,린쿠스키아의 맥주 판매량은 416만 리터로 65 감소했으며 카우노 알루스의 맥주 판...,"[rinkuskiais, beer, sales, fell, by, 65, per, ...","[린쿠스키아의, 맥주, 판매량은, 416만, 리터로, 65, 감소했으며, 카우노, ..."
4843,negative,Operating profit fell to EUR 35.4 mn from EUR ...,"영업이익은 2007년 68.8 mn에서 35.4 mn으로 떨어졌으며, 선박 판매 이...",operating profit fell to eur 354 mn from eur 6...,영업이익은 2007년 688 mn에서 354 mn으로 떨어졌으며 선박 판매 이익은 ...,"[operating, profit, fell, to, eur, 354, mn, fr...","[영업이익은, 2007년, 688, mn에서, 354, mn으로, 떨어졌으며, 선박..."
4844,negative,Net sales of the Paper segment decreased to EU...,페이퍼 부문 순매출은 2008년 2분기 241.1 mn에서 2009년 2분기 221...,net sales of the paper segment decreased to eu...,페이퍼 부문 순매출은 2008년 2분기 2411 mn에서 2009년 2분기 2216...,"[net, sales, of, the, paper, segment, decrease...","[페이퍼, 부문, 순매출은, 2008년, 2분기, 2411, mn에서, 2009년,..."


In [8]:
# 영어 Stop Words(불용어) 목록 불러오기
stop_words = set(stopwords.words('english'))

# 영어 텍스트에서 Stop Words 제거 함수
def remove_stop_words(tokens):
    filtered_words = [word for word in tokens if word.lower() not in stop_words]
    return ' '.join(filtered_words)

# 한국어 Stop Words 목록
stop_words_kor = set(['이', '가', '은', '는', '에', '들', '으로', '와', '과', '을', '를', '으로', '에서', '의', '하다'])

# 한국어 Stop Words 제거 함수
def remove_kor_stop_words(tokens):
    filtered_words = [word for word in tokens if word not in stop_words_kor]
    return ' '.join(filtered_words)

# 불용어 제거 함수 적용
df['no_stop_words_sentence'] = df['tokenized_sentence'].apply(remove_stop_words)
df['no_stop_words_kor_sentence'] = df['tokenized_kor_sentence'].apply(remove_kor_stop_words)

# 결과 일부 출력
print(df[['tokenized_sentence', 'no_stop_words_sentence', 'tokenized_kor_sentence', 'no_stop_words_kor_sentence']])

                                     tokenized_sentence  \
0     [according, to, gran, the, company, has, no, p...   
1     [technopolis, plans, to, develop, in, stages, ...   
2     [the, international, electronic, industry, com...   
3     [with, the, new, production, plant, the, compa...   
4     [according, to, the, companys, updated, strate...   
...                                                 ...   
4841  [london, marketwatch, share, prices, ended, lo...   
4842  [rinkuskiais, beer, sales, fell, by, 65, per, ...   
4843  [operating, profit, fell, to, eur, 354, mn, fr...   
4844  [net, sales, of, the, paper, segment, decrease...   
4845  [sales, in, finland, decreased, by, 105, in, j...   

                                 no_stop_words_sentence  \
0     according gran company plans move production r...   
1     technopolis plans develop stages area less 100...   
2     international electronic industry company elco...   
3     new production plant company would increase ca...

In [9]:
from nltk.stem import PorterStemmer

# 어간 추출기 초기화
stemmer = PorterStemmer()

# 영어 텍스트 어간 추출 함수
def stem_text(text):
    words = word_tokenize(text)
    stemmed_words = [stemmer.stem(word) for word in words]
    return ' '.join(stemmed_words)

# 어간 추출 적용
df['stemmed_sentence'] = df['no_stop_words_sentence'].apply(stem_text)

# 결과를 확인하기 위해 일부 출력
print(df[['labels', 'stemmed_sentence']])

        labels                                   stemmed_sentence
0      neutral  accord gran compani plan move product russia a...
1      neutral  technopoli plan develop stage area less 100000...
2     negative  intern electron industri compani elcoteq laid ...
3     positive  new product plant compani would increas capac ...
4     positive  accord compani updat strategi year 20092012 ba...
...        ...                                                ...
4841  negative  london marketwatch share price end lower londo...
4842   neutral  rinkuskiai beer sale fell 65 per cent 416 mill...
4843  negative  oper profit fell eur 354 mn eur 688 mn 2007 in...
4844  negative  net sale paper segment decreas eur 2216 mn sec...
4845  negative  sale finland decreas 105 januari sale outsid f...

[4846 rows x 2 columns]


In [10]:
from nltk.stem import WordNetLemmatizer

# 표제어 추출기 초기화
lemmatizer = WordNetLemmatizer()

# 영어 텍스트 표제어 추출 함수
def lemmatize_text(text):
    words = word_tokenize(text)
    lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
    return ' '.join(lemmatized_words)

# 표제어 추출 적용
df['lemmatized_sentence'] = df['no_stop_words_sentence'].apply(lemmatize_text)

# 결과를 확인하기 위해 일부 출력
print(df[['labels', 'lemmatized_sentence']])

        labels                                lemmatized_sentence
0      neutral  according gran company plan move production ru...
1      neutral  technopolis plan develop stage area le 100000 ...
2     negative  international electronic industry company elco...
3     positive  new production plant company would increase ca...
4     positive  according company updated strategy year 200920...
...        ...                                                ...
4841  negative  london marketwatch share price ended lower lon...
4842   neutral  rinkuskiais beer sale fell 65 per cent 416 mil...
4843  negative  operating profit fell eur 354 mn eur 688 mn 20...
4844  negative  net sale paper segment decreased eur 2216 mn s...
4845  negative  sale finland decreased 105 january sale outsid...

[4846 rows x 2 columns]


In [11]:
df[:1]

Unnamed: 0,labels,sentence,kor_sentence,cleaned_sentence,cleaned_kor_sentence,tokenized_sentence,tokenized_kor_sentence,no_stop_words_sentence,no_stop_words_kor_sentence,stemmed_sentence,lemmatized_sentence
0,neutral,"According to Gran, the company has no plans to...","Gran에 따르면, 그 회사는 회사가 성장하고 있는 곳이지만, 모든 생산을 러시아로...",according to gran the company has no plans to ...,gran에 따르면 그 회사는 회사가 성장하고 있는 곳이지만 모든 생산을 러시아로 옮...,"[according, to, gran, the, company, has, no, p...","[gran에, 따르면, 그, 회사는, 회사가, 성장하고, 있는, 곳이지만, 모든, ...",according gran company plans move production r...,gran에 따르면 그 회사는 회사가 성장하고 있는 곳이지만 모든 생산을 러시아로 옮...,accord gran compani plan move product russia a...,according gran company plan move production ru...


In [12]:
# 결과를 CSV 파일로 저장
output_file_path = r'processed_finance_data.csv'

# 쓰기 권한 문제 방지를 위해 경로 확인 후 저장
try:
    df.to_csv(output_file_path, index=False)
    print(f"파일이 성공적으로 저장되었습니다: {output_file_path}")
except PermissionError:
    print(f"PermissionError: 파일을 저장할 수 없습니다. 경로를 확인하고 파일이 열려 있지 않은지 확인하세요: {output_file_path}")
except Exception as e:
    print(f"다른 오류가 발생했습니다: {e}")

파일이 성공적으로 저장되었습니다: processed_finance_data.csv
