<a href="https://colab.research.google.com/github/takays/sentiment-analysis/blob/main/sentiment_dic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 辞書単語のスコアをもとに文章のポジネガを計算するプログラム(Sudachi使用)

#### Google Driveマウント & データフォルダ設定 & ライブラリ設定

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!pip install sudachipy sudachidict_core

#### テキスト分析

In [None]:
import pandas as pd
import re
from sudachipy import tokenizer, dictionary

# Sudachiの初期設定
tokenizer_obj = dictionary.Dictionary().create()
mode = tokenizer.Tokenizer.SplitMode.C
MAX_TEXT_LENGTH = 10000  # 適切な分割サイズを設定

# 単語リストを読み込む関数
def load_word_list(word_list_csv):
    df = pd.read_csv(word_list_csv)
    word_list = df[['word', 'score']].set_index('word').to_dict()['score']
    return word_list

# テキストの前処理関数
def preprocess_text(text):
    # テキストの先頭の一文字を削除
    text = text[1:]
    # 【】で囲まれた部分を削除
    text = re.sub(r'【.*?】', '', text)
    return text

# テキストを最大長に分割
def chunk_text(text, max_length):
    return [text[i:i+max_length] for i in range(0, len(text), max_length)]

# Sudachiを使用してテキストを形態素解析し、単語の出現回数をカウント
def analyze_text(text, word_list):
    word_count = {}
    chunks = chunk_text(text, MAX_TEXT_LENGTH)
    for chunk in chunks:
        tokens = tokenizer_obj.tokenize(chunk, mode)
        for token in tokens:
            word = token.surface()
            if word in word_list:
                if word in word_count:
                    word_count[word] += 1
                else:
                    word_count[word] = 1
    return word_count

def analyze_line_by_line(text, word_list):
    word_count = {}
    lines = text.split('\n')
    for line in lines:
        line = preprocess_text(line)
        #print(line)
        line_word_count = analyze_text(line, word_list)
        for word, count in line_word_count.items():
            if word in word_count:
                word_count[word] += count
            else:
                word_count[word] = count
    return word_count

# カウントされた単語の出現回数に基づいて、正の単語数とスコア、負の単語数とスコアを計算
def calculate_scores(word_count, word_list):
    pos_count = neg_count = pos_score = neg_score = 0
    for word, count in word_count.items():
        score = word_list[word] * count
        if score > 0:
            pos_count += count
            pos_score += score
        elif score < 0:
            neg_count += count
            neg_score += score
    total_score = pos_score + neg_score
    return pos_count, pos_score, neg_count, neg_score, total_score

def main(word_list_csv, text_csv, output_csv):
    word_list = load_word_list(word_list_csv)
    df = pd.read_csv(text_csv)

    results = []
    for i, row in enumerate(df.iterrows()):
        row_data = row[1]
        text = row_data[5]
        word_count = analyze_line_by_line(text, word_list)
        pos_count, pos_score, neg_count, neg_score, total_score = calculate_scores(word_count, word_list)
        results.append([
            row_data[0], row_data[1], row_data[2], row_data[3], row_data[4], row_data[6], row_data[7],
            pos_count, pos_score, neg_count, neg_score, total_score
        ])
        if i % 100 == 0:
            print(f"Processing row {i}")
            #break

    result_df = pd.DataFrame(results, columns=[
        'name', 'ticker', 'nkcode', '報告日', '決算日', 'year', 'month',
        '正の単語数', '正のスコア合計', '負の単語数', '負のスコア合計', 'スコア合計'
    ])
    result_df.to_csv(output_csv, index=False)
    print(f"Results saved to {output_csv}")

#### 実行

In [None]:
# CSVファイルのパスを指定
word_list_csv = 'polarity_dic_News.csv'  # 単語リストとスコアを含むCSVファイル
text_csv = 'MDA_DataSet_2014_2022_TSE1.csv'  # テキストを含むCSVファイル
output_csv = 'MDA_DataSet_2014_2022_TSE1_dic.csv'  # 結果を保存するCSVファイル

# メイン処理を実行
main(word_list_csv, text_csv, output_csv)