In [44]:
import pandas as pd
import numpy as np

In [45]:
import json
import codecs

def load_json(file_name):
    with open(file_name, "r", encoding='utf8') as file:
        data = json.load(file)
    return data

In [46]:
data1 = load_json("data/comments_topic1.json")
data2 = load_json("data/comments_topic2.json")
print("the size of the data1:", len(data1))
print("the size of the data2:", len(data2))

the size of the data1: 124
the size of the data2: 20


In [47]:
topic1 = "Miten läheisen kuolemaan liittyvästä asioinnista voisi tehdä helpompaa?"
topic2 = "Mitä mieltä Suomi?"

## Translating the text

In [48]:
from googletrans import Translator

def translate(str):
    translator = Translator()
    trans_text = translator.translate(str, lang_tgt='en')
    return trans_text.text

In [49]:
topic1_en = translate(topic1)
print(topic1_en)
topic2_en = translate(topic2)
print(topic2_en)

How could dealings related to the death of a loved one be made easier?
What does Finland think?


In [50]:
df1 = pd.DataFrame(data1)
df1['topic'] = topic1
df1['topic_en'] = topic1_en
df2 = pd.DataFrame(data2)
df2['topic'] = topic2
df2['topic_en'] = topic2_en

In [51]:
df = pd.concat([df1, df2], ignore_index=True)
df['is_seed'] = df['is_seed'].astype(int)
df['is_meta'] = df['is_meta'].astype(int)
df.head()

Unnamed: 0,txt,tid,created,tweet_id,quote_src_url,is_seed,is_meta,lang,pid,velocity,mod,active,agree_count,disagree_count,pass_count,count,conversation_id,topic,topic_en
0,Taustaväittämä: Olen yli 70-vuotias.,0,1730459323436,,,1,1,fi,0,1,1,True,26,329,21,376,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
1,Taustaväittämä: Asun lähellä monipuolisia palv...,1,1730459326181,,,1,1,fi,0,1,1,True,266,64,47,377,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
2,Taustaväittämä: Olen taitava käyttämään digita...,2,1730459334376,,,1,1,fi,0,1,1,True,306,24,53,383,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
3,Taustaväittämä: Minulla on paljon kokemusta ed...,3,1730459344879,,,1,1,fi,0,1,1,True,205,115,50,370,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
4,Julkisella puolella on ei ole rahaa tarjota si...,4,1730459375795,,,1,0,fi,0,1,1,True,110,18,157,285,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...


In [52]:
# removing the "Taustaväittämä:"
df['txt'] = df['txt'].str.replace('Taustaväittämä:', '', regex=False)
df

Unnamed: 0,txt,tid,created,tweet_id,quote_src_url,is_seed,is_meta,lang,pid,velocity,mod,active,agree_count,disagree_count,pass_count,count,conversation_id,topic,topic_en
0,Olen yli 70-vuotias.,0,1730459323436,,,1,1,fi,0,1,1,True,26,329,21,376,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
1,Asun lähellä monipuolisia palveluja.,1,1730459326181,,,1,1,fi,0,1,1,True,266,64,47,377,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
2,Olen taitava käyttämään digitaalisia palveluita.,2,1730459334376,,,1,1,fi,0,1,1,True,306,24,53,383,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
3,Minulla on paljon kokemusta edesmenneen omais...,3,1730459344879,,,1,1,fi,0,1,1,True,205,115,50,370,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
4,Julkisella puolella on ei ole rahaa tarjota si...,4,1730459375795,,,1,0,fi,0,1,1,True,110,18,157,285,8sr6bhp8kr,Miten läheisen kuolemaan liittyvästä asioinnis...,How could dealings related to the death of a l...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
139,Ylikulutukseen perustuvaa talousjärjestelmäämm...,16,1731105967831,,,1,0,fi,0,5,5,True,153,42,195,390,8sr6bhp8kr,Mitä mieltä Suomi?,What does Finland think?
140,Ruotsin jengirikollisuus tulee myös Suomeen mu...,17,1731105967831,,,1,0,fi,0,3,5,True,181,27,147,355,8sr6bhp8kr,Mitä mieltä Suomi?,What does Finland think?
141,Valtion pitää panostaa taloudellisesti nuorten...,18,1731105967831,,,1,0,fi,0,2,4,True,147,25,154,326,8sr6bhp8kr,Mitä mieltä Suomi?,What does Finland think?
142,"Kännyköiden käytöstä on päätettävä kouluissa, ...",19,1731105967831,,,0,0,fi,0,1,3,True,51,13,155,219,8sr6bhp8kr,Mitä mieltä Suomi?,What does Finland think?


In [53]:
df.columns

Index(['txt', 'tid', 'created', 'tweet_id', 'quote_src_url', 'is_seed',
       'is_meta', 'lang', 'pid', 'velocity', 'mod', 'active', 'agree_count',
       'disagree_count', 'pass_count', 'count', 'conversation_id', 'topic',
       'topic_en'],
      dtype='object')

In [54]:
df['lang'].value_counts()
# all the comments are in finnish

lang
fi    144
Name: count, dtype: int64

In [55]:
df['txt_en'] = df['txt'].apply(lambda x: translate(x))
df.drop(columns=['tid', 'created', 'tweet_id', 'quote_src_url', 'lang', 'pid', 'velocity', 'mod', 'active', 'conversation_id'], inplace=True)

In [77]:
# pd.set_option('display.width', None)
# pd.set_option('display.max_rows', None)
# pd.set_option('display.max_columns', None)

pd.reset_option('display.max_rows')

In [79]:
df = df[['topic', 'topic_en', 'txt', 'txt_en', 'is_seed', 'is_meta', 'agree_count', 'disagree_count',
       'pass_count', 'count']]
df.to_csv('data/topics_google_two.csv')