In [1]:
import pandas as pd
from tqdm import tqdm_notebook as tqdm

# Read Data

In [2]:
tweets = pd.read_csv('../data/tweets_open.csv', header=None)

In [3]:
with open('../data/tweets_sample.csv', 'r') as f:
    tweets_sentence = { float(line.split(', ')[0]) : ' '.join(line.split(', ')[1:]) for line in f.readlines()}

In [4]:
# Extract content available tweets

In [5]:
len(tweets_sentence)

69346

In [6]:
tweets.columns = ['id', 'genre', 'statusid', 'pn', 'p', 'n', 'neu', 'unk']

In [7]:
contents = []
pbar = tqdm(total=len(tweets))
for _, tweet in tweets.iterrows():
    status_id = tweet['statusid']
    
    try:
        content = tweets_sentence[status_id]
    except:
        content = 'None'
    contents.append(content)
    
    pbar.update(1)
pbar.close()




In [8]:
len(contents), len(tweets)

(534963, 534963)

In [9]:
tweets['content'] = contents

In [10]:
tweets = tweets[tweets['content']!='None']

In [11]:
len(tweets)

69346

# check num of records per genre

In [12]:
tweets.head()

Unnamed: 0,id,genre,statusid,pn,p,n,neu,unk,content
0,10025,10000,522407718091366400,0,0,1,1,0.0,エクスペリアのGPS南北が逆になるのはデフォだったのか。\n
2,10027,10000,522408018642628609,0,0,1,1,0.0,夏春都が持ってたエクスペリアも今使うには辛い\n
3,10028,10000,522408394871672832,0,0,0,1,0.0,ｴｸｽﾍﾟﾘｱZ3がよさそうねー\n
5,10030,10000,522408539814260736,0,1,0,0,0.0,Xperia Z3の純正walkmanアプリはalac対応するみたいだね 音楽周りは本当GO...
7,10032,10000,522409063154339840,0,0,0,1,0.0,少し時間空いちゃいましたが、Xperia Z3のカメラ機能について、ちょっとだけですけどまと...


In [13]:
f = open('../data/tweets_genre.txt', 'r')
genre = [int(line.split(', ')[0]) for line in f.readlines()]

In [14]:
for g in genre:
    tweet_genre = tweets[tweets['genre']==g]
    print(g, len(tweet_genre))

10000 54453
10001 11020
10002 3873
10020 0
10021 0
10022 0
10024 0
10025 0
10026 0


## genre 10000の製品の評判分類に取り込む

In [15]:
tweets = tweets[tweets['genre']==10000]

In [16]:
len(tweets)

54453

In [17]:
tweets

Unnamed: 0,id,genre,statusid,pn,p,n,neu,unk,content
0,10025,10000,522407718091366400,0,0,1,1,0.0,エクスペリアのGPS南北が逆になるのはデフォだったのか。\n
2,10027,10000,522408018642628609,0,0,1,1,0.0,夏春都が持ってたエクスペリアも今使うには辛い\n
3,10028,10000,522408394871672832,0,0,0,1,0.0,ｴｸｽﾍﾟﾘｱZ3がよさそうねー\n
5,10030,10000,522408539814260736,0,1,0,0,0.0,Xperia Z3の純正walkmanアプリはalac対応するみたいだね 音楽周りは本当GO...
7,10032,10000,522409063154339840,0,0,0,1,0.0,少し時間空いちゃいましたが、Xperia Z3のカメラ機能について、ちょっとだけですけどまと...
8,10033,10000,522409073057091584,0,0,0,0,1.0,日向「研磨おたおめー。これプレゼント!!」 孤爪「こ、これは」 日向「ビビった?」 孤爪「X...
10,10035,10000,522410191862525952,0,1,0,1,0.0,今ブログ記事書いてて しゃーくって打ったら 予測変換にSHARK 2nd Seasonて 出...
13,10038,10000,522411170183913472,0,1,0,0,0.0,#Xperia Z2にしてから、スケジュールストリートに登録する時にいちいち自分のGoogl...
14,10039,10000,522411307182477312,0,0,0,1,1.0,結局のところ、林檎房だったわ。Xperiaは、コンパクトタブレット買うから被るし\n
15,10040,10000,522411417584943104,0,0,0,0,1.0,もはやtablet Pは黒歴史なのかしら・・・？ #xperia #xperiajp\n


In [18]:
rows = []
for row, tweet in tweets.iterrows():
    pn = tweet['pn']
    p = tweet['p']
    n = tweet['n']
    neu = tweet['neu']
    unk = tweet['unk']
    if pn + p + n+ neu + unk >=2:
        rows.append(row)

In [19]:
len(rows)

3365

In [20]:
print('before:', len(tweets))
tweets = tweets.drop(rows)
print('after:', len(tweets))

before: 54453
after: 51088


In [21]:
tweets.head()

Unnamed: 0,id,genre,statusid,pn,p,n,neu,unk,content
3,10028,10000,522408394871672832,0,0,0,1,0.0,ｴｸｽﾍﾟﾘｱZ3がよさそうねー\n
5,10030,10000,522408539814260736,0,1,0,0,0.0,Xperia Z3の純正walkmanアプリはalac対応するみたいだね 音楽周りは本当GO...
7,10032,10000,522409063154339840,0,0,0,1,0.0,少し時間空いちゃいましたが、Xperia Z3のカメラ機能について、ちょっとだけですけどまと...
8,10033,10000,522409073057091584,0,0,0,0,1.0,日向「研磨おたおめー。これプレゼント!!」 孤爪「こ、これは」 日向「ビビった?」 孤爪「X...
13,10038,10000,522411170183913472,0,1,0,0,0.0,#Xperia Z2にしてから、スケジュールストリートに登録する時にいちいち自分のGoogl...


In [22]:
sum(tweets['pn'].values), sum(tweets['p'].values), sum(tweets['n'].values), sum(tweets['neu'].values), sum(tweets['unk'].values)

(262, 3028, 5174, 31492, 11132.0)

In [23]:
sum(tweets['pn'].values) +sum(tweets['p'].values) +sum(tweets['n'].values)+sum(tweets['neu'].values)+sum(tweets['unk'].values)

51088.0

In [None]:
tweets.to_csv('../data/tweets_modified_sample.csv')