from corpy.collector.tweetCollector import StreamCollector
if __name__ == '__main__':
tw = StreamCollector()
tw.getStream(30)
581871800952365056 また明日 1
581871800969273344 ARISEGAOGAO 1
581871800969273344 じんたん 1
581871800969273344 する 1
581871800969273344 バカ 1
581871800956690433 TEIRUMERURUSUZUSUZ 1
581871800956690433 ない 2
581871800956690433 もう 1
581871805146656769 ファボ 1
581871805146656769 人 1
581871805146656769 暇 1
581871809349324800 DE 1
581871809349324800 やる 1
581871809349324800 エイプリルフール 1
581871809349324800 シンデレラ 1
581871809349324800 ダイス 1
581871809349324800 段 1
581871809349324800 近い 1
581871809340952576 やる 1
581884102858522625 2421580586 peperon_ikkun 97 Sat Mar 28 18:22:35 +0000 2015 0 0 None None
581884107057074176 1147609092 masatomokotoe 429 Sat Mar 28 18:22:36 +0000 2015 0 0 None None
581884111234560000 170152732 skagao 1977 Sat Mar 28 18:22:37 +0000 2015 0 0 None None
581884111234600960 2886634915 0730y17Exile 396 Sat Mar 28 18:22:37 +0000 2015 0 0 None None
581884111242952704 3000863372 DN_ai_ 34 Sat Mar 28 18:22:37 +0000 2015 0 0 None None
581884111226298368 601573382 BOW_tackey 0 Sat Mar 28 18:22:37 +0000 2015 0 0 None None
581884115458240512 2682213049 natsumi_kj8love 380 Sat Mar 28 18:22:38 +0000 2015 0 0 None None
from corpy.utils.textParser import TextParser
import pandas as pd
if __name__ == "__main__":
t = TextParser()
text = '''
硝子戸ガラスどの中うちから外を見渡すと、霜除しもよけをした芭蕉ばしょうだの、赤い実みの結なった梅もどきの枝だの、無遠慮に直立した電信柱だのがすぐ眼に着くが、その他にこれと云って数え立てるほどのものはほとんど視線に入って来こない。書斎にいる私の眼界は極きわめて単調でそうしてまた極めて狭いのである。
その上私は去年の暮から風邪かぜを引いてほとんど表へ出ずに、毎日この硝子戸の中にばかり坐すわっているので、世間の様子はちっとも分らない。心持が悪いから読書もあまりしない。私はただ坐ったり寝たりしてその日その日を送っているだけである。
しかし私の頭は時々動く。気分も多少は変る。いくら狭い世界の中でも狭いなりに事件が起って来る。それから小さい私と広い世の中とを隔離しているこの硝子戸の中へ、時々人が入って来くる。それがまた私にとっては思いがけない人で、私の思いがけない事を云ったり為したりする。私は興味に充みちた眼をもってそれらの人を迎えたり送ったりした事さえある。
私はそんなものを少し書きつづけて見ようかと思う。私はそうした種類の文字もんじが、忙がしい人の眼に、どれほどつまらなく映るだろうかと懸念けねんしている。私は電車の中でポッケットから新聞を出して、大きな活字だけに眼を注そそいでいる購読者の前に、私の書くような閑散な文字を列ならべて紙面をうずめて見せるのを恥ずかしいものの一つに考える。これらの人々は火事や、泥棒や、人殺しや、すべてその日その日の出来事のうちで、自分が重大と思う事件か、もしくは自分の神経を相当に刺戟しげきし得る辛辣しんらつな記事のほかには、新聞を手に取る必要を認めていないくらい、時間に余裕をもたないのだから。――彼らは停留所で電車を待ち合わせる間に、新聞を買って、電車に乗っている間に、昨日きのう起った社会の変化を知って、そうして役所か会社へ行き着くと同時に、ポッケットに収めた新聞紙の事はまるで忘れてしまわなければならないほど忙がしいのだから。
私は今これほど切りつめられた時間しか自由にできない人達の軽蔑けいべつを冒おかして書くのである。
去年から欧洲では大きな戦争が始まっている。そうしてその戦争がいつ済むとも見当けんとうがつかない模様である。日本でもその戦争の一小部分を引き受けた。それが済むと今度は議会が解散になった。来きたるべき総選挙は政治界の人々にとっての大切な問題になっている。米が安くなり過ぎた結果農家に金が入らないので、どこでも不景気だと零こぼしている。年中行事で云えば、春の相撲すもうが近くに始まろうとしている。要するに世の中は大変多事である。硝子戸の中にじっと坐っている私なぞはちょっと新聞に顔が出せないような気がする。私が書けば政治家や軍人や実業家や相撲狂すもうきょうを押おし退のけて書く事になる。私だけではとてもそれほどの胆力が出て来ない。ただ春に何か書いて見ろと云われたから、自分以外にあまり関係のないつまらぬ事を書くのである。それがいつまでつづくかは、私の筆の都合つごうと、紙面の編輯へんしゅうの都合とできまるのだから、判然はっきりした見当は今つきかねる。
'''
bow = t.parseToBow(text)
print(bow)
# {'しゅう': 1,
# 'じっと': 1,
# '多少': 1,
# 'しげい': 1,
# '辛辣': 1,
# 'ちょっと': 1,
# '赤い': 1,
# '取る': 1,
# '部分': 1,
# 'とても': 1,
# '事件': 2,
# '余裕': 1,
# '記事': 1,
# '視線': 1,
# '彼ら': 1,
# '種類': 1,
# '忘れる': 1,
# '安い': 1,
# '判然': 1,
# '以外': 1,
# '電信柱': 1,
# '興味': 1,
# '送る': 2,
# '分る': 1,
# '硝子': 1,
# '隔離': 1,
# 'した': 2,
# '風邪': 1,
# '事': 5,
# 'こぼす': 1,
# '行き着く': 1,
# '大変': 1,
# '変化': 1,
# 'もつ': 2,
# '入る': 3,
# '暮': 1,
# '結': 1,
# '今度': 1,
# '相撲': 2,
# '欧': 1,
# 'ある': 1,
# 'それ': 4,
# 'すぐ': 1,
# '引く': 1,
# '狂': 1,
# 'うち': 2,
# '済む': 2,
# '何': 1,
# 'もの': 3,
# '編輯': 1,
# 'すべて': 1,
# '始まる': 2,
# '人々': 2,
# '気': 1,
# '思いがけない': 2,
# '少し': 1,
# '読書': 1,
# '政治': 1,
# '間': 2,
# '泥棒': 1,
# '必要': 1,
# 'ガラス': 1,
# '自由': 1,
# '自分': 3,
# '世の中': 2,
# '新聞紙': 1,
# '議会': 1,
# '世間': 1,
# '広い': 1,
# '頭': 1,
# '外': 1,
# '枝': 1,
# '神経': 1,
# '心持': 1,
# '知る': 1,
# 'つまらない': 1,
# '恥ずかしい': 1,
# 'もどき': 1,
# 'また': 1,
# '乗る': 1,
# '人達': 1,
# '問題': 1,
# '紙面': 2,
# '時間': 2,
# '都合': 2,
# '総選挙': 1,
# '電車': 3,
# '人': 4,
# '手': 1,
# '去年': 2,
# '文字': 2,
# '多事': 1,
# '考える': 1,
# '列': 1,
# '変る': 1,
# 'いつ': 2,
# 'つぐ': 1,
# '坐す': 1,
# '極めて': 1,
# '見渡す': 1,
# 'わっ': 1,
# 'ない': 1,
# '認める': 1,
# '日': 4,
# '退る': 1,
# '数え立てる': 1,
# '戦争': 3,
# 'かぜ': 1,
# '気分': 1,
# '梅': 1,
# '日本': 1,
# '様子': 1,
# '極': 1,
# 'うずめる': 1,
# '思う': 2,
# '狭い': 3,
# '無遠慮': 1,
# 'どれほど~': 1,
# '中': 3,
# 'けいべつ': 1,
# 'そぐ': 1,
# '会社': 1,
# 'きまる': 1,
# 'まるで': 1,
# '迎える': 1,
# '為す': 1,
# '出来事': 1,
# '金': 1,
# 'きのう': 1,
# 'はっきり': 1,
# '農家': 1,
# 'みちる': 1,
# '出せる': 1,
# '火事': 1,
# '要するに': 1,
# 'みの': 1,
# 'つづく': 1,
# 'どこ': 1,
# '重大': 1,
# '世界': 1,
# '芭蕉': 1,
# '結果': 1,
# '映る': 1,
# '単調': 1,
# '前': 1,
# 'すもう': 2,
# '同時に': 1,
# '界': 1,
# '家': 1,
# '霜': 1,
# '押': 1,
# 'ちっとも': 1,
# '今': 2,
# 'ける': 1,
# '充': 1,
# '動く': 1,
# 'おかす': 1,
# '米': 1,
# 'これ': 2,
# '不景気': 1,
# '*': 5,
# 'つく': 2,
# '見当': 2,
# '直立': 1,
# '出る': 2,
# 'それら': 1,
# '閑散': 1,
# 'いる': 1,
# 'できる': 1,
# 'よう': 2,
# '関係': 1,
# 'ほとんど': 2,
# '一つ': 1,
# '相当': 1,
# '云う': 4,
# 'あまり': 2,
# '懸念': 1,
# '表': 1,
# 'きょう': 1,
# 'しょう': 1,
# '胆力': 1,
# 'いくら': 1,
# '注す': 1,
# '待ち合わせる': 1,
# '収める': 1,
# '上': 1,
# 'なる': 5,
# 'つまる': 1,
# '起る': 2,
# '軽蔑': 1,
# '来る': 1,
# '停留所': 1,
# '見る': 2,
# 'おし': 1,
# '社会': 1,
# '模様': 1,
# '書斎': 1,
# '着く': 1,
# '政治家': 1,
# '眼界': 1,
# 'しいる': 1,
# '実業': 1,
# '除': 1,
# 'きわめて': 1,
# '硝子戸の中': 3,
# 'とう': 1,
# 'ならべる': 1,
# '解散': 1,
# 'きたる': 1,
# '坐る': 2,
# '戸': 1,
# '切りつめる': 1,
# 'これら': 1,
# '購読者': 1,
# '大切': 1,
# '小さい': 1,
# 'ほか': 1,
# '眼': 4,
# '悪い': 1,
# '近く': 1,
# '私': 17,
# '人殺し': 1,
# '見せる': 1,
# '刺戟': 1,
# 'それほど': 1,
# '昨日': 1,
# '洲': 1,
# '春': 1,
# '年中行事': 1,
# '新聞': 4,
# '役所': 1,
# 'の': 8,
# '春に': 1,
# '寝る': 1,
# '時々': 2,
# 'する': 10,
# '活字': 1,
# '出す': 1,
# '軍人': 1,
# 'して': 1,
# 'もむ': 1,
# '書く': 7,
# 'その他': 1,
# '引き受ける': 1,
# 'しんらつ': 1,
# '筆': 1,
# '毎日': 1,
# '顔': 1,
# '買う': 1}
<<<<<<< HEAD
=======
>>>>>>> 257d82be09f5d1e43d8b1f6e64fa84b58c9fea10