Skip to content
This repository has been archived by the owner on Oct 13, 2019. It is now read-only.

piroyoung/corpy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

from corpy.collector.tweetCollector import StreamCollector

if __name__ == '__main__':
    tw = StreamCollector()
    tw.getStream(30)
581871800952365056      また明日        1
581871800969273344      ARISEGAOGAO     1
581871800969273344      じんたん        1
581871800969273344      する    1
581871800969273344      バカ    1
581871800956690433      TEIRUMERURUSUZUSUZ      1
581871800956690433      ない    2
581871800956690433      もう    1
581871805146656769      ファボ  1
581871805146656769      人      1
581871805146656769      暇      1
581871809349324800      DE      1
581871809349324800      やる    1
581871809349324800      エイプリルフール        1
581871809349324800      シンデレラ      1
581871809349324800      ダイス  1
581871809349324800      段      1
581871809349324800      近い    1
581871809340952576      やる    1
581884102858522625	2421580586	peperon_ikkun	97	Sat Mar 28 18:22:35 +0000 2015	0	0	None	None
581884107057074176	1147609092	masatomokotoe	429	Sat Mar 28 18:22:36 +0000 2015	0	0	None	None
581884111234560000	170152732	skagao	1977	Sat Mar 28 18:22:37 +0000 2015	0	0	None	None
581884111234600960	2886634915	0730y17Exile	396	Sat Mar 28 18:22:37 +0000 2015	0	0	None	None
581884111242952704	3000863372	DN_ai_	34	Sat Mar 28 18:22:37 +0000 2015	0	0	None	None
581884111226298368	601573382	BOW_tackey	0	Sat Mar 28 18:22:37 +0000 2015	0	0	None	None
581884115458240512	2682213049	natsumi_kj8love	380	Sat Mar 28 18:22:38 +0000 2015	0	0	None	None


from corpy.utils.textParser import TextParser
import pandas as pd

if __name__ == "__main__":

    t = TextParser()
    text = '''
硝子戸ガラスどの中うちから外を見渡すと、霜除しもよけをした芭蕉ばしょうだの、赤い実みの結なった梅もどきの枝だの、無遠慮に直立した電信柱だのがすぐ眼に着くが、その他にこれと云って数え立てるほどのものはほとんど視線に入って来こない。書斎にいる私の眼界は極きわめて単調でそうしてまた極めて狭いのである。
 その上私は去年の暮から風邪かぜを引いてほとんど表へ出ずに、毎日この硝子戸の中にばかり坐すわっているので、世間の様子はちっとも分らない。心持が悪いから読書もあまりしない。私はただ坐ったり寝たりしてその日その日を送っているだけである。
 しかし私の頭は時々動く。気分も多少は変る。いくら狭い世界の中でも狭いなりに事件が起って来る。それから小さい私と広い世の中とを隔離しているこの硝子戸の中へ、時々人が入って来くる。それがまた私にとっては思いがけない人で、私の思いがけない事を云ったり為したりする。私は興味に充みちた眼をもってそれらの人を迎えたり送ったりした事さえある。
 私はそんなものを少し書きつづけて見ようかと思う。私はそうした種類の文字もんじが、忙がしい人の眼に、どれほどつまらなく映るだろうかと懸念けねんしている。私は電車の中でポッケットから新聞を出して、大きな活字だけに眼を注そそいでいる購読者の前に、私の書くような閑散な文字を列ならべて紙面をうずめて見せるのを恥ずかしいものの一つに考える。これらの人々は火事や、泥棒や、人殺しや、すべてその日その日の出来事のうちで、自分が重大と思う事件か、もしくは自分の神経を相当に刺戟しげきし得る辛辣しんらつな記事のほかには、新聞を手に取る必要を認めていないくらい、時間に余裕をもたないのだから。――彼らは停留所で電車を待ち合わせる間に、新聞を買って、電車に乗っている間に、昨日きのう起った社会の変化を知って、そうして役所か会社へ行き着くと同時に、ポッケットに収めた新聞紙の事はまるで忘れてしまわなければならないほど忙がしいのだから。
 私は今これほど切りつめられた時間しか自由にできない人達の軽蔑けいべつを冒おかして書くのである。
 去年から欧洲では大きな戦争が始まっている。そうしてその戦争がいつ済むとも見当けんとうがつかない模様である。日本でもその戦争の一小部分を引き受けた。それが済むと今度は議会が解散になった。来きたるべき総選挙は政治界の人々にとっての大切な問題になっている。米が安くなり過ぎた結果農家に金が入らないので、どこでも不景気だと零こぼしている。年中行事で云えば、春の相撲すもうが近くに始まろうとしている。要するに世の中は大変多事である。硝子戸の中にじっと坐っている私なぞはちょっと新聞に顔が出せないような気がする。私が書けば政治家や軍人や実業家や相撲狂すもうきょうを押おし退のけて書く事になる。私だけではとてもそれほどの胆力が出て来ない。ただ春に何か書いて見ろと云われたから、自分以外にあまり関係のないつまらぬ事を書くのである。それがいつまでつづくかは、私の筆の都合つごうと、紙面の編輯へんしゅうの都合とできまるのだから、判然はっきりした見当は今つきかねる。
        '''

    bow = t.parseToBow(text)
    print(bow)
# {'しゅう': 1, 
    #  'じっと': 1, 
    #  '多少': 1, 
    #  'しげい': 1, 
    #  '辛辣': 1, 
    #  'ちょっと': 1, 
    #  '赤い': 1, 
    #  '取る': 1, 
    #  '部分': 1, 
    #  'とても': 1, 
    #  '事件': 2, 
    #  '余裕': 1, 
    #  '記事': 1, 
    #  '視線': 1, 
    #  '彼ら': 1, 
    #  '種類': 1, 
    #  '忘れる': 1, 
    #  '安い': 1, 
    #  '判然': 1, 
    #  '以外': 1, 
    #  '電信柱': 1, 
    #  '興味': 1, 
    #  '送る': 2, 
    #  '分る': 1, 
    #  '硝子': 1, 
    #  '隔離': 1, 
    #  'した': 2, 
    #  '風邪': 1, 
    #  '事': 5, 
    #  'こぼす': 1, 
    #  '行き着く': 1, 
    #  '大変': 1, 
    #  '変化': 1, 
    #  'もつ': 2, 
    #  '入る': 3, 
    #  '暮': 1, 
    #  '結': 1, 
    #  '今度': 1, 
    #  '相撲': 2, 
    #  '欧': 1, 
    #  'ある': 1, 
    #  'それ': 4, 
    #  'すぐ': 1, 
    #  '引く': 1, 
    #  '狂': 1, 
    #  'うち': 2, 
    #  '済む': 2, 
    #  '何': 1, 
    #  'もの': 3, 
    #  '編輯': 1, 
    #  'すべて': 1, 
    #  '始まる': 2, 
    #  '人々': 2, 
    #  '気': 1, 
    #  '思いがけない': 2, 
    #  '少し': 1, 
    #  '読書': 1, 
    #  '政治': 1, 
    #  '間': 2, 
    #  '泥棒': 1, 
    #  '必要': 1, 
    #  'ガラス': 1, 
    #  '自由': 1, 
    #  '自分': 3, 
    #  '世の中': 2, 
    #  '新聞紙': 1, 
    #  '議会': 1, 
    #  '世間': 1, 
    #  '広い': 1, 
    #  '頭': 1, 
    #  '外': 1, 
    #  '枝': 1, 
    #  '神経': 1, 
    #  '心持': 1, 
    #  '知る': 1, 
    #  'つまらない': 1, 
    #  '恥ずかしい': 1, 
    #  'もどき': 1, 
    #  'また': 1, 
    #  '乗る': 1, 
    #  '人達': 1, 
    #  '問題': 1, 
    #  '紙面': 2, 
    #  '時間': 2, 
    #  '都合': 2, 
    #  '総選挙': 1, 
    #  '電車': 3, 
    #  '人': 4, 
    #  '手': 1, 
    #  '去年': 2, 
    #  '文字': 2, 
    #  '多事': 1, 
    #  '考える': 1, 
    #  '列': 1, 
    #  '変る': 1, 
    #  'いつ': 2, 
    #  'つぐ': 1, 
    #  '坐す': 1, 
    #  '極めて': 1, 
    #  '見渡す': 1, 
    #  'わっ': 1, 
    #  'ない': 1, 
    #  '認める': 1, 
    #  '日': 4, 
    #  '退る': 1, 
    #  '数え立てる': 1, 
    #  '戦争': 3, 
    #  'かぜ': 1, 
    #  '気分': 1, 
    #  '梅': 1, 
    #  '日本': 1, 
    #  '様子': 1, 
    #  '極': 1, 
    #  'うずめる': 1, 
    #  '思う': 2, 
    #  '狭い': 3, 
    #  '無遠慮': 1, 
    #  'どれほど~': 1, 
    #  '中': 3, 
    #  'けいべつ': 1, 
    #  'そぐ': 1, 
    #  '会社': 1, 
    #  'きまる': 1, 
    #  'まるで': 1, 
    #  '迎える': 1, 
    #  '為す': 1, 
    #  '出来事': 1, 
    #  '金': 1, 
    #  'きのう': 1, 
    #  'はっきり': 1, 
    #  '農家': 1, 
    #  'みちる': 1, 
    #  '出せる': 1, 
    #  '火事': 1, 
    #  '要するに': 1, 
    #  'みの': 1, 
    #  'つづく': 1, 
    #  'どこ': 1, 
    #  '重大': 1, 
    #  '世界': 1, 
    #  '芭蕉': 1, 
    #  '結果': 1, 
    #  '映る': 1, 
    #  '単調': 1, 
    #  '前': 1, 
    #  'すもう': 2, 
    #  '同時に': 1, 
    #  '界': 1, 
    #  '家': 1, 
    #  '霜': 1, 
    #  '押': 1, 
    #  'ちっとも': 1, 
    #  '今': 2, 
    #  'ける': 1, 
    #  '充': 1, 
    #  '動く': 1, 
    #  'おかす': 1, 
    #  '米': 1, 
    #  'これ': 2, 
    #  '不景気': 1, 
    #  '*': 5, 
    #  'つく': 2, 
    #  '見当': 2, 
    #  '直立': 1, 
    #  '出る': 2, 
    #  'それら': 1, 
    #  '閑散': 1, 
    #  'いる': 1, 
    #  'できる': 1, 
    #  'よう': 2, 
    #  '関係': 1, 
    #  'ほとんど': 2, 
    #  '一つ': 1, 
    #  '相当': 1, 
    #  '云う': 4, 
    #  'あまり': 2, 
    #  '懸念': 1, 
    #  '表': 1, 
    #  'きょう': 1, 
    #  'しょう': 1, 
    #  '胆力': 1, 
    #  'いくら': 1, 
    #  '注す': 1, 
    #  '待ち合わせる': 1, 
    #  '収める': 1, 
    #  '上': 1, 
    #  'なる': 5, 
    #  'つまる': 1, 
    #  '起る': 2, 
    #  '軽蔑': 1, 
    #  '来る': 1, 
    #  '停留所': 1, 
    #  '見る': 2, 
    #  'おし': 1, 
    #  '社会': 1, 
    #  '模様': 1, 
    #  '書斎': 1, 
    #  '着く': 1, 
    #  '政治家': 1, 
    #  '眼界': 1, 
    #  'しいる': 1, 
    #  '実業': 1, 
    #  '除': 1, 
    #  'きわめて': 1, 
    #  '硝子戸の中': 3, 
    #  'とう': 1, 
    #  'ならべる': 1, 
    #  '解散': 1, 
    #  'きたる': 1, 
    #  '坐る': 2, 
    #  '戸': 1, 
    #  '切りつめる': 1, 
    #  'これら': 1, 
    #  '購読者': 1, 
    #  '大切': 1, 
    #  '小さい': 1, 
    #  'ほか': 1, 
    #  '眼': 4, 
    #  '悪い': 1, 
    #  '近く': 1, 
    #  '私': 17, 
    #  '人殺し': 1, 
    #  '見せる': 1, 
    #  '刺戟': 1, 
    #  'それほど': 1, 
    #  '昨日': 1, 
    #  '洲': 1, 
    #  '春': 1, 
    #  '年中行事': 1, 
    #  '新聞': 4, 
    #  '役所': 1, 
    #  'の': 8, 
    #  '春に': 1, 
    #  '寝る': 1, 
    #  '時々': 2, 
    #  'する': 10, 
    #  '活字': 1, 
    #  '出す': 1, 
    #  '軍人': 1, 
    #  'して': 1, 
    #  'もむ': 1, 
    #  '書く': 7, 
    #  'その他': 1, 
    #  '引き受ける': 1, 
    #  'しんらつ': 1, 
    #  '筆': 1, 
    #  '毎日': 1, 
    #  '顔': 1, 
    #  '買う': 1}

<<<<<<< HEAD

=======

>>>>>>> 257d82be09f5d1e43d8b1f6e64fa84b58c9fea10

Releases

No releases published

Packages

No packages published

Languages