<a href="https://colab.research.google.com/github/yamazakikeisuke/python_for_journalism/blob/main/Python_for_journalism.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Python for journalism用コード**

> 　膨大なデータから新たな知見や視点を発見するデータジャーナリズムは、近年、メディア業界で注目されている新たな手法の一つだ。国内のメディア企業がこのデータ報道に取り組んでおり、そういったプロジェクトへの着手を望む記者も多いと聞く。

>　そんな中で記者に前に立ちはだかるのが「プログラミング」という高い壁。PythonやRといった言語が分析には人気で、Rについては「R for Journalism」という英語の教材（ウェブサイト）があるが、Pythonについては見当たらず、「Pythonを勉強したいが記者向けの教材がない」、「プログラムのテキストを見ているだけでは続かない」という声をよく耳にする。

>　そこで、本稿ではまずPythonを扱う基礎を紹介する。その後、記事を書く上で必要な技術を中心にPythonのスキルを紹介し、最終的には、執筆した記事で活用した分析手法共有することで、どうやってアウトプットまで進めるのかをイメージしながらPythonを学んでいくことを狙っている。



１章．システムのバージョン確認

In [None]:
import sys
print(sys.version)

3.7.12 (default, Sep 10 2021, 00:21:48) 
[GCC 7.5.0]


２章．ファイルを読み込む

In [None]:
!wget  "https://drive.google.com/uc?export=download&id=1F-g17E2OfPweROelRgbCuNuuwNOB3GvT" -O police_data_201803.csv

In [None]:
import pandas as pd
df = pd.read_csv('police_data_201803.csv')  

In [None]:
df

In [None]:
#エクセルファイルをダウンロード
!wget  "https://drive.google.com/uc?export=download&id=1UciHm_BXyctWFNqBDnQ8WGfhTdY6w_lm" -O police_data_201803.xlsx

In [None]:
import pandas as pd
df_excel = pd.read_excel("police_data_201803.xlsx", sheet_name="Sheet1")

In [None]:
df_excel

３章．データを扱う

３－１．数値データを扱う

In [None]:
!wget  "https://drive.google.com/uc?export=download&id=1BEAIDHEgucF4aHAqTeWL0oXy9sWfNuaR" -O channels_report.csv

In [None]:
import pandas as pd
df = pd.read_csv('channels_report.csv')

① 何行、何列のデータか確認する

In [None]:
#列数，行数の順で表示される
df.shape

② 登録者数（subscriberCount）が多い順に並び替える

In [None]:
df.sort_values('subscriberCount', ascending=False)

③ 登録者数の平均、中央値を算出してみる

In [None]:
#平均を求める
df["subscriberCount"].mean()

3188.2761904761905

In [None]:
#中央値を求める
df["subscriberCount"].median()

117.0

④ 2021年とそれ以外の年に開設されたチャンネルの登録者数の平均を算出してみる

In [None]:
#２１年のデータに絞る
df_2021 = df[df["year"] == 2021]
#絞ったデータで平均を求める
df_2021["subscriberCount"].mean()

4626.13698630137

In [None]:
#２１年以外のデータに絞る
df_not_2021 = df[df["year"] != 2021]
#絞ったデータで平均を求める
df_not_2021["subscriberCount"].mean()

2754.5413223140495

⑤ 政党ごとのチャンネル数を表示

In [None]:
df["party"].value_counts()

⑥ 政党ごと(自民、立憲)の登録者数のランキング、平均、合計を表示

In [None]:
#自民党・候補者のチャンネル登録者数ランキング
df[df["party"] == "自民"].sort_values('subscriberCount', ascending=False)

In [None]:
#自民党・候補者のチャンネル登録者数の平均
df[df["party"] == "自民"]["subscriberCount"].mean()

In [None]:
#自民党・候補者のチャンネル登録者数の合計
df[df["party"] == "自民"]["subscriberCount"].sum()

In [None]:
#立憲・候補者のチャンネル登録者数ランキング
df[df["party"] == "立憲"].sort_values('subscriberCount', ascending=False)

In [None]:
#立憲・候補者のチャンネル登録者数の平均
df[df["party"] == "立憲"]["subscriberCount"].mean()

In [None]:
#立憲・候補者のチャンネル登録者数の合計
df[df["party"] == "立憲"]["subscriberCount"].sum()

３－２．テキストデータを扱う

In [None]:
!wget  "https://drive.google.com/uc?export=download&id=1F-g17E2OfPweROelRgbCuNuuwNOB3GvT" -O police_data_201803.csv

In [2]:
import pandas as pd
df = pd.read_csv('police_data_201803.csv')

① タイトルに「詐欺」と含まれるデータを抽出する

In [6]:
#タイトルに「詐欺」が絞まれるメールに絞る
df_sagi = df[df['配信表題'].str.contains("詐欺")]
#表示
df_sagi

② 品詞ごとに単語をカウントする

②-1 テキスト分析用ライブラリー「Ginza」のインストール

In [None]:
#分析用のライブラリーをインストールする
#!pip install sudachipy sudachidict_core
!pip install -U ginza https://github.com/megagonlabs/ginza/releases/download/latest/ja_ginza_electra-latest-with-model.tar.gz

※念のため、上部メニューの「ランタイム」＞「ランタイムを再起動」を実行

②-2 テキストを分かち書きしてみる

②-3 名詞を数えあげる 

全ての行を分かち書きし、新たな列として追加する

ワードクラウドを作成する

In [None]:
#フォントファイルを準備する
!apt-get -y install fonts-ipafont-gothic

In [6]:
import pandas as pd
import spacy
from wordcloud import WordCloud
import random

#テキストを分かち書きする関数
def TextToWakati(text, nlp):
   res_arr = []
   try:
      doc = nlp(text)
      for sent in doc.sents:
         for token in sent:
            #形容詞（ADJ）、動詞（VERB）、名詞（NOUN）、副詞（ADV）、固有名詞（PROPN）を対象に設定
            if (token.pos_ == "ADJ") or (token.pos_ == "VERB") or (token.pos_ == "NOUN") or (token.pos_ == "ADV") or (token.pos_ == "PROPN"):
               if not token.is_stop:
                  res_arr.append(token.lemma_)
   except:
      print(text)
   return res_arr

#分析ファイルの読み込み★１
df = pd.read_csv('police_data_201803.csv')
#詐欺に関するメールに対象を絞る★２
df = df[df['配信表題'].str.contains("詐欺")]
#それぞれのテキストを分かち書きしていく
nlp = spacy.load('ja_ginza_electra')
res_arr_all = []
#対象は「配信本文」という列★３
for t in df["配信本文"]:
   wt = TextToWakati(t, nlp)
   res_arr_all = res_arr_all + wt

random.shuffle(res_arr_all)
word_text = " ".join(res_arr_all)

#ワードクラウドを作成する
fpath = "/usr/share/fonts/truetype/fonts-japanese-gothic.ttf"
wordcloud = WordCloud(background_color="white", colormap="summer", font_path=fpath,collocations = False, width=600,height=400,min_font_size=12, prefer_horizontal=1)
wordcloud.generate(word_text)
#画像を保存 
wordcloud.to_file("./wordcloud.png")



<wordcloud.wordcloud.WordCloud at 0x7f9e46a59d50>

In [None]:
#完成した画像を表示する
from IPython.display import Image,display_png
display_png(Image('wordcloud.png'))