# Google Colab版「First Python Notebook」

update: Mar12, 2021


## 0) これは何？


[First Python Notebook](https://www.firstpythonnotebook.org/) の Google Colabolatory 版として、そのまま手順を追ってみたもの。環境構築でつまずきそうで気後れする人も、Colab なら大丈夫なのでは？ というココロ。もちろん、非公式。私自身の復習も兼ねているので、お使いの方は、お手数でもご自分のドライブにコピーして、そちらを触ってほしい。

やっているのは、米カリフォルニア州の政治資金についての分析。具体的には、マリファナ解禁について、賛否どちらの立場で誰がどのぐらい献金をしているのか、を調べる。詳しい説明は本家サイトに任せ、ここでは、本家には載っていない「コードの実行結果」を見られるようにした。

本家は、[**NICAR21**](https://nicar21.pathable.co/) の補講を兼ねた[ハンズオン](https://palewi.re/posts/2021/02/23/nicar21-after-party-first-python-notebook/)にもなった。そのときの講師陣は、Ben Welsh、Derek Willis、Cheryl Phillips、Andrea Suozzo ら、誠に恐れ多い顔ぶれ。誰だろう？ と検索する方のために注記すると、Derek はバスケットボール選手ではなく ProPublica のほうね。すばらしい教材と、辛抱強く教えてくれた根気に深謝します。



### 本家との違いは？

本家はローカルに pipenv でサンドボックス（その中でいろいろ試せるお砂場）環境を構築し、そこで pandas と Jupyter Lab を使っている。また、下準備として、ターミナルからのコマンド入力や、Python のバージョン確認、pipenv の使い方にも丁寧に触れているが、こちらでは省略する。そこを飛ばしてハードルを下げ、まずは体験する、というのが狙いだから。

でも、時間の許す人は、きちんと本家に当たって、一からやってみる価値はある。プロローグから２章まで、「Prerequisites」「Hello pipenv」「Hello notebook」の部分。

あと、ところどころに「蛇足」を付した。


### 操作に困ったら？

Colab のショートカットキーは、Windows なら <kbd>Ctrl</kbd> + <kbd>M</kbd> <kbd>H</kbd>（<kbd>Ctrl</kbd> を押しっぱなしにして、順に <kbd>M</kbd> と <kbd>H</kbd> を押す）で一覧が表示されるので、活用を。Mac なら <kbd>Ctrl</kbd> の代わりに <kbd>⌘</kbd> キーでもよい。


### その他

グラフ作成には [Altair](https://altair-viz.github.io/) を使っている。新顔のライブラリなので、まだ日本語文献は多くない。私のローカル環境では、補講の際に型エラーが出て、グラフ作成がうまくいかなかった。その直前の10傑の表も、講師の画面とは違っていた。その原因を探りたい、というのも、これを作ったごく個人的な理由。

---

## 3) pandasを使えるようにする

#### [Chapter 3: Hello pandas](https://www.firstpythonnotebook.org/pandas/index.html)



※章立ての番号は本家に合わせた。こちらは 1) と2) は欠番。



In [None]:
import pandas as pd

この講座のメインツール [**pandas**](https://pandas.pydata.org/docs/) を呼び込んで、プログラム中でいつでも使えるようにする。pandas とは、表形式のデータをまとめて扱うのに適したライブラリ（追加ソフト群）。

上のコードでは、単に pandas をインポートするだけでなく、短く「pd」と名前をつけ直している。コードを書くときに繰り返し出てくるものは、短い方が楽なので、これが pandas の通り名になっている。あくまで慣行なので、従わなくてもよいが、こうしておいたほうが、先達にコードを見てもらったり、ほかの人が書いたコードを読んで勉強するときにも、迷わないはず。ということで、初心者のうちは従っておく。

pandas は縦横二次元の「データフレーム」と、一次元の「シリーズ」という形式のものを使う。データフレームは、Excel のシートを思い浮かべればよい。表計算ソフトや、R の data.frame、SQL を使ったことのある人には、抵抗はないはず。  

注意点は、縦方向には同種のデータが並ぶ、ということ。つまり、あるカラム（列）に入っているものは、数値なら数値、日付なら日付、文字列なら文字列、で揃っていなければならない。これをデータの「型」が揃っている、という。シリーズも、データはすべて同じ型でないといけない。
Python のリストを作り、それを pandas のシリーズに変換してみる。その後、合計、最大、最小、各種の代表値、標準偏差を見てみる。  

<font color = 'gray'>
ここで使っている、１つだけのイコールは、「等しい」という等号の意味ではなく、右辺を左辺に代入して保存するよう、指示するものだ。直感的ではないかもしれないが、大方のプログラミング言語に共通する。そのうち気にならなくなるはずだ。「等しい」の意味では、等号を複数並べて使う。</font>

In [None]:
my_list = [2, 4, 6, 8]
print(my_list)

[2, 4, 6, 8]


リストの内容は、好きなように変えて結構。いろいろ試してみて。  
pandas のシリーズにするには、以下のように書く。シリーズにしたら、後にいろいろな指示をつけることで、各種の計算ができる。なお、データ型は「整数」と表示されている。  

<font color = 'gray'>
変数名や関数名の大文字と小文字は区別されるので、下のコードで Series を series と入力すると、エラーになる。
</font>

In [None]:
my_series = pd.Series(my_list)
print(my_series)

0    2
1    4
2    6
3    8
dtype: int64


まず、合計を計算する。

In [None]:
my_series.sum()

20

最大値は？

In [None]:
my_series.max()

8

最小値は？

In [None]:
my_series.min()

2

各種の代表値を計算してみる。本家にはないが、最頻値もやってみる。

In [None]:
print("mean:", my_series.mean())
print("median:", my_series.median())
print("mode:", my_series.mode())

mean: 5.0
median: 5.0
mode: 0    2
1    4
2    6
3    8
dtype: int64


<font color = 'gray'>最頻値は、同頻度のものが複数あると、すべて返してくるようだ。一峰型にしてみると、こうなる。</font>

In [None]:
my_list2 = [1, 1, 1, 2, 3, 4, 4, 4, 4, 5, 5]
my_series2 = pd.Series(my_list2)
my_series2.mode()

0    4
dtype: int64

脱線したが、本家に沿って標準偏差を計算してみる。

In [None]:
my_series.std()

2.581988897471611

<font color ='gray'>富士山麓オウム鳴く……でなく、2.5819……が返ってきているので、N ではなく N-1 で割るほうの分散の平方根だ。つまり、NumPy とはデフォルトの挙動が違うということになる。ドキュメントにもその旨記載がある。もし変えたければ、ddof = 0 などのオプションをつける必要がある。ddof のデフォルト値は1。    
なお、[三重大・奥村先生のサイト](https://oku.edu.mie-u.ac.jp/~okumura/stat/basics.html)など参照のこと。</font>  

さて、シリーズやデータフレームについて調べるときのおすすめが、これ。`describe()` は項目数・mean・標準偏差・最小値・パーセンタイル値（50%が median に相当）・最大値・データ型の情報を一度に返してくれる。

In [None]:
my_series.describe()

count    4.000000
mean     5.000000
std      2.581989
min      2.000000
25%      3.500000
50%      5.000000
75%      6.500000
max      8.000000
dtype: float64

---

## 4) カリフォルニア州の制度の説明

#### [Chapter 4: Hello money in politics](https://www.firstpythonnotebook.org/money/index.html)



※省略。本家を当たって下さい。



---

## 5) データを読み込む

#### [Cahpter 5: Hello data](https://www.firstpythonnotebook.org/dataframe/index.html)



この練習で使うデータのファイル２つを読み込む。公的データの収集・整形・公開が継続的になされ、改善が続けられている点、私たちも見習いたい。

いずれもコンマ区切りのテキストである CSV 形式ファイルで、「選挙運動委員会」の一覧 
[committees.csv](https://raw.githubusercontent.com/california-civic-data-coalition/first-python-notebook/master/docs/_static/committees.csv) 
と、一定金額以上の献金者の一覧 
[contributions.csv](https://raw.githubusercontent.com/california-civic-data-coalition/first-python-notebook/master/docs/_static/contributions.csv)
。  

pandas はローカルのファイルだけでなく、URL を指定してオンラインのファイルを読み込むことができる。委員会のほうのファイルのありかを指定して、以下のようにすると、読み込んだ上で先頭と末尾部分を表示してくれる。

In [None]:
pd.read_csv("https://raw.githubusercontent.com/california-civic-data-coalition/first-python-notebook/master/docs/_static/committees.csv")

Unnamed: 0,ocd_prop_id,calaccess_prop_id,ccdc_prop_id,prop_name,ccdc_committee_id,calaccess_committee_id,committee_name,committee_position
0,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,382,1374469,YES ON PROPOSITION 51 - CALIFORNIANS FOR QUALI...,SUPPORT
1,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,383,1220380,COMMUNITY COLLEGE FACILITY COALITION ISSUES CO...,SUPPORT
2,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,384,1282321,TORLAKSON'S INVEST IN CALIFORNIA A BALLOT MEAS...,SUPPORT
3,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,385,1382843,CALIFORNIA TAXPAYERS AND EDUCATORS OPPOSED TO ...,OPPOSE
4,ocd-contest/85990193-9d6f-4600-b8e7-bf1317841d82,1362198,71,PROPOSITION 052 - STATE FEES ON HOSPITALS. FED...,386,1362973,YES ON PROPOSITION 52 - A COALITION OF CALIFOR...,SUPPORT
...,...,...,...,...,...,...,...,...
97,ocd-contest/7495cdbe-1aa7-4c26-9a55-aa4130347b95,1372638,86,PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...,479,1329332,"SAVE THE BAG BAN, YES ON 67, SPONSORED BY ENVI...",SUPPORT
98,ocd-contest/7495cdbe-1aa7-4c26-9a55-aa4130347b95,1372638,86,PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...,480,1374885,YES ON 67 - CALIFORNIANS AGAINST WASTE - PROTE...,SUPPORT
99,ocd-contest/7495cdbe-1aa7-4c26-9a55-aa4130347b95,1372638,86,PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...,481,1346973,CALIFORNIA GROCERS ASSOCIATION ISSUES COMMITTE...,SUPPORT
100,ocd-contest/7495cdbe-1aa7-4c26-9a55-aa4130347b95,1372638,86,PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...,482,1381938,SAVE THE BAY ACTION FUND PAC - YES ON PROP 67,SUPPORT


きちとん読み込めているようだ。  

でも、このままでは、読んだデータが置いてきぼりになってしまう。この先使うために、変数に入れておこう。上の式を、以下のように書き直す。データを読み込むときは毎度、読めているか確かめた後、代入に書き直すのがよい。  

<font color = 'gray'>繰り返しになるが、１つだけのイコールは「等しい」ではなく、右辺を左辺に代入する、という意味。左向きの矢印「←」だと思うべし。</font>

In [None]:
# １つ前の式を再利用して、前に書き足しただけ
committee_list = pd.read_csv("https://raw.githubusercontent.com/california-civic-data-coalition/first-python-notebook/master/docs/_static/committees.csv")

<font color = 'gray'>この方法で読み込んだデータは、自動的にデータフレームになっている。シリーズのときのように、明示的にデータフレームに変換するには、`pd.Dataframe()` を使う。</font>  

内容と型の確認を習慣にしておく。読み込んだら、以下の２つを必ず実行しよう。  

データのヘッダーと冒頭部分を見るには、`head()`。括弧に数字を入れて、行数を指定することもできる。  

<font color = 'gray'>私だったら、末尾も見ておく（今回は実は、データを読み込んだだけで代入しなかった際に見ている）。`tail()`を使う。あと、`shape` でカラム数・行数を確かめておくのもよいだろう。  
ところで、`head()`や `tail()`、先ほど出てきた `max()` や `min()` には括弧がついているのに対し、`shape` や後で出てくる `dtype` には括弧がない。その理由は、前者はメソッドでファンクションの一種だから。後者はアトリビュートだから。なのだが、深入りしない。</font>


In [None]:
committee_list.head()
# 末尾を見たければ、tail()を使う
# committee_list.tail()

Unnamed: 0,ocd_prop_id,calaccess_prop_id,ccdc_prop_id,prop_name,ccdc_committee_id,calaccess_committee_id,committee_name,committee_position
0,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,382,1374469,YES ON PROPOSITION 51 - CALIFORNIANS FOR QUALI...,SUPPORT
1,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,383,1220380,COMMUNITY COLLEGE FACILITY COALITION ISSUES CO...,SUPPORT
2,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,384,1282321,TORLAKSON'S INVEST IN CALIFORNIA A BALLOT MEAS...,SUPPORT
3,ocd-contest/b51dc64d-3562-4913-a190-69f5088c22a6,1376258,70,PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...,385,1382843,CALIFORNIA TAXPAYERS AND EDUCATORS OPPOSED TO ...,OPPOSE
4,ocd-contest/85990193-9d6f-4600-b8e7-bf1317841d82,1362198,71,PROPOSITION 052 - STATE FEES ON HOSPITALS. FED...,386,1362973,YES ON PROPOSITION 52 - A COALITION OF CALIFOR...,SUPPORT


In [None]:
committee_list.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   ocd_prop_id             102 non-null    object
 1   calaccess_prop_id       102 non-null    int64 
 2   ccdc_prop_id            102 non-null    int64 
 3   prop_name               102 non-null    object
 4   ccdc_committee_id       102 non-null    int64 
 5   calaccess_committee_id  102 non-null    int64 
 6   committee_name          102 non-null    object
 7   committee_position      102 non-null    object
dtypes: int64(4), object(4)
memory usage: 6.5+ KB


各カラムの、値の入った行数や、データ型が分かった。どのカラムもすべて値が入っているようだ。object というのは、ここでは文字列のこと。  

もう１つ、献金者の CSV ファイルも同様に読み込む。

In [None]:
pd.read_csv("https://raw.githubusercontent.com/california-civic-data-coalition/first-python-notebook/master/docs/_static/contributions.csv")

Unnamed: 0,calaccess_committee_id,committee_name,calaccess_filing_id,date_received,contributor_lastname,contributor_firstname,contributor_city,contributor_state,contributor_zip,contributor_employer,contributor_occupation,contributor_is_self_employed,amount
0,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-09-18,BERGMAN,GRETCHEN,SPRING VALLEY,CA,91978,A NEW PATH,EXECUTIVE DIRECTOR,False,84.0
1,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-09-18,KAHLE,MYRNA,SAN DIEGO,CA,92109,NATIONAL SCHOOL DISTRICT,TEACHER,False,35.0
2,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-07-15,MCDEVITT,LEO,ESCONDIDO,CA,92025,LIFE IONIZERS,SEO/CONTENT MANAGER,False,198.0
3,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-08-10,WARREN-SAMARIPA,STEPHANIE,SAN DIEGO,CA,92116,STEPHANIE WARREN SAMARIPA,ENTREPRENEUR,False,-50.0
4,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-07-26,WARREN-SAMARIPA,STEPHANIE,SAN DIEGO,CA,92116,STEPHANIE WARREN SAMARIPA,ENTREPRENEUR,True,50.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
56374,1362973,YES ON PROPOSITION 52 - A COALITION OF CALIFOR...,2009922,2015-12-22,CALIFORNIA HEALTH FOUNDATION AND TRUST,,SACRAMENTO,CA,95814,,,False,2000000.0
56375,1362973,YES ON PROPOSITION 52 - A COALITION OF CALIFOR...,2009922,2015-12-22,"CFHS HOLDINGS, INC./MARINA DEL REY HOSPITAL",,MARINA DEL REY,CA,90292,,,False,4629.0
56376,1362973,YES ON PROPOSITION 52 - A COALITION OF CALIFOR...,2033916,2016-01-20,DIGNITY HEALTH,,SAN FRANCISCO,CA,91107,,,False,8478390.0
56377,1362973,YES ON PROPOSITION 52 - A COALITION OF CALIFOR...,2082752,2016-08-01,MEMBERS' VOICE OF THE STATE BUILDING AND CONST...,,SACRAMENTO,CA,95814,,,False,100000.0


こちらは件数が多い。５万レコードを超えている。

In [None]:
contrib_list = pd.read_csv("https://raw.githubusercontent.com/california-civic-data-coalition/first-python-notebook/master/docs/_static/contributions.csv")

In [None]:
contrib_list.head()

Unnamed: 0,calaccess_committee_id,committee_name,calaccess_filing_id,date_received,contributor_lastname,contributor_firstname,contributor_city,contributor_state,contributor_zip,contributor_employer,contributor_occupation,contributor_is_self_employed,amount
0,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-09-18,BERGMAN,GRETCHEN,SPRING VALLEY,CA,91978,A NEW PATH,EXECUTIVE DIRECTOR,False,84.0
1,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-09-18,KAHLE,MYRNA,SAN DIEGO,CA,92109,NATIONAL SCHOOL DISTRICT,TEACHER,False,35.0
2,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-07-15,MCDEVITT,LEO,ESCONDIDO,CA,92025,LIFE IONIZERS,SEO/CONTENT MANAGER,False,198.0
3,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-08-10,WARREN-SAMARIPA,STEPHANIE,SAN DIEGO,CA,92116,STEPHANIE WARREN SAMARIPA,ENTREPRENEUR,False,-50.0
4,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,2083796,2016-07-26,WARREN-SAMARIPA,STEPHANIE,SAN DIEGO,CA,92116,STEPHANIE WARREN SAMARIPA,ENTREPRENEUR,True,50.0


In [None]:
contrib_list.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56379 entries, 0 to 56378
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   calaccess_committee_id        56379 non-null  int64  
 1   committee_name                56379 non-null  object 
 2   calaccess_filing_id           56379 non-null  int64  
 3   date_received                 56379 non-null  object 
 4   contributor_lastname          56375 non-null  object 
 5   contributor_firstname         53411 non-null  object 
 6   contributor_city              56369 non-null  object 
 7   contributor_state             56363 non-null  object 
 8   contributor_zip               56366 non-null  object 
 9   contributor_employer          48572 non-null  object 
 10  contributor_occupation        53273 non-null  object 
 11  contributor_is_self_employed  56379 non-null  bool   
 12  amount                        56379 non-null  float64
dtypes

今度はカラムによって、値の入っているレコード数が違う。欠損値に気をつけないといけないようだ。

In [None]:
# マジックコマンドを使って、フィルター機能つきのインタラクティブなテーブルを見たい場合はこうする。Colabならでは。
# %load_ext google.colab.data_table
# committee_list
# %unload_ext google.colab.data_table

---

## 6) データフレームのカラムを取り出す

#### [Chapter 6: Hello columns](https://www.firstpythonnotebook.org/value_counts/index.html)



カラムというのは、縦の列のこと。対して、横はレコードとか行という。  

さて、データフレームのあるカラムに着目してデータを取り出したいときには、ドットでカラム名をつなげばよい。委員会が、どの提案について影響を及ぼそうと活動しているか、が入っている **prop_name** というカラムだったら

In [None]:
committee_list.prop_name

0      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
1      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
2      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
3      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
4      PROPOSITION 052 - STATE FEES ON HOSPITALS. FED...
                             ...                        
97     PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
98     PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
99     PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
100    PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
101    PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
Name: prop_name, Length: 102, dtype: object

としてやる。または、同じ結果になるが、

In [None]:
committee_list['prop_name']

0      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
1      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
2      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
3      PROPOSITION 051 - SCHOOL BONDS. FUNDING FOR K-...
4      PROPOSITION 052 - STATE FEES ON HOSPITALS. FED...
                             ...                        
97     PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
98     PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
99     PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
100    PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
101    PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...
Name: prop_name, Length: 102, dtype: object

という記法もある。カラム名が空白を含む場合や、メソッドと偶然にも同名の場合には、後者しか使えない。  

カラムのデータで、同じものがいくつあるかは、`value_counts()`を使うと数えられる。カラムを取り出した、さっきの式をベースにして

In [None]:
committee_list.prop_name.value_counts()

PROPOSITION 057 - CRIMINAL SENTENCES. JUVENILE CRIMINAL PROCEEDINGS AND SENTENCING. INITIATIVE CONSTITUTIONAL AMENDMENT AND STATUTE.                           13
PROPOSITION 056 - CIGARETTE TAX TO FUND HEALTHCARE, TOBACCO USE PREVENTION, RESEARCH, AND LAW ENFORCEMENT. INITIATIVE CONSTITUTIONAL AMENDMENT AND STATUTE.    12
PROPOSITION 064- MARIJUANA LEGALIZATION. INITIATIVE STATUTE.                                                                                                   11
PROPOSITION 066- DEATH PENALTY. PROCEDURES. INITIATIVE STATUTE.                                                                                                 9
PROPOSITION 055 - TAX EXTENSION TO FUND EDUCATION AND HEALTHCARE. INITIATIVE CONSTITUTIONAL AMENDMENT.                                                          8
PROPOSITION 062- DEATH PENALTY. INITIATIVE STATUTE.                                                                                                             7
PROPOSITION 067- REFERENDUM 

と、ドットでつなげばよい。こうやって、鎖のようにつなげば、順次処理してくれる。  

さて、出てきた一覧だが、ちょっと見にくい。カウントしてくれたんじゃなかったのかよ……。残念ながら、右端までスクロールしないと見えないし、カウント数の位置も揃っていない。  

これは、１カラムだけ取り出したものは、データフレームではなく、シリーズになってしまって、挙動が異なるため。何だかなあ、と思うが、pandas の癖だと割り切るしかない。もちろん、そのままでいいわけはないので、見やすくする。  

そのためには、鎖にさらに、`reset_index()`を加えてやる。なぜそんなメソッド名か、はこれまた pandas の仕様としか言いようがない。ともあれ、視認性は改善された。

In [None]:
committee_list.prop_name.value_counts().reset_index()

Unnamed: 0,index,prop_name
0,PROPOSITION 057 - CRIMINAL SENTENCES. JUVENILE...,13
1,PROPOSITION 056 - CIGARETTE TAX TO FUND HEALTH...,12
2,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,11
3,PROPOSITION 066- DEATH PENALTY. PROCEDURES. IN...,9
4,PROPOSITION 055 - TAX EXTENSION TO FUND EDUCAT...,8
5,PROPOSITION 062- DEATH PENALTY. INITIATIVE STA...,7
6,PROPOSITION 067- REFERENDUM TO OVERTURN BAN ON...,7
7,"PROPOSITION 059- SB 254 (CHAPTER 20, STATUTES ...",6
8,"PROPOSITION 058 - SB 1174 (CHAPTER 753, STATUT...",4
9,PROPOSITION 053 - REVENUE BONDS. STATEWIDE VOT...,4


---

## 7) データを絞り込む

#### [Chapter 7: Hello filters](https://www.firstpythonnotebook.org/filter/index.html)

2016年11月まで、カリフォルニア州ではマリファナの娯楽目的での使用は違法だった。合法化されたのは、選挙の際に併せて投票に付された各種提案のうち、マリファナ合法化を主張する「64号議案」が57％の賛成を得たためだ。  

そこで、この64号に関係する、選挙運動委員会および献金者だけを抜き出して調べてみることにしよう。  

先ほども取り出してみた、**prop_name** というカラムに手がかりはある。

In [None]:
# この式は再掲（見にくかったほう。その後のでも、もちろんよい）
committee_list.prop_name.value_counts()

PROPOSITION 057 - CRIMINAL SENTENCES. JUVENILE CRIMINAL PROCEEDINGS AND SENTENCING. INITIATIVE CONSTITUTIONAL AMENDMENT AND STATUTE.                           13
PROPOSITION 056 - CIGARETTE TAX TO FUND HEALTHCARE, TOBACCO USE PREVENTION, RESEARCH, AND LAW ENFORCEMENT. INITIATIVE CONSTITUTIONAL AMENDMENT AND STATUTE.    12
PROPOSITION 064- MARIJUANA LEGALIZATION. INITIATIVE STATUTE.                                                                                                   11
PROPOSITION 066- DEATH PENALTY. PROCEDURES. INITIATIVE STATUTE.                                                                                                 9
PROPOSITION 055 - TAX EXTENSION TO FUND EDUCATION AND HEALTHCARE. INITIATIVE CONSTITUTIONAL AMENDMENT.                                                          8
PROPOSITION 062- DEATH PENALTY. INITIATIVE STATUTE.                                                                                                             7
PROPOSITION 067- REFERENDUM 

ここから、64号の正式名称をコピーしておこう。これと合致するものだけ、抜き出すようにするため。  

PROPOSITION 064- MARIJUANA LEGALIZATION. INITIATIVE STATUTE. 

これから使い回すのだから、変数に保存したほうが便利だ。  

<font color = 'gray'>
イコール１つは代入（しつこい）。
</font>

In [None]:
my_prop = 'PROPOSITION 064- MARIJUANA LEGALIZATION. INITIATIVE STATUTE.'

では、絞り込む。[ ]の中に式を入れてやると、その式が成立する（**True** になる）行だけが、抜き出されてくる。

いま抜き出したいのは、

```prop_name イコール「64号」```  

が成立する行だけ。いよいよ「等しい」の出番だ。

In [None]:
committee_list.prop_name == my_prop

0      False
1      False
2      False
3      False
4      False
       ...  
97     False
98     False
99     False
100    False
101    False
Name: prop_name, Length: 102, dtype: bool

このように、等号を２つ並べて表す。これを[ ]に入れてやると

In [None]:
committee_list[committee_list.prop_name == my_prop]

Unnamed: 0,ocd_prop_id,calaccess_prop_id,ccdc_prop_id,prop_name,ccdc_committee_id,calaccess_committee_id,committee_name,committee_position
74,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT
75,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,457,1382525,NEW APPROACH PAC (MPO),SUPPORT
76,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,458,1376077,"CALIFORNIANS FOR SENSIBLE REFORM, SPONSORED BY...",SUPPORT
77,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,459,1382568,"PUBLIC AND MENTAL HEALTH ADVOCATES AGAINST 64,...",OPPOSE
78,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,460,1371855,"MARIJUANA POLICY PROJECT OF CALIFORNIA, YES ON 64",SUPPORT
79,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,461,1343793,"CALIFORNIANS FOR RESPONSIBLE MARIJUANA REFORM,...",SUPPORT
80,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,462,1386560,ADULT USE CAMPAIGN FOR PROPOSITION 64; THE,SUPPORT
81,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,463,1387789,"SAM ACTION, INC., A COMMITTEE AGAINST PROPOSIT...",OPPOSE
82,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,464,1385506,"DRUG POLICY ACTION - NON PROFIT 501C4, YES ON ...",SUPPORT
83,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,465,1385745,FUND FOR POLICY REFORM (NONPROFIT 501(C)(4)),SUPPORT


となる。うまく行った。では、変数に保存しておこう。代入は……

In [None]:
my_committees = committee_list[committee_list.prop_name == my_prop] 

あとは、いつものように、概観しておく。まず、先頭部分。

In [None]:
my_committees.head()

Unnamed: 0,ocd_prop_id,calaccess_prop_id,ccdc_prop_id,prop_name,ccdc_committee_id,calaccess_committee_id,committee_name,committee_position
74,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT
75,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,457,1382525,NEW APPROACH PAC (MPO),SUPPORT
76,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,458,1376077,"CALIFORNIANS FOR SENSIBLE REFORM, SPONSORED BY...",SUPPORT
77,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,459,1382568,"PUBLIC AND MENTAL HEALTH ADVOCATES AGAINST 64,...",OPPOSE
78,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,460,1371855,"MARIJUANA POLICY PROJECT OF CALIFORNIA, YES ON 64",SUPPORT


それから、こちらも。

In [None]:
my_committees.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11 entries, 74 to 84
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   ocd_prop_id             11 non-null     object
 1   calaccess_prop_id       11 non-null     int64 
 2   ccdc_prop_id            11 non-null     int64 
 3   prop_name               11 non-null     object
 4   ccdc_committee_id       11 non-null     int64 
 5   calaccess_committee_id  11 non-null     int64 
 6   committee_name          11 non-null     object
 7   committee_position      11 non-null     object
dtypes: int64(4), object(4)
memory usage: 792.0+ bytes


６章末の表でも分かることだが、64号関係の委員会は11ある。

---

## 8) 2つの表を結合する

#### [Chapter 8: Hello merge](https://www.firstpythonnotebook.org/merge/index.html)

今度は、献金者のデータについて、やはり64号に関係するものだけを抜き出したい。前章と同様の方法で、絞り込むことはもちろんできる。

が、注意深く見てみよう。

In [None]:
contrib_list.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56379 entries, 0 to 56378
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   calaccess_committee_id        56379 non-null  int64  
 1   committee_name                56379 non-null  object 
 2   calaccess_filing_id           56379 non-null  int64  
 3   date_received                 56379 non-null  object 
 4   contributor_lastname          56375 non-null  object 
 5   contributor_firstname         53411 non-null  object 
 6   contributor_city              56369 non-null  object 
 7   contributor_state             56363 non-null  object 
 8   contributor_zip               56366 non-null  object 
 9   contributor_employer          48572 non-null  object 
 10  contributor_occupation        53273 non-null  object 
 11  contributor_is_self_employed  56379 non-null  bool   
 12  amount                        56379 non-null  float64
dtypes

先ほどの委員会と比べてみる。

In [None]:
committee_list.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   ocd_prop_id             102 non-null    object
 1   calaccess_prop_id       102 non-null    int64 
 2   ccdc_prop_id            102 non-null    int64 
 3   prop_name               102 non-null    object
 4   ccdc_committee_id       102 non-null    int64 
 5   calaccess_committee_id  102 non-null    int64 
 6   committee_name          102 non-null    object
 7   committee_position      102 non-null    object
dtypes: int64(4), object(4)
memory usage: 6.5+ KB


どちらにも、**calaccess_committee_id** というカラムがあることが分かる。だったら、この列をキーとして、２つのデータを付き合わせて、１つに結合することができるではないか。

SQL で JOIN と言っているものに相当する。pandas では merge と言っているが、仕組みは同じ。

<font color = 'gray'>
JOIN にも、INNER JOIN や LEFT JOIN など何種類かあって、突合できなかったレコードをどう扱うかが違う。残すか、なかったことになるか、とんでもない挙動の差なので、よくよく考えてから使うこと。
</font>

pandas の merge は、２つのデータフレームを見てキーを付き合わせ、両方のデータフレームにあったレコードだけを保持するのが、デフォルトの動作。INNER JOIN に相当する。

なので、すでに64号関係分だけに絞った委員会のデータフレームと、元のままの献金者のデータフレームを merge してやれば、64号関係分だけが残る。つまり、突き合わせと絞り込み処理が一度に済むので、好都合。

In [None]:
merged = pd.merge(my_committees, contrib_list, on = "calaccess_committee_id") 

概要を見ておく。冒頭部分。

In [None]:
merged.head()

Unnamed: 0,ocd_prop_id,calaccess_prop_id,ccdc_prop_id,prop_name,ccdc_committee_id,calaccess_committee_id,committee_name_x,committee_position,committee_name_y,calaccess_filing_id,date_received,contributor_lastname,contributor_firstname,contributor_city,contributor_state,contributor_zip,contributor_employer,contributor_occupation,contributor_is_self_employed,amount
0,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",2038581,2016-02-04,BRADEN QUIGLEY,LAURA,SACRAMENTO,CA,95825,LBQ STRATEGIES,CONSULTANT,False,100.0
1,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",2038581,2016-01-05,"CALIFORNIANS FOR SENSIBLE REFORM, SPONSORED BY...",,IRVINE,CA,92618,,,False,250000.0
2,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",2038581,2016-01-29,"CALIFORNIANS FOR SENSIBLE REFORM, SPONSORED BY...",,IRVINE,CA,92618,,,False,250000.0
3,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",2038581,2016-03-28,"CALIFORNIANS FOR SENSIBLE REFORM, SPONSORED BY...",,IRVINE,CA,92618,,,False,250000.0
4,ocd-contest/232cb72c-1b11-4293-b4e2-a181e80d172e,1381868,83,PROPOSITION 064- MARIJUANA LEGALIZATION. INITI...,456,1381808,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",SUPPORT,"YES ON 64, CALIFORNIANS TO CONTROL, REGULATE A...",2038581,2016-01-05,DRUG POLICY ACTION,,NEW YORK,NY,10001,,,False,250000.0


merge の結果は？　５万レコード超の献金者一覧のうち、何行残っただろうか。

In [None]:
merged.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 860 entries, 0 to 859
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   ocd_prop_id                   860 non-null    object 
 1   calaccess_prop_id             860 non-null    int64  
 2   ccdc_prop_id                  860 non-null    int64  
 3   prop_name                     860 non-null    object 
 4   ccdc_committee_id             860 non-null    int64  
 5   calaccess_committee_id        860 non-null    int64  
 6   committee_name_x              860 non-null    object 
 7   committee_position            860 non-null    object 
 8   committee_name_y              860 non-null    object 
 9   calaccess_filing_id           860 non-null    int64  
 10  date_received                 860 non-null    object 
 11  contributor_lastname          860 non-null    object 
 12  contributor_firstname         750 non-null    object 
 13  contr

5万超のレコードが、860行まで絞り込まれた。

merge してできた新しいデータフレームには、元になった２つの表のカラムが、すべて含まれている。

もし、両方の表に同名のカラムがあれば、両方を保持した上で、committee_name_x と committee_name_y のように、区別がつくよう目印付きに変更される。ただし、突合に使ったキー列は、ダブらない（突き合わせ処理しているわけだから）。

さあ、これで、64号議案分だけの献金者＋委員会のデータベースが手に入った。データにインタビューするつもりで、さらに見ていこう。

---

## 9) 合計する

#### [Chapter 9: Hello totals](https://www.firstpythonnotebook.org/totals/index.html)


この私製データベースから何が引き出せるか。人間の情報源に接するときと、ポイントは変わらない。つまるところ、よいストーリーを書くためには，注意深く、徹底して、問いをぶつける必要がある。64号議案に関する最大の献金者は何者なのか解明するため、探索を続けよう。

３章で使った小技を利用して（思い出して）、64号についての献金報告の合計額を求めてみる。着目するのは、**amount** のカラムだ。まず、そのカラムを取り出す。

In [36]:
merged.amount

0         100.00
1      250000.00
2      250000.00
3      250000.00
4      250000.00
         ...    
855     97000.00
856      4185.00
857       817.00
858       408.64
859       871.00
Name: amount, Length: 860, dtype: float64

そして、合計する。`sum()` を使うのだった。

In [39]:
merged.amount.sum()

35177017.64

よし、でた。では、発信するか！

...先走ってはいけない。実は、間違っている。

ここで求めた額は、64号議案の〓〓