Pandas を使ったWeb スクレイピングとして、一橋経済学研究科の修論リストをまとめて取得するコードを書いてみましょう。

ちなみに、一橋経済学部の修論の題目と指導教官は、
https://www.econ.hit-u.ac.jp/jpn/page/research/research-graduate_student/masters/2021.html
に掲載されています。

In [1]:
import pandas as pd
import time 

#検索するURL を作成します
url1="https://www.econ.hit-u.ac.jp/jpn/page/research/research-graduate_student/masters/"
url2=".html"

#空のDataFrameを作成します
list=pd.DataFrame()

#Web 上に掲載されている2000年から2021年までのリストを取得します
for i in range(2000, 2022):
    #iを文字列に変換します
    url3=url1+str(i)+url2
    #Pandasのread_html関数をつかって、表を読み込みます
    shuron=pd.read_html(url3)
    #読み込んだ年を、新たな列として追記します
    shuron[0]["year"]=str(i)
    list=list.append(shuron[0])
    #一橋サーバへの負荷を下げるために、ループを行うたびに5秒待つ
    time.sleep(5)
    print(i, "年が終わりましたです")

2000 年が終わりましたです
2001 年が終わりましたです
2002 年が終わりましたです
2003 年が終わりましたです
2004 年が終わりましたです
2005 年が終わりましたです
2006 年が終わりましたです
2007 年が終わりましたです
2008 年が終わりましたです
2009 年が終わりましたです
2010 年が終わりましたです
2011 年が終わりましたです
2012 年が終わりましたです
2013 年が終わりましたです
2014 年が終わりましたです
2015 年が終わりましたです
2016 年が終わりましたです
2017 年が終わりましたです
2018 年が終わりましたです
2019 年が終わりましたです
2020 年が終わりましたです
2021 年が終わりましたです


listは今、2000年から2021年までの一橋大学経済学研究科のリストが掲載されています。中身を確認しましょう。

In [74]:
list

Unnamed: 0,No.,論文題目,指導教員,year
0,1.0,福祉サービスの最適供給について ―クラブ材理論の応用―,蓼沼 宏一,2000
1,2.0,A Comparison Study of Japanese Foreign Direct ...,山澤 逸平,2000
2,3.0,人的資本投資の地域経済に与える影響 ―1970年代のインド農村における教育投資の効果―,清川 雪彦,2000
3,4.0,ハンガリーの社会保障制度 ―費用負担問題の経済学的考察―,西村 可明,2000
4,5.0,バートンにおける資本蓄積と実質賃金,福田 泰雄,2000
...,...,...,...,...
84,85.0,脱石炭政策による負の健康効果　―大気汚染防治行動計画からのエビデンス―,高久 玲音,2021
85,86.0,貸出市場の空間計量分析　ー市場分断仮設とスピルオーバー効果の検証ー,植杉 威一郎,2021
86,87.0,日韓比較から見た韓国の経済成長の源泉に関する研究,深尾 京司,2021
87,88.0,Joint Venture Ownership in Knowledge Spillover...,森田 穂高,2021


In [75]:
list.loc[list["指導教員"] == "深尾京司", "指導教員"]

Series([], Name: 指導教員, dtype: object)

In [76]:
list.loc[list["指導教員"] == "深尾京司", "指導教員"] = "深尾 京司"

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [77]:
#年ごとに値をまとめてみます
mentor=list.groupby("year")

In [78]:
#年ごとの修論の数をチェックしてみましょう
mentor.size()

year
2000    84
2001    77
2002    76
2003    70
2004    72
2005    77
2006    78
2007    77
2008    54
2009    54
2010    42
2011    69
2012    65
2013    67
2014    63
2015    72
2016    86
2017    56
2018    71
2019    58
2020    77
2021    89
dtype: int64

In [79]:
#指導教員ごとに値をまとめてみます
mentor2=list.groupby("指導教員")

In [80]:
#結果を出力する
mentor2.size()

指導教員
Paul , Saumik                1
WU Harry Xiaoying （伍 曉鷹）     1
WU, Harry Xiaoying           3
下津 克己                        1
中村 良太                        3
                            ..
高橋 一                        34
鴇田 忠彦                        6
黒住 英司                       24
黒崎 卓                        42
齊藤 誠                        19
Length: 137, dtype: int64

In [58]:
#岡室先生が担当している修論リストを抽出してみましょう
print(list.query('指導教員.str.contains("岡室")', engine='python'))

     No.                                               論文題目   指導教員  year
26  27.0                                       格付け変更の株価への影響  岡室 博之  2003
30  31.0  Does　Corporate Performace Improve After Merger...  岡室 博之  2003
59  60.0                      企業間関係と設備投資 ―自動車部品企業についての実証分析―  岡室 博之  2003
65  66.0                                   台湾製造業への参入退出の計量分析  岡室 博之  2003
2    3.0                              日本製造業中小企業の海外直接投資の決定要因  岡室 博之  2005
33  34.0              日本中小製造業の中国進出における ―立地選択の決定要因についての実証分析―  岡室 博之  2005
40  41.0          地域における人的資本と研究機関からのスピルオーバー ―中小企業の研究開発への影響―  岡室 博之  2005
41  42.0                  サービス業に於ける市場構造分析 ―参入、退出と残存の関係を中心に―  岡室 博之  2005
50  51.0            Ｍ＆Ａが及ぼす利益率、成長率、労働生産性への影響 ―中小企業を含めた実証分析―  岡室 博之  2005
42  43.0  Prefecture-Level Analysis of Technology Spillo...  岡室 博之  2006
9   10.0                     ベンチャーキャピタルのハンズオンと投資先企業のパフォーマンス  岡室 博之  2007
29  30.0                       買収の決定要因の研究 ―日本の成長産業と衰退産業の比較―  岡室 博之  2007
52  53.0   株式所有構造が企業のリストラクチャリングに与える影響 ―バブル崩壊以後の製造業に

In [8]:
#蓼沼先生が担当している修論リストを抽出してみましょう
print(list.query('指導教員.str.contains("蓼沼")', engine='python'))

    No.                                               論文題目   指導教員  year
0     1                        福祉サービスの最適供給について ―クラブ材理論の応用―  蓼沼 宏一  2000
5     6                                       費用分担問題の公理的考察  蓼沼 宏一  2000
58   59                                        多様性の価値とその保全  蓼沼 宏一  2001
1     2                                  遂行理論とメカニズム外のオプション  蓼沼 宏一  2002
18   19                                        心理が行動に与える影響  蓼沼 宏一  2002
0     1                        複数プリンシパルのメカニズム・デザインにおける表明原理  蓼沼 宏一  2004
10   11                       戦略的虚偽表明を防止する個人合理的な社会選択関数と効率性  蓼沼 宏一  2006
28   29                   スーパーモジュラーゲーム ―株式市場における戦略的補完性の分析―  蓼沼 宏一  2006
68   69                              チープトークゲームにおける情報伝達の可能性  蓼沼 宏一  2006
2     3                                     契約の構造と企業の所有権配分  蓼沼 宏一  2007
3     4                                   不平等測度の分解可能性とその応用  蓼沼 宏一  2007
4     5  Downsian Model with Asymmetric Information: Po...  蓼沼 宏一  2008
9    10  Economic Analysis of Intergenerational Equity ...  蓼沼 宏

In [81]:
#指導教官と年ごとにデータをまとめます
grouped3 = list.groupby(['指導教員', 'year'])

In [82]:
#値を出力してみます
grouped3.size()

指導教員                      year
Paul , Saumik             2017    1
WU Harry Xiaoying （伍 曉鷹）  2016    1
WU, Harry Xiaoying        2017    2
                          2018    1
下津 克己                     2011    1
                                 ..
齊藤 誠                      2014    1
                          2015    1
                          2017    1
                          2018    2
                          2019    1
Length: 721, dtype: int64

In [None]:
#値をCSVとして出力する
grouped3.size().to_csv("shuron_list_2000_2021.csv")