<a href="https://colab.research.google.com/github/SotaYoshida/Lecture_DataScience/blob/2021/notebooks/Python_misc_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandasの使い方 (基礎)

```Pandas```は、データ分析のためのライブラリで  
統計量を計算・表示したり、それらをグラフとして可視化出来たり  
データサイエンスや機械学習などで必要な作業を簡単に行うことができます。

Numpyや機械学習ライブラリなどに入れるデータの前処理などにもよく用いられます。

まずはインポートしましょう。```pd```という名前で使うのが慣例です。

In [1]:
import pandas as pd 

## DataFrame型

DataFrameは二次元のデータを表現するのに利用され  
各種データ分析などで非常に役にたちます。

In [2]:
from pandas import DataFrame

以下の辞書型をDataFrame型のオブジェクトに変換してみましょう。

In [3]:
data = { '名前': ["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"],
        '出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df = DataFrame(data)
print("dataの型", type(data))
print("dfの型",type(df))

dataの型 <class 'dict'>
dfの型 <class 'pandas.core.frame.DataFrame'>


jupyter環境でDataFrameを読むと、"いい感じ"に表示してくれる

In [4]:
df

Unnamed: 0,名前,出身都道府県,生年,身長
0,Aさん,Tokyo,1998,172
1,Bさん,Tochigi,1993,156
2,Cさん,Hokkaido,2000,162
3,Dさん,Kyoto,1989,180
4,Eさん,Tochigi,2002,158


printだとちょっと無機質な感じに。

In [5]:
print(df)

    名前    出身都道府県    生年   身長
0  Aさん     Tokyo  1998  172
1  Bさん   Tochigi  1993  156
2  Cさん  Hokkaido  2000  162
3  Dさん     Kyoto  1989  180
4  Eさん   Tochigi  2002  158


```info()```関数を作用させると、詳細な情報が得られる。  
列ごとにどんな種類のデータが格納されているのかや、
メモリ使用量など表示することができる。

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   名前      5 non-null      object
 1   出身都道府県  5 non-null      object
 2   生年      5 non-null      int64 
 3   身長      5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes


## DataFrameの要素を確認・指定する方法

index: 行方向のデータ項目(おもに整数値(行番号),ID,名前など)  
columns: 列方向のデータの項目(おもにデータの種類)  
をそれぞれ表示してみよう。

In [7]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
df.columns

Index(['名前', '出身都道府県', '生年', '身長'], dtype='object')

行方向を、整数値(行数)ではなく名前にしたければ

In [9]:
data1 = {'出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df1 = DataFrame(data1)
df1.index =["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"]
df1

Unnamed: 0,出身都道府県,生年,身長
Aさん,Tokyo,1998,172
Bさん,Tochigi,1993,156
Cさん,Hokkaido,2000,162
Dさん,Kyoto,1989,180
Eさん,Tochigi,2002,158


などとしてもよい。

### 特定の列を取得したい場合

In [10]:
df["身長"]

0    172
1    156
2    162
3    180
4    158
Name: 身長, dtype: int64

とする。  
以下の方法は非推奨とする。


In [11]:
df.身長

0    172
1    156
2    162
3    180
4    158
Name: 身長, dtype: int64

値のリスト(正確にはnumpy.ndarray型)として取得したければ

In [12]:
df["身長"].values

array([172, 156, 162, 180, 158])

In [13]:
df["出身都道府県"].values

array(['Tokyo', 'Tochigi', 'Hokkaido', 'Kyoto', 'Tochigi'], dtype=object)

などとすればよい。

慣れ親しんだ形に変換したければ、リストに変換すればよい


In [14]:
list(df["出身都道府県"].values)

['Tokyo', 'Tochigi', 'Hokkaido', 'Kyoto', 'Tochigi']

ある列が特定のものに一致するもののみを抽出するのも簡単にできる

In [15]:
df[df["出身都道府県"]=="Tochigi"]

Unnamed: 0,名前,出身都道府県,生年,身長
1,Bさん,Tochigi,1993,156
4,Eさん,Tochigi,2002,158


これは

In [16]:
df["出身都道府県"]=="Tochigi"

0    False
1     True
2    False
3    False
4     True
Name: 出身都道府県, dtype: bool

が条件に合致するかどうかTrue/Falseの配列になっていて、  
df[ [True/Falseの配列] ]とすると、Trueに対応する要素のみを返す  
フィルターのような役割になっている。

### 列の追加

In [20]:
#スカラー値の場合"初期化"のような振る舞いをする
df["血液型"] = "A"
df

Unnamed: 0,名前,出身都道府県,生年,身長,血液型
0,Aさん,Tokyo,1998,172,A
1,Bさん,Tochigi,1993,156,A
2,Cさん,Hokkaido,2000,162,A
3,Dさん,Kyoto,1989,180,A
4,Eさん,Tochigi,2002,158,A


In [21]:
#リストで追加
df["血液型"] = [ "A", "O","AB","B","A"]
df

Unnamed: 0,名前,出身都道府県,生年,身長,血液型
0,Aさん,Tokyo,1998,172,A
1,Bさん,Tochigi,1993,156,O
2,Cさん,Hokkaido,2000,162,AB
3,Dさん,Kyoto,1989,180,B
4,Eさん,Tochigi,2002,158,A


### 特定の行を取得したい場合

たとえば、行番号がわかっているなら、```iloc```関数を使えば良い

In [22]:
df.iloc[3]

名前          Dさん
出身都道府県    Kyoto
生年         1989
身長          180
血液型           B
Name: 3, dtype: object

値のみ取得したければ先程と同様

In [23]:
df.iloc[3].values

array(['Dさん', 'Kyoto', 1989, 180, 'B'], dtype=object)

また、以下のような使い方もできるが

In [24]:
df[1:4] #1から3行目まで

Unnamed: 0,名前,出身都道府県,生年,身長,血液型
1,Bさん,Tochigi,1993,156,O
2,Cさん,Hokkaido,2000,162,AB
3,Dさん,Kyoto,1989,180,B


```df[1]```といった使い方は出来ない。  

### より複雑な行・列の抽出

上にならって、2000年より前に生まれた人だけを抽出し

In [25]:
df[ df["生年"] < 2000 ]

Unnamed: 0,名前,出身都道府県,生年,身長,血液型
0,Aさん,Tokyo,1998,172,A
1,Bさん,Tochigi,1993,156,O
3,Dさん,Kyoto,1989,180,B


さらにこのうち身長が170cm以上の人だけがほしければ

In [26]:
df[(df["生年"] < 2000) & (df["身長"]>170)]

Unnamed: 0,名前,出身都道府県,生年,身長,血液型
0,Aさん,Tokyo,1998,172,A
3,Dさん,Kyoto,1989,180,B


などとすればよい。  

他にも、

```iloc```,```loc```
などを用いれば、特定の行・列を抽出することができる

ちなみに、```iloc```は番号の指定のみに対応，```loc```は名前のみ。

**欲しい要素の数値もしくは項目名のリスト**を、行、列２ついれてやればよい。

In [27]:
df.iloc[[0], [0]] #0行目,0列目

Unnamed: 0,名前
0,Aさん


In [28]:
#スライスで指定することもできる
df.iloc[1:4, :3] #1-3行目かつ0-2列目 (スライスの終点は含まれないことに注意)

#スライスの場合は、 1:4が[1,2,3]と同じ働きをするので、括弧[]はいらない

Unnamed: 0,名前,出身都道府県,生年
1,Bさん,Tochigi,1993
2,Cさん,Hokkaido,2000
3,Dさん,Kyoto,1989


```loc```を使う場合は、indexの代わりに項目名で指定する。

In [29]:
df.loc[1:4,["名前","身長"]] 

Unnamed: 0,名前,身長
1,Bさん,156
2,Cさん,162
3,Dさん,180
4,Eさん,158


In [30]:
df.loc[[1,2,3,4],"名前":"生年"]

Unnamed: 0,名前,出身都道府県,生年
1,Bさん,Tochigi,1993
2,Cさん,Hokkaido,2000
3,Dさん,Kyoto,1989
4,Eさん,Tochigi,2002


といった具合。

```loc```を使う場合、1:4や[1,2,3,4]は  
indexのスライスではなく、項目名を意味し  
Eさんのデータも含まれている。

## Webページにある表をDataFrameとして取得する

```pandas```内の```read_html```関数を用いれば、  
Webページの中にある表をDataFrame形式で取得することもできます。

以下では例としてWikipediaの[ノーベル物理学賞](https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e)のページにある、受賞者一覧を取得してみましょう

In [31]:
url = "https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e"
tables = pd.read_html(url)

In [32]:
print(len(tables))

21


ページ内に、21個もの表があることがわかります。  
(ほとんどはwikipediaのテンプレート等)

たとえば、2010年代の受賞者のみに興味がある場合は

In [33]:
df = tables[12]
df

Unnamed: 0,年度,受賞者名,受賞者名.1,国籍,受賞理由[2]・原著ないし関連論文
0,2010年,,アンドレ・ガイムAndre Geim,オランダ（ ロシア出身）,二次元物質グラフェンに関する革新的実験[注 70]
1,2010年,,コンスタンチン・ノボセロフKonstantin Novoselov,ロシア イギリス,二次元物質グラフェンに関する革新的実験[注 70]
2,2011年,,ソール・パールマッターSaul Perlmutter,アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見Astrophys. J.: 517 (199...
3,2011年,,ブライアン・P・シュミットBrian Schmidt,オーストラリア アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見Astrophys. J.: 517 (199...
4,2011年,,アダム・リースAdam Riess,アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見Astrophys. J.: 517 (199...
5,2012年,,セルジュ・アロシュSerge Haroche,フランス（ モロッコ出身）,個別の量子系に対する計測および制御[注 71]を可能にする画期的な実験的手法に関する業績[3...
6,2012年,,デービッド・ワインランドDavid J. Wineland,アメリカ合衆国,個別の量子系に対する計測および制御[注 71]を可能にする画期的な実験的手法に関する業績[3...
7,2013年,,フランソワ・アングレールFrançois Englert,ベルギー,欧州原子核研究機構 (CERN) によって存在が確認された素粒子（ヒッグス粒子）に基づく、質...
8,2013年,,ピーター・ヒッグスPeter Higgs,イギリス,欧州原子核研究機構 (CERN) によって存在が確認された素粒子（ヒッグス粒子）に基づく、質...
9,2014年,,赤崎勇Isamu Akasaki,日本,高輝度で省電力の白色光源を実現可能にした青色発光ダイオードの発明[8]


## DataFrameのcsv/Excelファイルへの書き出し

DataFrameオブジェクトは、```pandas```内の関数を用いれば、  
簡単にcsvやExcelファイルとして書き出すことができます。

先程の、２０１０年代のノーベル物理学賞受賞者のデータを、  
Google Driveにファイルとして書き出してみましょう。

In [None]:
from google.colab import drive
drive.mount('/content/drive')

**csvとして書き出す場合**

適当にパスを指定して、DataFrameオブジェクトに  
```to_csv```関数を作用させます。

In [None]:
df.to_csv("/content/drive/My Drive/AdDS2021/pd_write_test.csv")

**Excelファイルとして書き出す場合**

この場合も同様で、```to_excel```関数を用います。

In [None]:
df.to_excel("/content/drive/My Drive/AdDS2021/pd_write_test.xlsx")

上記の関数内で文字コードを指定することもできます。  
例: ```encoding="utf-8_sig"```, ```encoding="shift_jis"```

## Pandasで複雑なエクセルファイルを操作する

Pandasにはread_excel()という関数が用意されていて、  
多数のシートを含むようなエクセルファイルを開くことも出来る。

まずは必要なモジュールをインポートしよう。

In [None]:
!pip install xlrd #xlrdモジュールのインストール
import xlrd
import pandas as pd
from pandas import DataFrame
import urllib.request

今まではGoogle Driveにいれたファイルを読み出していたが、  
Webから直接xlsxファイルを読み込んでみよう。

In [None]:
url = "https://www.mext.go.jp/content/20201225-mxt_kagsei-mext_01110_012.xlsx"
f = urllib.request.urlopen(url) 
#ワークブック(作業するエクセルファイル)をwbという変数名で開く. 文字コードはutf-8と仮定した(shift-jisのものがたまにあるので注意)
wb = xlrd.open_workbook(file_contents=f.read(),encoding_override="utf-8") 
f.close()

ブック内のシートの一覧は以下のように取得できる。

In [None]:
print("シート名の一覧", wb.sheet_names())

シートを指定するのは、インデックスかシート名の文字列で行う。

"1 穀類"を使うことにして、  
pandasにあるread_excel関数を使ってみよう。
(他にもxlrdの関数を使って読む方法などもある)

In [None]:
df = pd.read_excel(wb,sheet_name=0) #excelの指定したシートを読んで、DataFrameとして変数dfに格納
print(df)

In [None]:
ndf = pd.read_excel(wb,sheet_name="1 穀類")
print(ndf)

同じものが得られている。


### データの整形

次に、今取得したデータフレームのままでは少々扱い辛いので"整形"を考える。  
というのも前から4行ほど表示してみると...

In [None]:
df[0:4] 

最初の4行ほどに栄養素等の情報が入っているのだが、  
セルが結合されたりしているため、所々にNaNが入っていたりして見辛い。

(碁盤目の構造を破壊してしまうため「セルの結合」は機械的な処理と  
やや相性が悪く、プログラミングを用いたデータ分析では嫌われる)

各省庁の公開データのフォーマットの統一化は今後に期待することにして...  
まず以下の項目に該当する列だけを抽出する事を考える。



In [None]:
targets = ["食品名", "エネルギー","たんぱく質", "脂質", "炭水化物"]

該当するデータがどの行・列に格納されているかをコードで指定するのは、  
前述のファイル構造の事情からやや面倒くさい。  

以下では、その場しのぎ的ではあるが、  
興味のある量が何番目かを指定してまとめてみることにしよう。

そのために、1行目の要素を表示してみよう。

In [None]:
#1行目(エクセルだと2行目)の要素を表示してみる
print(list(df.iloc[0].values))

#半角空白, 全角空白(\u3000)や改行コード\nを取り除いたリストを作って表示してみる
tlist = list(map( lambda s: str(s).replace("\u3000","").replace("\n","").replace(" ",""),df.iloc[0].values))
print(tlist)


セルの結合により、興味のあるデータがどの列に記述されているかは注意が必要。  

実際、[エネルギー]という文字列は1行目の6列目(それぞれインデックスでいうと0,5)で取得できるが、  
kJ単位になっていて、kcal単位でほしければ、7列目に格納された値が必要になる。  

また、エクセルファイルを見るとわかるように、たんぱく質・脂質・炭水化物はさらに細分化されており、  
O列R列など、細かい列の分割が挿入されている. ~~これは大変困る~~

単純にたんぱく質・脂質・炭水化物と表記されている列のインデックスはそれぞれ9,12,20となる。  
食品名が格納されている列(3)、エネルギー[kJ単位] (6)と合わせて確認してみよう。

In [None]:
df.iloc[:,[3,6,9,12,20]]

もう少し整形したいので、新しいデータフレームのコラムを書き換える。

食品名等が記載されているのは10行目以降なので、それを使い  
columnを指定する。

さらに、食品名に含まれる余分な文字コードも削除しておこう。

In [None]:
ndf = df.iloc[:,[3,6,9,12,20]] 
ndf = ndf.iloc[10:,:]
ndf.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf["食品名"] = ndf["食品名"].str.replace("\u3000"," ") # 食品名の中にある余分な全角空白(\u3000)を半角スペースに置き換える
ndf

次に、食品名の一覧を取得した後、興味のあるもの(日常的に馴染みのあるもの)だけを  
ピックアップしてみよう。

In [None]:
print(list(ndf["食品名"]))

この中から...
* こむぎ［パン類］食パンリッチタイプ
* こむぎ［パン類］フランスパン
* こめ［水稲軟めし］精白米
* そばそばゆで
* こむぎ［うどん・そうめん類］うどんゆで

のみに興味があれば

In [None]:
tshokuhin = ["こむぎ ［パン類］ 食パン リッチタイプ","こむぎ ［パン類］ フランスパン","こめ ［水稲軟めし］ 精白米", "そば そば ゆで", "こむぎ ［うどん・そうめん類］ うどん ゆで"]
ndf[ ndf["食品名"].isin(tshokuhin)]

などとする。

'6 野菜類'でも同様に...

In [None]:
df6 = pd.read_excel(wb,sheet_name="6 野菜類")
df6.iloc[:,[3,6,9,12,20]]
ndf6 = df6.iloc[:,[3,6,9,12,20]] 
ndf6 = ndf6.iloc[10:,:]
ndf6.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf6["食品名"] = ndf6["食品名"].str.replace("\u3000"," ") 
ndf6

特定のキーワードを含むものを全て取得して、  
食品名を細かく指定したり、対応する行番号のインデックスを取得できたりする

In [None]:
kyabetu = ndf6[ndf6["食品名"].str.contains('キャベツ')]
kyabetu

In [None]:
tomato = ndf6[ndf6["食品名"].str.contains('トマト')]
tomato

DataFrame同士を結合してまとめるなどして  
扱いやすいデータに整形していく.

縦方向の結合はpandasのconcat(concatenateの略)を使う。

In [None]:
tdf = pd.concat([kyabetu, tomato])
tdf

# LICENSE


Copyright (C) 2021 Sota Yoshida

[ライセンス:クリエイティブ・コモンズ 4.0 表示 (CC-BY 4.0)](https://creativecommons.org/licenses/by/4.0/deed.ja)