<a href="https://colab.research.google.com/github/SotaYoshida/Lecture_DataScience/blob/main/notebooks/Python_misc_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandasの使い方 (基礎)

```Pandas```は、データ分析のためのライブラリで  
統計量を計算・表示したり、それらをグラフとして可視化出来たり  
前処理などの地道だが重要な作業を比較的簡単に行うことができる。

まずはインポートしよう。```pd```という名前で使うのが慣例。

In [1]:
import pandas as pd 

pandasでは主に`Series`と`DataFrame`の２つのオブジェクトを扱う。  
`Series`は`DataFrame`の特殊な場合とみなせるので、以下では`DataFrame`のみ説明することにします。

## DataFrame型

`DataFrame`はExcelシートのような二次元のデータを表現するのに利用され各種データ分析などで非常に役に立つ。

In [2]:
from pandas import DataFrame

以下の辞書型をDataFrameのオブジェクトに変換してみましょう。

In [3]:
data = { '名前': ["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"],
        '出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df = DataFrame(data)
print("dataの型", type(data))
print("dfの型",type(df))

dataの型 <class 'dict'>
dfの型 <class 'pandas.core.frame.DataFrame'>


jupyter環境でDataFrameをコードセルの最終行に書くと、"いい感じ"に表示してくれる

In [4]:
df

Unnamed: 0,名前,出身都道府県,生年,身長
0,Aさん,Tokyo,1998,172
1,Bさん,Tochigi,1993,156
2,Cさん,Hokkaido,2000,162
3,Dさん,Kyoto,1989,180
4,Eさん,Tochigi,2002,158


printだとちょっと無機質な感じに。

In [5]:
print(df)

    名前    出身都道府県    生年   身長
0  Aさん     Tokyo  1998  172
1  Bさん   Tochigi  1993  156
2  Cさん  Hokkaido  2000  162
3  Dさん     Kyoto  1989  180
4  Eさん   Tochigi  2002  158


単一のコードセルの途中でDataFrameを表示したい場合などは、`display`関数を使うと良い。

In [6]:
display(df)

Unnamed: 0,名前,出身都道府県,生年,身長
0,Aさん,Tokyo,1998,172
1,Bさん,Tochigi,1993,156
2,Cさん,Hokkaido,2000,162
3,Dさん,Kyoto,1989,180
4,Eさん,Tochigi,2002,158


```info()```関数を作用させると、詳細な情報が得られる。  
列ごとにどんな種類のデータが格納されているのかや、
メモリ使用量など表示することができる。

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   名前      5 non-null      object
 1   出身都道府県  5 non-null      object
 2   生年      5 non-null      int64 
 3   身長      5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes


## DataFrameの要素を確認・指定する方法

`index`: 行方向のデータ項目(おもに整数値(行番号),ID,名前など)  
`columns`: 列方向のデータの項目(おもにデータの種類)  
をそれぞれ表示してみよう。

In [8]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [9]:
df.columns

Index(['名前', '出身都道府県', '生年', '身長'], dtype='object')

行方向を、整数値(行数)ではなく名前にしたければ

In [10]:
data1 = {'出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df = DataFrame(data1)
df.index =["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"]
df

Unnamed: 0,出身都道府県,生年,身長
Aさん,Tokyo,1998,172
Bさん,Tochigi,1993,156
Cさん,Hokkaido,2000,162
Dさん,Kyoto,1989,180
Eさん,Tochigi,2002,158


などとしてもよい。

### 特定の列を取得したい場合

In [11]:
df["身長"]

Aさん    172
Bさん    156
Cさん    162
Dさん    180
Eさん    158
Name: 身長, dtype: int64

と列名を指定すればよい。  
以下の方法でも取得できるが、この授業では非推奨とする。


In [12]:
df.身長

Aさん    172
Bさん    156
Cさん    162
Dさん    180
Eさん    158
Name: 身長, dtype: int64

値のリスト(正確にはnumpy.ndarray型)として取得したければ

In [13]:
df["身長"].values

array([172, 156, 162, 180, 158])

In [14]:
df["出身都道府県"].values

array(['Tokyo', 'Tochigi', 'Hokkaido', 'Kyoto', 'Tochigi'], dtype=object)

などとすればよい。

慣れ親しんだ形に変換したければ、リストに変換すればよい


In [15]:
list(df["出身都道府県"].values)

['Tokyo', 'Tochigi', 'Hokkaido', 'Kyoto', 'Tochigi']

ある列が特定のものに一致するもののみを抽出するのも簡単にできる

In [16]:
df[df["出身都道府県"]=="Tochigi"]

Unnamed: 0,出身都道府県,生年,身長
Bさん,Tochigi,1993,156
Eさん,Tochigi,2002,158


これは

In [17]:
df["出身都道府県"]=="Tochigi"

Aさん    False
Bさん     True
Cさん    False
Dさん    False
Eさん     True
Name: 出身都道府県, dtype: bool

が条件に合致するかどうかTrue/Falseの配列(正確には`Series`)になっていて、  
df[ [True/Falseの配列] ]とすると、Trueに対応する要素のみを返すフィルターのような役割になっている。

### 列の追加

In [18]:
#スカラー値の場合"初期化"のような振る舞いをする
df["血液型"] = "A"
df

Unnamed: 0,出身都道府県,生年,身長,血液型
Aさん,Tokyo,1998,172,A
Bさん,Tochigi,1993,156,A
Cさん,Hokkaido,2000,162,A
Dさん,Kyoto,1989,180,A
Eさん,Tochigi,2002,158,A


In [19]:
df["血液型"] = "B"
df

Unnamed: 0,出身都道府県,生年,身長,血液型
Aさん,Tokyo,1998,172,B
Bさん,Tochigi,1993,156,B
Cさん,Hokkaido,2000,162,B
Dさん,Kyoto,1989,180,B
Eさん,Tochigi,2002,158,B


リストや`numpy.ndarray`を列として追加することができる。

In [20]:
#リストで追加
df["血液型"] = [ "A", "O","AB","B","A"]
df

Unnamed: 0,出身都道府県,生年,身長,血液型
Aさん,Tokyo,1998,172,A
Bさん,Tochigi,1993,156,O
Cさん,Hokkaido,2000,162,AB
Dさん,Kyoto,1989,180,B
Eさん,Tochigi,2002,158,A


### 特定の行を取得したい場合

たとえば、行番号がわかっているなら、```iloc```関数を使えば良い

In [21]:
df.iloc[3]

出身都道府県    Kyoto
生年         1989
身長          180
血液型           B
Name: Dさん, dtype: object

値のみ取得したければ先程と同様`values`で`numpy.ndarray`を取得できる

In [22]:
df.iloc[3].values

array(['Kyoto', 1989, 180, 'B'], dtype=object)

また、以下のような使い方もできるが

In [23]:
df[1:4] 

Unnamed: 0,出身都道府県,生年,身長,血液型
Bさん,Tochigi,1993,156,O
Cさん,Hokkaido,2000,162,AB
Dさん,Kyoto,1989,180,B


```df[1]```といった使い方は出来ず、KeyErrorが発生する、

In [24]:
df[1]

KeyError: 1

### より複雑な行・列の抽出

上にならって、2000年より前に生まれた人だけを抽出し

In [25]:
df[ df["生年"] < 2000 ]

Unnamed: 0,出身都道府県,生年,身長,血液型
Aさん,Tokyo,1998,172,A
Bさん,Tochigi,1993,156,O
Dさん,Kyoto,1989,180,B


さらにこのうち身長が170cm以上の人だけがほしければ

In [26]:
df[(df["生年"] < 2000) & (df["身長"]>170)]

Unnamed: 0,出身都道府県,生年,身長,血液型
Aさん,Tokyo,1998,172,A
Dさん,Kyoto,1989,180,B


などとすればよい。**複数条件の場合は、条件を()で囲む必要があることに注意**しよう。

他にも```iloc```,```loc```などを用いれば、特定の行・列を抽出することができる

* ```iloc```は番号の指定のみに対応
* ```loc```は名前(列名・行明)のみ

**欲しい要素の数値もしくは項目名のリスト**を行・列のそれぞれについて指定してやればよい。

In [27]:
df.iloc[[0], [0]] #0行目,0列目

Unnamed: 0,出身都道府県
Aさん,Tokyo


In [28]:
#スライスで指定することもできる
df.iloc[1:4, :3] #1-3行目かつ0-2列目 (スライスの終点は含まれないことに注意)
#スライスの場合は、 1:4が[1,2,3]と同じ働きをするので、括弧[]はいらない

Unnamed: 0,出身都道府県,生年,身長
Bさん,Tochigi,1993,156
Cさん,Hokkaido,2000,162
Dさん,Kyoto,1989,180


```loc```を使う場合は、indexの代わりに項目名で指定する。

In [29]:
df.loc[["Aさん","Cさん"],["出身都道府県","身長"]] 

Unnamed: 0,出身都道府県,身長
Aさん,Tokyo,172
Cさん,Hokkaido,162


スライス的に指定することもできる

In [30]:
df.loc["Bさん":"Dさん","出身都道府県":"生年"]

Unnamed: 0,出身都道府県,生年
Bさん,Tochigi,1993
Cさん,Hokkaido,2000
Dさん,Kyoto,1989


といった具合。

```loc```を使う場合、1:4や[1,2,3,4]はindexのスライスではなく、  
項目名を意味し、Eさんのデータも含まれている事がわかる。

## Webページにある表をDataFrameとして取得する

```pandas```内の```read_html```関数を用いれば、  
Webページの中にある表をDataFrame形式で取得することもできます。

以下では例としてWikipediaの[ノーベル物理学賞](https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e)のページにある、受賞者一覧を取得してみましょう

In [31]:
url = "https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e"
tables = pd.read_html(url)

In [32]:
#!pip install lxml
#!pip install openpyxl

表の数を数えてみると...

In [33]:
print(len(tables))

18


ページ内に、18個もの表があることがわかります。(ほとんどはwikipediaのテンプレート等)

たとえば、2010年代の受賞者のみに興味がある場合は

In [34]:
df = tables[12]
df

Unnamed: 0,年度,受賞者名,受賞者名.1,国籍,受賞理由[4]・原著ないし関連論文
0,2010年,,アンドレ・ガイム Andre Geim,オランダ （ ロシア出身）,二次元物質グラフェンに関する革新的実験[注 71]
1,2010年,,コンスタンチン・ノボセロフ Konstantin Novoselov,ロシア イギリス,二次元物質グラフェンに関する革新的実験[注 71]
2,2011年,,ソール・パールマッター Saul Perlmutter,アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見 Astrophys. J.: 517 (19...
3,2011年,,ブライアン・P・シュミット Brian Schmidt,オーストラリア アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見 Astrophys. J.: 517 (19...
4,2011年,,アダム・リース Adam Riess,アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見 Astrophys. J.: 517 (19...
5,2012年,,セルジュ・アロシュ Serge Haroche,フランス （ モロッコ出身）,個別の量子系に対する計測および制御[注 72]を可能にする画期的な実験的手法に関する業績[5...
6,2012年,,デービッド・ワインランド David J. Wineland,アメリカ合衆国,個別の量子系に対する計測および制御[注 72]を可能にする画期的な実験的手法に関する業績[5...
7,2013年,,フランソワ・アングレール François Englert,ベルギー,欧州原子核研究機構 (CERN) によって存在が確認された素粒子（ヒッグス粒子）に基づく、質...
8,2013年,,ピーター・ヒッグス Peter Higgs,イギリス,欧州原子核研究機構 (CERN) によって存在が確認された素粒子（ヒッグス粒子）に基づく、質...
9,2014年,,赤﨑勇 Isamu Akasaki,日本,高輝度で省電力の白色光源を実現可能にした青色発光ダイオードの発明[10]


## Pandasでcsv/Excelファイルを読み込む


### csvファイルの読み込み

pandasには、csvを読み込むための関数```read_csv```も用意されていて、`read_excel`と同様に、ファイルパスを指定する他に、URLを指定して開く事ができる。

[教育用標準データセット](https://www.nstac.go.jp/use/literacy/ssdse/)の一つであるSSDSE-A(市区町村別データ)を読み込んでみよう。

下を実行すると...実はエラーとなる。

In [None]:
pd.read_csv("https://www.nstac.go.jp/sys/files/SSDSE-A-2024.csv")

その原因は、ファイルの文字コードがShift-JISであるためである。
Shift-JISで作成されたファイルを読み込む場合、エンコーディングを指定する必要がある。

"shift_jis"等としたいところだが、最近のShift-JISに対応するエンコーディングの指示は"cp932"である。

In [None]:
df = pd.read_csv("https://www.nstac.go.jp/sys/files/SSDSE-A-2024.csv", encoding="cp932")
df

### Excelファイルの読み込み

Pandasには`read_excel`という関数が用意されていて、  
多数のシートを含むようなエクセルファイルを開くことも出来る。

まずは必要なモジュールをインポートしよう。

In [35]:
import pandas as pd
from pandas import DataFrame

今まではGoogle Driveにいれたファイルを読み出していたが、  
Webから直接xlsxファイルを読み込んでみよう。

In [36]:
url = "https://www.mext.go.jp/content/20201225-mxt_kagsei-mext_01110_012.xlsx"
input_file = pd.ExcelFile(url)

ブック内のシートの一覧は以下のように取得できる。

In [37]:
sheet_names = input_file.sheet_names
print("pandas: シート名",sheet_names)

pandas: シート名 ['表全体', '1穀類', '2いも及びでん粉類', '3砂糖及び甘味類', '4豆類', '5種実類', '6野菜類', '7果実類', '8きのこ類', '9藻類', '10魚介類', '11肉類', '12鶏卵', '13乳類', '14油脂類', '15菓子類', '16し好飲料', '17調味料及び香辛料', '18調理済み流通食品類']


シートを指定するのは、インデックスかシート名の文字列で行う。

"1 穀類"を使うことにして、  
pandasにあるread_excel関数を使ってみよう。  
read_excel関数の最初の引数にはパスの他に、urlも取れる。

In [None]:
df = pd.read_excel(url,sheet_name="1穀類")
df

同じものが得られている。


#### Excelファイルの読み込みに関する補足

`pandas`内部では`ExcelFile`というクラスがExcelファイルを扱うために用意されている。

Excelファイルが単一のシートしかない場合や、上でやったように`ExcelFile`化してシート名を既に知っている場合は、`read_excel`関数で直接読み込むことができ、DataFrameとして取得できる。


ファイルによっては、読み込む際にエラーが出ることがある。

その場合、`openpyxl`というライブラリをインストールすることで解決することがある。
以下のようにしてインストールし、`read_excel`のオプションとして`engine="openpyxl"`を指定するとよい。

```python
!pip install openpyxl
df = pd.read_excel('filepath.xlsx',engine="openpyxl")
```

Pythonには伝統的にExcelファイルを扱うためのライブラリが複数存在しており、pandasの内部でも用いられている。
中でも、ファイルを読み込む際に良く用いられてきたのが`xlrd`である。
pandasのバージョン1.1まではExcelファイルを扱う際、内部的に`xlrd`を使用していたが、v1.2からは`.xlsx`形式は`openpyxl`、`.xls`は`xlrd`を使用するようになった。
https://pandas.pydata.org/pandas-docs/stable/whatsnew/v1.2.0.html


したがって、使用している環境で`openpyxl`や`xlrd`などがなければインストールしたり、ファイルを読み込む際に明示的にengineを指定してやる必要がある。

### データの整形

次に、今取得したデータフレームのままでは少々扱い辛いので"整形"を考える。  
というのも前から4行ほど表示してみると...

In [None]:
df[0:4] 

最初の4行ほどに栄養素等の情報が入っているのだが、  
セルが結合されたりしているため、所々にNaNが入っていたりして見辛い。

(碁盤目の構造を破壊してしまうため「セルの結合」は機械的な処理と  
やや相性が悪く、プログラミングを用いたデータ分析では嫌われる)

各省庁の公開データのフォーマットの統一化は今後に期待することにして...  
まず以下の項目に該当する列だけを抽出する事を考える。



In [None]:
targets = ["食品名", "エネルギー","たんぱく質", "脂質", "炭水化物"]

該当するデータがどの行・列に格納されているかをコードで指定するのは、  
前述のファイル構造の事情からやや面倒くさい。  

以下では、その場しのぎ的ではあるが、  
興味のある量が何番目かを指定してまとめてみることにしよう。

そのために、1-2行目の要素を表示してみよう。

In [None]:
#1-2行目(エクセルだと2行目)の要素から
    #半角空白, 全角空白(\u3000)や改行コード\nを取り除いたリストを作って表示してみる

for idx in range(1,3):
    tmp = df.iloc[idx].values
    tlist = list(map( lambda s: str(s).replace("\u3000","").replace("\n","").replace(" ",""),tmp))
    print(tlist)

セルの結合により、興味のあるデータがどの列に記述されているかは注意が必要。  

実際、[エネルギー]という文字列は1行目の6列目(それぞれインデックスでいうと0,5)で取得できるが、  
kJ単位になっていて、kcal単位でほしければ、7列目に格納された値が必要になる。  

また、エクセルファイルを見るとわかるように、たんぱく質・脂質・炭水化物はさらに細分化されており、  
O列R列など、細かい列の分割が挿入されている. ~~これは大変困る~~

単純にたんぱく質・脂質・炭水化物と表記されている列のインデックスはそれぞれ9,12,20となる。  
食品名が格納されている列(3)、エネルギー[kJ単位] (6)と合わせて確認してみよう。

In [None]:
targets = [3,6,9,12,20]
df.iloc[:,targets]

もう少し整形したいので、新しいデータフレームの列を書き換える。

食品名等が記載されているのは10行目以降なので、それを使いcolumnsを指定する。

さらに、食品名に含まれる余分な文字コードも削除しておこう。

In [None]:
ndf = df.iloc[:,targets] 
ndf = ndf.iloc[10:,:]
ndf.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf["食品名"] = ndf["食品名"].str.replace("\u3000"," ") # 食品名の中にある余分な全角空白(\u3000)を半角スペースに置き換える
ndf

次に、食品名の一覧を取得した後、興味のあるもの(日常的に馴染みのあるもの)だけを  
ピックアップしてみよう。

In [None]:
print(list(ndf["食品名"]))

この中から...
* こむぎ［パン類］食パンリッチタイプ
* こむぎ［パン類］フランスパン
* こめ［水稲軟めし］精白米
* そばそばゆで
* こむぎ［うどん・そうめん類］うどんゆで

のみに興味があれば

In [None]:
tshokuhin = ["こむぎ ［パン類］ 食パン リッチタイプ","こむぎ ［パン類］ フランスパン","こめ ［水稲軟めし］ 精白米", "そば そば ゆで", "こむぎ ［うどん・そうめん類］ うどん ゆで"]
ndf[ ndf["食品名"].isin(tshokuhin)]

などとする。

'6野菜類'でも同様に...

In [None]:
df6 = pd.read_excel(url,sheet_name="6野菜類")
df6.iloc[:,[3,6,9,12,20]]
ndf6 = df6.iloc[:,[3,6,9,12,20]] 
ndf6 = ndf6.iloc[10:,:]
ndf6.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf6["食品名"] = ndf6["食品名"].str.replace("\u3000"," ") 
ndf6

特定のキーワードを含むものを全て取得して、  
食品名を細かく指定したり、対応する行番号のインデックスを取得できたりする

In [None]:
kyabetu = ndf6[ndf6["食品名"].str.contains('キャベツ')]
kyabetu

In [None]:
tomato = ndf6[ndf6["食品名"].str.contains('トマト')]
tomato

DataFrame同士を結合してまとめるなどして扱いやすいデータに整形していく.

縦方向の結合はpandasのconcat(concatenateの略)を使う。

In [None]:
tdf = pd.concat([kyabetu, tomato])
tdf

## DataFrameのcsv/Excelファイルへの書き出し

DataFrameオブジェクトは、```pandas```内の関数・メソッドを用いれば、簡単にcsvやExcelファイルとして書き出すことができる。

先程の、2010年代のノーベル物理学賞受賞者のデータを、Google Driveにファイルとして書き出してみよう。

In [None]:
from google.colab import drive
drive.mount('/content/drive')

**csvとして書き出す場合**

適当にパスを指定して、DataFrameオブジェクトに```to_csv```関数を作用させる。  

In [None]:
df.to_csv("/content/drive/MyDrive/pd_write_test.csv")

**Excelファイルとして書き出す場合**

この場合も同様で、```to_excel```関数を用いればよい。

In [None]:
df.to_excel("/content/drive/MyDrive/pd_write_test.xlsx")

上記の関数内で書き出しに使う文字コードを指定することもできる。    
例: ```encoding="utf-8_sig"```, ```encoding="shift_jis"```