<a href="https://colab.research.google.com/github/SotaYoshida/Lecture_DataScience/blob/main/notebooks/Python_misc_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandasの使い方 (基礎)

```Pandas```は、データ分析のためのライブラリで  
統計量を計算・表示したり、それらをグラフとして可視化出来たり  
前処理などの地道だが重要な作業を比較的簡単に行うことができます。


まずはインポートしましょう。```pd```という名前で使うのが慣例です。

In [None]:
import pandas as pd 

pandasでは主に```Series```と```DataFrame```の２つのオブジェクトを扱います。  
SeriesはDataFrameの特殊な場合とみなせるので、以下ではDataFrameのみ説明することにします。

## DataFrame型

DataFrameはExcelシートのような二次元のデータを表現するのに利用され  
各種データ分析などで非常に役にたちます。

In [None]:
from pandas import DataFrame

以下の辞書型をDataFrame型のオブジェクトに変換してみましょう。

In [None]:
data = { '名前': ["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"],
        '出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df = DataFrame(data)
print("dataの型", type(data))
print("dfの型",type(df))

jupyter環境でDataFrameを読むと、"いい感じ"に表示してくれる

In [None]:
df

printだとちょっと無機質な感じに。

In [None]:
print(df)

```info()```関数を作用させると、詳細な情報が得られる。  
列ごとにどんな種類のデータが格納されているのかや、
メモリ使用量など表示することができる。

In [None]:
df.info()

## DataFrameの要素を確認・指定する方法

index: 行方向のデータ項目(おもに整数値(行番号),ID,名前など)  
columns: 列方向のデータの項目(おもにデータの種類)  
をそれぞれ表示してみよう。

In [None]:
df.index

In [None]:
df.columns

行方向を、整数値(行数)ではなく名前にしたければ

In [None]:
data1 = {'出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df1 = DataFrame(data1)
df1.index =["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"]
df1

などとしてもよい。

### 特定の列を取得したい場合

In [None]:
df["身長"]

とする。  
以下の方法は非推奨とする。


In [None]:
df.身長

値のリスト(正確にはnumpy.ndarray型)として取得したければ

In [None]:
df["身長"].values

In [None]:
df["出身都道府県"].values

などとすればよい。

慣れ親しんだ形に変換したければ、リストに変換すればよい


In [None]:
list(df["出身都道府県"].values)

ある列が特定のものに一致するもののみを抽出するのも簡単にできる

In [None]:
df[df["出身都道府県"]=="Tochigi"]

これは

In [None]:
df["出身都道府県"]=="Tochigi"

が条件に合致するかどうかTrue/Falseの配列になっていて、  
df[ [True/Falseの配列] ]とすると、Trueに対応する要素のみを返す  
フィルターのような役割になっている。

### 列の追加

In [None]:
#スカラー値の場合"初期化"のような振る舞いをする
df["血液型"] = "A"
df

In [None]:
#リストで追加
df["血液型"] = [ "A", "O","AB","B","A"]
df

### 特定の行を取得したい場合

たとえば、行番号がわかっているなら、```iloc```関数を使えば良い

In [None]:
df.iloc[3]

値のみ取得したければ先程と同様

In [None]:
df.iloc[3].values

また、以下のような使い方もできるが

In [None]:
df[1:4] #1から3行目まで

```df[1]```といった使い方は出来ない。  

### より複雑な行・列の抽出

上にならって、2000年より前に生まれた人だけを抽出し

In [None]:
df[ df["生年"] < 2000 ]

さらにこのうち身長が170cm以上の人だけがほしければ

In [None]:
df[(df["生年"] < 2000) & (df["身長"]>170)]

などとすればよい。  
他にも```iloc```,```loc```などを用いれば  
特定の行・列を抽出することができる

* ```iloc```は番号の指定のみに対応
* ```loc```は名前のみ

**欲しい要素の数値もしくは項目名のリスト**を  
行・列の２つついて指定してやればよい。

In [None]:
df.iloc[[0], [0]] #0行目,0列目

In [None]:
#スライスで指定することもできる
df.iloc[1:4, :3] #1-3行目かつ0-2列目 (スライスの終点は含まれないことに注意)

#スライスの場合は、 1:4が[1,2,3]と同じ働きをするので、括弧[]はいらない

```loc```を使う場合は、indexの代わりに項目名で指定する。

※今の場合、行を指定する項目名が既に整数値なので  
インデックスと見分けが付きづらいことに注意

In [None]:
df.loc[1:4,["名前","身長"]] 

In [None]:
df.loc[[1,2,3,4],"名前":"生年"]

といった具合。

```loc```を使う場合、1:4や[1,2,3,4]は  
indexのスライスではなく、項目名を意味し  
Eさんのデータも含まれている事がわかる。

## Webページにある表をDataFrameとして取得する

```pandas```内の```read_html```関数を用いれば、  
Webページの中にある表をDataFrame形式で取得することもできます。

以下では例としてWikipediaの[ノーベル物理学賞](https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e)のページにある、受賞者一覧を取得してみましょう

In [None]:
url = "https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e"
tables = pd.read_html(url)

In [None]:
print(len(tables))

ページ内に、21個もの表があることがわかります。  
(ほとんどはwikipediaのテンプレート等)

たとえば、2010年代の受賞者のみに興味がある場合は

In [None]:
df = tables[12]
df

## Pandasで複雑なエクセルファイルを操作する

Pandasにはread_excel()という関数が用意されていて、  
多数のシートを含むようなエクセルファイルを開くことも出来る。

まずは必要なモジュールをインポートしよう。

In [None]:
import pandas as pd
from pandas import DataFrame

今まではGoogle Driveにいれたファイルを読み出していたが、  
Webから直接xlsxファイルを読み込んでみよう。

In [None]:
url = "https://www.mext.go.jp/content/20201225-mxt_kagsei-mext_01110_012.xlsx"
input_file = pd.ExcelFile(url)

ブック内のシートの一覧は以下のように取得できる。

In [None]:
sheet_names = input_file.sheet_names
print("pandas: シート名",sheet_names)

シートを指定するのは、インデックスかシート名の文字列で行う。

"1 穀類"を使うことにして、  
pandasにあるread_excel関数を使ってみよう。  
read_excel関数の最初の引数にはパスの他に、urlも取れる。

In [None]:
df = pd.read_excel(url,sheet_name="1穀類")
df

同じものが得られている。


### データの整形

次に、今取得したデータフレームのままでは少々扱い辛いので"整形"を考える。  
というのも前から4行ほど表示してみると...

In [None]:
df[0:4] 

最初の4行ほどに栄養素等の情報が入っているのだが、  
セルが結合されたりしているため、所々にNaNが入っていたりして見辛い。

(碁盤目の構造を破壊してしまうため「セルの結合」は機械的な処理と  
やや相性が悪く、プログラミングを用いたデータ分析では嫌われる)

各省庁の公開データのフォーマットの統一化は今後に期待することにして...  
まず以下の項目に該当する列だけを抽出する事を考える。



In [None]:
targets = ["食品名", "エネルギー","たんぱく質", "脂質", "炭水化物"]

該当するデータがどの行・列に格納されているかをコードで指定するのは、  
前述のファイル構造の事情からやや面倒くさい。  

以下では、その場しのぎ的ではあるが、  
興味のある量が何番目かを指定してまとめてみることにしよう。

そのために、1-2行目の要素を表示してみよう。

In [None]:
#1-2行目(エクセルだと2行目)の要素から
    #半角空白, 全角空白(\u3000)や改行コード\nを取り除いたリストを作って表示してみる

for idx in range(1,3):
    tmp = df.iloc[idx].values
    tlist = list(map( lambda s: str(s).replace("\u3000","").replace("\n","").replace(" ",""),tmp))
    print(tlist)
#    for target in targets:
#        tlist.index(target)

セルの結合により、興味のあるデータがどの列に記述されているかは注意が必要。  

実際、[エネルギー]という文字列は1行目の6列目(それぞれインデックスでいうと0,5)で取得できるが、  
kJ単位になっていて、kcal単位でほしければ、7列目に格納された値が必要になる。  

また、エクセルファイルを見るとわかるように、たんぱく質・脂質・炭水化物はさらに細分化されており、  
O列R列など、細かい列の分割が挿入されている. ~~これは大変困る~~

単純にたんぱく質・脂質・炭水化物と表記されている列のインデックスはそれぞれ9,12,20となる。  
食品名が格納されている列(3)、エネルギー[kJ単位] (6)と合わせて確認してみよう。

In [None]:
targets = [3,6,9,12,20]
df.iloc[:,targets]

もう少し整形したいので、新しいデータフレームのコラムを書き換える。

食品名等が記載されているのは10行目以降なので、それを使い  
columnを指定する。

さらに、食品名に含まれる余分な文字コードも削除しておこう。

In [None]:
ndf = df.iloc[:,targets] 
ndf = ndf.iloc[10:,:]
ndf.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf["食品名"] = ndf["食品名"].str.replace("\u3000"," ") # 食品名の中にある余分な全角空白(\u3000)を半角スペースに置き換える
ndf

次に、食品名の一覧を取得した後、興味のあるもの(日常的に馴染みのあるもの)だけを  
ピックアップしてみよう。

In [None]:
print(list(ndf["食品名"]))

この中から...
* こむぎ［パン類］食パンリッチタイプ
* こむぎ［パン類］フランスパン
* こめ［水稲軟めし］精白米
* そばそばゆで
* こむぎ［うどん・そうめん類］うどんゆで

のみに興味があれば

In [None]:
tshokuhin = ["こむぎ ［パン類］ 食パン リッチタイプ","こむぎ ［パン類］ フランスパン","こめ ［水稲軟めし］ 精白米", "そば そば ゆで", "こむぎ ［うどん・そうめん類］ うどん ゆで"]
ndf[ ndf["食品名"].isin(tshokuhin)]

などとする。

'6野菜類'でも同様に...

In [None]:
df6 = pd.read_excel(url,sheet_name="6野菜類")
df6.iloc[:,[3,6,9,12,20]]
ndf6 = df6.iloc[:,[3,6,9,12,20]] 
ndf6 = ndf6.iloc[10:,:]
ndf6.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf6["食品名"] = ndf6["食品名"].str.replace("\u3000"," ") 
ndf6

特定のキーワードを含むものを全て取得して、  
食品名を細かく指定したり、対応する行番号のインデックスを取得できたりする

In [None]:
kyabetu = ndf6[ndf6["食品名"].str.contains('キャベツ')]
kyabetu

In [None]:
tomato = ndf6[ndf6["食品名"].str.contains('トマト')]
tomato

DataFrame同士を結合してまとめるなどして  
扱いやすいデータに整形していく.

縦方向の結合はpandasのconcat(concatenateの略)を使う。

In [None]:
tdf = pd.concat([kyabetu, tomato])
tdf

## DataFrameのcsv/Excelファイルへの書き出し

DataFrameオブジェクトは、```pandas```内の関数を用いれば、  
簡単にcsvやExcelファイルとして書き出すことができます。

先程の、２０１０年代のノーベル物理学賞受賞者のデータを、  
Google Driveにファイルとして書き出してみましょう。

In [None]:
from google.colab import drive
drive.mount('/content/drive')

**csvとして書き出す場合**

適当にパスを指定して、DataFrameオブジェクトに  
```to_csv```関数を作用させます。

In [None]:
df.to_csv("/content/drive/My Drive/AdDS2021/pd_write_test.csv")

**Excelファイルとして書き出す場合**

この場合も同様で、```to_excel```関数を用います。

In [None]:
df.to_excel("/content/drive/My Drive/AdDS2021/pd_write_test.xlsx")

上記の関数内で文字コードを指定することもできます。  
例: ```encoding="utf-8_sig"```, ```encoding="shift_jis"```