# pandas

以下のパッケージをインストールしておくこと。

* pandas
* openpyxl
* numpu

## 1. Series（シリーズ）

* pandasで使用される１次元データ
* インデックスを使ってデータに名前をつけられる

### リストでSeriesを生成


In [None]:
import pandas as pd

pd.Series([0,1,2])

### NumPyの乱数でSeriesを生成

In [None]:
import numpy as np

ary = np.random.rand(3)
ary

In [None]:
pd.Series(ary)

### 辞書を使ってインデックスを指定

In [None]:
pd.Series({'zero':'boo', 1.0:'foo', 2:'woo'})

## 2. DataFrame（データフレーム）

* pandasで使用される2次元データ
* 機械学習、統計処理で使用する場合は、主にDataFrameの操作になる

### リストによるDataFrameの生成

In [None]:
pd.DataFrame([[0,1,2],[3,4,5],[6,7,8],[9,10,11]])

In [None]:
pd.DataFrame(np.arange(12).reshape(4, 3))

### インデックスとカラムにラベルを設定

In [None]:
pd.DataFrame([[0,1,2],[3,4,5],[6,7,8],[9,10,11]],
             index=['A','B','C','D'], 
             columns=['c1','c2','c3'])

### 多次元配列からデータフレーム生成

ますは多次元配列を作成。

In [None]:
a = np.random.rand(12).reshape(4, 3)
a

カラムにラベルを追加してデータフレームを作成。

In [None]:
pd.DataFrame(a, columns=['c1', 'c2', 'c3'])

### 辞書からデータフレームを作成

In [None]:
pd.DataFrame({'Initial':['B','F','W'], \
                  'Name':['boo', 'foo', 'woo']}, \
                 columns=['Name','Initial'])

## 3. CSVファイルからDataFrameを作成

元データはこちら。<br>
https://www.data.jma.go.jp/stats/etrn/view/annually_a.php?prec_no=46&block_no=0392&year=&month=&day=&view=

値欄の説明は以下のページ。<br>
https://www.data.jma.go.jp/stats/data/mdrr/man/remark.html

* `///`：データがないもの
* `]`：計測時の問題等で、その値以上（以下）であることが確実なもの

In [None]:
df_miura = pd.read_csv('data/三浦の気象情報.csv',index_col=0)
df_miura

上記のデータをpandasで処理する場合、通常以下のような前処理を行う必要がある。

* `///`の要素はNumPyの`NaN`に置き換える
* `]`が付加された値は文字列のため統計値として使用できなため、`NaN`か、なんらかの数値に置き換える

## 4. Excelからデータフレームを作成

元データはこちら。<br>
Soccer DB Japan（ https://soccer-db.net/japan ）

In [None]:
df = pd.read_excel('data/日本サッカー代表2024.xlsx', index_col=0)
df

### 要素の取り出し

#### カラム単位

全選手の生年月日を取り出す。

In [None]:
df['生年月日']

### インデックス単位

伊東純也選手のデータを取り出す。

In [None]:
df.loc['伊東 純也']

インデックスの範囲で指定することができる。

In [None]:
df[0:5]

## ソートと先頭の取り出し

* ソートは`sort_values()`を使う
  * `by`でカラムを選んで、昇順/降順は`ascending`で指定
* 先頭の取り出しは`head()`
* 末尾の取り出しは`tail()`

A出場回数のトップ5

In [None]:
df.sort_values(by='A出場', ascending=False).head(5)

A得点ランキングのトップ5

In [None]:
df.sort_values(by='A得点', ascending=False).head(5)

NumPyの２次元配列のように、転置もできる。

In [None]:
df.T