# 4.2 pands

### `各種命令`

| No| 命令 | 説明 | 書き方 | 例 | 備考 |
|:---:|:---:|:---|:---|:---|:---|
| 01 | DataFrame()|  行列データを作成 |  pd.DataFrame(行列) | `pd.DataFrame(np.arange(100).reshape(25,4) )` | - |
| 02 | head()|  前頭から何行取得 |  df.head(取得行数) | `df.head(2)` | - |
| 03 | tail()|  末尾から何行取得 |  df.tail(取得行数) | `df.tail(2)` | - |
| 04 | shape|  DataFrameのサイズを返す |  df.shape | `df.shape` | - |
| 05 | index |  インデックス名を付ける |  df.index = リスト | `df.index = ["1","2","3"]` | - |
| 06 | columns |  カラム名を付ける |  df.columns = リスト | `df.columns = ["A","B"]` | - |
| 07 | df[カラム名] |  カラム名で取得 |  df[カラム名] | `df["A"]` | - |
| 08 | loc[カラム名] |  カラム名を付ける |  df.loc[:,カラム名] | `df.loc[:,"A"]` | - |
| 09 | iloc[行番号:,列番号] |  ンデックスとカラム番号を指定して抽出 |  df.iloc[行番号:,列番号] | `df.iloc[1:,1]` | - |
| 10 | pd.read_csv()|  csvデータ読み取り |  pd.read_csv(対象データ,エンコード) |  `pd.read_csv("xx.csv",encoding="utf-8",index_col='日付',parse_dates=True)` | - |
| 11 | pd.read_excel()|  excelデータ読み取り |  pd.read_excel(対象データ,エンコード) |  `pd.read_excel("xx.xlsx",encoding="utf-8",index_col='日付',parse_dates=True)` | - |
| 12 | pd.read_html()|  webデータ読み取り |  pd.read_html(URLード) |  `pd.read_html("htps://xx.html")` | - |
| 13 | pd.to_csv()|  csvにデータを書き込み |  pd.to_csv(csvファイル) |  `pd.read_html("write_data.csv")` | - |
| 14 | pd.to_excel()|  excelにデータを書き込み |  pd.to_excel(xlsxファイル) |  `pd.to_excel("write_data.xlsx")` | - |
| 15 | pd.to_pickle()|  pickleデータ作成 |  pd.to_pickle(pickleファイル) |  `pd.read_html("write_df.pickle")` | - |
| 16 | pd.read_pickle()|  データ再利用 |  pd.read_pickle(pickleファイル) |  `pd.read_pickle("write_df.pickle")` | - |

## 4.2.1 pandasの概要

### pandasとは
- pandasは、NumPyを基盤にシリーズ(Series)とデータフレーム(DataFrame)というデータ型を提供しています。

### Pandas使い方
- NumPyをインポート方法 `import ｐandaｓ as pd`

### Seriesとは
* Seriesとは1次元データです

### DataFrameとは
* Seriesとは2次元データです

In [6]:
import pandas as pd
import numpy as np

In [3]:
#  Series出力
ser = pd.Series([10,20,30,40])
ser

0    10
1    20
2    30
3    40
dtype: int64

In [4]:
# DataFrame出力
df = pd.DataFrame([[10,"a",True],
                 [20,"b",False],
                 [30,"c",False],
                 [40,"d",True]])
df

Unnamed: 0,0,1,2
0,10,a,True
1,20,b,False
2,30,c,False
3,40,d,True


### DataFrameの概要

In [7]:
# １００件のデータ 25 x 4 の行列
df = pd.DataFrame(np.arange(100).reshape(25,4))


In [9]:
# 前頭から何(2)行を表示する
df.head(2)

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7


In [10]:
# 末尾から何(8)行を表示する
df.tail(2)

Unnamed: 0,0,1,2,3
23,92,93,94,95
24,96,97,98,99


In [11]:
# DataFrameのサイズ
df.shape

(25, 4)

### インデックス名、カラム名

In [14]:
df = pd.DataFrame(np.arange(6).reshape(3,2))
# 書き方１
# インデックス名を付ける
df.index = ["1","2","3"]
# カラム名を付ける
df.columns = ["A","B"]
df

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [15]:
# 書き方２
df = pd.DataFrame(np.arange(6).reshape((3,2)),index = ["1","2","3"],columns = ["A","B"])
df

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [16]:
# 書き方３
# 辞書形式、カラム毎にデータを作成
pd.DataFrame({"A":[0,2,4],"B":[1,3,5]})

Unnamed: 0,A,B
0,0,1
1,2,3
2,4,5


## データの抽出

In [41]:
df = pd.DataFrame(np.arange(12).reshape((4,3)),columns=["A","B","C"],index=["1行目","2行目","3行目","4行目"])
df

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [42]:
#カラム名を指定して抽出
# 書き方1
df["A"]

1行目    0
2行目    3
3行目    6
4行目    9
Name: A, dtype: int64

In [43]:
#カラム名を指定して抽出
# 書き方2
df.loc[:,"A"]

1行目    0
2行目    3
3行目    6
4行目    9
Name: A, dtype: int64

In [44]:
#複数のカラムデータを抽出
df[["A","B"]]

Unnamed: 0,A,B
1行目,0,1
2行目,3,4
3行目,6,7
4行目,9,10


In [45]:
# インデックスを指定してデータを抽出0行目と1
df[:2]

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5


In [46]:
# locメソッドでデータを抽出
#[:,:]=全て
df.loc[:, :]

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [49]:
# 複数のカラムを抽出方法
df.loc[:,["A", "B"]]

Unnamed: 0,A,B
1行目,0,1
2行目,3,4
3行目,6,7
4行目,9,10


In [50]:
# インデックス方向で抽出
df.loc["1行目",:]

A    0
B    1
C    2
Name: 1行目, dtype: int64

In [51]:
# インデックス方向で抽出
df.loc[["1行目","3行目"],:]

Unnamed: 0,A,B,C
1行目,0,1,2
3行目,6,7,8


In [53]:
# インデックスとカラム両方向抽出
df.loc["1行目",["A","C"]]

A    0
C    2
Name: 1行目, dtype: int64

In [54]:
# iloc:インデックスとカラム番号を指定して抽出
df.iloc[1,1]

4

In [55]:
# インデックス：範囲、カラム：位置で抽出
df.iloc[1:,1]

2行目     4
3行目     7
4行目    10
Name: B, dtype: int64

In [56]:
# インデックス：範囲、カラム：範囲で抽出
df.iloc[1:,:2]

Unnamed: 0,A,B
2行目,3,4
3行目,6,7
4行目,9,10


## 4.2.2 データの読み込み・書き込み

### データ読み込み

In [66]:
import pandas as pd
# csvファイルの読み込み
df = pd.read_csv("data/201704health.csv",encoding="utf-8")
df.head(2)

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300


In [67]:
# excelファイルの読み込み
df = pd.read_excel("data/201704health.xlsx",encoding="utf-8")
df.tail(2)

Unnamed: 0,日付,歩数,摂取カロリー
28,2017-04-29,6033,2300
29,2017-04-30,4093,1950


In [60]:
url = "https://ja.wikipedia.org/wiki/%E3%83%88%E3%83%83%E3%83%97%E3%83%AC%E3%83%99%E3%83%AB%E3%83%89%E3%83%A1%E3%82%A4%E3%83%B3%E4%B8%80%E8%A6%A7"
tables = pd.read_html(url)

In [61]:
len(tables)

43

In [63]:
df =tables[0]
df

Unnamed: 0,0,1
0,,この記事の一部（New TLDs: https://newgtlds.icann.org/e...


### データ書き込み

In [81]:
# csvへ書き込み
df.to_csv("data/write_data.csv")

In [82]:
# excelへ書き込み
df.to_excel("data/write_data.xlsx")

### データの再利用

In [64]:
# データをファイルに書き込み
df.to_pickle("data/write_df.pickle")

In [65]:
# 先程書き込みましたデータを再読み込み
df = pd.read_pickle("data/write_df.pickle")
df

Unnamed: 0,0,1
0,,この記事の一部（New TLDs: https://newgtlds.icann.org/e...
