In [1]:
import pandas as pd
import numpy as np

## 1.9.3 Pandasへのデータ読み込み方法

### ※非推奨 教科書（R）っぽい記法（表1.2）

In [2]:
x1 = np.array([63, 56, 51, 50, 42])
y1 = np.array([63, 66, 61, 60, 52])

df1 = pd.DataFrame(np.array([x1, y1]).T, columns=['x1', 'y1'])
df1

Unnamed: 0,x1,y1
0,63,63
1,56,66
2,51,61
3,50,60
4,42,52


### 普通のPandasの使い方

In [3]:
# Dictからの自動変換を積極的に利用する
df1 = pd.DataFrame({
    'x1': [63, 56, 51, 50, 42],
    'y1': [63, 66, 61, 60, 52],
})
display(df1) # display($variable)で良い感じにoutputしてくれる

Unnamed: 0,x1,y1
0,63,63
1,56,66
2,51,61
3,50,60
4,42,52


### ファイルからの読み込み(表1.3)

In [4]:
# file.choose的なことをさせる方法もあるが、ご利益を感じたことはマジでない
# 一応→https://qiita.com/tomcat666/items/1b64aa91dcd45ad91540

data01 = pd.read_csv('./causality/data01.csv')
display(data01)

Unnamed: 0,x1,y1
0,63,63
1,56,66
2,51,61
3,50,60
4,42,52


#### head/tail:上位N行/下位N行を表示

In [5]:
display(data01.head(2))
display(data01.tail(2))

Unnamed: 0,x1,y1
0,63,63
1,56,66


Unnamed: 0,x1,y1
3,50,60
4,42,52


#### descirbe/列ごとの要約統計量を表示（Rのsummaryに相当）

In [6]:
data01.describe()

Unnamed: 0,x1,y1
count,5.0,5.0
mean,52.4,60.4
std,7.765307,5.22494
min,42.0,52.0
25%,50.0,60.0
50%,51.0,61.0
75%,56.0,63.0
max,63.0,66.0


## 1.9.4 forループ

#### DataFrameの行要素をSeriesとして取り出し
Rと異なり、Pythonのindexは0始まりなことに注意

In [7]:
print(type(data01.iloc[2,:]))
display(data01.iloc[2,:])

<class 'pandas.core.series.Series'>


x1    51
y1    61
Name: 2, dtype: int64

#### DataFrameの行方向のスライス

In [8]:
print(type(data01.iloc[[2],:]))
data01.iloc[[2],:]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,x1,y1
2,51,61


#### DataFrameの列をSeriesとして取り出し

In [9]:
print(type(data01.iloc[:,1]))
data01.iloc[:,1]

<class 'pandas.core.series.Series'>


0    63
1    66
2    61
3    60
4    52
Name: y1, dtype: int64

#### DataFrameの列方向のスライス

In [10]:
print(type(data01.iloc[:,[1]]))
data01.iloc[:,[1]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,y1
0,63
1,66
2,61
3,60
4,52


#### DataFrameのセル要素の値取り出し

In [11]:
data01.iat[2,1]

61

#### 列(変数)ごとの要約統計量の計算 (列名を指定）

In [12]:
display(np.mean(data01.x1))
display(np.std(data01.x1, ddof=1)) # 標本標準偏差を求める場合はddof=1
display(np.mean(data01.y1))
display(np.std(data01.y1, ddof=1))

52.4

7.76530746332687

60.4

5.224940191045253

#### 列(変数)ごとの要約統計量の計算 (列名をstringで指定）

In [13]:
display(np.mean(data01['x1']))
display(np.std(data01['x1'], ddof=1)) # 標本標準偏差を求める場合はddof=1
display(np.mean(data01['y1']))
display(np.std(data01['y1'], ddof=1))

52.4

7.76530746332687

60.4

5.224940191045253

#### 列(変数)ごとの要約統計量の計算 （indexを指定）

In [14]:
display(np.mean(data01.iloc[:,0]))
display(np.std(data01.iloc[:,0], ddof=1)) # 標本標準偏差を求める場合はddof=1
display(np.mean(data01.iloc[:,1]))
display(np.std(data01.iloc[:,1], ddof=1))

52.4

7.76530746332687

60.4

5.224940191045253

#### 表1.4 forループ

In [15]:
output = np.empty(shape=(2,2), dtype=np.float64)
output.fill(np.nan)

for j in range(0,2):
    output[j,0] = np.mean(data01.iloc[:,j])
    output[j,1] = np.std(data01.iloc[:,j], ddof=1)

display(output)

array([[52.4       ,  7.76530746],
       [60.4       ,  5.22494019]])

#### DataFrameとして表示

In [16]:
pd.DataFrame(output, columns=['mean', 'std'], index=['x1', 'y1'])

Unnamed: 0,mean,std
x1,52.4,7.765307
y1,60.4,5.22494


#### apply: 列(行)ごとに関数を適用

In [17]:
display(data01.apply(np.mean))
display(data01.apply(np.std, ddof=1))

x1    52.4
y1    60.4
dtype: float64

x1    7.765307
y1    5.224940
dtype: float64