# Pandasのデータ構造

## 2. pandasのデータ構造DataFrameを学ぼう

- Series： 1次元のデータセット
- DataFrame: ２次元のデータセット

### サンプルコード

In [4]:
import pandas as pd

df = pd.DataFrame([list('abcd'), list('efgh')])

In [5]:
df

Unnamed: 0,0,1,2,3
0,a,b,c,d
1,e,f,g,h


In [8]:
# DataFrameに、2次元の配列データだけを渡すとどうなるか？　列ラベルと行ラベルに入っている値を確認

print(df.columns.values)
print(df.index.values)

[0 1 2 3]
[0 1]


In [10]:
# カラム名を追加する
df.columns = list('ABCD')
print(df.columns.values)

['A' 'B' 'C' 'D']


In [12]:
#カラム名から列ごとのSeriesを取り出す
df['A']

0    a
1    e
Name: A, dtype: object

In [13]:
# こういう取り出し方もできるよ
df.B

0    b
1    f
Name: B, dtype: object

複数カラムの参照方法

In [16]:
type(df.B)

pandas.core.series.Series

In [18]:
df_bd = df[['B', 'D']]
df_bd

Unnamed: 0,B,D
0,b,d
1,f,h


In [20]:
df_b = df[['B']]
df_b

Unnamed: 0,B
0,b
1,f


In [22]:
# 配列をネストさせて指定すると、seriesオブジェクトではなく、frameオブジェクトが取れる
type(df_b)

pandas.core.frame.DataFrame

## 3. データフレームの使い方を振り返ろう

In [23]:
import pandas as pd

In [24]:
# DataFrameを作る
df = pd.DataFrame([list('abc'), list('def'), list('ghi')],
                                    columns = ['r1', 'r2', 'r3'])

In [25]:
df

Unnamed: 0,r1,r2,r3
0,a,b,c
1,d,e,f
2,g,h,i


In [26]:
# Seriesの抽出
df['r2']

0    b
1    e
2    h
Name: r2, dtype: object

In [27]:
type(df['r2'])

pandas.core.series.Series

In [28]:
# DataFrameの絞り込み
df_r2r3 = df[['r2', 'r3']]
df_r2r3

Unnamed: 0,r2,r3
0,b,c
1,e,f
2,h,i


In [29]:
type(df_r2r3)

pandas.core.frame.DataFrame

In [30]:
#データフレームの列ラベル・行ラベル
df_col_val = df.columns.values
df_row_val = df.index.values

In [31]:
df_col_val

array(['r1', 'r2', 'r3'], dtype=object)

In [32]:
df_row_val

array([0, 1, 2])

## 4. データフレームのデータを行単位で参照しよう

In [10]:
import pandas as pd

# DataFrameの作成
df = pd.DataFrame([list('abcd'), list('efgh'), list('ijkl'), list('mnop')],
                 columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,a,b,c,d
1,e,f,g,h
2,i,j,k,l
3,m,n,o,p


In [11]:
df_loc = df.loc[1]
df_loc

A    e
B    f
C    g
D    h
Name: 1, dtype: object

In [12]:
type(df_loc)

pandas.core.series.Series

In [13]:
# 行ラベルをつける
df_loc = pd.DataFrame([list('abcd'), list('efgh'), list('ijkl'), list('mnop')],
                 index = ['first', 'second', 'third', 'fourth'], columns = ['A', 'B', 'C', 'D'])
df_loc

Unnamed: 0,A,B,C,D
first,a,b,c,d
second,e,f,g,h
third,i,j,k,l
fourth,m,n,o,p


In [15]:
df_loc_second = df_loc.loc['second']
df_loc_second

A    e
B    f
C    g
D    h
Name: second, dtype: object

In [16]:
# 行番号でデータ参照　=> ilocを使う
df_iloc_1 = df_loc.iloc[1]
df_iloc_1

A    e
B    f
C    g
D    h
Name: second, dtype: object

In [18]:
#行列の指定で、特定のデータを指定
rowcol = df_loc.loc['second', 'C']
rowcol

'g'

In [19]:
# 複数行の指定
row = df_loc.loc[['second', 'fourth']]

In [20]:
row

Unnamed: 0,A,B,C,D
second,e,f,g,h
fourth,m,n,o,p


In [21]:
#複数行列の指定
rowcol = df_loc.loc[['second', 'fourth'], ['C', 'D']]

In [22]:
rowcol

Unnamed: 0,C,D
second,g,h
fourth,o,p
