In [1]:
import pandas as pd

In [2]:
#カラムとインデックスの説明。スライドを使って説明。
#データフレームは3つで成り立っている。インデックスと、カラムと、values、つまり、データ部分。

### ▼まずはデータフレームの作成方法から。

In [3]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], 
                   columns=['col01', 'col02', 'col03'], 
                   index=['idx01', 'idx02', 'idx03'])
df

Unnamed: 0,col01,col02,col03
idx01,1,2,3
idx02,4,5,6
idx03,7,8,9


In [4]:
import numpy as np

In [5]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
                   columns=['col01', 'col02', 'col03'],
                   index=['idx01', 'idx02', 'idx03'])
df

Unnamed: 0,col01,col02,col03
idx01,1,2,3
idx02,4,5,6
idx03,7,8,9


In [6]:
#インデックスに設定されている値を知りたい場合
df.index

Index(['idx01', 'idx02', 'idx03'], dtype='object')

In [7]:
#カラムに設定されている値を知りたい場合。カラムの参照
df.columns

Index(['col01', 'col02', 'col03'], dtype='object')

In [8]:
#他にもデータフレームを作る方法がある。辞書型を使ったデータフレーム。最初からカラムを設定できる。
df = pd.DataFrame({'col01':[1, 2, 3],
                    'col02':[4, 5, 6], 
                    'col03':[7, 8, 9]})
df

Unnamed: 0,col01,col02,col03
0,1,4,7
1,2,5,8
2,3,6,9


In [9]:
#インデックスはあとから設定することもできる。さっきみた参照のやり方。
df = pd.DataFrame({'col01':[1, 2, 3],
                    'col02':[4, 5, 6], 
                    'col03':[7, 8, 9]})

df.index=['idx01','idx02','idx03']
df

Unnamed: 0,col01,col02,col03
idx01,1,4,7
idx02,2,5,8
idx03,3,6,9


In [10]:
#インデックスを最初から設定したいならこのやり方
df = pd.DataFrame({'col01':[1, 2, 3],
                    'col02':[4, 5, 6], 
                    'col03':[7, 8, 9]}
                   ,index=['idx01', 'idx02', 'idx03'])
df

Unnamed: 0,col01,col02,col03
idx01,1,4,7
idx02,2,5,8
idx03,3,6,9


### ▼カラムとインデックスの操作

In [11]:
#インデックスもカラムもあとから設定するやりかた。一番最初に見たリストを使ったやり方でカラムもインデックスも設定しない
df = pd.DataFrame([[1, 2, 3],
                    [4, 5, 6], 
                    [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
df.columns=['col01','col02','col03']
df.index=['idx01','idx02','idx03']

In [13]:
df

Unnamed: 0,col01,col02,col03
idx01,1,2,3
idx02,4,5,6
idx03,7,8,9


In [14]:
#カラム名を変更したい場合
df.columns=['col04','col05','col06']

In [15]:
df

Unnamed: 0,col04,col05,col06
idx01,1,2,3
idx02,4,5,6
idx03,7,8,9


In [16]:
#一部だけ変更したい場合はrenameを使う。1つ変更したい場合
df = df.rename(columns={'col04': 'x'})
df

Unnamed: 0,x,col05,col06
idx01,1,2,3
idx02,4,5,6
idx03,7,8,9


In [17]:
#カラム名を2つ変更したい場合
df = df.rename(columns={'col05': 'y','col06': 'z'})
df

Unnamed: 0,x,y,z
idx01,1,2,3
idx02,4,5,6
idx03,7,8,9


In [18]:
#インデックスもカラムと同じように変更することができます
df = df.rename(index={'idx01': 'w'})
df

Unnamed: 0,x,y,z
w,1,2,3
idx02,4,5,6
idx03,7,8,9


In [19]:
#列名を抽出できます
df['x']

w        1
idx02    4
idx03    7
Name: x, dtype: int64

In [20]:
type(df['x'])

pandas.core.series.Series

In [21]:
#前のはSeriesとして取得。DataFrameで取得したければ、カッコを2つ。知っておくとデータ加工をするときに色々便利。
df[['x']]

Unnamed: 0,x
w,1
idx02,4
idx03,7


In [22]:
type(df[['x']])

pandas.core.frame.DataFrame

In [23]:
df.loc['w']

x    1
y    2
z    3
Name: w, dtype: int64

In [24]:
df.loc['w','z']

3

In [25]:
#locを使うと同じことができる。カンマが全部という意味。角カッコの中は、行と列の順番。個人的には行列で覚えている。
df.loc[:,'x']

w        1
idx02    4
idx03    7
Name: x, dtype: int64

In [26]:
#ilocを使うと行番号で同じことができる
df.iloc[:,0]

w        1
idx02    4
idx03    7
Name: x, dtype: int64

In [27]:
#今後の記事にする。優先度低い。インデックス名で抽出。

### ▼ここからがデータ部分の操作

In [28]:
df = pd.DataFrame({'col01':[1, 2, 3],
                    'col02':[4, 5, 6], 
                    'col03':[7, 8, 9]}
                   ,index=['idx01', 'idx02', 'idx03'])
df

Unnamed: 0,col01,col02,col03
idx01,1,4,7
idx02,2,5,8
idx03,3,6,9


In [29]:
df.dtypes

col01    int64
col02    int64
col03    int64
dtype: object

In [30]:
#locを使ってデータフレームのデータ部分の値を変える
df.loc['idx03','col02']

6

In [31]:
#上で値が取得できたので、代入すれば値を変更できる。
df.loc['idx03','col02']=100
df

Unnamed: 0,col01,col02,col03
idx01,1,4,7
idx02,2,5,8
idx03,3,100,9


In [32]:
#一気に変えたい場合はリスト型で渡してあげる
df.loc[:,'col03']=['Tokyo','Osaka','Hokkaido']
df

Unnamed: 0,col01,col02,col03
idx01,1,4,Tokyo
idx02,2,5,Osaka
idx03,3,100,Hokkaido


In [33]:
#２列目から３列目ってこともできる
df.loc[:,'col02':'col03']

Unnamed: 0,col02,col03
idx01,4,Tokyo
idx02,5,Osaka
idx03,100,Hokkaido


In [34]:
#上と同じことはilocでもできる。リストのスライスと同じで1列目以上から３列目未満。←しっかり調べてみて！
df.iloc[:,1:3]

Unnamed: 0,col02,col03
idx01,4,Tokyo
idx02,5,Osaka
idx03,100,Hokkaido


In [35]:
#こうやると行番号が取得できて
df.index.get_loc('idx03')

2

In [36]:
#こうやると列番号が取得できるので
df.columns.get_loc('col02')

1

In [37]:
#ilocで値変更をしなきゃいけないときはこれでやればオッケー。
df.iloc[df.index.get_loc('idx03'),df.columns.get_loc('col02')]=1000
df

Unnamed: 0,col01,col02,col03
idx01,1,4,Tokyo
idx02,2,5,Osaka
idx03,3,1000,Hokkaido


In [38]:
#各列のデータ方を調べるにはdtypesを使えばいいよ。データ型が違うとエラーになるからよく使うよ
df.dtypes

col01     int64
col02     int64
col03    object
dtype: object

In [39]:
df.shape

(3, 3)

In [40]:
df

Unnamed: 0,col01,col02,col03
idx01,1,4,Tokyo
idx02,2,5,Osaka
idx03,3,1000,Hokkaido


In [41]:
#行と列を逆転させる、つまり、転置もできるよ
df = df.T
df

Unnamed: 0,idx01,idx02,idx03
col01,1,2,3
col02,4,5,1000
col03,Tokyo,Osaka,Hokkaido


確認問題

In [42]:
df = pd.DataFrame({'col01':[1, 2, 3], 'col02':[4, 5, 6], 'col03':[7, 8, 9]}
                   ,index=['idx01', 'idx02', 'idx03'])
df

Unnamed: 0,col01,col02,col03
idx01,1,4,7
idx02,2,5,8
idx03,3,6,9


In [43]:
df.columns

Index(['col01', 'col02', 'col03'], dtype='object')

In [44]:
df = df.rename(index={'idx03': 'idx04'})
df

Unnamed: 0,col01,col02,col03
idx01,1,4,7
idx02,2,5,8
idx04,3,6,9


In [45]:
df['col01']

idx01    1
idx02    2
idx04    3
Name: col01, dtype: int64

In [46]:
df.iloc[:, 0]

idx01    1
idx02    2
idx04    3
Name: col01, dtype: int64

In [47]:
df.loc[:,'col01':'col02']

Unnamed: 0,col01,col02
idx01,1,4
idx02,2,5
idx04,3,6


In [None]:
df.dtypes