# pandasの簡単な使い方

表を読取り, その表の項目を読取り簡易的なデータベースのような使い方をし
たい場合, その一つの選択はpandasライブラリを使うことです. csvファイル
は1行目にヘッダーがあり, 列のインデックスが名前で入っているとします.
たとえば, date, observer, stationなどと入っているとします.

まず, pandasライブラリを用いるという宣言をimportで行ない, これを別名で
pdとして定義します. 次に, 上のcsvファイルall3.csvを読み取りますが, そ
の場合にカンマ区切として読み取ります. さらに, 読み取った後の表はdfに入っ
ているのでこれをprintします.

In [1]:
import pandas as pd
df = pd.read_csv('all3.csv', sep=',')
print (df)

                     date  observer  station  latitude  longitude  \
0     2018-01-01 00:00:00         1    11001   45.5200   141.9350   
1     2018-01-01 00:00:00         1    11016   45.4150   141.6783   
2     2018-01-01 00:00:00         1    11046   45.3050   141.0450   
3     2018-01-01 00:00:00         1    11061   45.4033   141.8017   
4     2018-01-01 00:00:00         1    11076   45.3350   142.1700   
...                   ...       ...      ...       ...        ...   
6503  2018-01-07 00:00:00         1    94081   24.3367   124.1633   
6504  2018-01-07 00:00:00         1    94086   24.3950   124.2450   
6505  2018-01-07 00:00:00         1    94101   24.2650   123.8717   
6506  2018-01-07 00:00:00         1    94116   24.0550   123.7667   
6507  2018-01-07 00:00:00         1    94121   24.0583   123.8033   

      row(0-3119)  column(0-2599)  altitude  temperature  penalty  
0              57            1594        26        -0.70        0  
1              70            1574  

ここで使っているデータはどういう大きさかを知りたければdfに対するshapeを見てみればわかります. また, dfに対するcolumnsは列インデックス, indexは行インデックスを示す(なお、今、行には名前をつけていないため0から6507まで順番に並ぶ). 列インデックスにaltitudeやtemperatureがあるが,df.altitudeで標高として表に含まれる例をすべて列挙するのはprint(df.altitude)とすればよい. 同じように, 温度をすべて列挙するためにはdf.temperatureをprintすればよい. sortするにはsortedというメソッドがpythonにあるため, print(sorted(df.temperature))により,温度が小さいものから順に並ぶ. 下の出力のように, -21.95度が最低気温で,最高気温は24.51度となっている.

In [6]:
print(df.columns)
print(df.index)
print(df.altitude)
print(sorted(df.temperature))

Index(['date', 'observer', 'station', 'latitude', 'longitude', 'row(0-3119)',
       'column(0-2599)', 'altitude', 'temperature', 'penalty'],
      dtype='object')
RangeIndex(start=0, stop=6508, step=1)
0       26
1        3
2       65
3        8
4       13
        ..
6503     6
6504    31
6505    33
6506    38
6507    13
Name: altitude, Length: 6508, dtype: int64
[-21.95, -21.05, -19.95, -19.15, -18.95, -18.85, -18.1, -17.43, -17.25, -17.21, -17.08, -16.45, -16.23, -16.2, -16.15, -16.11, -15.88, -15.84, -15.31, -15.29, -15.25, -14.9, -14.65, -14.45, -14.35, -14.31, -14.22, -14.13, -13.95, -13.91, -13.9, -13.89, -13.81, -13.81, -13.75, -13.71, -13.69, -13.61, -13.6, -13.59, -13.55, -13.48, -13.33, -13.32, -13.32, -13.25, -13.21, -13.06, -13.02, -12.92, -12.9, -12.89, -12.72, -12.65, -12.6, -12.52, -12.51, -12.5, -12.43, -12.41, -12.4, -12.39, -12.3, -12.22, -12.21, -12.2, -12.19, -12.06, -12.02, -12.01, -12.01, -11.98, -11.8, -11.79, -11.69, -11.68, -11.58, -11.42, -11.38, -11.35, -11.

dfという表から特定の列や行を指定して別の表として定義し直すことは以下のようにするとよい. dfの列のdate, temperature, stationを選択する場合にはdf[['date','temperature','station']]として列インデックスをリストで並べる. 行インデックスが1から5までの場合はloc[1:5]とする. 両方指定してもよい.

In [24]:
df2=df[['date','temperature','station']]
print (df2)
print (df2.loc[1:5])
print (df2.loc[1:3][['station','date']])

                     date  temperature  station
0     2018-01-01 00:00:00        -0.70    11001
1     2018-01-01 00:00:00        -1.99    11016
2     2018-01-01 00:00:00         0.38    11046
3     2018-01-01 00:00:00        -4.89    11061
4     2018-01-01 00:00:00        -0.58    11076
...                   ...          ...      ...
6503  2018-01-07 00:00:00        17.77    94081
6504  2018-01-07 00:00:00        17.75    94086
6505  2018-01-07 00:00:00        17.27    94101
6506  2018-01-07 00:00:00        17.64    94116
6507  2018-01-07 00:00:00        18.09    94121

[6508 rows x 3 columns]
                  date  temperature  station
1  2018-01-01 00:00:00        -1.99    11016
2  2018-01-01 00:00:00         0.38    11046
3  2018-01-01 00:00:00        -4.89    11061
4  2018-01-01 00:00:00        -0.58    11076
5  2018-01-01 00:00:00        -1.42    11091
   station                 date
1    11016  2018-01-01 00:00:00
2    11046  2018-01-01 00:00:00
3    11061  2018-01-01 00:00:00


In [None]:
同様に, ilocはインデックスを数字で考えて選択する.

In [28]:
print(df.iloc[3])
print(df.iloc[[3,4]])
print(df.iloc[1:3,1:4])

date              2018-01-01 00:00:00
observer                            1
station                         11061
latitude                      45.4033
longitude                     141.802
row(0-3119)                        71
column(0-2599)                   1584
altitude                            8
temperature                     -4.89
penalty                             0
Name: 3, dtype: object
                  date  observer  station  latitude  longitude  row(0-3119)  \
3  2018-01-01 00:00:00         1    11061   45.4033   141.8017           71   
4  2018-01-01 00:00:00         1    11076   45.3350   142.1700           79   

   column(0-2599)  altitude  temperature  penalty  
3            1584         8        -4.89        0  
4            1613        13        -0.58        0  
   observer  station  latitude
1         1    11016    45.415
2         1    11046    45.305


表にはNaNや値がない場合などがありえる. このような場合に機械学習にこの表を与えることはできない. その前に何らかの値を入れるか, そのような行や列を除去したり, さまざまなな方法が用いられる. 行や列の除去は先程の部分行列を求めることで解決できる. notnull()を用いると, NaNなどがあるとFalseを出力し, そうでなければTrueとなる. また, fillna(0)はNaNや値のない成分に0を埋め, dropnaとするとNaNを含む行を削除する. これらを用いて前処理することができる.

In [37]:
import pandas as pd
df = pd.read_csv('all3-problem.csv', sep=',')
print(df)
pd.isnull(df['altitude'])
print(df.notnull())
print(df.fillna(0))
print(df.dropna())

                     date  observer  station  latitude  longitude  \
0     2018-01-01 00:00:00         1    11001   45.5200   141.9350   
1     2018-01-01 00:00:00         1    11016   45.4150   141.6783   
2     2018-01-01 00:00:00         1    11046   45.3050   141.0450   
3     2018-01-01 00:00:00         1    11061   45.4033   141.8017   
4     2018-01-01 00:00:00         1    11076   45.3350   142.1700   
...                   ...       ...      ...       ...        ...   
6503  2018-01-07 00:00:00         1    94081   24.3367   124.1633   
6504  2018-01-07 00:00:00         1    94086   24.3950   124.2450   
6505  2018-01-07 00:00:00         1    94101   24.2650   123.8717   
6506  2018-01-07 00:00:00         1    94116   24.0550   123.7667   
6507  2018-01-07 00:00:00         1    94121   24.0583   123.8033   

      row(0-3119)  column(0-2599)  altitude  temperature  penalty  
0              57            1594       NaN        -0.70        0  
1              70            1574  

csvとしてセーブするには, to_csvを用いて, ファイル名を指定する.

In [39]:
df2.to_csv('tmp.csv')