# 10分で分かるpandas
## はじめに
この記事はpandas公式チュートリアル「10 minutes to pandas」の写経及び解説です

以下のURLを参考にしています
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html


## 環境
- Python3.8
- Jupyter Lab


# とりあえずインポート

In [1]:
%pip install pandas --user

Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np
import pandas as pd

In [3]:
np

<module 'numpy' from 'C:\\Users\\user\\AppData\\Local\\Programs\\Python\\Python37\\lib\\site-packages\\numpy\\__init__.py'>

In [4]:
pd

<module 'pandas' from 'C:\\Users\\user\\AppData\\Roaming\\Python\\Python37\\site-packages\\pandas\\__init__.py'>

## [1. オブジェクトを作る](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#object-creation)

### Seriesクラス
[Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)クラスにリストを入れることで簡単にデータを作ることが出来ます。


In [5]:
# 簡単に一列作る
s = pd.Series(data=[1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### data_rangeメソッド
[date_range()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.html)を使うことで、特定の期間の日付の行を作成出来ます。

In [6]:
# 2020年1月１日から6日間のデータ
dates = pd.date_range("20200101", periods=6)
dates

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

### DataFrameクラス
pandasの[DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas-dataframe)クラス**引数index**を指定することで、行インデックスを指定することが出来ます。

In [7]:
# 行インデックスに2020年1月1日からのデータを指定
# 各値にはランダムな数値を入れる
df = pd.DataFrame(np.random.randn(6, 4), index=dates)
df

Unnamed: 0,0,1,2,3
2020-01-01,3.183982,-2.131146,-2.370672,-0.850483
2020-01-02,-0.729786,-0.473462,-0.067459,-0.857541
2020-01-03,-0.194825,1.272731,1.499362,-0.965636
2020-01-04,-1.408262,-0.977855,3.471423,-1.685831
2020-01-05,0.293975,-0.410476,-0.088742,0.734134
2020-01-06,1.324342,0.485725,1.362413,-0.535959


また、同じくDataFrameクラスの
**引数columns**を指定することで列名を設定することが出来ます。

In [8]:
# 列名ABCDを設定
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


DataFrameクラスに辞書型のデータを渡すことで、辞書型のキーの部分が列名になります。

In [9]:
df2 = pd.DataFrame(
    {
        "A": 1.,
        "B": pd.Timestamp("20200101"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-01,1.0,3,test,foo
1,1.0,2020-01-01,1.0,3,train,foo
2,1.0,2020-01-01,1.0,3,test,foo
3,1.0,2020-01-01,1.0,3,train,foo


### DataFrame.dtypesプロパティ
**dtypesプロパティ**に参照することで各列のデータ属性が分かります。

In [10]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## [2. データを表示する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#object-creation)


DataFrameクラスの[head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html#pandas.DataFrame.head)を使うことでデータの先頭部を表示できます。


### DataFrame.headメソッド

In [11]:
df.head(2)

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612


同じくDataFrameクラスの[tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas-dataframe-tail)を使うことでデータの後尾部を表示できます。

### DataFrame.tailメソッド
同じくDataFrameクラスの[tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas-dataframe-tail)を使うことでデータの後尾部を表示できます。

In [12]:
df.tail(2)

Unnamed: 0,A,B,C,D
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


### DataFrame.indexプロパティ
DataFrameクラスの[index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html#pandas-dataframe-index)を参照することでそのデータの行インデックスを表示出来ます。


In [13]:
df.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

In [14]:
df2.index

Int64Index([0, 1, 2, 3], dtype='int64')

### DataFrame.to_numpyメソッド
DataFrameクラスの[to_numpy()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas-dataframe-to-numpy)を使うことでデータをnumpyで操作しやすいデータに変換できます。


In [15]:
df.to_numpy()

array([[ 1.12057547, -0.08304958, -1.03523124, -0.22486525],
       [ 0.60466209,  0.5434971 ,  1.24866082,  0.78461187],
       [ 2.77558966, -0.29062151, -0.72485322,  0.40162106],
       [-0.12933181, -0.10786863,  0.21955003, -0.64649823],
       [ 1.43587423,  0.31381282, -0.88903465, -0.07730273],
       [-1.17136093, -0.72591952,  0.08685359,  0.17515107]])

In [16]:
df2.to_numpy()

array([[1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [17]:
df

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


### DataFrame.describeメソッド
DataFrameクラスの[describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas-dataframe-describe)を使うことで、データの各列の簡単な統計を取ることができます。


In [18]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.772668,-0.058358,-0.182342,0.068786
std,1.355998,0.44797,0.872113,0.50074
min,-1.171361,-0.72592,-1.035231,-0.646498
25%,0.054167,-0.244933,-0.847989,-0.187975
50%,0.862619,-0.095459,-0.319,0.048924
75%,1.35705,0.214597,0.186376,0.345004
max,2.77559,0.543497,1.248661,0.784612


### DataFrame.T属性
DataFrameクラスの[T](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.T.html#pandas-dataframe-t)を参照すると、行列入れ替えたデータにアクセスできます。

In [19]:
df.T

Unnamed: 0,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05,2020-01-06
A,1.120575,0.604662,2.77559,-0.129332,1.435874,-1.171361
B,-0.08305,0.543497,-0.290622,-0.107869,0.313813,-0.72592
C,-1.035231,1.248661,-0.724853,0.21955,-0.889035,0.086854
D,-0.224865,0.784612,0.401621,-0.646498,-0.077303,0.175151


### DataFrame.transposeメソッド
DataFrameクラスの[transpose()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transpose.html#pandas-dataframe-transpose)でも同じく行列の入れ替えを取得できます。

In [20]:
df.transpose()

Unnamed: 0,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05,2020-01-06
A,1.120575,0.604662,2.77559,-0.129332,1.435874,-1.171361
B,-0.08305,0.543497,-0.290622,-0.107869,0.313813,-0.72592
C,-1.035231,1.248661,-0.724853,0.21955,-0.889035,0.086854
D,-0.224865,0.784612,0.401621,-0.646498,-0.077303,0.175151


### DataFrame.sort_index()

DataFrameクラスの[sort_index()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html#pandas-dataframe-sort-index)を使用することで、行全体もしくは列全体の並び替えを行うことができます。

In [21]:
df.sort_index()

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


**引数axis**に0もしくは"index"を設定すると行に、1もしくは"columns"を設定すると、列を軸に並び替えします(デフォルト値0)。  
また、**引数ascending**にFalseを指定すると並び順が降順になります(デフォルト値True)。

In [22]:
df.sort_index(axis="columns", ascending=False)

Unnamed: 0,D,C,B,A
2020-01-01,-0.224865,-1.035231,-0.08305,1.120575
2020-01-02,0.784612,1.248661,0.543497,0.604662
2020-01-03,0.401621,-0.724853,-0.290622,2.77559
2020-01-04,-0.646498,0.21955,-0.107869,-0.129332
2020-01-05,-0.077303,-0.889035,0.313813,1.435874
2020-01-06,0.175151,0.086854,-0.72592,-1.171361


In [23]:
df.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D
2020-01-06,-1.171361,-0.72592,0.086854,0.175151
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865


### DataFrame.sort_valuesメソッド
DataFrameクラスの[sort_values()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas-dataframe-sort-values)を使用することで行単位もしくは列単位に並び替えを行うことができます。


In [24]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2020-01-06,-1.171361,-0.72592,0.086854,0.175151
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-02,0.604662,0.543497,1.248661,0.784612


In [25]:
df.sort_values(by="2020-01-01", axis=1)

Unnamed: 0,C,D,B,A
2020-01-01,-1.035231,-0.224865,-0.08305,1.120575
2020-01-02,1.248661,0.784612,0.543497,0.604662
2020-01-03,-0.724853,0.401621,-0.290622,2.77559
2020-01-04,0.21955,-0.646498,-0.107869,-0.129332
2020-01-05,-0.889035,-0.077303,0.313813,1.435874
2020-01-06,0.086854,0.175151,-0.72592,-1.171361


## [3. データを選択する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#selection)
### [単純なデータ取得](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#getting)

**df["A"]**もしくは**df.A**とすることで、指定した一列を取得することができます。

In [26]:
df["A"]

2020-01-01    1.120575
2020-01-02    0.604662
2020-01-03    2.775590
2020-01-04   -0.129332
2020-01-05    1.435874
2020-01-06   -1.171361
Freq: D, Name: A, dtype: float64

In [27]:
df.A

2020-01-01    1.120575
2020-01-02    0.604662
2020-01-03    2.775590
2020-01-04   -0.129332
2020-01-05    1.435874
2020-01-06   -1.171361
Freq: D, Name: A, dtype: float64

リスト**[]**で指定した場合、Pythonのスライス操作で列や行を選択することができます

インデックスの範囲を取得することもできます。

In [28]:
print("先頭4列表示")
df[0:3]

先頭4列表示


Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621


In [29]:
# 2020年1月2日から2020年1月4日まで表示
df['20200102':'20200104']

Unnamed: 0,A,B,C,D
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498


### [ラベルを指定してデータを選択する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#selection-by-label)

DataFrameクラスの[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)にインデックス(今回の場合dates)を指定することで、行を列として選択することができます。

In [30]:
df.loc[dates]

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


In [31]:
df.loc[dates[0]]

A    1.120575
B   -0.083050
C   -1.035231
D   -0.224865
Name: 2020-01-01 00:00:00, dtype: float64

[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)を使うことで、複数列を選択することができます。

In [32]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2020-01-01,1.120575,-0.08305
2020-01-02,0.604662,0.543497
2020-01-03,2.77559,-0.290622
2020-01-04,-0.129332,-0.107869
2020-01-05,1.435874,0.313813
2020-01-06,-1.171361,-0.72592


[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)とスライス操作を組み合わせることで複数行、複数列選択することができます。

In [33]:
df.loc['20200102':'20200104', ['A', 'B']]

Unnamed: 0,A,B
2020-01-02,0.604662,0.543497
2020-01-03,2.77559,-0.290622
2020-01-04,-0.129332,-0.107869


[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)にインデックスを指定することで単体データを取得できます

In [34]:
df.loc[dates[0], 'A']

1.120575468621951

[at()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.at.html)を使うことでより高速に単体データを取得することができます

In [35]:
df.at[dates[0], 'A']

1.120575468621951

### [位置を指定してデータを選択する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#selection-by-position)

DataFrameクラスの[iloc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)を使うことで、数値を指定してデータ選択することが出来ます。


In [36]:
df

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


In [37]:
df.iloc[3] # 4行目を1列として選択

A   -0.129332
B   -0.107869
C    0.219550
D   -0.646498
Name: 2020-01-04 00:00:00, dtype: float64

In [38]:
df.iloc[3:5, 0:2] # 4行目から5行目まで、1列目から2列目まで選択

Unnamed: 0,A,B
2020-01-04,-0.129332,-0.107869
2020-01-05,1.435874,0.313813


In [39]:
df.iloc[[1, 2, 4], [0, 2]] # 2行目、3行目、5行目、1列目、3列目を選択

Unnamed: 0,A,C
2020-01-02,0.604662,1.248661
2020-01-03,2.77559,-0.724853
2020-01-05,1.435874,-0.889035


DataFrameクラスの[iloc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)の引数に開始位置終了位置を省略したスライス(:のみ)を指定することで、特定の全行 or 全列を取得できます

In [40]:
df.iloc[1:3, :] # 2行目から3行目を全列選択


Unnamed: 0,A,B,C,D
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621


In [41]:
df.iloc[:, 1:3] # 2列目から3列目を善行選択

Unnamed: 0,B,C
2020-01-01,-0.08305,-1.035231
2020-01-02,0.543497,1.248661
2020-01-03,-0.290622,-0.724853
2020-01-04,-0.107869,0.21955
2020-01-05,0.313813,-0.889035
2020-01-06,-0.72592,0.086854


DataFrameクラスの[iloc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)に引数に数値のみ指定することで、単体データの選択ができます。

In [42]:
df.iloc[1, 1]

0.5434970958264174

[at()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.at.html)と同様、[iat()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iat.html)使うことでより高速に単体データを取得することができます

In [43]:
df.iat[1, 1]

0.5434970958264174

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


### [条件判定によるデータ選択](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#boolean-indexing)

In [48]:
df

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498
2020-01-05,1.435874,0.313813,-0.889035,-0.077303
2020-01-06,-1.171361,-0.72592,0.086854,0.175151


A列のデータが0を超えている行を選択するには以下のようにします。

In [49]:
df[df["A"] > 0] 

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,-0.290622,-0.724853,0.401621
2020-01-05,1.435874,0.313813,-0.889035,-0.077303


DataFrameに対して条件判定することで、特定のデータだけ表示することが出来ます。

In [52]:
df[df > 0]

Unnamed: 0,A,B,C,D
2020-01-01,1.120575,,,
2020-01-02,0.604662,0.543497,1.248661,0.784612
2020-01-03,2.77559,,,0.401621
2020-01-04,,,0.21955,
2020-01-05,1.435874,0.313813,,
2020-01-06,,,0.086854,0.175151


[isin()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isin.html#pandas-series-isin)を使うことでフィルタリングが出来ます。

In [56]:
df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2

Unnamed: 0,A,B,C,D,E
2020-01-01,1.120575,-0.08305,-1.035231,-0.224865,one
2020-01-02,0.604662,0.543497,1.248661,0.784612,one
2020-01-03,2.77559,-0.290622,-0.724853,0.401621,two
2020-01-04,-0.129332,-0.107869,0.21955,-0.646498,three
2020-01-05,1.435874,0.313813,-0.889035,-0.077303,four
2020-01-06,-1.171361,-0.72592,0.086854,0.175151,three


In [58]:
df2[df2['E'].isin(['two', 'four'])]

Unnamed: 0,A,B,C,D,E
2020-01-03,2.77559,-0.290622,-0.724853,0.401621,two
2020-01-05,1.435874,0.313813,-0.889035,-0.077303,four
