# 10分で分かるpandas
## はじめに
この記事はpandas公式チュートリアル「10 minutes to pandas」の写経及び解説です

以下のURLを参考にしています
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html


## 環境
- Python3.8
- Jupyter Lab


# とりあえずインポート

In [2]:
%pip install pandas --user

Note: you may need to restart the kernel to use updated packages.


In [3]:
import numpy as np
import pandas as pd

In [4]:
np

<module 'numpy' from 'C:\\Users\\user\\AppData\\Local\\Programs\\Python\\Python37\\lib\\site-packages\\numpy\\__init__.py'>

In [5]:
pd

<module 'pandas' from 'C:\\Users\\user\\AppData\\Roaming\\Python\\Python37\\site-packages\\pandas\\__init__.py'>

## [1. オブジェクトを作る](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#object-creation)

### Seriesクラス
[Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)クラスにリストを入れることで簡単にデータを作ることが出来ます。


In [6]:
# 簡単に一列作る
s = pd.Series(data=[1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### data_rangeメソッド
[date_range()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.html)を使うことで、特定の期間の日付の行を作成出来ます。

In [7]:
# 2020年1月１日から6日間のデータ
dates = pd.date_range("20200101", periods=6)
dates

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

### DataFrameクラス
pandasの[DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas-dataframe)クラス**引数index**を指定することで、行インデックスを指定することが出来ます。

In [8]:
# 行インデックスに2020年1月1日からのデータを指定
# 各値にはランダムな数値を入れる
df = pd.DataFrame(np.random.randn(6, 4), index=dates)
df

Unnamed: 0,0,1,2,3
2020-01-01,-1.388957,1.306595,0.988437,0.723787
2020-01-02,0.991534,-0.323942,1.603647,-0.416066
2020-01-03,-0.903258,0.501971,-0.07882,-0.225775
2020-01-04,-1.155488,1.45086,0.68205,-0.345707
2020-01-05,0.30359,1.332746,0.32538,-0.785388
2020-01-06,0.216792,0.53698,-0.323679,-0.112139


また、同じくDataFrameクラスの
**引数columns**を指定することで列名を設定することが出来ます。

In [9]:
# 列名ABCDを設定
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


DataFrameクラスに辞書型のデータを渡すことで、辞書型のキーの部分が列名になります。

In [10]:
df2 = pd.DataFrame(
    {
        "A": 1.,
        "B": pd.Timestamp("20200101"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-01,1.0,3,test,foo
1,1.0,2020-01-01,1.0,3,train,foo
2,1.0,2020-01-01,1.0,3,test,foo
3,1.0,2020-01-01,1.0,3,train,foo


### DataFrame.dtypesプロパティ
**dtypesプロパティ**に参照することで各列のデータ属性が分かります。

In [11]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## [2. データを表示する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#object-creation)


DataFrameクラスの[head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html#pandas.DataFrame.head)を使うことでデータの先頭部を表示できます。


### DataFrame.headメソッド

In [12]:
df.head(2)

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184


同じくDataFrameクラスの[tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas-dataframe-tail)を使うことでデータの後尾部を表示できます。

### DataFrame.tailメソッド
同じくDataFrameクラスの[tail()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas-dataframe-tail)を使うことでデータの後尾部を表示できます。

In [13]:
df.tail(2)

Unnamed: 0,A,B,C,D
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


### DataFrame.indexプロパティ
DataFrameクラスの[index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html#pandas-dataframe-index)を参照することでそのデータの行インデックスを表示出来ます。


In [14]:
df.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

In [15]:
df2.index

Int64Index([0, 1, 2, 3], dtype='int64')

### DataFrame.to_numpyメソッド
DataFrameクラスの[to_numpy()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas-dataframe-to-numpy)を使うことでデータをnumpyで操作しやすいデータに変換できます。


In [16]:
df.to_numpy()

array([[ 0.0397012 ,  0.39212247,  1.41717418, -1.18012014],
       [-0.61364766, -2.08072542,  0.50990351,  0.28118362],
       [ 0.88117658, -0.48000739, -1.45970181,  0.6605493 ],
       [ 1.97195362, -0.41686978,  0.34605757,  0.83053245],
       [ 1.79641758, -0.13691227,  0.57853899, -0.05146287],
       [-0.20057387, -0.03427887, -0.60587193,  1.70393085]])

In [17]:
df2.to_numpy()

array([[1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2020-01-01 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [18]:
df

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


### DataFrame.describeメソッド
DataFrameクラスの[describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas-dataframe-describe)を使うことで、データの各列の簡単な統計を取ることができます。


In [19]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.645838,-0.459445,0.131017,0.374102
std,1.077768,0.853317,1.011698,0.965833
min,-0.613648,-2.080725,-1.459702,-1.18012
25%,-0.140505,-0.464223,-0.36789,0.031699
50%,0.460439,-0.276891,0.427981,0.470866
75%,1.567607,-0.059937,0.56138,0.788037
max,1.971954,0.392122,1.417174,1.703931


### DataFrame.T属性
DataFrameクラスの[T](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.T.html#pandas-dataframe-t)を参照すると、行列入れ替えたデータにアクセスできます。

In [20]:
df.T

Unnamed: 0,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05,2020-01-06
A,0.039701,-0.613648,0.881177,1.971954,1.796418,-0.200574
B,0.392122,-2.080725,-0.480007,-0.41687,-0.136912,-0.034279
C,1.417174,0.509904,-1.459702,0.346058,0.578539,-0.605872
D,-1.18012,0.281184,0.660549,0.830532,-0.051463,1.703931


### DataFrame.transposeメソッド
DataFrameクラスの[transpose()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transpose.html#pandas-dataframe-transpose)でも同じく行列の入れ替えを取得できます。

In [21]:
df.transpose()

Unnamed: 0,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05,2020-01-06
A,0.039701,-0.613648,0.881177,1.971954,1.796418,-0.200574
B,0.392122,-2.080725,-0.480007,-0.41687,-0.136912,-0.034279
C,1.417174,0.509904,-1.459702,0.346058,0.578539,-0.605872
D,-1.18012,0.281184,0.660549,0.830532,-0.051463,1.703931


### DataFrame.sort_index()

DataFrameクラスの[sort_index()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html#pandas-dataframe-sort-index)を使用することで、行全体もしくは列全体の並び替えを行うことができます。

In [22]:
df.sort_index()

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


**引数axis**に0もしくは"index"を設定すると行に、1もしくは"columns"を設定すると、列を軸に並び替えします(デフォルト値0)。  
また、**引数ascending**にFalseを指定すると並び順が降順になります(デフォルト値True)。

In [23]:
df.sort_index(axis="columns", ascending=False)

Unnamed: 0,D,C,B,A
2020-01-01,-1.18012,1.417174,0.392122,0.039701
2020-01-02,0.281184,0.509904,-2.080725,-0.613648
2020-01-03,0.660549,-1.459702,-0.480007,0.881177
2020-01-04,0.830532,0.346058,-0.41687,1.971954
2020-01-05,-0.051463,0.578539,-0.136912,1.796418
2020-01-06,1.703931,-0.605872,-0.034279,-0.200574


In [24]:
df.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-01,0.039701,0.392122,1.417174,-1.18012


### DataFrame.sort_valuesメソッド
DataFrameクラスの[sort_values()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas-dataframe-sort-values)を使用することで行単位もしくは列単位に並び替えを行うことができます。


In [25]:
df.sort_values(by="B")

Unnamed: 0,A,B,C,D
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931
2020-01-01,0.039701,0.392122,1.417174,-1.18012


In [26]:
df.sort_values(by="2020-01-01", axis=1)

Unnamed: 0,D,A,B,C
2020-01-01,-1.18012,0.039701,0.392122,1.417174
2020-01-02,0.281184,-0.613648,-2.080725,0.509904
2020-01-03,0.660549,0.881177,-0.480007,-1.459702
2020-01-04,0.830532,1.971954,-0.41687,0.346058
2020-01-05,-0.051463,1.796418,-0.136912,0.578539
2020-01-06,1.703931,-0.200574,-0.034279,-0.605872


## [3. データを選択する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#selection)
### [単純なデータ取得](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#getting)

**df["A"]**もしくは**df.A**とすることで、指定した一列を取得することができます。

In [27]:
df["A"]

2020-01-01    0.039701
2020-01-02   -0.613648
2020-01-03    0.881177
2020-01-04    1.971954
2020-01-05    1.796418
2020-01-06   -0.200574
Freq: D, Name: A, dtype: float64

In [28]:
df.A

2020-01-01    0.039701
2020-01-02   -0.613648
2020-01-03    0.881177
2020-01-04    1.971954
2020-01-05    1.796418
2020-01-06   -0.200574
Freq: D, Name: A, dtype: float64

リスト**[]**で指定した場合、Pythonのスライス操作で列や行を選択することができます

インデックスの範囲を取得することもできます。

In [29]:
print("先頭4列表示")
df[0:3]

先頭4列表示


Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549


In [30]:
# 2020年1月2日から2020年1月4日まで表示
df['20200102':'20200104']

Unnamed: 0,A,B,C,D
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532


### [ラベルを指定してデータを選択する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#selection-by-label)

DataFrameクラスの[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)にインデックス(今回の場合dates)を指定することで、行を列として選択することができます。

In [31]:
df.loc[dates]

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


In [32]:
df.loc[dates[0]]

A    0.039701
B    0.392122
C    1.417174
D   -1.180120
Name: 2020-01-01 00:00:00, dtype: float64

[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)を使うことで、複数列を選択することができます。

In [33]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2020-01-01,0.039701,0.392122
2020-01-02,-0.613648,-2.080725
2020-01-03,0.881177,-0.480007
2020-01-04,1.971954,-0.41687
2020-01-05,1.796418,-0.136912
2020-01-06,-0.200574,-0.034279


[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)とスライス操作を組み合わせることで複数行、複数列選択することができます。

In [34]:
df.loc['20200102':'20200104', ['A', 'B']]

Unnamed: 0,A,B
2020-01-02,-0.613648,-2.080725
2020-01-03,0.881177,-0.480007
2020-01-04,1.971954,-0.41687


[loc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc)にインデックスを指定することで単体データを取得できます

In [60]:
df.loc[dates[0], 'A']

0.03970120355970404

[at()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.at.html)を使うことでより高速に単体データを取得することができます

In [61]:
df.at[dates[0], 'A']

0.03970120355970404

### [位置を指定してデータを選択する](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#selection-by-position)

DataFrameクラスの[iloc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)を使うことで、数値を指定してデータ選択することが出来ます。


In [37]:
df

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


In [38]:
df.iloc[3] # 4行目を1列として選択

A    1.971954
B   -0.416870
C    0.346058
D    0.830532
Name: 2020-01-04 00:00:00, dtype: float64

In [39]:
df.iloc[3:5, 0:2] # 4行目から5行目まで、1列目から2列目まで選択

Unnamed: 0,A,B
2020-01-04,1.971954,-0.41687
2020-01-05,1.796418,-0.136912


In [40]:
df.iloc[[1, 2, 4], [0, 2]] # 2行目、3行目、5行目、1列目、3列目を選択

Unnamed: 0,A,C
2020-01-02,-0.613648,0.509904
2020-01-03,0.881177,-1.459702
2020-01-05,1.796418,0.578539


DataFrameクラスの[iloc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)の引数に開始位置終了位置を省略したスライス(:のみ)を指定することで、特定の全行 or 全列を取得できます

In [68]:
df.iloc[1:3, :] # 2行目から3行目を全列選択


Unnamed: 0,A,B,C,D
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549


In [42]:
df.iloc[:, 1:3] # 2列目から3列目を善行選択

Unnamed: 0,B,C
2020-01-01,0.392122,1.417174
2020-01-02,-2.080725,0.509904
2020-01-03,-0.480007,-1.459702
2020-01-04,-0.41687,0.346058
2020-01-05,-0.136912,0.578539
2020-01-06,-0.034279,-0.605872


DataFrameクラスの[iloc()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)に引数に数値のみ指定することで、単体データの選択ができます。

In [43]:
df.iloc[1, 1]

-2.08072542351634

[at()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.at.html)と同様、[iat()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iat.html)使うことでより高速に単体データを取得することができます

In [44]:
df.iat[1, 1]

-2.08072542351634

In [45]:
df

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-02,-0.613648,-2.080725,0.509904,0.281184
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
2020-01-06,-0.200574,-0.034279,-0.605872,1.703931


### [条件判定によるデータ選択](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html#boolean-indexing)

In [46]:
df[df["A"] > 0] # A列のデータが0を超えている行を選択する

Unnamed: 0,A,B,C,D
2020-01-01,0.039701,0.392122,1.417174,-1.18012
2020-01-03,0.881177,-0.480007,-1.459702,0.660549
2020-01-04,1.971954,-0.41687,0.346058,0.830532
2020-01-05,1.796418,-0.136912,0.578539,-0.051463
