<a id="top"></a>
# Pandasによるデータ加工

ここではデータ加工で用いられるPandasの基本操作について学んでいきます。<br>
なお、今回は必要ライブラリが使用するPython環境にインストールされている前提です。

## 目次
[1. Pandasのインポート](#import)<br>
[2. データの読み込み](#read)<br>
[3. データフレームの確認](#check)<br>
[4. データの情報](#info)<br>
[5. データフレームの結合](#merge)<br>
[6. 基本統計量の確認](#stat)<br>
[7. 列の抽出](#columns)<br>
[8. 行の選択](#row)<br>
[9. 条件に基づく選択](#conditions)<br>
[10. 新しい列の追加](#addrow)<br>

<a id="import"></a>
### 1. Pandasのインポート
Pythonではライブラリを使用するのに、`import` でライブラリを呼び出します。<br>

```Python
import <ライブラリ名>
```

使用したいライブラリを`<ライブラリ名>`に入れて実行することで<br>
インポート出来ます。

さっそくPandasをインポートしましょう。以下のコードを使ってPandasをインポートします。

In [1]:
import pandas

また、後ろに`as <別名>` を付けることで、ライブラリ内の関数などを呼び出す際（後述）に別名で呼び出すことが出来ます。<br>

In [2]:
import pandas as pd

別名はPythonの命名規則に則っていれば、何でも設定できます。
* Pyhton命名規則
    * 英字（大文字または小文字）
    * 数字（ただし、先頭には不可）
    * アンダースコア（_）
    * 予約語以外の文字列

なので以下のようにすることもできます。

In [3]:
import pandas as BingDwenDwen

別名は開発者によって自由につけることが出来てしまうので、複数人で開発する際は<br>
ベストプラクティス(pandasならpd)があればそれを設定し、なければ何も設定しない方が良いです。

<a id="read"></a>
### 2. データの読み込み

Pandasのread_csv関数を使用して、CSVファイルを読み込み、データフレームを作成します。<br>
サンプルとして、次のURLからデータを読み込みます。<br>

In [4]:
dir_path = "./data/"
train_df = pd.read_csv(dir_path + "train.csv")
test_df = pd.read_csv(dir_path + "test.csv")

`dir_path + ファイル名`で指定したcsvファイルの中身を、変数にデータフレーム形式で格納できました。

<a id="check"></a>
### 3. データフレームの確認
データフレームの内容を確認する基本的な方法は、`.head()` と `.tail()` メソッドを使うことです。<br>
これらはそれぞれデータフレームの最初の数行と最後の数行を表示します。

In [5]:
train_df.head()  # 最初の5行を表示

Unnamed: 0,Date,Open,High,Low,Close,Up
0,2004-01-02,50.85,50.91,50.62,50.72,1
1,2004-01-05,50.75,50.84,50.61,50.79,1
2,2004-01-06,50.87,51.26,50.86,51.15,1
3,2004-01-07,51.45,51.54,51.29,51.51,0
4,2004-01-08,51.15,51.33,51.02,51.28,0


In [6]:
test_df.head()  # 最初の5行を表示

Unnamed: 0,Date,Open,High,Low,Close
0,2012-01-19,110.79,110.82,109.96,110.39
1,2012-01-20,110.45,111.1,110.36,110.73
2,2012-01-23,110.95,111.1,109.65,110.36
3,2012-01-24,110.16,110.16,108.13,108.39
4,2012-01-25,106.25,107.11,105.97,106.89


In [7]:
train_df.tail()  # 最後の5行を表示

Unnamed: 0,Date,Open,High,Low,Close,Up
2021,2012-01-11,108.62,109.0,108.41,108.86,1
2022,2012-01-12,109.68,109.9,109.44,109.83,0
2023,2012-01-13,109.53,109.72,109.08,109.66,1
2024,2012-01-17,109.99,110.47,109.57,109.96,1
2025,2012-01-18,110.06,110.82,109.94,110.58,0


In [8]:
test_df.tail()  # 最後の5行を表示

Unnamed: 0,Date,Open,High,Low,Close
1195,2019-12-17,185.52,186.4,184.62,184.68
1196,2019-12-18,183.86,184.01,182.38,183.1
1197,2019-12-19,183.83,185.17,183.66,185.08
1198,2019-12-20,186.29,186.64,184.81,185.19
1199,2019-12-23,184.38,184.38,183.2,183.34


()内に数値を入れることで、その数値分、行を表示できます。

In [9]:
train_df.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Up
0,2004-01-02,50.85,50.91,50.62,50.72,1
1,2004-01-05,50.75,50.84,50.61,50.79,1
2,2004-01-06,50.87,51.26,50.86,51.15,1
3,2004-01-07,51.45,51.54,51.29,51.51,0
4,2004-01-08,51.15,51.33,51.02,51.28,0
5,2004-01-09,51.11,51.32,51.01,51.01,0
6,2004-01-12,50.8,50.9,50.55,50.87,0
7,2004-01-13,50.9,50.98,50.53,50.61,1
8,2004-01-14,50.43,50.65,50.4,50.64,1
9,2004-01-15,51.01,51.27,50.7,51.01,1


表示された2次元データのことを**データフレーム**といいます。<br>
データフレームの横方向のデータを**行**、縦方向のデータを**列（カラム）** といいます。<br>
一番左の列には**行名（index）** 、一番上の行には**列名（カラム名）** が割り当てられています。<br>


<a id="info"></a>
### 4. データの情報
データフレームの構造と欠損値(null値)の有無を確認するには `.info()` メソッドを使用します。

In [10]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2026 entries, 0 to 2025
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    2026 non-null   object 
 1   Open    2026 non-null   float64
 2   High    2026 non-null   float64
 3   Low     2026 non-null   float64
 4   Close   2026 non-null   float64
 5   Up      2026 non-null   int64  
dtypes: float64(4), int64(1), object(1)
memory usage: 95.1+ KB


In [11]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1200 entries, 0 to 1199
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    1200 non-null   object 
 1   Open    1200 non-null   float64
 2   High    1200 non-null   float64
 3   Low     1200 non-null   float64
 4   Close   1200 non-null   float64
dtypes: float64(4), object(1)
memory usage: 47.0+ KB


`.info()`メソッドを使用することで
* データ型
* 行数（RangeIndex）
* カラム数（Data columns）
* カラム名（Column）
* Non-Null数（Non-Null Count）
* 各カラムのデータ型（Dtype）
* メモリ使用量（memory usage）

が把握できる。

単に行数、列数が知りたい場合は`.shape`メソッドを使うと確認できる。<br>
`(行数、列数)`の形で出力される。

In [12]:
train_df.shape

(2026, 6)

In [13]:
test_df.shape

(1200, 5)

また、欠損値の数は以下のコードでも確認できます。

`.isnull()`：データがNULLであれば、`True`、そうでなければ`False`を返す。<br>
`.sum()`&emsp;&emsp;:`True`の数を計算する。

In [14]:
train_df.isnull().sum()

Date     0
Open     0
High     0
Low      0
Close    0
Up       0
dtype: int64

In [15]:
test_df.isnull().sum()

Date     0
Open     0
High     0
Low      0
Close    0
dtype: int64

<a id="merge"></a>
### 5. データフレームの結合

異なる2つ以上のデータフレームを1つにすることを結合といいます。<br>
データフレームの結合には`concat`,`merge`,`join`の3種類のメソッドがあります。<br>
それぞれ特徴は以下です。
* concat<br>
    主に縦方向の結合に用いる。3つ以上のデータフレームも同時に結合可能。
* meger<br>
    横方向の結合に用いる。結合軸をデータ軸で取る。
* join<br>
    横方向の結合に用いる。結合軸をインデックスで取る。

基本的には`concat`と`merge`が使用できればOK！

In [16]:
import pandas as pd

df1 = pd.DataFrame({"名前": ["S竹", "M島"],
                    "拠点": ["東京", "大阪"]
                    })

df2 = pd.DataFrame({"名前": ["S竹", "G藤"],
                    "拠点": ["東京", "大阪"]
                    })

df3 = pd.DataFrame({"名前": ["S竹", "M島"],
                    "役職": ["副室長", "M"]})

df4 = pd.DataFrame({"役職": ["副室長", "M"],
                    "趣味": ["釣り","競馬"]})



#### concat

同名の列名通しを縦方向に結合する。<br>
こんなイメージ

![concat](./image/concat.png "concat.png")

#### merge

列名とデータが一致しているデータ横方向に結合する。<br>
こんなイメージ

![merge](./image/merge.png "merge.png")

#### join

同一インデックスのデータに対して横方向に結合する。<br>
こんなイメージ

![merge](./image/join.png "join.png")

今回はtrain_dfとtest_dfを縦方向に結合していく。

In [17]:
df = pd.concat([train_df, test_df], ignore_index=True)
df

Unnamed: 0,Date,Open,High,Low,Close,Up
0,2004-01-02,50.85,50.91,50.62,50.72,1.0
1,2004-01-05,50.75,50.84,50.61,50.79,1.0
2,2004-01-06,50.87,51.26,50.86,51.15,1.0
3,2004-01-07,51.45,51.54,51.29,51.51,0.0
4,2004-01-08,51.15,51.33,51.02,51.28,0.0
...,...,...,...,...,...,...
3221,2019-12-17,185.52,186.40,184.62,184.68,
3222,2019-12-18,183.86,184.01,182.38,183.10,
3223,2019-12-19,183.83,185.17,183.66,185.08,
3224,2019-12-20,186.29,186.64,184.81,185.19,


train_df、test_df、dfそれぞれの行数を確認する。

In [18]:
print(train_df.shape)
print(test_df.shape)
print(df.shape)

(2026, 6)
(1200, 5)
(3226, 6)


(train_dfの行数) + (test_dfの行数) = (dfの行数)<br>
となり、結合できました。

<a id="stat"></a>
### 6. 基本統計量の確認
ここからはデータフレームdfをもとに基本統計量の確認を行います。<br>
基本統計量とは「平均値」「中央値」「標準偏差」など代表値のことを指し、<br>
データの散らばり具合や外れ値の確認等、データの特徴を確認するのに使えます。<br>

データの基本統計量を確認するには `.describe()` メソッドを使用します。

In [19]:
df.describe()

Unnamed: 0,Open,High,Low,Close,Up
count,3226.0,3226.0,3226.0,3226.0,2026.0
mean,94.103639,94.569789,93.646894,94.113252,0.515795
std,35.552287,35.730437,35.346905,35.530568,0.499874
min,50.43,50.65,50.4,50.61,0.0
25%,66.49,66.7125,66.2775,66.52,0.0
50%,85.285,85.82,84.955,85.495,1.0
75%,108.005,108.5075,107.6375,108.0625,1.0
max,205.55,205.71,202.53,203.9,1.0


各行は以下の値を表しています。
count|Nullを除いたデータの個数
-|-
mean|平均値
std|標準偏差
min|最小値
25%|第一四分位数
50%|第二四分位数（中央値）
75%|第三四分位数
max|最大値

※第○四分位数：データを小さい順に並べた時、初めから数えて全体の25%、50%、75%にくる値をそれぞれ第一四分位数、第二四分位数、第三四分位数といいます。<br>
特に第二四分位数は中央値と呼ばれます。

<a id="columns"></a>
### 7. 列の抽出
データ加工を行う上で、特定の列のみを抽出するシーンがあります。ここでは列の抽出を行います。<br>
列の抽出はデータフレームの列名を指定します。


In [20]:
# dfの'Close'列をclose_valueに代入
close_value = df['Close']

# close_valueの中身を確認
close_value.head()

0    50.72
1    50.79
2    51.15
3    51.51
4    51.28
Name: Close, dtype: float64

複数列を抽出するときは、列の指定に列名を格納したリストを入れてあげます。

In [21]:
# dfの'Up'列以外をstock_valueに代入
columns_list = ['Date', 'Open', 'High', 'Low', 'Close']
stock_value = df[columns_list]

# stock_valueの中身を確認
stock_value.head()

Unnamed: 0,Date,Open,High,Low,Close
0,2004-01-02,50.85,50.91,50.62,50.72
1,2004-01-05,50.75,50.84,50.61,50.79
2,2004-01-06,50.87,51.26,50.86,51.15
3,2004-01-07,51.45,51.54,51.29,51.51
4,2004-01-08,51.15,51.33,51.02,51.28


ちなみに

In [22]:
close_value.info()

<class 'pandas.core.series.Series'>
RangeIndex: 3226 entries, 0 to 3225
Series name: Close
Non-Null Count  Dtype  
--------------  -----  
3226 non-null   float64
dtypes: float64(1)
memory usage: 25.3 KB


In [23]:
stock_value.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3226 entries, 0 to 3225
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    3226 non-null   object 
 1   Open    3226 non-null   float64
 2   High    3226 non-null   float64
 3   Low     3226 non-null   float64
 4   Close   3226 non-null   float64
dtypes: float64(4), object(1)
memory usage: 126.1+ KB


`stock_value`はDataFrame型だが、<br>
`close_value`は一列のデータなので**Sreies型**という別の型になっています。<br>
使えるメソッドが若干違ってくるので注意が必要です。

<a id="row"></a>
### 8. 行の選択
特定の行を選択するには、`.loc[]` （ラベルベース）や `.iloc[]` （整数位置ベース）を使用します。


In [24]:
# ラベルベースの選択
df.loc[0]

Date     2004-01-02
Open          50.85
High          50.91
Low           50.62
Close         50.72
Up              1.0
Name: 0, dtype: object

In [25]:
# 位置ベースの選択
df.iloc[0]

Date     2004-01-02
Open          50.85
High          50.91
Low           50.62
Close         50.72
Up              1.0
Name: 0, dtype: object

<a id="conditions"></a>
### 9. 条件に基づく選択
条件を満たすデータのみを選択するには、条件式を使います。

In [26]:
# 'Up'が1の行のみを選択
up_is_1 = df[(df['Up'] == 1)]
up_is_1.head()

Unnamed: 0,Date,Open,High,Low,Close,Up
0,2004-01-02,50.85,50.91,50.62,50.72,1.0
1,2004-01-05,50.75,50.84,50.61,50.79,1.0
2,2004-01-06,50.87,51.26,50.86,51.15,1.0
7,2004-01-13,50.9,50.98,50.53,50.61,1.0
8,2004-01-14,50.43,50.65,50.4,50.64,1.0


条件式には比較演算子('>','<'など)や論理演算子('&','|'など)が使えます。

In [27]:
up_is_1_or_0 = df[(df['Up'] == 1) | (df['Up'] == 0)]
up_is_1_or_0.head()


Unnamed: 0,Date,Open,High,Low,Close,Up
0,2004-01-02,50.85,50.91,50.62,50.72,1.0
1,2004-01-05,50.75,50.84,50.61,50.79,1.0
2,2004-01-06,50.87,51.26,50.86,51.15,1.0
3,2004-01-07,51.45,51.54,51.29,51.51,0.0
4,2004-01-08,51.15,51.33,51.02,51.28,0.0


（'Up'自体が0,1のみなので無意味な条件ですが・・・）

<a id="addrow"></a>
### 10. 新しい列の追加
データフレームに新しい列を追加するには、次のようにします。<br>

```Python
df['新しい列名'] = <追加したい値>
```
追加したい値は数値でも文字列でOKです。

ここでは例として1日の値幅（'prange'）を追加します。<br>
まず、データフレームをコピーします。<br>
データフレームの構造やデータそのものに手を加える場合、データフレームをコピーして<br>
元のデータフレームを残しておくとエラーが出た時など後々便利です。

In [28]:
# データフレームをコピー
df1 = df.copy()

In [29]:
# 高値をhigh_value、安値をlow_valueに格納
high_value = df1['High']
low_value = df1['Low']

In [30]:
# 値幅を計算
prange = high_value - low_value

In [31]:
# 新しく列を追加
df1['Prange'] = prange

df1.head()

Unnamed: 0,Date,Open,High,Low,Close,Up,Prange
0,2004-01-02,50.85,50.91,50.62,50.72,1.0,0.29
1,2004-01-05,50.75,50.84,50.61,50.79,1.0,0.23
2,2004-01-06,50.87,51.26,50.86,51.15,1.0,0.4
3,2004-01-07,51.45,51.54,51.29,51.51,0.0,0.25
4,2004-01-08,51.15,51.33,51.02,51.28,0.0,0.31


データフレームに'Prange'列が追加されました。<br>

これらの基本操作をマスターすることで、Pandasを用いたさまざまなデータ分析の基礎が身につきます。

[Topに戻る](#top)