# DataFrameのデータ抽出メモ

## DataFrame作成

In [76]:
# データフレーム作成
sampleDf = pd.DataFrame({'A': ['apple', 'air', 'area'],
                         'B': ['base', 'bag', 'ball'],
                         'C': ['cap', 'collection', 'cover']},
                        index=['2020-10-12', '2020-10-13', '2020-10-14']
                       )
sampleDf

Unnamed: 0,A,B,C
2020-10-12,apple,base,cap
2020-10-13,air,bag,collection
2020-10-14,area,ball,cover


## サンプルデータ取得（MySQL）
※ 今回は主にこちらを使用

In [36]:
# import
import pandas as pd
import pymysql
import sqlalchemy as sqa
# DB情報
from config import DATABASE

# DATABASE接続情報
DATABASE = 'mysql+pymysql://%s:%s@%s/%s?charset=utf8' % (
    DATABASE["USERNAME"],
    DATABASE["PASSWORD"],
    DATABASE["HOSTNAME"],
    DATABASE["DBNAME"],
) 
# 接続
engine = sqa.create_engine(DATABASE, echo=False)
query = "SELECT * FROM emps"
df = pd.read_sql(query, con = engine)
df

Unnamed: 0,id,em_no,em_name,em_job,em_mgr,em_hiredate,em_sal,dept_id
0,2,7499,ALLEN,SALESMAN,7698,1981-02-20,1600,3
1,3,7521,WARD,SALESMAN,7698,1981-02-22,1250,3
2,4,7566,JONES,MANAGER,7839,1981-04-02,2975,2
3,5,7654,MARTIN,SALESMAN,7698,1981-09-28,1250,3
4,6,7698,BLAKE,MANAGER,7839,1981-05-01,2850,3
5,7,7782,CLARK,MANAGER,7839,1981-06-09,2450,1
6,8,7788,SCOTT,ANALYST,7566,1987-04-19,3000,2
7,9,7839,KING,PRESIDENT,0,1981-11-17,5000,1
8,10,7844,TURNER,SALESMAN,7698,1981-09-08,1500,3
9,11,7876,ADAMS,CLERK,7788,1987-05-23,1100,2


## 特定の列を取得する
カラム名（列名）を指定して、特定の列を抽出できる

In [37]:
# "em_name"列を取得する
df["em_name"]

0      ALLEN
1       WARD
2      JONES
3     MARTIN
4      BLAKE
5      CLARK
6      SCOTT
7       KING
8     TURNER
9      ADAMS
10     JAMES
11      FORD
12    MILLER
13    steven
14       skj
Name: em_name, dtype: object

In [38]:
# .(ドット)を利用しても同じ結果が得られる
df.em_name

0      ALLEN
1       WARD
2      JONES
3     MARTIN
4      BLAKE
5      CLARK
6      SCOTT
7       KING
8     TURNER
9      ADAMS
10     JAMES
11      FORD
12    MILLER
13    steven
14       skj
Name: em_name, dtype: object

## 特定の区間の行を抽出する

In [39]:
# 1行目から3行目を抽出
df[1:3]

Unnamed: 0,id,em_no,em_name,em_job,em_mgr,em_hiredate,em_sal,dept_id
1,3,7521,WARD,SALESMAN,7698,1981-02-22,1250,3
2,4,7566,JONES,MANAGER,7839,1981-04-02,2975,2


In [40]:
# 先頭から3行目までを抽出
df[:3]

Unnamed: 0,id,em_no,em_name,em_job,em_mgr,em_hiredate,em_sal,dept_id
0,2,7499,ALLEN,SALESMAN,7698,1981-02-20,1600,3
1,3,7521,WARD,SALESMAN,7698,1981-02-22,1250,3
2,4,7566,JONES,MANAGER,7839,1981-04-02,2975,2


## locアトリビュートを使って特定の行・列を抽出する
locアトリビュートを利用して、ラベルに基づいて特定の行や列を抽出できる

In [47]:
# 行名が"10"の列を抽出
df.loc[10]

id                     12
em_no                7900
em_name             JAMES
em_job              CLERK
em_mgr               7698
em_hiredate    1981-12-03
em_sal                950
dept_id                 3
Name: 10, dtype: object

In [51]:
# 列 "em_no", "em_name"の2列を抽出
df.loc[:, ['em_no', 'em_name']]

Unnamed: 0,em_no,em_name
0,7499,ALLEN
1,7521,WARD
2,7566,JONES
3,7654,MARTIN
4,7698,BLAKE
5,7782,CLARK
6,7788,SCOTT
7,7839,KING
8,7844,TURNER
9,7876,ADAMS


In [56]:
# 行名 = "2" ～ "5" の "em_no"列と"B"列を取得
df.loc['2':'5', ['em_no', 'em_name']]

Unnamed: 0,em_no,em_name
2,7566,JONES
3,7654,MARTIN
4,7698,BLAKE
5,7782,CLARK


## 行や列の位置を指定して行・列を取得する
ilocアトリビュートを用いて、行や列の位置に基づいて行・列を取得することができる<br>行や列は0行目・0列目から始まる点に注意する

In [57]:
# 3行目を取得
df.iloc[3]

id                      5
em_no                7654
em_name            MARTIN
em_job           SALESMAN
em_mgr               7698
em_hiredate    1981-09-28
em_sal               1250
dept_id                 3
Name: 3, dtype: object

In [58]:
# 1,2,4行目と0-2列目を取得
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,id,em_name
1,3,WARD
2,4,JONES
4,6,BLAKE


In [59]:
# 1-3行目とすべての列を取得
df.iloc[1:3,:]

Unnamed: 0,id,em_no,em_name,em_job,em_mgr,em_hiredate,em_sal,dept_id
1,3,7521,WARD,SALESMAN,7698,1981-02-22,1250,3
2,4,7566,JONES,MANAGER,7839,1981-04-02,2975,2


In [60]:
# すべての行と1-3列目を取得
df.iloc[:,1:3]

Unnamed: 0,em_no,em_name
0,7499,ALLEN
1,7521,WARD
2,7566,JONES
3,7654,MARTIN
4,7698,BLAKE
5,7782,CLARK
6,7788,SCOTT
7,7839,KING
8,7844,TURNER
9,7876,ADAMS


In [61]:
# 1行目の1列目の値を取得
df.iloc[1,1]

7521

## 条件を指定して行・列を取得する
```True```または```False```を返す式を指定することで、特定の条件式に基づく行・列の取得ができる

In [62]:
# "em_no"列の値が0より大きい行を取得
df[df.em_no > 0]

Unnamed: 0,id,em_no,em_name,em_job,em_mgr,em_hiredate,em_sal,dept_id
0,2,7499,ALLEN,SALESMAN,7698,1981-02-20,1600,3
1,3,7521,WARD,SALESMAN,7698,1981-02-22,1250,3
2,4,7566,JONES,MANAGER,7839,1981-04-02,2975,2
3,5,7654,MARTIN,SALESMAN,7698,1981-09-28,1250,3
4,6,7698,BLAKE,MANAGER,7839,1981-05-01,2850,3
5,7,7782,CLARK,MANAGER,7839,1981-06-09,2450,1
6,8,7788,SCOTT,ANALYST,7566,1987-04-19,3000,2
7,9,7839,KING,PRESIDENT,0,1981-11-17,5000,1
8,10,7844,TURNER,SALESMAN,7698,1981-09-08,1500,3
9,11,7876,ADAMS,CLERK,7788,1987-05-23,1100,2


```isin()```メソッドと組み合わせて使うことで、複数の特定の値を含む行・列の抽出ができる

In [74]:
# データフレームdf2を作成
df2 = sampleDf.copy()
df2['E'] = ['every', 'event', 'earth']
df2

Unnamed: 0,A,B,C,E
2020-10-12,apple,base,cap,every
2020-10-13,air,bag,collection,event
2020-10-14,area,ball,cover,earth


In [75]:
# "E"列に"event"を値に持つ行を抽出
df2[df2['E'].isin(['event'])]

Unnamed: 0,A,B,C,E
2020-10-13,air,bag,collection,event


## 特定の行を削除する

In [77]:
# import
import pandas as pd
import numpy as np

# データフレームdfを作成
df = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,0.67748,-0.601554,1.221364,-0.632447
1,0.598465,-0.780583,0.332622,-0.499396
2,1.228253,0.276725,-0.175165,-0.751351
3,-1.215488,-0.484713,0.319396,-0.544682
4,1.108077,-1.240058,-1.624661,-0.691274
5,-1.489408,1.353416,-0.943777,-0.524227


In [78]:
# 行5を削除
df.drop(5)

Unnamed: 0,A,B,C,D
0,0.67748,-0.601554,1.221364,-0.632447
1,0.598465,-0.780583,0.332622,-0.499396
2,1.228253,0.276725,-0.175165,-0.751351
3,-1.215488,-0.484713,0.319396,-0.544682
4,1.108077,-1.240058,-1.624661,-0.691274


In [79]:
# 行3と4を削除
df.drop([3,4])

Unnamed: 0,A,B,C,D
0,0.67748,-0.601554,1.221364,-0.632447
1,0.598465,-0.780583,0.332622,-0.499396
2,1.228253,0.276725,-0.175165,-0.751351
5,-1.489408,1.353416,-0.943777,-0.524227


## 特定の列を削除する

In [83]:
# 列Aを削除
df.drop("A", axis=1)

Unnamed: 0,B,C,D
0,-0.601554,1.221364,-0.632447
1,-0.780583,0.332622,-0.499396
2,0.276725,-0.175165,-0.751351
3,-0.484713,0.319396,-0.544682
4,-1.240058,-1.624661,-0.691274
5,1.353416,-0.943777,-0.524227


より簡単な方法として、Pythonの```del```ステートメントを利用する方法もある

In [84]:
# 列Aを削除
del df['A']
df

Unnamed: 0,B,C,D
0,-0.601554,1.221364,-0.632447
1,-0.780583,0.332622,-0.499396
2,0.276725,-0.175165,-0.751351
3,-0.484713,0.319396,-0.544682
4,-1.240058,-1.624661,-0.691274
5,1.353416,-0.943777,-0.524227


## 参考
- [https://pythondatascience.plavox.info/pandas/%e8%a1%8c%e3%83%bb%e5%88%97%e3%81%ae%e6%8a%bd%e5%87%ba](https://pythondatascience.plavox.info/pandas/%e8%a1%8c%e3%83%bb%e5%88%97%e3%81%ae%e6%8a%bd%e5%87%ba)
- [https://pythondatascience.plavox.info/pandas/%e8%a1%8c%e3%83%bb%e5%88%97%e3%82%92%e5%89%8a%e9%99%a4](https://pythondatascience.plavox.info/pandas/%e8%a1%8c%e3%83%bb%e5%88%97%e3%82%92%e5%89%8a%e9%99%a4)

# DataFrameのデータ抽出（選択）処理

以下のデータを対象に、次のセクション以降で具体的なデータ抽出方法を説明

In [92]:
# import
import pandas as pd
import numpy as np

df = pd.DataFrame({'都道府県': ['千葉県', '三重県', '北海道', '神奈川県'],
                  'まいわし': [10, 20, 100, np.nan],
                  'かたくちいわし': [20, 30, 60, 60],
                  'あじ': [np.nan, np.nan, 100, 30]}
                 ).set_index('都道府県')
df

Unnamed: 0_level_0,まいわし,かたくちいわし,あじ
都道府県,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
千葉県,10.0,20,
三重県,20.0,30,
北海道,100.0,60,100.0
神奈川県,,60,30.0


## DataFrame[]

In [93]:
df['まいわし'] # Seriesになる

都道府県
千葉県      10.0
三重県      20.0
北海道     100.0
神奈川県      NaN
Name: まいわし, dtype: float64

In [94]:
df[['まいわし']] # DataFrameになる

Unnamed: 0_level_0,まいわし
都道府県,Unnamed: 1_level_1
千葉県,10.0
三重県,20.0
北海道,100.0
神奈川県,


In [95]:
df[['まいわし', 'かたくちいわし']]

Unnamed: 0_level_0,まいわし,かたくちいわし
都道府県,Unnamed: 1_level_1,Unnamed: 2_level_1
千葉県,10.0,20
三重県,20.0,30
北海道,100.0,60
神奈川県,,60


## DataFrame.loc

In [96]:
df.loc['千葉県'] #Seriesになる

まいわし       10.0
かたくちいわし    20.0
あじ          NaN
Name: 千葉県, dtype: float64

In [97]:
df.loc[['千葉県']] #DataFrameになる

Unnamed: 0_level_0,まいわし,かたくちいわし,あじ
都道府県,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
千葉県,10.0,20,


In [98]:
df.loc[['三重県', '神奈川県'],:]

Unnamed: 0_level_0,まいわし,かたくちいわし,あじ
都道府県,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
三重県,20.0,30,
神奈川県,,60,30.0


## 参考
- [https://qiita.com/k_maki/items/812967c8cbf26331e418](https://qiita.com/k_maki/items/812967c8cbf26331e418)