# Pandas基本操作
copyright 2019 Jujukeisan.co.jp  
  
機械学習やDeepLearningのモデル精度に大きな影響を与えるデータ品質！  
データを適切に把握し、欠損値などのデータ処理を行う前処理の重要性は高いと言えます。  
ここでは、データ処理の基本ライブラリ（ツール）であるPandasについてご紹介していきます。  
  
Pandasは非常に多くの機能を提供している為、特に重要な幾つかの機能に絞ってご紹介します。

---

## 1)データの読み込み 

In [None]:
# pandasを「pd」という名前でインポート
import pandas as pd

In [None]:
# データ(csvの読み込み)
data = pd.read_csv("sampleData_1.csv", sep=',')

In [None]:
# 先頭5行を表示
data.head(5)

- satisfaction_level：満足度  
- last_evaluation：最終評価  
- number_project：プロジェクト数  
- average_monthly_hours：月間労働時間  
- time_spend_company：社歴  
- Work_accident：トラブルの有無（1：あり　0：なし）  
- left：退職したか否か（1：辞めた　0：在職）  
- promotion_last_5years：5年間で昇格はあったかどうか  
- department：部署  
- Salary：給与  

## 2)データの状態確認 
読み込んだデータの概要を確認してみよう。  
 - 行数・列数の確認：pandasオブジェクト.shape
 - 列（カラム）の確認：pandasオブジェクト.columns 
 - カテゴリデータの種類とその数：pandasオブジェクト[列名].value_counts()
 - 要約統計量の表示：pandasオブジェクト.describe()

In [None]:
# データフレームの行数・列数
print("データフレームの行数・列数\n",data.shape)
print("---------------------------------")
# データフレームのカラム確認
print("データフレームのカラム確認\n",data.columns)
print("---------------------------------")
print("salaryの種類と数\n",data['salary'].value_counts())
print("---------------------------------")
print("要約統計量\n",data["average_montly_hours"].describe())

In [None]:
data.info()

## 3)データの抽出 
読み込んだデータから必要なデータを抽出する 
 - 列の絞り込み：pandasオブジェクト[["列名1","列名1"]]
 - 条件指定による行の絞り込み：pandasオブジェクト.query(条件) ※条件はシングルクォートで括る

In [None]:
# 列の絞り込み(先頭5件表示)
data[["satisfaction_level","salary"]].head(5)

In [None]:
# salaryが”medium”のデータを抽出
data.query('salary == "medium"').head()

---

# 演習
読み込んだデータ(data)を使って、下記のデータを抽出してみよう。  
1. left列とdepartment列のみのデータ ※先頭10行を表示  
1. satisfaction_levelが0.8以上でaverage_monthly_hoursが200以上のデータ ※先頭10行表示  

---

## 4)データの欠損状態の確認 
データに欠損値NaN(not a number)があると、モデル作成時にエラーとなるなど、もろもろ問題がでてきます。  
読み込んだローデータにどれくらい欠損があるかをまずはざっと確認します。 
 - 列単位で 欠損値の個数をカウント：pandasオブジェクト.isnull().sum()
 - 1つでもNaNが含まれる行を抽出：pandasオブジェクト[pandasオブジェクト.isnull().any(axis=1)]
 - 欠損値への処理（置換）：pandasオブジェクト.fillna(value={ '列名' : 置換え文字/数字 }, inplace=True)
 - 欠損値への処理（削除）：pandasオブジェクト.dropna(subset=['列名'], axis=0, inplace=True)
 

In [None]:
# 列単位での欠損個数確認
# ※正確には、isnull()でtureが返ってくる個数をカウントしている
data.isnull().sum()

In [None]:
# 1つでもNaNが含まれる行を抽出
data[data.isnull().any(axis=1)]

In [None]:
# 欠損値への処理（置換）
# salary列の欠損値を”unknown”に置換え
data.fillna(value={'salary':'unknown'},inplace=True)

# 欠損値の確認
data.isnull().sum()

In [None]:
# 欠損値への処理（削除）
data.dropna(subset=['average_montly_hours'],axis=0,inplace=True)

# 欠損値の確認
data.isnull().sum()

---

## 5)データのサンプリング
データ分析を行う際、元のデータ件数が多い場合、ランダムサンプリングでデータを減らすというのは有効な手段。  
元データからランダムにサンプリングする方法についてご説明します。  
** パーセント指定 **：pandas.sample(frac=0.5)  
** 件数指定 **：pandas.sample(n=5000)

 

# 演習
読み込んだデータ(data)を使って、下記のサンプリングデータを抽出してみよう。  
1. dataから30%のデータをランダムサンプリングしてみよう。また、件数(len関数)を調べてみよう。  
1. dataから3000件をランダムサンプリングしてみよう。また、件数(len関数)を調べてみよう。

---

## 6)データの集約処理
データのグルーピングについてご説明します。  
データのグルーピングには**groupby関数**を使います。  
1. グルーピング変数が１つの場合：groupby("department")
1. グルーピング変数が複数の場合：groupby(["department","salary"])　　※リストで指定

グルーピングした単位で集約処理を行うには**agg関数**を使います。
1. 集計処理が１つの場合：agg({"number_project":"max"})　※agg関数の引数は辞書型 {"列名":"集計処理名"}
1. 集計処理が複数の場合：agg({"number_project":["max","min"]})　※集計処理名をリストで指定します。

In [None]:
# department列とsalary列でグルーピングを行い、グルーピング単位のaverage_monthly_hoursの最大値,最小値を求めてみます。
# 集計関数を[ ]内に指定する
result=data.groupby(["department","salary"]). \
        agg({"average_monthly_hours":["max","min"]}).reset_index()

result.columns=["dept","salary","min","max"]
result

---

# 演習
department列（部署）とleft列（退職したか否か）でグルーピングを行い、グループ単位で  
1. average_monthly_hours
2. satisfaction_level

の最大値、最小値、平均(mean)、中央値(median)を調べてみよう。