<a id=0></a>
# 3.DataFrameを操作する

---
### [1.CSVファイルからDataFrameを作成 ](#1)
### [2.DataFrameからデータを抽出 ](#2)
### [3.要素の値を更新（上書き）](#3)
### [4.基本統計量やユニーク、最大・最小など](#4)
### [5.グループ化、レコードの並べ替え](#5)
### [6.重複、欠損値の処理](#6)
---

In [1]:
import numpy as np
import pandas as pd

In [2]:
# # google colaboratoryの場合
# from google.colab import drive
# drive.mount('/drive')

---
<a id=1></a>
[Topへ](#0)

---
## 1. CSVファイルからDataFrameを作成

* csvファイルからDataFrameを作成、indexを指定
* pklファイルからDataFrameを作成、csvの場合との比較
* object型として読み込まれた年月日をdatetime型に変換 
---

csvファイルからDataFrameを作成、indexを指定

In [3]:
df = pd.read_csv('sample1_with_index.csv')
# google colaboratoryの場合　'/drive/My Drive/sample1_with_index.csv'

FileNotFoundError: [Errno 2] No such file or directory: 'sample1_with_index.csv'

In [None]:
df.head(2)

In [None]:
# csvファイルには以前のインデックスが含まれている
# その列（index=0）を指定することで新規のインデックスは付加されなくなる
df = pd.read_csv('sample1_with_index.csv', index_col=0)
df.head(2)

In [None]:
df = pd.read_csv('sample1_without_index.csv')
df.head(2)

pklファイルからDataFrameを作成、csvの場合との比較

In [None]:
df_p = pd.read_pickle('sample1.pkl')
df_p.head(2)

In [None]:
df_p.info()
# 元の状態を保持したDtypeで読み込まれる

In [None]:
df.info()

object型として読み込まれた年月日をdatetime型に変換

In [None]:
pd.to_datetime(df['Date'])

In [None]:
df['Date'] = pd.to_datetime(df['Date'])
df.info()
# 基本的には素直にCSVファイルを読み込み、インデックス、datetimeへの型の変換などを行う
# 一般に配布されているデータはほとんどCSV

In [None]:
# あらかじめdatetime型にすべきだと分かっている場合
pd.read_csv('sample1_with_index.csv', index_col=0, parse_dates=['Date']).info()

---
<a id=2></a>
[Topへ](#0)

---
## 2. DataFrameからデータを抽出 

* カラムを指定して抽出
* locとilocでレコードとカラムを指定して抽出
* 条件文で抽出
* 複数の条件の場合の注意点
* filterを使う
* queryを使う

---

カラムを指定して抽出

In [None]:
df.head(3)

In [None]:
# df[3]
# df[0,3]
# df[:]   # :を使った場合は抽出可能

In [None]:
# Series
df['Price'][0]

In [None]:
# 1カラムのDataFrame
type(df[['Price']])

In [None]:
df[['Price']].head(3)

In [None]:
df[['Price', 'Quantity']].head(3)

locとilocでレコードとカラムを指定して抽出  
※ loc : [index_label, column_label], iloc : [row_index, column_index]

In [None]:
# インデックス名、カラム名
df.loc[0:3, 'Date':'Quantity']
# :の後のものも含まれることに注意

In [None]:
df.loc[[1, 3, 5], 'Width']

In [None]:
df.iloc[0:3, 0:3]

In [None]:
df.iloc[[0, 5, 10], [4, 5]]

In [None]:
# ラベルは分かるがインデックスが分らない場合
# for文の利用などで数値を使いたい場合
df.iloc[0:3, df.columns.get_loc('Color')]
# df.index.get_loc('ID001')

条件文で抽出

In [None]:
df['Height'] >= 9.5

In [None]:
df[df['Height'] >= 9.5]

複数の条件の場合の注意点

In [None]:
df[(df['Height'] >= 9.5) & (df['Price'] > 4000)]

In [None]:
df[(df['Height'] >= 9.5) & ((df['Price'] > 4000) | (df['Shape'] == 'triangle'))]

In [None]:
condition1 = df['Height'] >= 9.5
condition2 = df['Price'] > 4000
condition3 = df['Shape'] == 'triangle'
df[condition1 & (condition2 | condition3)]

filterを使う  
※ locなどで対応できない場合に使用するという考えでよい  

In [None]:
# 含む文字列で行、列を選択できる
# Regexも扱える
df.filter(like='or', axis=1).head(3)

In [None]:
df.filter(like='0', axis=0).head(3)

queryを使う

In [None]:
df.query("9 < Height & Width < 3")      # 一続きの文字列で条件を指定できる
# df[(df['Height'] > 9) & (df['Width'] < 3)]

In [None]:
df.query("Color in ['red', 'blue']")
# df[df['Color'].isin(['red', 'blue'])]

---
<a id=3></a>
[Topへ](#0)

---
## 3. 要素の値を更新（上書き）する

 * 要素の値を更新
 * locもしくはilocで更新する
 * 一次元、二次元アレイであることを念頭に更新する
---

要素の値を更新

In [None]:
# df['Price'][0] = 0
# chained indexは推奨されていない

In [None]:
df.head(3)

 locもしくはilocで更新する

In [None]:
df.loc[0, 'Price'] = 10000
df.head(2)

In [None]:
df.loc[0:2, 'Price'] = 10000
df.head(3)

一次元、二次元アレイであることを念頭に更新する

In [None]:
df.loc[0, ['Width', 'Height']] = 8.88
df.head(3)

In [None]:
df.loc[0,['Width', 'Height']] = [1.11, 7.77]
df.head(3)

In [None]:
df.loc[[0, 1], ['Width', 'Height']] = 1.23
df.head(3)

In [None]:
df.loc[[0, 1], ['Width', 'Height']] = [7.77, 4.44]
df.head(3)

In [None]:
df.loc[[0, 1], ['Width', 'Height']] = [[1.11, 2.22], [3.33, 4.44]]
df.head(3)

In [None]:
df.loc[df['Price'] == 10000, 'Price'] = 9999
df.head(5)

---
<a id=4></a>
[Topへ](#0)

---
## 4. 基本統計量やユニーク、最大・最小など

---
* 基本統計量の算出
* カラム別のユニークな値
* 基本統計量の一括表示
* 最大値・最小値を持つレコード
---

基本統計量の算出

In [None]:
print(f"count : {df['Quantity'].count()}")
print(f"sum : {df['Quantity'].sum()}")
print(f"average : {df['Quantity'].mean()}")
print(f"median : {df['Quantity'].median()}")
print(f"max : {df['Quantity'].max()}")
print(f"min : {df['Quantity'].min()}")
print('=====')
print(f"mode : {df['Quantity'].mode()}")   # 最頻値

カラム別のユニークな値

In [None]:
df['Color'].unique()

In [None]:
df['Quantity'].unique()

In [None]:
# ユニーク値の数
df['Quantity'].nunique()

In [None]:
# unique(), nunique()ではなくこちらが多用されます
df['Quantity'].value_counts()

In [None]:
# ndarrayとして用いるのが容易です
np.array(df['Quantity'].mode())
# [59, 66]は二つの最頻値があることを示しています

基本統計量の一括表示

In [None]:
df.describe()

In [None]:
df.describe().T   # transpose

最大値・最小値を持つレコード

In [None]:
df['Quantity'].nlargest(5)

In [None]:
df['Quantity'].nsmallest(5)

In [None]:
df.loc[df['Quantity'].nsmallest(5).index]

In [None]:
# df.loc[df['Width'] > 9]

---
<a id=5></a>
[Topへ](#0)

---
## 5. グループ化、レコードの並べ替え

* グループ化し、特定のグループを抽出する
* 並べ替え
* グループ毎の統計量を比較
* 複数のカテゴリ（クラス）でのグループ化とMultiIndexの扱い   
---

グループ化し、特定のグループを抽出する

In [None]:
df.groupby('Color')

In [None]:
# グループの確認
df.groupby('Color').groups

In [None]:
# 特定のグループのインデックス
df.groupby('Color').groups['blue']

In [None]:
# 特定のグループの全サンプル
df.groupby('Color').get_group('blue').head()
# df[df['Color'] == 'blue'].head()

並べ替え

In [None]:
df_sorted = df.sort_values(by=['Color'])
df_sorted.head()

In [None]:
# インデックス自体に名を付ける
# その名を使ってあらためてソートすることで昇順などにできる
df_sorted.rename_axis('ID', axis=0, inplace=True)
df_sorted.head()

In [None]:
# 'Color'を先にすることで優先される
# ascending : 降順
df_sorted.sort_values(by=['Color', 'ID'], na_position='first', ascending=[True, False])

In [None]:
pd.concat([df[df['Color'].isnull()].sort_index(), df[df['Color'] == 'blue'].sort_index(), df[df['Color'] == 'green'].sort_index(), df[df['Color'] == 'red'].sort_index()])
# このように冗長になっても何ら問題はありません
# まずは自分の思考に沿った方法で行い、新しく出会った方法などを採り入れてリファクタリングを行ってください

グループ毎の統計量を比較

In [None]:
df.groupby('Color')['Quality']

In [None]:
df.groupby('Color')['Quality'].mean()

In [None]:
# aggrigation : 集計
df.groupby('Color')['Quality'].agg(['count', 'min', 'max', 'sum', 'mean', 'median', 'std'])

In [None]:
# aggを使うよりもdescribe()が簡潔
df.groupby('Color')['Quality'].describe()

複数のカテゴリ（クラス）でのグループ化とMultiIndexの扱い

In [None]:
df.groupby(['Color', 'Shape']).groups

In [None]:
df.groupby(['Color', 'Shape']).get_group(('blue', 'circle'))

In [None]:
df_G = df.groupby(['Color', 'Shape']).describe()
df_G

In [None]:
df_G.index

In [None]:
# インデックスのタプル('green', 'circle')をそのまま使える
df_G.loc[('green', 'circle'), 'Price']

In [None]:
df_G.loc['green', 'Price']
# ひとつ目のインデックスならば'green'という指定でよい

In [None]:
# ふたつ目のインデックスで絞り込みたい場合は
df_G.index.get_level_values('Shape') == 'circle'

In [None]:
df_G[df_G.index.get_level_values('Shape') == 'circle']

In [None]:
# クロスセクション、こちらは簡潔な記述で使える
df_G.xs('circle', level='Shape')

---
<a id=6></a>
[Topへ](#0)

---
## 6.重複、 欠損値の処理

* 重複レコードの削除
* 欠損値の確認
* 欠損値レコードを削除
* 欠損値を平均値で置換    
* scikit learn の SimpleImputerを使う
---

重複レコードの削除

In [None]:
df_dup = df.loc[17:18]
df = df.append(df_dup)
# カラム名が一致している場合はappendでレコードを追加する
df.shape

In [None]:
df.tail()

In [None]:
df.duplicated()

In [None]:
df.duplicated()[16:20]
# 重複している最初のレコードはFalseとなる

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df.tail()

欠損値の確認

In [None]:
df.isnull().sum()

In [None]:
df.isnull().sum(axis=1)

In [None]:
df[df.isnull().sum(axis=1) > 1]

欠損値レコードを削除

In [None]:
# df.drop(index=[4, 99])
df.dropna(thresh=9, inplace=True)
# threshold : 閾値（いきち、しきいち）
# 9のnon-nullがあれば残し、そうでなければdrop

In [None]:
df.shape

In [None]:
df_non_null = df.dropna()
# nullがひとつでもあればdrop
df_non_null.info()

In [None]:
df.isnull().sum()

In [None]:
# dropの対象とするカラムを指定
df.dropna(subset=['Date', 'Color', 'Shape'], inplace=True)

In [None]:
df.info()

欠損値を平均値で置き換え

In [None]:
hasnull_index = df[df.isnull().sum(axis=1) > 0].index
hasnull_index

In [None]:
# df.iloc[:, 3:8].describe()
df.iloc[:, 3:8].mean()

In [None]:
replace_dict = df.iloc[:, 3:8].mean().to_dict()
replace_dict

In [None]:
# dictionary comprehension 辞書内包表記
replace_dict = {key : np.round(value, 2) for key, value in replace_dict.items()}
replace_dict

In [None]:
# {'id': 777, 'address':'Tokyo'}.items()

In [None]:
# dictionaryを元に欠損値を補間（「補完」ではなく「補間」）
df.fillna(replace_dict, inplace=True)

In [None]:
df.loc[hasnull_index]

scikit learn の SimpleImputer を使う

In [None]:
df = pd.read_csv('sample1_without_index.csv', usecols=['Width', 'Height'])
df.head(2)
# usecolsは無理に使う必要はない
# 使用するカラムだけを切り取るか、他をドロップして使用すればよい

In [None]:
from sklearn.impute import SimpleImputer

https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html

In [None]:
# インスタンスの作成
mean_imputer = SimpleImputer(strategy='mean')

In [None]:
# fitは「学習」のような認識でよい
mean_imputer.fit(df[['Width']])

In [None]:
# transformで学習したことを実行
df['Width_Imputed'] = mean_imputer.transform(df[['Width']])

In [None]:
df[df['Width'].isnull()]

In [None]:
df.head()

In [None]:
median_imputer = SimpleImputer(strategy='median')

In [None]:
# fit_transformで一行で学習と実行を行う
df['Height_Imputed'] = median_imputer.fit_transform(df[['Height']])

In [None]:
df[df['Width'].isnull() | df['Height'].isnull()]

In [None]:
df.agg(['mean', 'median'])
# 素直にdf.describe()でかまいません

---
 <a id=4></a>
[Topへ](#0)

---
## 以上
    
---