# Pandasのトレーニング♨

## [目次](TableOfContents.ipynb)
- [環境準備](#環境準備)
  - [インストール](#インストール)
  - [インポート](#インポート)
- [Series](#Series)
  - [生成](#生成)
  - [アクセス](#アクセス)
- [DataFrame](#DataFrame)
  - [生成](#生成_)
  - [アクセス](#アクセス_)
  - [編集](#編集)
  - [型変換](#型変換)
  - [集計操作](#集計操作)
- [CRISP-DM](#CRISP-DM)
  - [データの理解](#データの理解)
  - [データの準備](#データの準備)
  
## 参考
開発基盤部会 Wiki
- Pandas  
https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?Pandas

## 環境準備
プロキシ環境の場合などについては、[コチラ](PythonTraining.ipynb)をご参照ください。

### インストール

In [None]:
!pip install numpy
!pip install pandas
!pip install openpyxl

### インポート

In [None]:
import io
import requests

import numpy as np
import pandas as pd

In [None]:
import warnings
warnings.filterwarnings('ignore')

## Series

### 生成

#### 配列から

In [None]:
pd.Series([3,7,10,13])

#### NumPyから
NumPyの配列から

In [None]:
numpy_array = np.array([3,7,10,13])
numpy_array

In [None]:
pd.Series(numpy_array)

#### コピー

##### 以下は参照渡し

In [None]:
ss=pd.Series([3,7,10,13])
ss2=ss
ss2[1]=100
print(ss)
print(ss2)

##### コピーする場合は以下

In [None]:
ss=pd.Series([3,7,10,13])
ss2=ss.copy()
ss2[1]=100
print(ss)
print(ss2)

### アクセス

In [None]:
x=pd.Series([3,7,10,13])
x

#### インデックス

In [None]:
x[1]

#### 抽出

##### スライシング

In [None]:
x[1:3]

##### 配列でインデックスを指定
以下ではnp.arrayを使っているが、普通の配列でも指定可能。

In [None]:
x[np.array([1,2])]

##### 比較演算

###### 5より大きい値を調査。

In [None]:
# npと似たような動作で、boolのseriesで返る
x>=5

###### 5より大きい値を抽出。

In [None]:
# 上記のseriesでインデックスを指定する。
x[x>=5]

#### 配列
NumPy配列の取り出し

In [None]:
x.values

## DataFrame

### 生成_

#### 辞書型から
列名と列配列から

In [None]:
df=pd.DataFrame({
    'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
    'yyy': [20, 34, 50, 12, 62, 22],                   # 長さ: 6
    'zzz': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF']  # 長さ: 6
})
df

#### NumPyから_
NumPyの行列（２次配列）から

In [None]:
np_arr=np.array([
    ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'],  # 長さ: 6
    [20, 34, 50, 12, 62, 22],                    # 長さ: 6
    ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF']]) # 長さ: 6
df=pd.DataFrame(np_arr.T,columns=['xxx', 'yyy', 'zzz']) # 転置させるポイント
df

In [None]:
# ファイル保存
df.to_csv('temp.csv')

#### CSVから

##### 事前にCSVファイルを配置しておく。

In [None]:
# df = pd.read_csv('temp.csv')
# df

##### CSVファイルをダウンロードして...
必要に応じて[環境変数にプロキシ設定](PythonTraining.ipynb)をしておくと良い。

In [None]:
proxies = { # プロキシ設定
"http":"http://<user_name>:<password>@<proxy_host>:<proxy_port>/",
"https":"https://<user_name>:<password>@<proxy_host>:<proxy_port>/"
}

url = 'https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?plugin=attach&pcmd=open&file=temp.csv&refer=Pandas'
res = requests.get(url) # , verify=False, proxies=proxies) # プロキシ

###### 直接、読み込む。

In [None]:
df = pd.read_csv(io.BytesIO(res.content), encoding='shift-jis', sep=",")
df

###### 一旦保存して、読み込む。

In [None]:
with open('temp.csv', 'wb') as saveFile : saveFile.write(res.content)
df = pd.read_csv('temp.csv', encoding='shift-jis', sep=",")
df

#### Excelから
事前にopenpyxlのインストールが必要。

##### 事前にExcelファイルを配置しておく。

In [None]:
# df = pd.read_excel('temp.xlsx', engine='openpyxl')
# df

##### Excelファイルをダウンロードして...
必要に応じて[環境変数にプロキシ設定](PythonTraining.ipynb)をしておくと良い。

In [None]:
proxies = { # プロキシ設定
"http":"http://<user_name>:<password>@<proxy_host>:<proxy_port>/",
"https":"https://<user_name>:<password>@<proxy_host>:<proxy_port>/"
}

url = 'https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?plugin=attach&pcmd=open&file=temp.xlsx&refer=Pandas'
res = requests.get(url) # , verify=False, proxies=proxies) # プロキシ

###### 直接、読み込む。

In [None]:
df = pd.read_excel(io.BytesIO(res.content), engine='openpyxl')
df

###### 一旦保存して、読み込む。

In [None]:
with open('temp.xlsx', 'wb') as saveFile : saveFile.write(res.content)
df = pd.read_excel('temp.xlsx', engine='openpyxl')
df

#### コピー

##### 以下は参照渡し

In [None]:
df=pd.DataFrame({
    'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
    'yyy': [20, 34, 50, 12, 62, 22],                   # 長さ: 6
    'zzz': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF']  # 長さ: 6
})
df2=df
df2.iloc[1,1]=100
print(df)
print(df2)

##### コピーする場合は以下

In [None]:
df=pd.DataFrame({
    'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
    'yyy': [20, 34, 50, 12, 62, 22],                   # 長さ: 6
    'zzz': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF']  # 長さ: 6
})
df2=df.copy()
df2.iloc[1,1]=100
print(df)
print(df2)

### アクセス_

#### 先頭・後尾

##### 先頭

###### 先頭５行を出力（既定値

In [None]:
df.head()

###### 先頭２行を出力（明示

In [None]:
df.head(2)

##### 後尾

###### 後尾５行を出力（既定値

In [None]:
df.tail()

###### 先頭２行を出力（明示

In [None]:
df.tail(2)

#### インデックス

##### 行指定
Seriesが返る。

In [None]:
df.iloc[1]

##### 列指定
Seriesが返る。

In [None]:
# NumPyと同様にスライシングが可能
df.iloc[:,1]

##### 行列指定

###### 行列番号

In [None]:
df.iloc[1,0]

###### 行番号・列名
locは行名、列名が使える。

In [None]:
df.loc[1,'xxx']

#### 抽出

##### スライシング

###### 行

In [None]:
df.iloc[2:4]

###### 列

In [None]:
df.iloc[:,2:4]

##### 配列でインデックスを指定
以下ではnp.arrayを使っているが、普通の配列でも指定可能。

###### 行インデックス

In [None]:
df.iloc[np.array([2,3])]

###### 行＆列インデックス

In [None]:
df.iloc[np.array([2,3]), np.array([1,2])]

##### 比較演算
比較の結果boolのSeriesが生成されて指定されている。

###### 30より大きいyyy列の値を調査。

In [None]:
df.yyy >= 30

###### 30より大きいyyy列の値を抽出。

In [None]:
df[df.yyy >= 30]

#### 行列
NumPy行列の取り出し

In [None]:
df.values

#### 行指定（≒ 選択）

##### １行指定する場合はSeries

In [None]:
df.iloc[2]

##### 複数行指定（行を配列で指定）する場合はDataFrame

In [None]:
df.iloc[[2]]

#### 列指定（≒ 射影）

##### １列指定する場合はSeries
行はスライシングで全行指定

In [None]:
df.loc[:,'yyy']

##### 複数列指定（列を配列で指定）する場合はDataFrame

###### 行列指定
行はスライシングで全行指定

In [None]:
df.loc[:,['yyy']]

###### 列名のみ指定しても結果は同じ

In [None]:
df[['yyy']]

### 編集
- 行編集: axis=0
- 列編集: axis=1

In [None]:
df=pd.DataFrame({
    'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
    'yyy': [20, 34, 50, 12, 62, 22],                   # 長さ: 6
    'zzz': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF']  # 長さ: 6
})
df

#### 追加

##### 行追加

###### concatを使った例

In [None]:
row=pd.DataFrame({
           'xxx': 'ggg',
           'yyy': [45],
           'zzz': 'GGG'})

pd.concat([df,row],axis=0)

###### インデックス再設定

In [None]:
df.index=np.arange(len(df))
df

##### 列追加

###### 簡単な例

In [None]:
df['XXX']=['X1','X2','X3','X4','X5','X6']
df

###### concatを使った例

In [None]:
col=pd.DataFrame({'YYY':['Y1','Y2','Y3','Y4','Y5','Y6']})
df=pd.concat([df,col],axis=1)
df

#### 削除

##### 行削除

In [None]:
df=df.drop(2,axis=0)
df

##### 列削除

In [None]:
df=df.drop('yyy',axis=1)
df

#### 列名・行名の変更

##### 列名の変更

In [None]:
df.columns=['AAA','BBB','CCC','DDD']
df

##### 列名・行名の変更

In [None]:
df=df.rename(columns={'DDD': 'XXX'}, index={5: 'hoge'})
df

#### 列値の一括変更
列値を％に単位変更する（100倍する）などの一括変更。

In [None]:
df=pd.DataFrame({
     'xxx': ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], # 長さ: 6
     'yyy': [20, 34, 50, 12, 62, 22], # 長さ: 6
     'zzz':['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'] # 長さ: 6
})
df

In [None]:
df.iloc[:,1:2] = df.iloc[:,1:2] * 100
df

#### 行列の入替（転置）

In [None]:
df.transpose()

#### inplace=True
inplace=Trueを設定すると、元を変更する。  
※ drop、rename、dropnaなどメソッドに指定できる。

In [None]:
df.drop('yyy',axis=1)
df # 元のデータに変更は反映されない。

In [None]:
df.drop('yyy',axis=1,inplace=True)
df # 元のデータに変更が反映される。

### 型変換

#### SS ⇔ DF型変換

##### DF → SS
DFのアクセスの所で幾らか説明済み。

##### SS → DF 

In [None]:
df = pd.DataFrame(pd.Series([3,7,10,13]))
df

#### NP ⇔ DF型変換

##### NP → DF
[NumPyから](#NumPyから_)

##### DF → NP 

###### np.arrayメソッド

In [None]:
np_arr=np.array(df)
np_arr

###### df.valuesプロパティ

In [None]:
np_arr=df.values
np_arr

### 集計操作

#### 行方向に集計 

In [None]:
df=pd.DataFrame({
    '0': ['00', '01', '02', '03', '04', '05', '06', '07', '08', '09'], # 長さ: 10
    '1': ['10', '11', '12', '13', '14', '15', '16', '17', '18', '19'], # 長さ: 10
    '2': ['20', '21', '22', '23', '24', '25', '26', '27', '28', '29'] # 長さ: 10
})
df=df.astype('int')
df

##### 1～2列を行集計（スライシングでもOK

In [None]:
# 集計
ss_sum = df.iloc[:,[1,2]].sum(axis=0)
# 型変換
df_sum = pd.DataFrame(ss_sum)
# 列名変更
df_sum = df_sum.rename(columns={0: 'sum'})
df_sum

##### 集計結果を結合

In [None]:
df=pd.concat([df,df_sum.transpose()],axis=0)
df

#### 列方向に集系 

In [None]:
df=pd.DataFrame({
    '0': ['00', '01', '02', '03', '04', '05', '06', '07', '08', '09'], # 長さ: 10
    '1': ['10', '11', '12', '13', '14', '15', '16', '17', '18', '19'], # 長さ: 10
    '2': ['20', '21', '22', '23', '24', '25', '26', '27', '28', '29'] # 長さ: 10
})
df=df.astype('int')
df

##### 1～2列を列集計（スライシングでもOK

In [None]:
# 集計
ss_sum = df.iloc[:,[1,2]].sum(axis=1)
# 型変換
df_sum = pd.DataFrame(ss_sum)
# 列名変更
df_sum = df_sum.rename(columns={0: 'sum'})
df_sum

##### 集計結果を結合

In [None]:
df=pd.concat([df,df_sum],axis=1)
df

## CRISP-DM
DataFrameを用いた

- データの理解
- データの準備

あたりの処理。

### データの理解

In [None]:
df

#### 基本統計量

In [None]:
df.describe()

In [None]:
# 小数点以下、切捨
df.describe().astype(int)

#### 相関係数（相関行列）

In [None]:
df.corr()

### データの準備

#### データのクリーニング

##### 補完処理 

In [None]:
def function1():
    NAN = np.nan
    df=pd.DataFrame({
        '0': ['00', '01', NAN, '03', '04', '05', '06', '07', '08', NAN], # 長さ: 10
        '1': ['10', '11', '12', '13', NAN, '15', NAN, '17', NAN, '19'], # 長さ: 10
        '2': [NAN, '21', '22', '23', '24', '25', NAN, '27', '28', '29'] # 長さ: 10
    })
    return df.astype(float)
df=function1()
df

###### リストワイズ法（削除）
欠損値を含む行（列）を削除。
- how='any'が既定値で、how='all'だと全列（行）欠損値の場合に限定。
- axis=0の行を削除が既定値で、axis=1だと列を削除。

In [None]:
df = function1()
# 欠損値を含む行を削除
df.dropna()

In [None]:
df = function1()
# 欠損していない列数が指定した値以上の行を削除
df.dropna(thresh=2)

###### ペアワイズ法（削除）
指定の列（行）に欠損値を含む行（列）を削除
- how='any'が既定値で、how='all'だと全列（行）欠損値の場合に限定。
- axis=0の行を削除が既定値で、axis=1だと列を削除。

In [None]:
df = function1()
# 指定の列に欠損値を含む行を削除
df.dropna(subset=['1', '2'])

###### 補完値で置換

In [None]:
df = function1()
# 平均値補完
df.fillna(df.mean())

In [None]:
df = function1()
# 中央値補完
df.fillna(df.median())

In [None]:
df = function1()
# 最頻値補完
df.fillna(df.mode().iloc[0])

In [None]:
df=function1()
# 線形補完
df.interpolate(method='linear')

###### 任意の値で補完

In [None]:
df=function1()
# 全列
df.fillna(10)

In [None]:
df=function1()
# 列指定
df.fillna({'0':10, '1':20, '2':30})

###### 前後の値で補完
更に、axis、limit等も指定可能。

In [None]:
df=function1()
# 前の値
df.fillna(method='ffill')

In [None]:
df=function1()
# 後の値
df.fillna(method='bfill')

###### Xを含む要素をXで一括置換

In [None]:
NAN = np.nan
df=pd.DataFrame({
    'XXX': ['abcAAAxyz', 'abcBBBxyz'],
    'YYY': ['abcBBBxyz', 'abcAAAxyz']
})
df

In [None]:
df['XXX'] = df['XXX'].str.replace('.*(AAA).*', 'CCC', regex=True)
df

###### 要素を要素中の[,]と[.]で囲まれた文字列で一括置換

In [None]:
NAN = np.nan
df=pd.DataFrame({
    'XXX': ['AAA,BBB.CCC', 'XXX,YYY.ZZZ'],
    'YYY': ['AAA,BBB.CCC', 'XXX,YYY.ZZZ']
})
df

In [None]:
list_col1 = [i.split(",")[1].split(".")[0].strip() for i in df["XXX"]]
df["XXX"] = pd.Series(list_col1)
nparr_col1 = df["XXX"].unique()
for cell in nparr_col1:
   df['XXX'] = df['XXX'].str.replace('.*({0}\.).*'.format(cell), cell, regex=True)
df

###### グループの平均値で補完

In [None]:
NAN = np.nan
df=pd.DataFrame({
    'XXX': [1, 2, 3, NAN, 5, 6, 7, 8, 9, 10],                 # 長さ: 10
    'YYY': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A'] # 長さ: 10
})
df

In [None]:
# df['補完対象列名'] = df.groupby('グループ化列名')['補完対象列名'].transform...
df['XXX'] = df.groupby('YYY')['XXX'].transform(lambda d: d.fillna(d.mean()))
df # XXX列3番行が (1+7+10) / 3 = 6 で補完される。

#### データの構築

##### 単一属性変換

###### カテゴリ → 数値

In [None]:
# df['列名'] = df['列名'].map({'カテゴリ1':数値1, 'カテゴリ2':数値2, ..., 'カテゴリn':数値n})
df2 = df.copy()
df['YYY'] = df['YYY'].map({'A':1, 'B':2, 'C':3})
df

###### 数値 → カテゴリ

In [None]:
# df['列名'] = df['列名'].map({数値1:'カテゴリ1', 数値2:'カテゴリ2', ..., 数値n:'カテゴリn'})
df2['YYY'] = df['YYY'].map({1:'A', 2:'B', 3:'C'})
df2

#### データの統合

##### One-Hotエンコーディング
- Pandasの場合、get_dummiesを使う。
- [NumPyの場合、to_categoricalを使う。](NumPyTraining.ipynb)

###### カテゴリを列に展開（0・1化）など。

In [None]:
pd.get_dummies(df['YYY'])

###### 展開した列を表に追加する流れ

In [None]:
df_dummy = pd.get_dummies(df['YYY'])
df = pd.concat([df, df_dummy], axis=1)
df