# ライブラリのインポート

In [17]:
import numpy as np
import pandas as pd

# ファイル読み込み

In [18]:
df = pd.read_csv('demo1_sjis.csv', encoding='shift_jis') #demo1_sjis.csvファイルを読み込み(Shift-JIS形式)

In [19]:
df.head()  #先頭5行の抽出

Unnamed: 0,従業員ID,等級,性別,所属本部,所属部,残業時間,評価点
0,10304,1,男,管理本部,情報システム部,6.2,28
1,10342,2,女,管理本部,情報システム部,8.0,33
2,10831,2,男,管理本部,情報システム部,0.0,39
3,10578,2,男,管理本部,情報システム部,7.8,28
4,10991,2,男,管理本部,情報システム部,9.9,27


# ファイル書き出し

In [20]:
df.to_csv('new_data.csv', index=False) #new_data.csvファイルに書き込み（インデックスは書き込み対象外）

# データフレームの取り扱い

In [21]:
df.shape   #行数、列数の出力

(229, 7)

In [22]:
df.columns #列名の出力

Index(['従業員ID', '等級', '性別', '所属本部', '所属部', '残業時間', '評価点'], dtype='object')

In [23]:
df.index   #インデックス名(行名)の出力

RangeIndex(start=0, stop=229, step=1)

In [24]:
df.dtypes  #データ型の出力

従業員ID      int64
等級         int64
性別        object
所属本部      object
所属部       object
残業時間     float64
評価点        int64
dtype: object

# データ型の変換

In [25]:
df[['従業員ID', '等級']]=df[['従業員ID', '等級']].astype(np.object_) #「従業員」列と「等級」列をobject型に変換

In [26]:
df.dtypes #変換したデータの出力

従業員ID     object
等級        object
性別        object
所属本部      object
所属部       object
残業時間     float64
評価点        int64
dtype: object

# データ抽出

In [27]:
df.head()                                          #先頭5行の抽出

Unnamed: 0,従業員ID,等級,性別,所属本部,所属部,残業時間,評価点
0,10304,1,男,管理本部,情報システム部,6.2,28
1,10342,2,女,管理本部,情報システム部,8.0,33
2,10831,2,男,管理本部,情報システム部,0.0,39
3,10578,2,男,管理本部,情報システム部,7.8,28
4,10991,2,男,管理本部,情報システム部,9.9,27


In [31]:
df.iloc[0, 0]                                      #特定の行列の抽出（インデックス、列ともに番号で指定）

10304

In [32]:
df.loc[0, '従業員ID']                               #特定の行列の抽出（インデックスは番号、列は名前で指定）

10304

In [33]:
df.iloc[:, 2]                                      #特定の列の抽出（列番号で指定）

0      男
1      女
2      男
3      男
4      男
5      女
6      男
7      男
8      男
9      男
10     男
11     男
12     男
13     男
14     男
15     男
16     女
17     男
18     女
19     女
20     女
21     女
22     男
23     女
24     女
25     女
26     女
27     女
28     女
29     女
      ..
199    男
200    男
201    男
202    男
203    男
204    男
205    男
206    男
207    男
208    男
209    男
210    男
211    男
212    男
213    男
214    男
215    男
216    男
217    男
218    男
219    男
220    男
221    男
222    男
223    男
224    男
225    女
226    男
227    男
228    男
Name: 性別, Length: 229, dtype: object

In [34]:
df['性別']                                          #特定の列の抽出（列名で指定）

0      男
1      女
2      男
3      男
4      男
5      女
6      男
7      男
8      男
9      男
10     男
11     男
12     男
13     男
14     男
15     男
16     女
17     男
18     女
19     女
20     女
21     女
22     男
23     女
24     女
25     女
26     女
27     女
28     女
29     女
      ..
199    男
200    男
201    男
202    男
203    男
204    男
205    男
206    男
207    男
208    男
209    男
210    男
211    男
212    男
213    男
214    男
215    男
216    男
217    男
218    男
219    男
220    男
221    男
222    男
223    男
224    男
225    女
226    男
227    男
228    男
Name: 性別, Length: 229, dtype: object

In [35]:
df.iloc[3, :]                                      #特定の行の抽出(インデックス番号で指定)

従業員ID      10578
等級             2
性別             男
所属本部        管理本部
所属部      情報システム部
残業時間         7.8
評価点           28
Name: 3, dtype: object

In [None]:
df.iloc[[225, 227], 4:6]                           #特定の複数行列の指定(非連続の2行をインデックス番号で指定し、連続する2列を列番号で指定)

In [None]:
df[df['所属部']=='総務部']                           #「所属部」列が総務部の行を抽出

In [None]:
df2 = df[df['残業時間']>=60]                        #「残業時間」列が60以上の行を抽出し、df2に代入
df2.head()                                         #df2の先頭5行を抽出

In [None]:
df[(df['所属本部']=='営業本部') & (df['評価点']>80)]  #「所属本部」列が営業本部、かつ、「評価点」列が80より上の行を抽出

In [None]:
df.loc[df['等級']==1, :].iloc[:, 0:3]              #「等級」列が1の行の1~3列目を抽出

# 行列の追加と削除

In [None]:
df.head()                    #先頭5行の抽出

In [None]:
df['new_col']=range(len(df)) #「new_col」列を新規追加（dfの行数分、値を追加）
df.head()                    #先頭5行の抽出

In [None]:
df=df.drop('new_col', axis=1) #「new_col」列の削除(列削除の場合は、axisに1を指定)
df.head()                     #先頭5行の抽出

# データの集計

### 集計

In [None]:
df['所属部'].value_counts()                       #所属部別のデータの個数（人数）をカウント

In [None]:
df['評価点'].value_counts(bins=10, sort=False)    #評価点別のデータの個数(人数)をカウント（評価点の変量を離散化）

### グループ化

In [None]:
df.head() #先頭5行の抽出

In [None]:
df.groupby('所属部')['残業時間', '評価点'].mean()                       #所属部別の平均残業時間と平均評価点を集計

In [None]:
df2=df.groupby('所属部').agg({'残業時間':[np.sum], '評価点':[np.mean]}) #所属部別の合計残業時間と、平均評価点を集計
df2

#以下の記述でも実行可
#df2=df.groupby('所属部').agg({'残業時間':['sum'], '評価点':['mean']})

参考

In [None]:
df2.columns=['残業時間合計', '評価点平均']       #df2の列名を変更
df2                                          

### ピボットテーブル

In [None]:
df.head() #先頭5行の抽出

In [None]:
df.pivot_table('従業員ID', aggfunc='count', index='所属部', columns='等級') #所属部、等級別の従業員IDをカウント

In [None]:
df.pivot_table('残業時間', index='所属部', columns='等級')                  #所属部、等級別の平均残業時間を集計

In [None]:
df.pivot_table('残業時間', aggfunc='sum', index='所属部', columns='等級')   #所属部、等級別の合計残業時間を集計