# ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd

# ファイル読み込み

In [None]:
df = pd.read_csv('demo1_sjis.csv', encoding='shift_jis') #demo1_sjis.csvファイルを読み込み(Shift-JIS形式)

In [None]:
df.head()  #先頭5行の抽出

# ファイル書き出し

In [None]:
df.to_csv('new_data.csv', index=False) #new_data.csvファイルに書き込み（インデックスは書き込み対象外）

# データフレームの取り扱い

In [None]:
df.shape   #行数、列数の出力

In [None]:
df.columns #列名の出力

In [None]:
df.index   #インデックス名(行名)の出力

In [None]:
df.dtypes  #データ型の出力

# データ型の変換

In [None]:
df[['従業員ID', '等級']]=df[['従業員ID', '等級']].astype(np.object_) #「従業員」列と「等級」列をobject型に変換

In [None]:
df.dtypes #変換したデータの出力

# データ抽出

In [None]:
df.head()                                          #先頭5行の抽出

In [None]:
df.iloc[0, 0]                                      #特定の行列の抽出（インデックス、列ともに番号で指定）

In [None]:
df.loc[0, '従業員ID']                               #特定の行列の抽出（インデックスは番号、列は名前で指定）

In [None]:
df.iloc[:, 2]                                      #特定の列の抽出（列番号で指定）

In [None]:
df['性別']                                          #特定の列の抽出（列名で指定）

In [None]:
df.iloc[3, :]                                      #特定の行の抽出(インデックス番号で指定)

In [None]:
df.iloc[[225, 227], 4:6]                           #特定の複数行列の指定(非連続の2行をインデックス番号で指定し、連続する2列を列番号で指定)

In [None]:
df[df['所属部']=='総務部']                           #「所属部」列が総務部の行を抽出

In [None]:
df2 = df[df['残業時間']>=60]                        #「残業時間」列が60以上の行を抽出し、df2に代入
df2.head()                                         #df2の先頭5行を抽出

In [None]:
df[(df['所属本部']=='営業本部') & (df['評価点']>80)]  #「所属本部」列が営業本部、かつ、「評価点」列が80より上の行を抽出

In [None]:
df.loc[df['等級']==1, :].iloc[:, 0:3]              #「等級」列が1の行の1~3列目を抽出

# 行列の追加と削除

In [None]:
df.head()                    #先頭5行の抽出

In [None]:
df['new_col']=range(len(df)) #「new_col」列を新規追加（dfの行数分、値を追加）
df.head()                    #先頭5行の抽出

In [None]:
df=df.drop('new_col', axis=1) #「new_col」列の削除(列削除の場合は、axisに1を指定)
df.head()                     #先頭5行の抽出

# データの集計

### 集計

In [None]:
df['所属部'].value_counts()                       #所属部別のデータの個数（人数）をカウント

In [None]:
df['評価点'].value_counts(bins=10, sort=False)    #評価点別のデータの個数(人数)をカウント（評価点の変量を離散化）

### グループ化

In [None]:
df.head() #先頭5行の抽出

In [None]:
df.groupby('所属部')['残業時間', '評価点'].mean()                       #所属部別の平均残業時間と平均評価点を集計

In [None]:
df2=df.groupby('所属部').agg({'残業時間':[np.sum], '評価点':[np.mean]}) #所属部別の合計残業時間と、平均評価点を集計
df2

#以下の記述でも実行可
#df2=df.groupby('所属部').agg({'残業時間':['sum'], '評価点':['mean']})

参考

In [None]:
df2.columns=['残業時間合計', '評価点平均']       #df2の列名を変更
df2                                          

### ピボットテーブル

In [None]:
df.head() #先頭5行の抽出

In [None]:
df.pivot_table('従業員ID', aggfunc='count', index='所属部', columns='等級') #所属部、等級別の従業員IDをカウント

In [None]:
df.pivot_table('残業時間', index='所属部', columns='等級')                  #所属部、等級別の平均残業時間を集計

In [None]:
df.pivot_table('残業時間', aggfunc='sum', index='所属部', columns='等級')   #所属部、等級別の合計残業時間を集計