In [41]:
"""
村上さんtoolbox
"""
# pandas 基礎集計クラス
import numpy as np
import pandas as pd
import copy
import seaborn as sns
from itertools import combinations

#http://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

# Jupyterで表示するためには、最初に以下を実行すること
%matplotlib inline

# Static Classで設計する
class pandas_tool:
    
    # All in one チェック（Jupyterのみ）
    def all_basic_summary_jupyter(df):
        print("■ 型の確認")
        display(pandas_tool.type(df))
        print("■ 数値型の確認")
        display(pandas_tool.summary(df)[0])
        print("■ カテゴリ型の確認")
        cate_var_data = list(df.select_dtypes(include=['object']).columns)
        ret = pandas_tool.freq(df,cate_var_data)
        for d in ret:
            display(pd.DataFrame(d))
            print("---------------")
        print("■ 欠損の確認")
        display(pandas_tool.check_missing(df))
    
    # 相関関係可視化（Jupyterのみ）
    def all_value_relation_visualize(df):
        #sns.set_context("poster", 1.2, {"lines.linewidth": 3})
        sns.pairplot(df,size=5)
    
    # カテゴリ変数でのヒートマップ（Jupyterのみ）
    def make_heatmap(df,x,y,value):
        target_df = df.pivot_table(index=x,values=value,columns=y)
        sns.heatmap(target_df, annot=True, fmt='1.1f', cmap='Blues')
    
    # 散布図（Jupyterのみ）
    def make_scatter_chart(df,x,y):
        #sns.jointplot(x=x, y=y, data=df, kind="hex")
        sns.jointplot(x=x, y=y, data=df)
    
    # 組み合わせでヒートマップを作成（Jupyterのみ）
    def all_make_heatmap(df,var_list,value):
        col_num = 2
        var_list_set = list(combinations(var_list,2))
        
        fig, axes = plt.subplots(int(len(var_list_set)/col_num)+1, col_num, figsize=(18,3+6.5*int(len(var_list_set)/col_num)))
        
        for i,target in enumerate(var_list_set):
            target_df = df.pivot_table(index=target[0],values=value,columns=target[1])
            sns.heatmap(target_df, annot=True, fmt='1.1f', cmap='Blues', ax=axes[int(i/col_num), i%col_num])
            
        plt.tight_layout()
    
    # 数値集計
    def summary(df,view=False):
        ret=df.describe()
        mis_ret=df.isnull().sum()
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            print("・統計量")
            print(ret)
            print("・欠損値")
            print(mis_ret)
            pd.set_option("display.max_columns",param)
        return ret,mis_ret
    
    # 型チェック
    def type(df,view=False):
        ret = df.dtypes
        if view:
            param=pd.get_option("display.max_rows")
            pd.set_option("display.max_rows",1000)
            print(ret)
            pd.set_option("display.max_rows",param)
        return ret
    
    # 欠損チェック
    def check_missing(df,view=False):
        not_null_df=df.notnull()
        ret=pd.DataFrame()
        for name in not_null_df.columns:
            tmp_df=not_null_df[name].value_counts()
            tmp_df.name=name
            ret = pd.concat([ret,tmp_df],axis=1)
        
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            print(ret)
            pd.set_option("display.max_columns",param)
        
        return ret
    
    # 欠損値のオブザベーションを抽出
    def get_miss_data(df,column,view=False):
        ret=df[df[column].isnull()]
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            print(ret)
            pd.set_option("display.max_columns",param)
        return ret
    
    # 欠損値を中央値で補完
    def fill_miss_med(df,var_name):
        var=df[var_name].median()
        df[var_name].fillna(var,inplace=True)
        return df
    
    # 欠損値を0で補完
    def fill_miss_zero(df,var_name):
        df[var_name].fillna(0,inplace=True)
        return df
    
    # 特定の値を欠損とみなす
    def apply_miss_value(df,var_name,value):
        df[var_name]=df[var_name].replace(value,np.nan)
        return df
    
    # 重複チェック
    def check_dup(df,columns,view=False):
        ret=pd.DataFrame()
        for name in columns:
            dup_cnt=df[name].duplicated().sum()
            tmp_df = pd.DataFrame({'var_name':[name],'dup_cnt':[dup_cnt]})
            ret = pd.concat([ret,tmp_df],axis=0,ignore_index= True)
        
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            print(ret)
            pd.set_option("display.max_columns",param)
        
        return ret
    
    # 組み合わせ重複チェック
    def check_dup_comb(df,columns,view=False):
        ret = df[columns].duplicated().sum()
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            print(ret)
            pd.set_option("display.max_columns",param)
        
        return ret
    
    # ユニークデータ取得
    def get_uniq_data(df,uniq_key,sort_key,keep='first'):
        ret = df.sort_values(by=sort_key)
        ret.drop_duplicates(subset=uniq_key, keep=keep, inplace=True)
        return ret
    
    # カテゴリ集計
    def freq(df,columns,view=False):
        ret=list()
        for name in columns:
            tmp_df=df[name].value_counts()
            tmp_df.name=name
            #ret = pd.concat([ret,tmp_df],axis=1)
            ret.append(tmp_df)
        
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            for r in ret:
                print(r)
                #display(r)
            pd.set_option("display.max_columns",param)
        
        return ret
    
    # 複雑な集計
    def tabulate(df,row,col=None,var='',func=np.sum,view=False):
        if var == '':
            tmp_df=df.reset_index(drop=False,inplace=False)
            ret=pd.pivot_table(data=tmp_df, values='index', index=row, columns=col, aggfunc='count', dropna=False, fill_value=0 ,margins = False)
            tmp_df=None
        else:
            ret=pd.pivot_table(data=df, values=var, index=row, columns=col, aggfunc=func, dropna=False, fill_value=0 ,margins = False)
        if view:
            param=pd.get_option("display.max_columns")
            pd.set_option("display.max_columns",1000)
            print(ret)
            pd.set_option("display.max_columns",param)
        
        return ret
    
    # マージ
    def merge(df1,df2,key,how,view=True):
        if view:
            print("df1のキー重複")
            pandas_tool.check_dup_comb(df1,key,True)
            print("df2のキー重複")
            pandas_tool.check_dup_comb(df2,key,True)
            
            print("df1のオブザベーション:{0}".format(len(df1)))
            print("df2のオブザベーション:{0}".format(len(df2)))
        
        ret=pd.merge(df1,df2,how=how,on=key)
        
        if view:
            print("mergeのオブザベーション:{0}".format(len(ret)))
        
        return ret
    
    # Rank
    def rank(df,var,num,suffix='_rank',check=False):
        labels=[i for i in range(0,num)]
        df[var+suffix]=pd.qcut(df[var], num, labels=labels)
        
        # check data
        if check:
            ret=pd.DataFrame()
            max_df=pandas_tool.tabulate(df=df,row=[var+suffix],var=var,func=np.max,view=False)
            max_df.name='max'
            min_df=pandas_tool.tabulate(df=df,row=[var+suffix],var=var,func=np.min,view=False)
            min_df.name='min'
            cnt_df=pandas_tool.tabulate(df=df,row=[var+suffix],var=var,func='count',view=False)
            cnt_df.name='count'
            ret=pd.concat([ret,min_df,max_df,cnt_df],axis=1)
            return df,ret
            
        return df
    
    # Rank適用(min基準)
    def apply_rank(df,rank_df):
        tmp_df=copy.deepcopy(rank_df)
        tmp_df.reset_index(drop=False,inplace=True)
        target_name=tmp_df.columns[3]
        tmp_df.columns=["rank","min","max","cnt"]
        
        def judge_thld(row):
            ret_var = -1
            cond_list = ["if 0 : ret_var = 0"]
            
            for i in range(1,len(tmp_df)):
                cond_list.append("elif row < " +str(tmp_df.ix[i,'min'])+ " : ret_var = " + str(tmp_df.ix[i-1,'rank']))
            
            cond_list.append("else: ret_var = " + str(tmp_df.ix[len(tmp_df)-1,'rank']))
            cond_str="\r\n".join(cond_list)
            # ローカル辞書をexecと共有する
            local_dict=locals()
            exec(cond_str,local_dict)
            return local_dict["ret_var"]
        
        df[target_name+"_rank"]=df[target_name].apply(judge_thld)
        return df
    
    # Min%以下はMin%点に、Max%以上はMax%点にクリップする
    def clip_min_max(df,col_list,apply_df=None,max_pct=0.99,min_pct=0.01):
        p_min = df[col_list].quantile(min_pct)
        p_max = df[col_list].quantile(max_pct)
        
        df[col] = df[col_list].clip(p_min,p_max,axis=1)
        
        # もしも適用先のデータがあるならば（例えば検証データ）対応
        if apply_df is not None:
            apply_df[col] = apply_df[col_list].clip(p_min,p_max,axis=1)
            return df,apply_df
        else:
            return df
    
    
    # 文字列→数値変換
    def conv_float(df,column,percent_flg=False):
        
        def conv_f(row):
            if row[column] == "" or row[column] is np.nan:
                return np.nan
            else:
                return float(row[column])
        
        df[column]=df[column].str.replace("\\","").str.replace(",","").str.replace("%","").str.strip()
        df[column]=df.apply(conv_f,axis=1)
        
        if percent_flg:
            df[column]=df[column]/100
        
        return df

In [42]:
"""
ファイル内のすべてのシート名をループして、
各シートをデータフレームとしてdfsというリストの各要素に保存。
dfs[X]で任意のデータフレームとして機能。
"""
import pandas as pd
name_excel = "crlea_0414.xlsx"
path_folder = r"C:\Users\s.ogura\Python\CRLEA\data\received_20220414"#Excelが置いてあるフォルダパス
path_file = r'{p}/{n}'.format(p = path_folder, n = name_excel)#ファイルパスとファイル名
input_file = pd.ExcelFile(path_file)
sheet_names_list = input_file.sheet_names

#配列ループ
dfs = [] #空のリスト
for i in range(0,len(sheet_names_list)-2): #一覧と採点者を除外

    # Excelファイルの読み込み
    data = pd.read_excel(path_file, sheet_names_list[i], index_col=None)
    # Excel sheetsを空のリストの各要素に追加
    dfs.append(data)

In [44]:
"""
分野と企画ペースのデータを読み込み
"""

# csvファイルの読み込みと空のリストに追加

bunya = pd.read_csv(filepath_or_buffer=r"C:\Users\s.ogura\Python\CRLEA\data\received_20220414/bunya0419v2.csv", encoding="ms932", sep=",")
bunya
# type(bunya)
# pandas.core.frame.DataFrame

Unnamed: 0,科目コード,割当,分野,企画ペース,最終ペース,採点回,学年
0,10,1,評論,330.0,273.3,夏,1
1,10,2,ポ評論,205.0,133.1,夏,1
2,10,3,ポ小説,145.0,93.5,夏,1
3,10,4,古文,315.0,259.2,夏,1
4,10,5,古文,225.0,153.6,夏,1
...,...,...,...,...,...,...,...
213,30,8,内説,115.0,105.5,冬,2
214,30,9,英訳,110.0,65.3,冬,2
215,30,10,英訳,62.5,46.7,冬,2
216,30,11,英訳,95.0,92.9,冬,2


In [33]:
type(bunya)

pandas.core.frame.DataFrame

In [45]:
"""
データの確認.シート名をリストとして取得
"""
for i,n in enumerate(sheet_names_list):
    print (i,n)
# print(sheet_names_list)
# print(sheet_names_list[0:len(sheet_names_list)-2])

0 夏1年
1 夏2年
2 夏3年
3 秋1年
4 秋2年
5 秋3年
6 冬1年
7 冬2年
8 一覧
9 採点者


In [46]:
"""
不要なシートを除外
"""
sn_list = sheet_names_list[0:len(sheet_names_list)-2]
print(sn_list)

['夏1年', '夏2年', '夏3年', '秋1年', '秋2年', '秋3年', '冬1年', '冬2年']


In [47]:
"""
配列ループの準備1.ヘッダーをリストとして取得
"""
header = dfs[0].columns.values.tolist()
for i,n in enumerate(header):
    print (i,n)

0 製品コード
1 科目コード
2 割当
3 採点者コード
4 合計 / 合計 / 採点所要時間
5 合計 / 合計 / 採点済枚数
6 合計 / 合計 / バツウチ済枚数
7 実枚数
8 ペース


In [48]:
"""
配列ループの準備2.集計方法を辞書として設定
"""
cal_methods = {0:np.mean,
               1:np.max,
               2:np.min,
               3:np.median,
               4:np.var
              }

In [49]:
#renshu forで改良
results=[]#集計結果の格納リスト

x1=header[1]#科目コード
x2=header[2]#割当

y1=header[3]#採点者コード
y2=header[4]#合計 / 合計 / 採点所要時間
y3=header[7]#実枚数
y4=header[8]#ペース

for i in range(len(sn_list)):
    s=[]#空のリスト
    
    z = pandas_tool.tabulate(df=dfs[i],col=[x1],row=[x2],var=[y1],func=np.size)
    z = z.stack().reset_index()
    z = z.rename(columns={'採点者コード': "採点者数"})
    s.append(z)

    z = pandas_tool.tabulate(df=dfs[i],col=[x1],row=[x2],var=[y2],func=np.sum)
    z = z.stack().reset_index()
    z = z.rename(columns={'合計 / 合計 / 採点所要時間': "所要合計時間"})
    s.append(z)

    z = pandas_tool.tabulate(df=dfs[i],col=[x1],row=[x2],var=[y3],func=np.sum)
    z = z.stack().reset_index()
    z = z.rename(columns={'実枚数': "採点枚数合計"})
    s.append(z)

    for j in range(len(cal_methods)):
        y_name =["ペース平均","ペース最大値","ペース最小値","ペース中央値","ペース分散"]
        z = pandas_tool.tabulate(df=dfs[i],col=[x1],row=[x2],var=[y4],func=cal_methods[j])
        z = z.stack().reset_index()
        z = z.rename(columns={'ペース': y_name[j]})
        s.append(z)

    ret = s[0]
    for data in s[1:]:
        ret = pd.merge(ret,data, on = [x1,x2],how = 'outer')
    ret["ペース偏差二乗和"] = ret["採点者数"] * ret["ペース分散"]
    ret["採点回"]= sn_list[i][0]#sn_listのiつ目の要素から1番目の文字
    ret["学年"]=int(sn_list[i][1])#sn_listのiつ目の要素から2番目の文字
    results.append(ret)    

In [24]:
results

[    割当  科目コード  採点者数    所要合計時間  採点枚数合計       ペース平均       ペース最大値      ペース最小値  \
 0    1     10    55   4963319  366913  349.615844  1649.259462   77.254963   
 1    1     20   107  16479859  405119  117.376035   400.000000   25.103984   
 2    1     30    29   1881603  221741  744.867856  2367.953032   93.845825   
 3    2     10    59  10355031  369844  167.625006   349.726869   23.013071   
 4    2     20   106  12295994  386688  149.573122   351.494467   11.650485   
 5    2     30    22   1612533  213110  624.658556  1562.055906  170.344120   
 6    3     10    98  10613873  269444  136.034648   372.743363   13.701005   
 7    3     20    87  23265209  792332  151.258750   364.345153   22.524187   
 8    3     30    23   5306705  253058  233.669407   438.498650   47.902979   
 9    4     10    38   4701670  332329  337.545780   767.381325   76.600780   
 10   4     20     0         0       0    0.000000     0.000000    0.000000   
 11   4     30    25   1865662  196452  558.582447  

In [50]:
"""
集計したデータを縦に結合する。
df = df1.append(df2)
"""
results2 = results[0] #集計結果を一つのDFに結合
for i in results[1:]:
    results2 = results2.append(i)

In [51]:
results2

Unnamed: 0,割当,科目コード,採点者数,所要合計時間,採点枚数合計,ペース平均,ペース最大値,ペース最小値,ペース中央値,ペース分散,ペース偏差二乗和,採点回,学年
0,1.0,10.0,55,4963319,366913,349.615844,1649.259462,77.254963,309.220098,60788.556229,3.343371e+06,夏,1
1,1.0,20.0,107,16479859,405119,117.376035,400.000000,25.103984,109.744997,4439.792090,4.750578e+05,夏,1
2,1.0,30.0,29,1881603,221741,744.867856,2367.953032,93.845825,616.084322,266023.340836,7.714677e+06,夏,1
3,2.0,10.0,59,10355031,369844,167.625006,349.726869,23.013071,178.527124,5702.131548,3.364258e+05,夏,1
4,2.0,20.0,106,12295994,386688,149.573122,351.494467,11.650485,139.677414,6090.513035,6.455944e+05,夏,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
115,12.0,43.0,0,0,0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000e+00,冬,2
116,12.0,45.0,0,0,0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000e+00,冬,2
117,12.0,51.0,0,0,0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000e+00,冬,2
118,12.0,53.0,0,0,0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000e+00,冬,2


In [52]:
type(results2)

pandas.core.frame.DataFrame

In [53]:
"""
results2:科目、割当、採点回、学年毎の各集計値を記載したテーブル
bunya:科目、割当、採点回、学年に対応した分野と企画ペースを記載したテーブル
2つのテーブルを結合させる
"""
output = pd.merge(results2,bunya, on = ["科目コード","割当","採点回","学年"],how = 'outer')
output

Unnamed: 0,割当,科目コード,採点者数,所要合計時間,採点枚数合計,ペース平均,ペース最大値,ペース最小値,ペース中央値,ペース分散,ペース偏差二乗和,採点回,学年,分野,企画ペース,最終ペース
0,1.0,10.0,55.0,4963319.0,366913.0,349.615844,1649.259462,77.254963,309.220098,60788.556229,3.343371e+06,夏,1,評論,330.00,273.300
1,1.0,20.0,107.0,16479859.0,405119.0,117.376035,400.000000,25.103984,109.744997,4439.792090,4.750578e+05,夏,1,ポ数と式,140.00,88.900
2,1.0,30.0,29.0,1881603.0,221741.0,744.867856,2367.953032,93.845825,616.084322,266023.340836,7.714677e+06,夏,1,英作,400.00,462.100
3,2.0,10.0,59.0,10355031.0,369844.0,167.625006,349.726869,23.013071,178.527124,5702.131548,3.364258e+05,夏,1,ポ評論,205.00,133.100
4,2.0,20.0,106.0,12295994.0,386688.0,149.573122,351.494467,11.650485,139.677414,6090.513035,6.455944e+05,夏,1,ポ数と式,140.00,112.900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
553,12.0,54.0,0.0,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000e+00,冬,2,,,
554,10.0,20.0,,,,,,,,,,秋,2,ポ式と証明・高次方程式,175.00,208.400
555,11.0,20.0,,,,,,,,,,秋,2,"図形と方程式, 三角関数, 微分法, 数列, ベクトル",211.00,207.280
556,12.0,20.0,,,,,,,,,,秋,2,ポ二次関数,400.00,416.100


In [54]:
"""
Excelの書き出し output
"""

name_excel_output = "crlea0414_summary_0419v2.xlsx"
path_folder = r"C:\Users\s.ogura\Python\CRLEA\data\received_20220414"#Excelが置いてあるフォルダパス

with pd.ExcelWriter('{}/{}'.format(path_folder,name_excel_output)) as writer:
    output.to_excel(writer, sheet_name='summary_0419')

In [15]:
"""
Excelの書き出し results2
"""

name_excel_output = "crlea0414_summary_0418.xlsx"
path_folder = r"C:\Users\s.ogura\Python\CRLEA\data\received_20220414"#Excelが置いてあるフォルダパス

with pd.ExcelWriter('{}/{}'.format(path_folder,name_excel_output)) as writer:
    results2.to_excel(writer, sheet_name='summary_0418')

In [229]:
"""
Excelの書き出し
"""

name_excel_output = "crlea_summary_0415.xlsx"
path_folder = r"C:\Users\s.ogura\Python\CRLEA\data\received_20220414"#Excelが置いてあるフォルダパス

with pd.ExcelWriter('{}/{}'.format(path_folder,name_excel_output)) as writer:
    results[0].to_excel(writer, sheet_name='summary_test')

In [71]:
# 型チェック
df_ret = pandas_tool.type(df1)
df_ret

製品コード                  int64
科目コード                  int64
割当                     int64
採点者コード                 int64
合計 / 合計 / 採点所要時間       int64
合計 / 合計 / 採点済枚数        int64
合計 / 合計 / バツウチ済枚数      int64
実枚数                    int64
ペース                  float64
dtype: object