In [None]:
# google colab で実行する場合は、次の行の先頭の # を削除してこのブロックを実行する
#!wget https://raw.githubusercontent.com/KHiraGit/sudspg_ds/main/ml03_df.xlsx

In [None]:
import pandas as pd
import openpyxl

In [None]:
# read_excel関数でエクセルのワークシートをデータフレームに読み込む
# index_col=0を指定すると0列目(A列)がデータのインデックスとして利用される
df_sample = pd.read_excel('ml03_df.xlsx', sheet_name='df_sample', index_col=0)
df_sample  # jupyterではこの行でデータフレームの内容を表示

In [None]:
# データフレームの情報を取得
print('行数と列数', df_sample.shape)
print('インデックス', df_sample.index)
print('列名', df_sample.columns)

In [None]:
# データフレームの先頭(1行目)を表示
df_sample.head(1)

In [None]:
# データフレームの末尾(1行目)を表示
df_sample.tail(1)

In [None]:
# 特定の1行を表示
df_sample.loc['サンドイッチ']

In [None]:
# 特定の複数行を表示
df_sample.loc[['サンドイッチ', 'おむすび']]  # 指定した順に表示される

In [None]:
# 条件を満たす行を表示
df_sample[df_sample['price'] < 500] 

In [None]:
# 複数の条件を満たす行を表示
# 各条件は括弧で囲む、条件のANDは &, OR は | を使う
df_sample[(df_sample['price'] > 500) & (df_sample['cal'] > 500)] 

In [None]:
# 特定の1列を表示
df_sample['price']

In [None]:
# 特定の複数列を表示
df_sample[['cal', 'price']]  # 指定した順に表示される

In [None]:
# 特定の行を削除
df_sample.drop(['ナポリタン'], axis=0)

In [None]:
# 上記で削除しても元のデータフレームはそのまま
# (削除したデータフレームを使う場合は、新たな変数に代入する)
df_sample

In [None]:
# 特定の行を削除 (削除後のデータフレームを新たな変数に代入)
df_dropped = df_sample.drop(['cal'], axis=1)
df_dropped

In [None]:
# 上記で削除しても元のデータフレームはそのまま
df_sample

In [None]:
# 統計量を計算
print('合計', df_sample['price'].sum())
print('平均', df_sample['price'].mean())
print('中央値', df_sample['price'].median())
print('最小値', df_sample['price'].min())
print('最大値', df_sample['price'].max())
print('標準偏差', df_sample['price'].std())
print('分散', df_sample['price'].var())

In [None]:
# 基本統計量を表示
print('基本統計量')
df_sample.describe()

In [None]:
# 元のデータフレームを表示
df_sample

In [None]:
# ダミー変数化したデータフレームを表示
pd.get_dummies(df_sample, drop_first=False)

In [None]:
# [参考] データフレームはプログラム中でも作成可能 (下はその一例)
df_sample2 = pd.DataFrame([[300, 500], [200, 300]], index=['ハンバーガー', 'フライドポテト'], columns=['price', 'cal'])
df_sample2

In [None]:
### データフレームの結合(1) 同じ属性を持つデータを結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_c1 = pd.read_excel('ml03_df.xlsx', sheet_name='c1')
df_c2 = pd.read_excel('ml03_df.xlsx', sheet_name='c2')
# データフレームを結合(同じ属性(列)にデータを追加)
df_c3 = pd.concat([df_c1, df_c2])
# 結合した結果をエクセルファイルのシートに出力 (すでにシートがある場合は上書きする)
with pd.ExcelWriter('ml03_df.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_c3.to_excel(writer, sheet_name='c3')

In [None]:
### データフレームの結合(2) 同じキーを持つデータを結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_m1 = pd.read_excel('ml03_df.xlsx', sheet_name='m1')
df_m2 = pd.read_excel('ml03_df.xlsx', sheet_name='m2')
# データフレームを結合(同じキー(行)にデータを追加)
df_m3 = pd.merge(df_m1, df_m2, on='key')
# 結合した結果をエクセルファイルのシートに出力
with pd.ExcelWriter('ml03_df.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_m3.to_excel(writer, sheet_name='m3')

In [None]:
### データフレームの結合(3) キーが共通のデータの属性を結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df.xlsx', sheet_name='j2')
# データフレームを結合(キーが共通のデータの属性を結合)
df_j3_1 = pd.merge(df_j1, df_j2, left_on='key', right_on='key')
# 結合した結果をエクセルファイルのシートに出力
with pd.ExcelWriter('ml03_df.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_1.to_excel(writer, sheet_name='j3_1')

In [None]:
### データフレームの結合(4) 左のキーのみを利用して属性を結合
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df.xlsx', sheet_name='j2')
# データフレームを結合(左のキーのみを利用して属性を結合)
df_j3_2 = pd.merge(df_j1, df_j2, left_on='key', right_on='key', how='left')
with pd.ExcelWriter('ml03_df.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_2.to_excel(writer, sheet_name='j3_2')

In [None]:
### データフレームの結合(5) 右のキーのみを利用して属性を結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df.xlsx', sheet_name='j2')
# データフレームを結合(右のキーのみを利用して属性を結合)
df_j3_3 = pd.merge(df_j1, df_j2, left_on='key', right_on='key', how='right')
with pd.ExcelWriter('ml03_df.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_3.to_excel(writer, sheet_name='j3_3')

In [None]:
### データフレームの結合(6) 両方のキーの和を利用して属性を結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df.xlsx', sheet_name='j2')
# データフレームを結合(両方のキーの和を利用して属性を結合)
df_j3_4 = pd.merge(df_j1, df_j2, left_on='key', right_on='key', how='outer')
with pd.ExcelWriter('ml03_df.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_4.to_excel(writer, sheet_name='j3_4')

In [None]:
df_n = pd.read_excel('ml03_df.xlsx', sheet_name='n')
print('## 0) オリジナルデータ')
print(df_n)
print('## 1) リストワイズ削除')
print(df_n.dropna(axis=0))
print('## 2) ペアワイズ削除')
print(df_n.dropna(axis=1))
print('## 3) 代表値(平均)を挿入')
print(df_n.fillna(df_n.mean()))
print('## 4) 前後の値で線形補間')
print(df_n.interpolate())

### ■ 練習問題 ■

エクセルファイル ml03_df.xlsx のワークシート saitama_temp_202308 には、2023年8月各日のさいたま市の平均気温・最高気温・最低気温が格納されています。次のコードブロックを使い、下の問題に答えてください。(答えはWebClassに登録してください)

1. 平均気温の平均
2. 最高気温の最高
3. 最低気温が25度以上、最高気温が35度以上の日の日数

In [None]:
# エクセルファイルとワークシートの確認
df_temp = pd.read_excel('ml03_df.xlsx', sheet_name='saitama_temp_202308', index_col=0)
df_temp.head()

In [None]:
#1. 平均気温の平均 
# (WebClassには四捨五入して小数第１位までを登録)


In [None]:
#2. 最高気温の最高


In [None]:
#3. 最低気温が25度以上、最高気温が35度以上の日の日数
