In [1]:
# google colab で実行する場合は、次の行の先頭の # を削除してこのブロックを実行する
#!wget https://raw.githubusercontent.com/KHiraGit/sudspg_ds/main/ml04_sukkiri_ml_cinema.xlsx

In [2]:
import pandas as pd
import openpyxl

In [3]:
# read_excel関数でエクセルのワークシートをデータフレームに読み込む
# index_col=0を指定すると0列目(A列)がデータのインデックスとして利用される
df_sample = pd.read_excel('ml03_df_2025.xlsx', sheet_name='df_sample', index_col=0)
df_sample  # jupyterではこの行でデータフレームの内容を表示

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice
サンドイッチ,300,400,flour
ナポリタン,600,800,flour


In [4]:
# データフレームの情報を取得
print('行数と列数', df_sample.shape)
print('インデックス', df_sample.index)
print('列名', df_sample.columns)

行数と列数 (3, 3)
インデックス Index(['おむすび', 'サンドイッチ', 'ナポリタン'], dtype='object')
列名 Index(['price', 'cal', 'ingredients'], dtype='object')


In [5]:
# データフレームの先頭(1行目)を表示
df_sample.head(1)

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice


In [6]:
# データフレームの末尾(1行目)を表示
df_sample.tail(1)

Unnamed: 0,price,cal,ingredients
ナポリタン,600,800,flour


In [7]:
# 特定の1行を表示
df_sample.loc['サンドイッチ']

price            300
cal              400
ingredients    flour
Name: サンドイッチ, dtype: object

In [8]:
# 特定の複数行を表示
df_sample.loc[['サンドイッチ', 'おむすび']]  # 指定した順に表示される

Unnamed: 0,price,cal,ingredients
サンドイッチ,300,400,flour
おむすび,150,300,rice


In [9]:
# 条件を満たす行を表示
df_sample[df_sample['price'] < 500] 

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice
サンドイッチ,300,400,flour


In [10]:
# 複数の条件を満たす行を表示
# 各条件は括弧で囲む、条件のANDは &, OR は | を使う
df_sample[(df_sample['price'] > 500) & (df_sample['cal'] > 500)] 

Unnamed: 0,price,cal,ingredients
ナポリタン,600,800,flour


In [11]:
# 特定の1列を表示
df_sample['price']

おむすび      150
サンドイッチ    300
ナポリタン     600
Name: price, dtype: int64

In [12]:
# 特定の複数列を表示
df_sample[['cal', 'price']]  # 指定した順に表示される

Unnamed: 0,cal,price
おむすび,300,150
サンドイッチ,400,300
ナポリタン,800,600


In [13]:
# 特定の行を削除
df_sample.drop(['ナポリタン'], axis=0)

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice
サンドイッチ,300,400,flour


In [14]:
# 上記で削除しても元のデータフレームはそのまま
# (削除したデータフレームを使う場合は、新たな変数に代入する)
df_sample

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice
サンドイッチ,300,400,flour
ナポリタン,600,800,flour


In [15]:
# 特定の行を削除 (削除後のデータフレームを新たな変数に代入)
df_dropped = df_sample.drop(['cal'], axis=1)
df_dropped

Unnamed: 0,price,ingredients
おむすび,150,rice
サンドイッチ,300,flour
ナポリタン,600,flour


In [16]:
# 上記で削除しても元のデータフレームはそのまま
df_sample

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice
サンドイッチ,300,400,flour
ナポリタン,600,800,flour


In [17]:
# 統計量を計算
print('合計', df_sample['price'].sum())
print('平均', df_sample['price'].mean())
print('中央値', df_sample['price'].median())
print('最小値', df_sample['price'].min())
print('最大値', df_sample['price'].max())
print('標準偏差', df_sample['price'].std())
print('分散', df_sample['price'].var())

合計 1050
平均 350.0
中央値 300.0
最小値 150
最大値 600
標準偏差 229.128784747792
分散 52500.0


In [18]:
# 基本統計量を表示
print('基本統計量')
df_sample.describe()

基本統計量


Unnamed: 0,price,cal
count,3.0,3.0
mean,350.0,500.0
std,229.128785,264.575131
min,150.0,300.0
25%,225.0,350.0
50%,300.0,400.0
75%,450.0,600.0
max,600.0,800.0


In [19]:
# 元のデータフレームを表示
df_sample

Unnamed: 0,price,cal,ingredients
おむすび,150,300,rice
サンドイッチ,300,400,flour
ナポリタン,600,800,flour


In [20]:
# ダミー変数化したデータフレームを表示
pd.get_dummies(df_sample, drop_first=False)

Unnamed: 0,price,cal,ingredients_flour,ingredients_rice
おむすび,150,300,False,True
サンドイッチ,300,400,True,False
ナポリタン,600,800,True,False


In [21]:
# [参考] データフレームはプログラム中でも作成可能 (下はその一例)
df_sample2 = pd.DataFrame([[300, 500], [200, 300]], index=['ハンバーガー', 'フライドポテト'], columns=['price', 'cal'])
df_sample2

Unnamed: 0,price,cal
ハンバーガー,300,500
フライドポテト,200,300


In [22]:
### データフレームの結合(1) 同じ属性を持つデータを結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_c1 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='c1')
df_c2 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='c2')
# データフレームを結合(同じ属性(列)にデータを追加)
df_c3 = pd.concat([df_c1, df_c2])
# 結合した結果をエクセルファイルのシートに出力 (すでにシートがある場合は上書きする)
with pd.ExcelWriter('ml03_df_2025_res.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_c3.to_excel(writer, sheet_name='c3')

In [23]:
### データフレームの結合(2) 同じキーを持つデータを結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_m1 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='m1')
df_m2 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='m2')
# データフレームを結合(同じキー(行)にデータを追加)
df_m3 = pd.merge(df_m1, df_m2, on='key')
# 結合した結果をエクセルファイルのシートに出力
with pd.ExcelWriter('ml03_df_2025_res.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_m3.to_excel(writer, sheet_name='m3')

In [24]:
### データフレームの結合(3) キーが共通のデータの属性を結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j2')
# データフレームを結合(キーが共通のデータの属性を結合)
df_j3_1 = pd.merge(df_j1, df_j2, left_on='key', right_on='key')
# 結合した結果をエクセルファイルのシートに出力
with pd.ExcelWriter('ml03_df_2025_res.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_1.to_excel(writer, sheet_name='j3_1')

In [25]:
### データフレームの結合(4) 左のキーのみを利用して属性を結合
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j2')
# データフレームを結合(左のキーのみを利用して属性を結合)
df_j3_2 = pd.merge(df_j1, df_j2, left_on='key', right_on='key', how='left')
with pd.ExcelWriter('ml03_df_2025_res.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_2.to_excel(writer, sheet_name='j3_2')

In [26]:
### データフレームの結合(5) 右のキーのみを利用して属性を結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j2')
# データフレームを結合(右のキーのみを利用して属性を結合)
df_j3_3 = pd.merge(df_j1, df_j2, left_on='key', right_on='key', how='right')
with pd.ExcelWriter('ml03_df_2025_res.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_3.to_excel(writer, sheet_name='j3_3')

In [27]:
### データフレームの結合(6) 両方のキーの和を利用して属性を結合 ###
# エクセルファイルのシートをpandasのデータフレームに読み込む
df_j1 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j1')
df_j2 = pd.read_excel('ml03_df_2025.xlsx', sheet_name='j2')
# データフレームを結合(両方のキーの和を利用して属性を結合)
df_j3_4 = pd.merge(df_j1, df_j2, left_on='key', right_on='key', how='outer')
with pd.ExcelWriter('ml03_df_2025_res.xlsx', mode='a', if_sheet_exists='replace') as writer:
    df_j3_4.to_excel(writer, sheet_name='j3_4')

In [28]:
df_n = pd.read_excel('ml03_df_2025.xlsx', sheet_name='n')
print('## 0) オリジナルデータ')
print(df_n)
print('## 1) リストワイズ削除')
print(df_n.dropna(axis=0))
print('## 2) ペアワイズ削除')
print(df_n.dropna(axis=1))
print('## 3) 代表値(平均)を挿入')
print(df_n.fillna(df_n.mean()))
print('## 4) 前後の値で線形補間')
print(df_n.interpolate())

## 0) オリジナルデータ
   A     B     C
0  1   2.0   3.0
1  2   4.0   NaN
2  3   NaN   9.0
3  4   8.0   NaN
4  5  10.0  15.0
## 1) リストワイズ削除
   A     B     C
0  1   2.0   3.0
4  5  10.0  15.0
## 2) ペアワイズ削除
   A
0  1
1  2
2  3
3  4
4  5
## 3) 代表値(平均)を挿入
   A     B     C
0  1   2.0   3.0
1  2   4.0   9.0
2  3   6.0   9.0
3  4   8.0   9.0
4  5  10.0  15.0
## 4) 前後の値で線形補間
   A     B     C
0  1   2.0   3.0
1  2   4.0   6.0
2  3   6.0   9.0
3  4   8.0  12.0
4  5  10.0  15.0


### ■ 練習問題 ■

エクセルファイル ml03_df.xlsx のワークシート saitama_temp_202208 には、2022年8月各日のさいたま市の平均気温・最高気温・最低気温が格納されています。次のコードブロックを使い、下の問題に答えてください。(答えはWebClassに登録してください)

1. 平均気温の平均
2. 最高気温の最高
3. 最低気温が25度以上、最高気温が35度以上の日の日数

In [29]:
# エクセルファイルとワークシートの確認
df_temp = pd.read_excel('ml03_df_2025.xlsx', sheet_name='saitama_temp_202508', index_col=0)
df_temp.head()

Unnamed: 0_level_0,平均気温,最高気温,最低気温,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13
年月日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2025-08-01,27.2,30.8,24.0,,,,,,,,,,
2025-08-02,30.3,37.6,25.8,,,,,,,,,,
2025-08-03,31.2,36.0,27.2,,,,,,,,,,
2025-08-04,31.7,37.8,26.4,,,,,,,,,,
2025-08-05,33.3,39.7,26.9,,,,,,,,,,


In [30]:
#1. 平均気温の平均 
# (WebClassには四捨五入して小数第１位までを登録)

df_temp['平均気温'].mean()

np.float64(29.696774193548386)

In [31]:
#2. 最高気温の最高

df_temp['最高気温'].max()

np.float64(39.7)

In [32]:
#3. 最低気温が25度以上、最高気温が35度以上の日の日数

df_temp[(df_temp['最低気温'] >= 25.0) & (df_temp['最高気温'] >= 35.0)]['平均気温'].count()

np.int64(15)