# Excel形式

## PythonでExcelファイルを取り扱う

## データサンプル

## pandasを使う

In [2]:
import pandas as pd

df = pd.read_excel(
    "data/FEH_00200524_230205132438.xlsx",
    header=12,
    nrows=27,
)

In [3]:
df.head()

Unnamed: 0,年齢5歳階級 コード,年齢5歳階級,/男女別,男女計,男,女
0,1000,総数,,12477,6066,6412
1,1001,0～4歳,,422,216,206
2,1002,5～9歳,,493,252,240
3,1003,10～14歳,,530,272,258
4,1004,15～19歳,,552,283,269


In [4]:
df.shape

(27, 6)

In [5]:
df.loc[:, "/男女別"].isna().all()

True

## pandasでデータ加工しExcelファイルに書き込む

In [6]:
df.head()

Unnamed: 0,年齢5歳階級 コード,年齢5歳階級,/男女別,男女計,男,女
0,1000,総数,,12477,6066,6412
1,1001,0～4歳,,422,216,206
2,1002,5～9歳,,493,252,240
3,1003,10～14歳,,530,272,258
4,1004,15～19歳,,552,283,269


In [7]:
df.dtypes

年齢5歳階級 コード      int64
年齢5歳階級         object
/男女別          float64
男女計            object
男              object
女              object
dtype: object

In [8]:
cleaned_df = pd.concat(
    [
        df.loc[:, ["年齢5歳階級 コード", "年齢5歳階級"]],
        df.loc[:, ["男女計", "男", "女"]]
            # カンマ(,)を削除
            .applymap(lambda x: x.replace(",", ""))  # ・・①
            # "男女計", "男", "女"の3つの列を整数型に変換する
            .astype("int"),  # ・・②
    ],
    axis=1,
)

In [None]:
processed_df = cleaned_df.assign(
    女性比率=cleaned_df.loc[:, "女"] / cleaned_df.loc[:, "男女計"]
)
processed_df.tail()

In [None]:
processed_df.to_excel("data/人口統計.xlsx")

## Pythonのオブジェクトとして扱う

In [None]:
import openpyxl

wb = openpyxl.load_workbook("data/FEH_00200524_230205132438.xlsx")
sheet = wb.worksheets[0]  # 最初のシートの読み込み

In [None]:
print(sheet["B1"].value)

In [None]:
out = []
for row in sheet.iter_rows(min_row=14, max_row=40):  # ・・①
    inner = []
    for cell in row:  # ・・②
        inner.append(cell.value)
    out.append(inner)  # ・・③
print(out)

In [None]:
print(len(out))