# Excel形式

## PythonでExcelファイルを取り扱う

## データサンプル

## pandasを使う

In [6]:
import pandas as pd

df = pd.read_excel(
    "data/FEH_00200524_230205132438.xlsx",
    header=12,
    nrows=27,
)

In [7]:
df.head()

Unnamed: 0,年齢5歳階級 コード,年齢5歳階級,/男女別,男女計,男,女
0,1000,総数,,12477,6066,6412
1,1001,0～4歳,,422,216,206
2,1002,5～9歳,,493,252,240
3,1003,10～14歳,,530,272,258
4,1004,15～19歳,,552,283,269


In [8]:
df.shape

(27, 6)

In [9]:
df.loc[:, "/男女別"].isna().all()

True

## pandasでデータ加工しExcelファイルに書き込む

In [10]:
df.head()

Unnamed: 0,年齢5歳階級 コード,年齢5歳階級,/男女別,男女計,男,女
0,1000,総数,,12477,6066,6412
1,1001,0～4歳,,422,216,206
2,1002,5～9歳,,493,252,240
3,1003,10～14歳,,530,272,258
4,1004,15～19歳,,552,283,269


In [11]:
df.dtypes

年齢5歳階級 コード      int64
年齢5歳階級         object
/男女別          float64
男女計            object
男              object
女              object
dtype: object

In [12]:
cleaned_df = pd.concat(
    [
        df.loc[:, ["年齢5歳階級 コード", "年齢5歳階級"]],
        df.loc[:, ["男女計", "男", "女"]]
            # カンマ(,)を削除
            .applymap(lambda x: x.replace(",", ""))  # ・・①
            # "男女計", "男", "女"の3つの列を整数型に変換する
            .astype("int"),  # ・・②
    ],
    axis=1,
)

  .applymap(lambda x: x.replace(",", ""))  # ・・①


In [13]:
processed_df = cleaned_df.assign(
    女性比率=cleaned_df.loc[:, "女"] / cleaned_df.loc[:, "男女計"]
)
processed_df.tail()

Unnamed: 0,年齢5歳階級 コード,年齢5歳階級,男女計,男,女,女性比率
22,2000,（再掲）15歳未満,1445,740,705,0.487889
23,1023,（再掲）15～64歳,7411,3755,3657,0.493456
24,1024,（再掲）65歳以上,3621,1571,2050,0.566142
25,1026,（再掲）うち75歳以上,1953,773,1179,0.603687
26,1027,（再掲）うち85歳以上,665,214,451,0.678195


In [14]:
processed_df.to_excel("data/人口統計.xlsx")

## Pythonのオブジェクトとして扱う

In [15]:
import openpyxl

wb = openpyxl.load_workbook("data/FEH_00200524_230205132438.xlsx")
sheet = wb.worksheets[0]  # 最初のシートの読み込み

In [16]:
print(sheet["B1"].value)

人口推計 各月1日現在人口 概算値


In [17]:
out = []
for row in sheet.iter_rows(min_row=14, max_row=40):  # ・・①
    inner = []
    for cell in row:  # ・・②
        inner.append(cell.value)
    out.append(inner)  # ・・③
print(out)

[['01000', '総数', None, '12,477', '6,066', '6,412'], ['01001', '0～4歳', None, '422', '216', '206'], ['01002', '5～9歳', None, '493', '252', '240'], ['01003', '10～14歳', None, '530', '272', '258'], ['01004', '15～19歳', None, '552', '283', '269'], ['01005', '20～24歳', None, '624', '320', '304'], ['01006', '25～29歳', None, '639', '328', '311'], ['01007', '30～34歳', None, '641', '328', '313'], ['01008', '35～39歳', None, '717', '365', '352'], ['01009', '40～44歳', None, '790', '400', '390'], ['01010', '45～49歳', None, '939', '475', '463'], ['01011', '50～54歳', None, '950', '479', '471'], ['01012', '55～59歳', None, '813', '406', '407'], ['01013', '60～64歳', None, '747', '370', '377'], ['01014', '65～69歳', None, '747', '363', '383'], ['01015', '70～74歳', None, '922', '435', '487'], ['01016', '75～79歳', None, '714', '320', '393'], ['01017', '80～84歳', None, '574', '239', '335'], ['01018', '85～89歳', None, '398', '144', '254'], ['01019', '90～94歳', None, '201', '57', '144'], ['01020', '95～99歳', None, '57', '11', '46

In [18]:
print(len(out))

27
