# 1. データ探索（EDA）

北海道インフルエンザ患者数予測プロジェクトのデータ探索を行います。

## 1.1 ライブラリのインポート

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# 日本語フォント設定
plt.rcParams['font.sans-serif'] = ['MS Gothic', 'Yu Gothic', 'Hiragino Sans']
plt.rcParams['axes.unicode_minus'] = False

print('ライブラリのインポート完了')

ライブラリのインポート完了


## 1.2 インフルエンザデータの読み込み

In [4]:
# 2019年のデータを試しに読み込む
# ファイル構造: 
# - 1-3行目: ヘッダー情報
# - 4行目: 列名
# - 5-36行目: 定点当たり報告数（週別）
# - 37-38行目: 空行
# - 39-71行目: 報告数（週別 + 累積）← 使わない

# 定点当たり報告数のみ読み込む（5-36行目 = 32行）
df_flu_2019 = pd.read_csv('../data/raw/influenza/2019.csv', encoding='shift-jis', 
                          skiprows=3, nrows=32)

print(f'データ形状: {df_flu_2019.shape}')
print(f'列数: {len(df_flu_2019.columns)}')
df_flu_2019.head(10)

データ形状: (32, 53)
列数: 53


Unnamed: 0,保健所名,2019年第01週,2019年第02週,2019年第03週,2019年第04週,2019年第05週,2019年第06週,2019年第07週,2019年第08週,2019年第09週,...,2019年第43週,2019年第44週,2019年第45週,2019年第46週,2019年第47週,2019年第48週,2019年第49週,2019年第50週,2019年第51週,2019年第52週
0,全国,16.34,38.65,54.01,57.18,43.24,26.32,12.48,9.0,5.92,...,0.80,0.95,1.03,1.84,3.11,5.57,9.53,15.61,21.23,23.27
1,北海道,33.7,37.63,33.28,36.57,35.98,25.68,15.64,10.51,8.32,...,1.77,1.81,2.00,4.66,10.15,17.63,25.21,29.77,26.28,25.05
2,札幌市,16.68,33.34,26.66,29.91,35.27,25.7,15.0,10.23,7.77,...,2.93,3.16,2.80,6.93,14.21,23.13,31.77,30.89,25.71,27.34
3,小樽市,21.0,27.2,21.6,38.0,35.6,26.0,10.6,6.6,4.2,...,2.20,0.8,3.60,7.80,5.6,8.6,17.4,25.8,22.4,42.8
4,市立函館,7.11,19.4,17.5,28.4,38.1,26.1,14.2,11.2,11.4,...,4.10,4.4,2.40,5.30,9.5,25.8,22.8,20.5,12.0,8.7
5,旭川市,54.77,40.69,40.08,40.23,32.69,20.85,14.23,6.85,4.08,...,-,0.08,-,0.23,3.0,5.15,15.31,30.15,36.38,32.38
6,江別,93.0,43.5,55.63,20.75,25.63,20.25,16.75,12.0,9.0,...,2.13,2.13,1.75,9.00,17.63,25.13,21.88,42.25,39.88,22.38
7,千歳,52.63,37.38,28.13,32.75,34.5,24.63,11.75,13.63,10.5,...,1.25,0.88,5.50,6.13,5.25,6.75,15.0,27.5,24.13,16.75
8,岩見沢,25.25,36.38,39.13,27.75,40.25,28.75,19.38,15.13,15.5,...,0.38,0.88,1.00,3.88,10.75,11.25,27.13,28.25,24.88,13.13
9,滝川,66.14,60.14,40.43,33.86,36.43,32.29,21.29,11.14,6.86,...,0.17,0.17,0.50,-,0.83,7.5,31.83,33.83,25.17,50.67


In [5]:
# データの基本情報を確認
df_flu_2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 53 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   保健所名       32 non-null     object 
 1   2019年第01週  32 non-null     float64
 2   2019年第02週  32 non-null     float64
 3   2019年第03週  32 non-null     float64
 4   2019年第04週  32 non-null     float64
 5   2019年第05週  32 non-null     float64
 6   2019年第06週  32 non-null     float64
 7   2019年第07週  32 non-null     float64
 8   2019年第08週  32 non-null     float64
 9   2019年第09週  32 non-null     float64
 10  2019年第10週  32 non-null     float64
 11  2019年第11週  32 non-null     object 
 12  2019年第12週  32 non-null     object 
 13  2019年第13週  32 non-null     object 
 14  2019年第14週  32 non-null     object 
 15  2019年第15週  32 non-null     object 
 16  2019年第16週  32 non-null     object 
 17  2019年第17週  32 non-null     float64
 18  2019年第18週  32 non-null     object 
 19  2019年第19週  32 non-null     object 
 20  2019年第20週  3

In [6]:
# カラム名を確認
print(df_flu_2019.columns.tolist())

['保健所名', '2019年第01週', '2019年第02週', '2019年第03週', '2019年第04週', '2019年第05週', '2019年第06週', '2019年第07週', '2019年第08週', '2019年第09週', '2019年第10週', '2019年第11週', '2019年第12週', '2019年第13週', '2019年第14週', '2019年第15週', '2019年第16週', '2019年第17週', '2019年第18週', '2019年第19週', '2019年第20週', '2019年第21週', '2019年第22週', '2019年第23週', '2019年第24週', '2019年第25週', '2019年第26週', '2019年第27週', '2019年第28週', '2019年第29週', '2019年第30週', '2019年第31週', '2019年第32週', '2019年第33週', '2019年第34週', '2019年第35週', '2019年第36週', '2019年第37週', '2019年第38週', '2019年第39週', '2019年第40週', '2019年第41週', '2019年第42週', '2019年第43週', '2019年第44週', '2019年第45週', '2019年第46週', '2019年第47週', '2019年第48週', '2019年第49週', '2019年第50週', '2019年第51週', '2019年第52週']


## 1.3 気象データの読み込み

In [7]:
# 2019年の気象データを読み込む
df_weather_2019 = pd.read_csv('../data/raw/weather/2019.csv', encoding='shift-jis', skiprows=4)

print(f'データ形状: {df_weather_2019.shape}')
df_weather_2019.head(10)

データ形状: (366, 20)


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19
0,,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,現象なし情報,品質情報,均質番号
1,2019/1/1,-1.9,8,1,-0.5,8,1,-3.1,8,1,73.0,8,1,53.0,8,1,1.0,0,8,1
2,2019/1/2,-4.1,8,1,-0.6,8,1,-7.0,8,1,68.0,8,1,41.0,8,1,0.0,0,8,1
3,2019/1/3,-3.3,8,1,-0.8,8,1,-8.1,8,1,66.0,8,1,55.0,8,1,0.0,0,8,1
4,2019/1/4,-0.2,8,1,2.9,8,1,-2.6,8,1,63.0,8,1,47.0,8,1,0.5,0,8,1
5,2019/1/5,-2.2,8,1,-0.3,8,1,-3.7,8,1,77.0,8,1,41.0,8,1,5.5,0,8,1
6,2019/1/6,-3.0,8,1,-1.2,8,1,-4.8,8,1,68.0,8,1,48.0,8,1,3.5,0,8,1
7,2019/1/7,-4.8,8,1,-3.1,8,1,-6.9,8,1,74.0,8,1,49.0,8,1,3.5,0,5,1
8,2019/1/8,-3.5,8,1,0.3,8,1,-7.0,8,1,68.0,8,1,43.0,8,1,0.0,0,8,1
9,2019/1/9,-2.0,8,1,0.7,8,1,-4.7,8,1,63.0,8,1,41.0,8,1,3.0,0,8,1


In [8]:
# カラム名を確認
print(df_weather_2019.columns.tolist())

['Unnamed: 0', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13', 'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18', 'Unnamed: 19']


## 1.4 全年データの読み込み

2015年～2024年のデータを全て読み込みます。

In [9]:
# インフルエンザデータを全年読み込み
years = range(2015, 2025)
dfs_flu = []

for year in years:
    try:
        # 定点当たり報告数のみ読み込む（nrows=32で最初の32行のみ）
        df = pd.read_csv(f'../data/raw/influenza/{year}.csv', encoding='shift-jis', 
                        skiprows=3, nrows=32)
        df['year'] = year  # 年を追加
        dfs_flu.append(df)
        print(f'{year}年: {df.shape[0]}行 x {df.shape[1]}列')
    except FileNotFoundError:
        print(f'{year}年のデータが見つかりません')
    except Exception as e:
        print(f'{year}年でエラー: {e}')

# 全データを結合
df_flu_all = pd.concat(dfs_flu, ignore_index=True)
print(f'\n全体: {df_flu_all.shape}')

2015年: 32行 x 55列
2016年: 32行 x 54列
2017年: 32行 x 54列
2018年: 32行 x 54列
2019年: 32行 x 54列
2020年: 32行 x 55列
2021年: 32行 x 54列
2022年: 32行 x 54列
2023年: 32行 x 54列
2024年: 32行 x 54列

全体: (320, 524)


In [10]:
# 気象データを全年読み込み
dfs_weather = []

for year in years:
    try:
        df = pd.read_csv(f'../data/raw/weather/{year}.csv', encoding='shift-jis', skiprows=4)
        dfs_weather.append(df)
        print(f'{year}年: {df.shape[0]}行')
    except FileNotFoundError:
        print(f'{year}年のデータが見つかりません')

# 全データを結合
df_weather_all = pd.concat(dfs_weather, ignore_index=True)
print(f'\n全体: {df_weather_all.shape}')

2015年: 366行
2016年: 367行
2017年: 366行
2018年: 366行
2019年: 366行
2020年: 367行
2021年: 366行
2022年: 366行
2023年: 366行
2024年: 367行

全体: (3663, 20)


## 1.5 データの確認と可視化

次のステップでは、データの中身を詳しく見て、前処理の方針を決めます。

In [11]:
# とりあえず保存（次のNotebookで使う）
print('データ探索の第一段階が完了しました')
print('次は、カラム名の確認とデータのクリーニングを行います')

データ探索の第一段階が完了しました
次は、カラム名の確認とデータのクリーニングを行います
