In [1]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 导入数据
file_path = '../dataset/ph_dengue_cases2016-2020.csv'
df = pd.read_csv(file_path)

# 查看数据基本结构
print("数据基本信息：")
print(f"数据行数: {df.shape[0]}")
print(f"数据列数: {df.shape[1]}")
print("\n列名：", df.columns.tolist())

# 查看前几行数据
print("\n前5行数据：")
print(df.head())

# 检查数据类型
print("\n数据类型：")
print(df.dtypes)

# 检查缺失值
print("\n缺失值统计：")
print(df.isnull().sum())

# 查看基本统计信息
print("\n数值列统计：")
print(df.describe())

数据基本信息：
数据行数: 1020
数据列数: 5

列名： ['Month', 'Year', 'Region', 'Dengue_Cases', 'Dengue_Deaths']

前5行数据：
      Month  Year    Region  Dengue_Cases  Dengue_Deaths
0   January  2016  Region I           705              1
1  February  2016  Region I           374              0
2     March  2016  Region I           276              0
3     April  2016  Region I           240              2
4       May  2016  Region I           243              1

数据类型：
Month            object
Year              int64
Region           object
Dengue_Cases      int64
Dengue_Deaths     int64
dtype: object

缺失值统计：
Month            0
Year             0
Region           0
Dengue_Cases     0
Dengue_Deaths    0
dtype: int64

数值列统计：
              Year  Dengue_Cases  Dengue_Deaths
count  1020.000000   1020.000000    1020.000000
mean   2018.000000   1124.926471      16.513725
std       1.414907   1662.608878      96.358215
min    2016.000000     10.000000       0.000000
25%    2017.000000    247.750000       1.000000
50% 

In [2]:
# 创建月份映射字典
month_to_num = {
    'January': 1, 'February': 2, 'March': 3, 'April': 4,
    'May': 5, 'June': 6, 'July': 7, 'August': 8,
    'September': 9, 'October': 10, 'November': 11, 'December': 12
}

# 添加数值型月份和日期字段
df['MonthNum'] = df['Month'].map(month_to_num)

# 创建日期列，用于时间序列分析
df['Date'] = pd.to_datetime(df['Year'].astype(str) + '-' + df['MonthNum'].astype(str).str.zfill(2) + '-01')

# 创建年月格式化字符串列（用于排序和分组）
df['YearMonth'] = df['Year'].astype(str) + '-' + df['MonthNum'].astype(str).str.zfill(2)

# 确保所有数值列使用正确的数据类型
df['Dengue_Cases'] = pd.to_numeric(df['Dengue_Cases'])
df['Dengue_Deaths'] = pd.to_numeric(df['Dengue_Deaths'])

# 检查转换后的数据
print("\n转换后的数据示例：")
print(df[['Month', 'Year', 'MonthNum', 'Date', 'YearMonth', 'Region', 'Dengue_Cases', 'Dengue_Deaths']].head())

# 检查所有区域列表
regions = df['Region'].unique()
print("\n所有区域列表：")
print(regions)
print(f"区域数量: {len(regions)}")

# 保存处理后的数据，以便下午的分析使用
df.to_csv('processed_dengue_data.csv', index=False)
print("\n预处理完成，数据已保存至 'processed_dengue_data.csv'")


转换后的数据示例：
      Month  Year  MonthNum       Date YearMonth    Region  Dengue_Cases  \
0   January  2016         1 2016-01-01   2016-01  Region I           705   
1  February  2016         2 2016-02-01   2016-02  Region I           374   
2     March  2016         3 2016-03-01   2016-03  Region I           276   
3     April  2016         4 2016-04-01   2016-04  Region I           240   
4       May  2016         5 2016-05-01   2016-05  Region I           243   

   Dengue_Deaths  
0              1  
1              0  
2              0  
3              2  
4              1  

所有区域列表：
['Region I' 'Region II' 'Region III' 'Region IV-A' 'Region IV-B'
 'Region V' 'Region VI' 'Region VII' 'Region VIII' 'Region IX' 'Region X'
 'Region XI' 'Region XII' 'Region XIII' 'NCR' 'CAR' 'BARMM']
区域数量: 17

预处理完成，数据已保存至 'processed_dengue_data.csv'
