# 数据预处理

In [1]:
import numpy as np
import pandas as pd

## 1. 导入数据

In [2]:
dataPath = "data/ME/ME_data.csv"
data = pd.read_csv(dataPath)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级


In [3]:
data.shape

(2889, 6)

In [4]:
data = data[data['日期']!="日期"]  # 去除不必要的列名
data = data.reset_index(drop=True)  # 重新编排索引
data.shape

(2798, 6)

# 2. 添加“年”，“月”， “日”

## 2.1 切分日期

In [5]:
data_temp = data['日期'].str.split('-', expand=True)
data_temp.head()

Unnamed: 0,0,1,2
0,2014,1,1
1,2014,1,2
2,2014,1,3
3,2014,1,4
4,2014,1,5


## 2.2 合并数据

In [6]:
data = pd.merge(data, data_temp, how='left', left_index=True, right_index=True)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,0,1,2
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


## 2.3 修改列名

In [7]:
data.rename(columns={0: '年', 1: '月', 2: '日'}, inplace=True) 
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


# 3. 类型转换

## 3.1 数值类型

### 3.1.1 日期

In [8]:
data['星期'] = data['星期'].map({'星期一': 1, '星期二': 2, '星期三': 3, '星期四': 4, '星期五': 5, '星期六': 6, '星期日': 7})
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


### 3.1.2 最高温度和最低温度

In [9]:
data_high_temp = data['最高温度'].str.split('℃', expand=True)
data_low_temp = data['最低温度'].str.split('℃', expand=True)

data['最高温度'] = data_high_temp[0]
data['最低温度'] = data_low_temp[0]
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,多云转小雨,微风 小于3级,2014,1,5


# 待解决

# 天气、风向风力

## 3.3 类型转换结果

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2798 entries, 0 to 2797
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   日期      2798 non-null   object 
 1   星期      2794 non-null   float64
 2   最高温度    2798 non-null   object 
 3   最低温度    2798 non-null   object 
 4   天气      2798 non-null   object 
 5   风向风力    2798 non-null   object 
 6   年       2798 non-null   object 
 7   月       2798 non-null   object 
 8   日       2798 non-null   object 
dtypes: float64(1), object(8)
memory usage: 196.9+ KB


# 4. 写入新文件

In [11]:
# data.to_csv("data/ME/ME_data_new.csv", sep=',', header=True, index=False, encoding='utf-8')