# 数据预处理

In [14]:
import numpy as np
import pandas as pd
import random

## 1. 导入数据

In [15]:
dataPath = "data/ME/ME_data.csv"
data = pd.read_csv(dataPath)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级


In [16]:
data.shape

(2889, 6)

In [17]:
data = data[data['日期']!="日期"]  # 去除不必要的列名
data = data.reset_index(drop=True)  # 重新编排索引
data.shape

(2798, 6)

# 2. 添加“年”，“月”， “日”

## 2.1 切分日期

In [18]:
data_temp = data['日期'].str.split('-', expand=True)
data_temp.head()

Unnamed: 0,0,1,2
0,2014,1,1
1,2014,1,2
2,2014,1,3
3,2014,1,4
4,2014,1,5


## 2.2 合并数据

In [19]:
data = pd.merge(data, data_temp, how='left', left_index=True, right_index=True)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,0,1,2
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


## 2.3 修改列名

In [20]:
data.rename(columns={0: '年', 1: '月', 2: '日'}, inplace=True) 
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


# 3. 类型转换

## 3.1 数值类型

### 3.1.1 日期

In [21]:
data['星期'] = data['星期'].map({'星期一': 1, '星期二': 2, '星期三': 3, '星期四': 4, '星期五': 5, '星期六': 6, '星期日': 7})
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


### 3.1.2 最高温度和最低温度

In [22]:
data_high_temp = data['最高温度'].str.split('℃', expand=True)
data_low_temp = data['最低温度'].str.split('℃', expand=True)

data['最高温度'] = data_high_temp[0]
data['最低温度'] = data_low_temp[0]
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,多云转小雨,微风 小于3级,2014,1,5


# 待解决

# 天气、风向风力
## 风向风力
[{无明确风向:cv},{北风：N},{南风：S},{东风：E},{西风：W},{西北风：NW},{东北风：NE},{东南风：SE},{西南风：SW}]

In [23]:
dataPathNew = "data/ME/ME_data_new.csv"
dataNew = pd.read_csv(dataPathNew)
dataNew.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,多云转小雨,微风 小于3级,2014,1,5


In [24]:
windDir={"无持续风向":"cv","北风":"N","南风":"S","东风":"E","西风":"W","西北风":"NW","东北风":"NE","东南风":"SE","西南风":"SW","微风":"cv","暂无实况":"0"}
# windPowerDir={"小于3级":3.4,"微风":5.4,"1级":,"2级":,"3级":,"4级":,"5级":,}
data_wind_temp = data['风向风力'].str.split(' ', expand=True)
winddata=[]
windPower=[]
for i in range(data_wind_temp.shape[0]):
    winddata.append(windDir[data_wind_temp[0][i]])
    if data_wind_temp[1][i]=="小于3级":
        windPower.append(random.uniform(0.0,3.3))
    elif data_wind_temp[1][i]=="微风":
        windPower.append(random.uniform(3.4,5.4))
    elif data_wind_temp[1][i]=="1级":
        windPower.append(random.uniform(0.3,1.5))
    elif data_wind_temp[1][i]=="2级":
        windPower.append(random.uniform(1.6,3.3))
    elif data_wind_temp[1][i]=="3级":
        windPower.append(random.uniform(3.4,5.4))
    elif data_wind_temp[1][i]=="4级":
        windPower.append(random.uniform(5.5,7.9))
    elif data_wind_temp[1][i]=="5级":
        windPower.append(random.uniform(8.0,10.7))
    else:
        windPower.append(0)
dataNew.insert(4,"WindDirection",winddata,True)
dataNew.insert(5,"WindSpeed",windPower,True)
# dataNew=dataNew.assign(WindDirection=winddata,WindSpeed=windPower)
dataNew.head()

Unnamed: 0,日期,星期,最高温度,最低温度,WindDirection,WindSpeed,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,cv,1.280819,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,cv,1.230479,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,cv,2.690913,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,cv,0.752915,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,cv,0.664169,多云转小雨,微风 小于3级,2014,1,5


## 3.3 类型转换结果

In [25]:
# data.info()

# 4. 写入新文件

In [27]:
# data.to_csv("data/ME/ME_data_new.csv", sep=',', header=True, index=False, encoding='utf-8')