# 数据预处理

In [94]:
import numpy as np
import pandas as pd
import random

## 1. 导入数据

In [95]:
dataPath = "data/ME/ME_data.csv"
data = pd.read_csv(dataPath)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级


In [96]:
data.shape

(2889, 6)

In [97]:
data = data[data['日期']!="日期"]  # 去除不必要的列名
data = data.reset_index(drop=True)  # 重新编排索引
data.shape

(2798, 6)

# 2. 添加“年”，“月”， “日”

## 2.1 切分日期

In [98]:
data_temp = data['日期'].str.split('-', expand=True)
data_temp.head()

Unnamed: 0,0,1,2
0,2014,1,1
1,2014,1,2
2,2014,1,3
3,2014,1,4
4,2014,1,5


## 2.2 合并数据

In [99]:
data = pd.merge(data, data_temp, how='left', left_index=True, right_index=True)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,0,1,2
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


## 2.3 修改列名

In [100]:
data.rename(columns={0: '年', 1: '月', 2: '日'}, inplace=True) 
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


# 3. 类型转换

## 3.1 数值类型

### 3.1.1 日期

In [101]:
data['星期'] = data['星期'].map({'星期一': 1, '星期二': 2, '星期三': 3, '星期四': 4, '星期五': 5, '星期六': 6, '星期日': 7})
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


### 3.1.2 最高温度和最低温度

In [102]:
data_high_temp = data['最高温度'].str.split('℃', expand=True)
data_low_temp = data['最低温度'].str.split('℃', expand=True)

data['最高温度'] = data_high_temp[0]
data['最低温度'] = data_low_temp[0]
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,多云转小雨,微风 小于3级,2014,1,5


# 待解决

# 天气、风向风力

In [107]:
dataPathNew = "data/ME/ME_data_new.csv"
dataNew = pd.read_csv(dataPathNew,encoding='gbk')
dataNew.head()

UnicodeDecodeError: 'gbk' codec can't decode byte 0x84 in position 42: illegal multibyte sequence

## 处理数据
 直观来看，需要对风向风力进行处理,首先将风向风力分开为两列,
 对于风向，微风和暂无实况都归为无持续风向；对于风力，微风和缺失值设为1级

In [None]:
data_wind_temp = data['风向风力'].str.split(' ', expand=True)
winddata=[]
windPower=[]
for i in range(data_wind_temp.shape[0]):
     if data_wind_temp[0][i]=="微风" or data_wind_temp[0][i]=="暂无实况":
          winddata.append("无持续风向")
          windPower.append(data_wind_temp[1][i])
     elif data_wind_temp[1][i]=="" or data_wind_temp[1][i]=="微风":
          winddata.append(data_wind_temp[0][i])
          windPower.append("1级")
     else:
          winddata.append(data_wind_temp[0][i])
          windPower.append(data_wind_temp[1][i])
dataNew.insert(4,"WindDirection",winddata,True)
dataNew.insert(5,"WindSpeed",windPower,True)
dataNew.head()

Unnamed: 0,日期,星期,最高温度,最低温度,WindDirection,WindSpeed,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,无持续风向,小于3级,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,无持续风向,小于3级,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,无持续风向,小于3级,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,无持续风向,小于3级,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,无持续风向,小于3级,多云转小雨,微风 小于3级,2014,1,5


### 风向处理
观察各指标的个数，可见无持续风向数量最多，之后的每项指标下降幅度差不多，因此不合并数据进行独热编码

In [None]:
print(dataNew['WindDirection'].value_counts())

无持续风向    919
东北风      524
东风       335
西北风      297
北风       216
西风       157
东南风      154
西南风      128
南风        68
Name: WindDirection, dtype: int64


In [None]:
df_fx = pd.get_dummies(dataNew['WindDirection'])
print(df_fx.head(10))
dataNew = dataNew.join(df_fx)
print(dataNew)

   东北风  东南风  东风  北风  南风  无持续风向  西北风  西南风  西风
0    0    0   0   0   0      1    0    0   0
1    0    0   0   0   0      1    0    0   0
2    0    0   0   0   0      1    0    0   0
3    0    0   0   0   0      1    0    0   0
4    0    0   0   0   0      1    0    0   0
5    0    0   0   0   0      1    0    0   0
6    0    0   0   0   0      1    0    0   0
7    0    0   0   0   0      1    0    0   0
8    0    0   0   0   0      1    0    0   0
9    0    0   0   0   0      1    0    0   0
              日期   星期  最高温度  最低温度 WindDirection WindSpeed     天气     风向风力  \
0     2014-01-01  3.0    10     4         无持续风向      小于3级     多云  微风 小于3级   
1     2014-01-02  4.0     8     6         无持续风向      小于3级   阴转小雨  微风 小于3级   
2     2014-01-03  5.0     9     5         无持续风向      小于3级      阴  微风 小于3级   
3     2014-01-04  6.0    13     5         无持续风向      小于3级      晴  微风 小于3级   
4     2014-01-05  7.0    10     6         无持续风向      小于3级  多云转小雨  微风 小于3级   
...          ...  ...   ...   ...          

###  风速处理
观察各指标的个数，可见二级、小于三级、一级数量远远大于剩下的个数，因此将数据分为四类：二级、小于三级、一级、大于三级

In [None]:

print(dataNew['WindSpeed'].value_counts())

2级      998
小于3级    918
1级      812
3级       59
4级        9
          1
5级        1
Name: WindSpeed, dtype: int64


## 3.3 类型转换结果

In [None]:
# data.info()

# 4. 写入新文件

In [None]:
# data.to_csv("data/ME/ME_data_new.csv", sep=',', header=True, index=False, encoding='utf-8')