# 数据预处理

In [80]:
import numpy as np
import pandas as pd
import random

## 1. 导入数据

In [81]:
dataPath = "data/ME/ME_data.csv"
data = pd.read_csv(dataPath)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级


In [82]:
data.shape

(2889, 6)

In [83]:
data = data[data['日期']!="日期"]  # 去除不必要的列名
data = data.reset_index(drop=True)  # 重新编排索引
data.shape

(2798, 6)

# 2. 添加“年”，“月”， “日”

## 2.1 切分日期

In [84]:
data_temp = data['日期'].str.split('-', expand=True)
data_temp.head()

Unnamed: 0,0,1,2
0,2014,1,1
1,2014,1,2
2,2014,1,3
3,2014,1,4
4,2014,1,5


## 2.2 合并数据

In [85]:
data = pd.merge(data, data_temp, how='left', left_index=True, right_index=True)
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,0,1,2
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


## 2.3 修改列名

In [86]:
data.rename(columns={0: '年', 1: '月', 2: '日'}, inplace=True) 
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,星期三,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,星期四,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,星期五,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,星期六,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,星期日,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


# 3. 类型转换

## 3.1 数值类型

### 3.1.1 日期

In [87]:
data['星期'] = data['星期'].map({'星期一': 1, '星期二': 2, '星期三': 3, '星期四': 4, '星期五': 5, '星期六': 6, '星期日': 7})
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10℃,4℃,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8℃,6℃,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9℃,5℃,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13℃,5℃,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10℃,6℃,多云转小雨,微风 小于3级,2014,1,5


### 3.1.2 最高温度和最低温度

In [88]:
data_high_temp = data['最高温度'].str.split('℃', expand=True)
data_low_temp = data['最低温度'].str.split('℃', expand=True)

data['最高温度'] = data_high_temp[0]
data['最低温度'] = data_low_temp[0]
data.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,多云转小雨,微风 小于3级,2014,1,5


# 待解决

# 天气、风向风力

In [89]:
dataPathNew = "data/ME/ME_data_new.csv"
dataNew = pd.read_csv(dataPathNew)
dataNew.head()

Unnamed: 0,日期,星期,最高温度,最低温度,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,多云转小雨,微风 小于3级,2014,1,5


## 处理数据
 直观来看，需要对天气、风向风力进行处理,首先将风向风力分开为两列,
 对于风向，微风和暂无实况都归为无持续风向；对于风力，微风和缺失值设为1级

In [90]:
data_wind_temp = data['风向风力'].str.split(' ', expand=True)
winddata=[]
windPower=[]
for i in range(data_wind_temp.shape[0]):
     if data_wind_temp[0][i]=="微风" or data_wind_temp[0][i]=="暂无实况":
          winddata.append("无持续风向")
          windPower.append(data_wind_temp[1][i])
     elif data_wind_temp[1][i]=="" or data_wind_temp[1][i]=="微风":
          winddata.append(data_wind_temp[0][i])
          windPower.append("1级")
     else:
          winddata.append(data_wind_temp[0][i])
          windPower.append(data_wind_temp[1][i])
dataNew.insert(4,"WindDirection",winddata,True)
dataNew.insert(5,"WindSpeed",windPower,True)
dataNew.head()

Unnamed: 0,日期,星期,最高温度,最低温度,WindDirection,WindSpeed,天气,风向风力,年,月,日
0,2014-01-01,3.0,10,4,无持续风向,小于3级,多云,微风 小于3级,2014,1,1
1,2014-01-02,4.0,8,6,无持续风向,小于3级,阴转小雨,微风 小于3级,2014,1,2
2,2014-01-03,5.0,9,5,无持续风向,小于3级,阴,微风 小于3级,2014,1,3
3,2014-01-04,6.0,13,5,无持续风向,小于3级,晴,微风 小于3级,2014,1,4
4,2014-01-05,7.0,10,6,无持续风向,小于3级,多云转小雨,微风 小于3级,2014,1,5


### 风向处理
观察各指标的个数，可见无持续风向数量最多，之后的每项指标下降幅度差不多，因此不合并数据进行独热编码

In [91]:
print(dataNew['WindDirection'].value_counts())

无持续风向    919
东北风      524
东风       335
西北风      297
北风       216
西风       157
东南风      154
西南风      128
南风        68
Name: WindDirection, dtype: int64


In [92]:
df_fx = pd.get_dummies(dataNew['WindDirection'])
print(df_fx.head(10))
dataNew = dataNew.join(df_fx)
print(dataNew)

   东北风  东南风  东风  北风  南风  无持续风向  西北风  西南风  西风
0    0    0   0   0   0      1    0    0   0
1    0    0   0   0   0      1    0    0   0
2    0    0   0   0   0      1    0    0   0
3    0    0   0   0   0      1    0    0   0
4    0    0   0   0   0      1    0    0   0
5    0    0   0   0   0      1    0    0   0
6    0    0   0   0   0      1    0    0   0
7    0    0   0   0   0      1    0    0   0
8    0    0   0   0   0      1    0    0   0
9    0    0   0   0   0      1    0    0   0
              日期   星期  最高温度  最低温度 WindDirection WindSpeed     天气     风向风力  \
0     2014-01-01  3.0    10     4         无持续风向      小于3级     多云  微风 小于3级   
1     2014-01-02  4.0     8     6         无持续风向      小于3级   阴转小雨  微风 小于3级   
2     2014-01-03  5.0     9     5         无持续风向      小于3级      阴  微风 小于3级   
3     2014-01-04  6.0    13     5         无持续风向      小于3级      晴  微风 小于3级   
4     2014-01-05  7.0    10     6         无持续风向      小于3级  多云转小雨  微风 小于3级   
...          ...  ...   ...   ...          

###  风速处理
观察各指标的个数，可见二级、小于三级、一级数量远远大于剩下的个数，因此将数据分为四类：二级、小于三级、一级、大于三级

In [93]:
dataNew['WindSpeed'][886]="小于3级"
print(dataNew['WindSpeed'].value_counts())

2级      998
小于3级    919
1级      812
3级       59
4级        9
5级        1
Name: WindSpeed, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataNew['WindSpeed'][886]="小于3级"


In [94]:
dataNew['WindSpeed'].replace(['3级','4级','5级'],'大于3级',inplace=True)
df_fx = pd.get_dummies(dataNew['WindSpeed'])
print(df_fx.head(10))
dataNew = dataNew.join(df_fx)
print(dataNew)

   1级  2级  大于3级  小于3级
0   0   0     0     1
1   0   0     0     1
2   0   0     0     1
3   0   0     0     1
4   0   0     0     1
5   0   0     0     1
6   0   0     0     1
7   0   0     0     1
8   0   0     0     1
9   0   0     0     1
              日期   星期  最高温度  最低温度 WindDirection WindSpeed     天气     风向风力  \
0     2014-01-01  3.0    10     4         无持续风向      小于3级     多云  微风 小于3级   
1     2014-01-02  4.0     8     6         无持续风向      小于3级   阴转小雨  微风 小于3级   
2     2014-01-03  5.0     9     5         无持续风向      小于3级      阴  微风 小于3级   
3     2014-01-04  6.0    13     5         无持续风向      小于3级      晴  微风 小于3级   
4     2014-01-05  7.0    10     6         无持续风向      小于3级  多云转小雨  微风 小于3级   
...          ...  ...   ...   ...           ...       ...    ...      ...   
2793  2021-08-27  5.0    23    17            南风        2级      晴    南风 2级   
2794  2021-08-28  6.0    20    19            北风        1级  小雨到中雨    北风 1级   
2795  2021-08-29  7.0    22    19           西北风        1级     多云 

### 天气处理
由总览，天气一共有98种之多，但有很多是因为天气变化，因此我们将其拆开再进行观察

In [95]:
print(dataNew['天气'].value_counts())

多云        764
阴         639
晴         333
小雨        199
阵雨         98
         ... 
雷阵雨转多云      1
小雨~雨夹雪      1
雨夹雪~阴       1
阴~暴雨        1
阴到小雨        1
Name: 天气, Length: 98, dtype: int64


In [96]:
from collections import Counter
for i in range(dataNew.shape[0]):
    dataNew['天气'][i]=dataNew['天气'][i].replace("到","~")
    dataNew['天气'][i]=dataNew['天气'][i].replace("转","~")
    if dataNew['天气'][i][-1]=="~":
        dataNew['天气'][i]=dataNew['天气'][i][:-1]
c = dataNew['天气'].apply(lambda x: x.split('~'))

lists = []
for i in c:
    for ii in i:
        lists.append(ii)
counts = Counter(lists)
for k,v in counts.items():
    print(k,v)

print("总数：", len(counts))


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataNew['天气'][i]=dataNew['天气'][i].replace("到","~")
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataNew['天气'][i]=dataNew['天气'][i].replace("转","~")
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataNew['天气'][i]=dataNew['天气'][i][:-1]


多云 1148
阴 1000
小雨 366
晴 440
雾 8
中雨 123
阵雨 203
雷阵雨 21
大雨 30
雷雨 2
暴雨 5
雨夹雪 2
霾 2
雨 136
暴风雨 1
总数： 15


可以看到变成了16种

In [99]:
dataNew['晴'] = c.apply(lambda x: 1 if '晴' in x else 0)
dataNew['多云'] = c.apply(lambda x: 1 if '多云' in x else 0)
dataNew['阴'] = c.apply(lambda x: 1 if '阴' in x else 0)
dataNew['雷阵雨'] = c.apply(lambda x: 1 if '雷阵雨' in x else 0)
dataNew['霾'] = c.apply(lambda x: 1 if '霾' in x else 0)
dataNew['雾'] = c.apply(lambda x: 1 if '雾' in x else 0)
dataNew['阵雨'] = c.apply(lambda x: 1 if '阵雨' in x else 0)
dataNew['小雨'] = c.apply(lambda x: 1 if '小雨' in x else 0)
dataNew['中雨'] = c.apply(lambda x: 1 if '中雨' in x else 0)
dataNew['大雨'] = c.apply(lambda x: 1 if '大雨' in x else 0)
dataNew['雷雨'] = c.apply(lambda x: 1 if '雷雨' in x else 0)
dataNew['暴雨'] = c.apply(lambda x: 1 if '暴雨' in x else 0)
dataNew['雨夹雪'] = c.apply(lambda x: 1 if '雨夹雪' in x else 0)
dataNew['雨'] = c.apply(lambda x: 1 if '雨' in x else 0)
dataNew['暴风雨'] = c.apply(lambda x: 1 if '暴风雨' in x else 0)
dataNew

Unnamed: 0,日期,星期,最高温度,最低温度,WindDirection,WindSpeed,天气,风向风力,年,月,...,雾,阵雨,小雨,中雨,大雨,雷雨,暴雨,雨夹雪,雨,暴风雨
0,2014-01-01,3.0,10,4,无持续风向,小于3级,多云,微风 小于3级,2014,1,...,0,0,0,0,0,0,0,0,0,0
1,2014-01-02,4.0,8,6,无持续风向,小于3级,阴~小雨,微风 小于3级,2014,1,...,0,0,1,0,0,0,0,0,0,0
2,2014-01-03,5.0,9,5,无持续风向,小于3级,阴,微风 小于3级,2014,1,...,0,0,0,0,0,0,0,0,0,0
3,2014-01-04,6.0,13,5,无持续风向,小于3级,晴,微风 小于3级,2014,1,...,0,0,0,0,0,0,0,0,0,0
4,2014-01-05,7.0,10,6,无持续风向,小于3级,多云~小雨,微风 小于3级,2014,1,...,0,0,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2793,2021-08-27,5.0,23,17,南风,2级,晴,南风 2级,2021,8,...,0,0,0,0,0,0,0,0,0,0
2794,2021-08-28,6.0,20,19,北风,1级,小雨~中雨,北风 1级,2021,8,...,0,0,1,1,0,0,0,0,0,0
2795,2021-08-29,7.0,22,19,西北风,1级,多云,西北风 1级,2021,8,...,0,0,0,0,0,0,0,0,0,0
2796,2021-08-30,1.0,31,22,东北风,1级,多云,东北风 1级,2021,8,...,0,0,0,0,0,0,0,0,0,0


# 4. 写入新文件

In [100]:
dataNew.to_csv("data/ME/ME_data_clear.csv", sep=',', header=True, index=False, encoding='utf-8')