## 1、数据导入

In [1]:
import pandas as pd

In [2]:
df_csv = pd.read_csv('天然气期货历史数据.csv')
df_csv.head()

Unnamed: 0,日期,收盘,开盘,高,低,涨跌幅,交易量
0,2024/5/1,1.932,1.954,1.97,1.913,-2.96%,13592.0%
1,2024/4/30,1.991,2.05,2.092,1.951,-1.92%,15037.0%
2,2024/4/29,2.03,1.923,2.056,1.916,25.77%,15886.0%
3,2024/4/26,1.614,1.622,1.628,1.482,-1.47%,493.0%
4,2024/4/25,1.638,1.644,1.675,1.583,-0.91%,7548.0%


## 2、数据信息查看

In [3]:
data = df_csv

In [4]:
# 查看数据规模（维度）
data.shape

(575, 7)

In [5]:
# 查看各变量的数据类型
data.dtypes

日期      object
收盘     float64
开盘     float64
高      float64
低      float64
涨跌幅     object
交易量     object
dtype: object

In [6]:
# 查看数据整体信息
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 575 entries, 0 to 574
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   日期      575 non-null    object 
 1   收盘      575 non-null    float64
 2   开盘      575 non-null    float64
 3   高       575 non-null    float64
 4   低       575 non-null    float64
 5   涨跌幅     575 non-null    object 
 6   交易量     543 non-null    object 
dtypes: float64(4), object(3)
memory usage: 31.6+ KB


In [7]:
# 查看数据描述
data.describe()

Unnamed: 0,收盘,开盘,高,低
count,575.0,575.0,575.0,575.0
mean,4.230026,4.245157,4.381854,4.094191
std,2.344839,2.349427,2.438902,2.255242
min,1.551,1.527,1.565,1.481
25%,2.464,2.4555,2.558,2.388
50%,2.899,2.891,2.96,2.82
75%,6.311,6.337,6.596,6.06
max,9.647,9.78,9.987,9.2


In [8]:
# 列名
data.columns

Index(['日期', '收盘', '开盘', '高', '低', '涨跌幅', '交易量'], dtype='object')

In [9]:
# 查看前五行
data.head()

Unnamed: 0,日期,收盘,开盘,高,低,涨跌幅,交易量
0,2024/5/1,1.932,1.954,1.97,1.913,-2.96%,13592.0%
1,2024/4/30,1.991,2.05,2.092,1.951,-1.92%,15037.0%
2,2024/4/29,2.03,1.923,2.056,1.916,25.77%,15886.0%
3,2024/4/26,1.614,1.622,1.628,1.482,-1.47%,493.0%
4,2024/4/25,1.638,1.644,1.675,1.583,-0.91%,7548.0%


In [10]:
# 查看后五行
data.tail()

Unnamed: 0,日期,收盘,开盘,高,低,涨跌幅,交易量
570,2022/3/7,4.833,5.041,5.184,4.781,-3.65%,130.86
571,2022/3/4,5.016,4.75,5.045,4.728,6.23%,125.39
572,2022/3/3,4.722,4.795,4.936,4.628,-0.84%,137.15
573,2022/3/2,4.762,4.6,4.911,4.6,4.13%,141.69
574,2022/3/1,4.573,4.408,4.627,4.34,3.88%,112.55


## 3、数据清洗以及预处理

### 查找空值

In [11]:
# 查找空值 判断各变量中是否存在缺失值
data.isnull().any(axis = 0)

日期     False
收盘     False
开盘     False
高      False
低      False
涨跌幅    False
交易量     True
dtype: bool

In [12]:
# 查找空值 判断数据行中是否存在缺失值
data.isnull().any(axis = 1)

0      False
1      False
2      False
3      False
4      False
       ...  
570    False
571    False
572    False
573    False
574    False
Length: 575, dtype: bool

In [13]:
# 定位缺失值所在的行
data.loc[data.isnull().any(axis = 1)]

Unnamed: 0,日期,收盘,开盘,高,低,涨跌幅,交易量
51,2024/2/19,1.558,1.552,1.583,1.54,0.45%,
52,2024/2/18,1.551,1.527,1.565,1.527,-7.68%,
77,2024/1/15,3.066,3.112,3.188,3.055,-1.45%,
78,2024/1/14,3.111,3.104,3.137,3.077,-6.10%,
88,2024/1/1,2.667,2.614,2.67,2.614,6.09%,
93,2023/12/25,2.418,2.425,2.442,2.415,-7.36%,
115,2023/11/23,2.93,2.88,2.938,2.861,1.14%,
173,2023/9/4,2.647,2.671,2.708,2.642,-0.90%,
174,2023/9/3,2.671,2.692,2.694,2.652,-3.40%,
218,2023/7/4,2.751,2.689,2.758,2.662,1.55%,


In [14]:
# 各变量中缺失值的数量
data.isnull().sum(axis = 0)

日期      0
收盘      0
开盘      0
高       0
低       0
涨跌幅     0
交易量    32
dtype: int64

### 处理空值

In [21]:
# 直接删除空值数据所在行（不采用
# data3 = data.dropna()
# data3

In [15]:
# 定义缺失值为0
data_null_0 = data.fillna(0,inplace = False)
data_null_0

Unnamed: 0,日期,收盘,开盘,高,低,涨跌幅,交易量
0,2024/5/1,1.932,1.954,1.970,1.913,-2.96%,13592.0%
1,2024/4/30,1.991,2.050,2.092,1.951,-1.92%,15037.0%
2,2024/4/29,2.030,1.923,2.056,1.916,25.77%,15886.0%
3,2024/4/26,1.614,1.622,1.628,1.482,-1.47%,493.0%
4,2024/4/25,1.638,1.644,1.675,1.583,-0.91%,7548.0%
...,...,...,...,...,...,...,...
570,2022/3/7,4.833,5.041,5.184,4.781,-3.65%,130.86
571,2022/3/4,5.016,4.750,5.045,4.728,6.23%,125.39
572,2022/3/3,4.722,4.795,4.936,4.628,-0.84%,137.15
573,2022/3/2,4.762,4.600,4.911,4.600,4.13%,141.69


In [None]:
# 对缺失值进行填充（用中位数或者平均数.....）
# 采用平均值
# 定义一个函数，用于将带有"k"的值转换为浮点数
# def k_to_float(value):
#     if isinstance(value, str) and value.endswith("K"):
#         return float(value[:-1]) * 1000
#     else:
#         return float(value)

# # 对包含"k"单位的列应用函数
# df_csv['交易量'] = df_csv['交易量'].apply(k_to_float)
# # 填充平均值
# data_null_value = data.fillna(value = {'交易量':data['交易量'].mean()},inplace = False)
# data_null_value

In [16]:
# 源数据未改变
data.isnull().sum(axis = 0)

日期      0
收盘      0
开盘      0
高       0
低       0
涨跌幅     0
交易量    32
dtype: int64

In [18]:
# 新数据已无空值
data_null_0.isnull().sum(axis = 0)

日期     0
收盘     0
开盘     0
高      0
低      0
涨跌幅    0
交易量    0
dtype: int64

In [20]:
# 开盘天然气最高的情况
max_row_index = df_csv['开盘'].idxmax()
max_row = df_csv.iloc[max_row_index]
max_row

日期     2022/8/23
收盘         9.155
开盘          9.78
高          9.987
低          9.021
涨跌幅       -5.10%
交易量        86.53
Name: 447, dtype: object

In [21]:
# 收盘天然气最高的情况
max_row_index = df_csv['收盘'].idxmax()
max_row = df_csv.iloc[max_row_index]
max_row

日期     2022/8/22
收盘         9.647
开盘         9.159
高           9.95
低          9.143
涨跌幅        3.33%
交易量        60.48
Name: 448, dtype: object

In [22]:
# 开盘天然气最低的情况
min_row_index = df_csv['开盘'].idxmin()
min_row = df_csv.iloc[min_row_index]
min_row

日期     2024/2/18
收盘         1.551
开盘         1.527
高          1.565
低          1.527
涨跌幅       -7.68%
交易量          NaN
Name: 52, dtype: object

In [23]:
# 收盘天然气最低的情况
min_row_index = df_csv['收盘'].idxmin()
min_row = df_csv.iloc[min_row_index]
min_row

日期     2024/2/18
收盘         1.551
开盘         1.527
高          1.565
低          1.527
涨跌幅       -7.68%
交易量          NaN
Name: 52, dtype: object

In [39]:
# 导出新csv文件
data_null_0.to_csv('天然气(清洗).csv',index=False)