实现数据的探索

关于本部分的相关介绍：  

**Python核心技术**  

① Python CSV 文件的读写操作；

② Pandas模块库中的数据描述及矩阵转置实现

**编程思路**  

STEP1：读取原始样本csv数据；

STEP2：矩阵转置并获取各列数据的空值、最大值及最小值

STEP3：将最终结果写入到 data_exceplore.csv 数据文件

首先导入模块库

In [1]:
import pandas as pd
import os

然后设置原始样本数据csv文件地址，os.sep会根据系统的不同返回合适的/

In [2]:
csvFile='./data'+os.sep+'air_data.csv'

使用pandas中read_csv获取文件,这种方法获取到的是DataFrame数据类型

In [4]:
data = pd.read_csv(csvFile,encoding='utf-8')

进行不同方式的测试

In [6]:
# print(data) #全部输出
print(data.head()) #只输出前五条

   MEMBER_NO    FFP_DATE FIRST_FLIGHT_DATE GENDER  FFP_TIER    WORK_CITY  \
0      54993  2006/11/02        2008/12/24      男         6            .   
1      28065  2007/02/19        2007/08/03      男         6          NaN   
2      55106  2007/02/01        2007/08/30      男         6            .   
3      21189  2008/08/22        2008/08/23      男         5  Los Angeles   
4      39546  2009/04/10        2009/04/15      男         6           贵阳   

  WORK_PROVINCE WORK_COUNTRY   AGE   LOAD_TIME  ...  ADD_Point_SUM  \
0            北京           CN  31.0  2014/03/31  ...          39992   
1            北京           CN  42.0  2014/03/31  ...          12000   
2            北京           CN  40.0  2014/03/31  ...          15491   
3            CA           US  64.0  2014/03/31  ...              0   
4            贵州           CN  48.0  2014/03/31  ...          22704   

   Eli_Add_Point_Sum  L1Y_ELi_Add_Points  Points_Sum  L1Y_Points_Sum  \
0             114452              111100      6197

获取数据中的空值项，并进行转置处理

In [20]:
explore = data.describe(percentiles=[],include='all').T
# 测试
print('\n数据描述统计结果： ')
print(explore)


数据描述统计结果： 
                           count unique         top   freq          mean  \
MEMBER_NO                62988.0    NaN         NaN    NaN       31494.5   
FFP_DATE                   62988   3068  2011/01/13    184           NaN   
FIRST_FLIGHT_DATE          62988   3406  2013/02/16     96           NaN   
GENDER                     62985      2           男  48134           NaN   
FFP_TIER                 62988.0    NaN         NaN    NaN      4.102162   
WORK_CITY                  60719   3310          广州   9385           NaN   
WORK_PROVINCE              59740   1185          广东  17507           NaN   
WORK_COUNTRY               62962    118          CN  57748           NaN   
AGE                      62568.0    NaN         NaN    NaN     42.476346   
LOAD_TIME                  62988      1  2014/03/31  62988           NaN   
FLIGHT_COUNT             62988.0    NaN         NaN    NaN     11.839414   
BP_SUM                   62988.0    NaN         NaN    NaN  10925.081254   


计算每个属性的空值个数

新增一列并赋值，采用矩阵运算

In [21]:
explore['null'] = len(data) - explore['count']

梳理最终数据探索的表格显示结构，并设置最终数据的标题字段名称

In [22]:
explore = explore[['null','max','min']]
explore.columns = ['空值数','最大值','最小值']
# 测试
print('\n最终探索的数据结果为：')
print(explore)


最终探索的数据结果为：
                           空值数        最大值    最小值
MEMBER_NO                  0.0    62988.0    1.0
FFP_DATE                     0        NaN    NaN
FIRST_FLIGHT_DATE            0        NaN    NaN
GENDER                       3        NaN    NaN
FFP_TIER                   0.0        6.0    4.0
WORK_CITY                 2269        NaN    NaN
WORK_PROVINCE             3248        NaN    NaN
WORK_COUNTRY                26        NaN    NaN
AGE                      420.0      110.0    6.0
LOAD_TIME                    0        NaN    NaN
FLIGHT_COUNT               0.0      213.0    2.0
BP_SUM                     0.0   505308.0    0.0
EP_SUM_YR_1                0.0        0.0    0.0
EP_SUM_YR_2                0.0    74460.0    0.0
SUM_YR_1                 551.0   239560.0    0.0
SUM_YR_2                 138.0   234188.0    0.0
SEG_KM_SUM                 0.0   580717.0  368.0
WEIGHTED_SEG_KM            0.0  558440.14    0.0
LAST_FLIGHT_DATE             0        NaN    NaN
AVG_FLI

将最终结果写入到指定的文件当中去

首先检测文件是否存在

然后将数据写入到指定文件中

In [27]:
csvPath = os.getcwd() + os.sep + 'out' #返回根目录
# 判断是否存在，若不则创建
if not os.path.exists(csvPath):
    print('\n>>>程序检测到指定输出文件夹不存在，正在创建中......')
    os.makedirs(csvPath)
    print('\n>>>输出文件夹创建成功.')

# 指定地址并调用函数写入
csvFile = csvPath + os.sep + 'data_explore.csv'
# 写入
explore.to_csv(csvFile,encoding='utf_8_sig')
print('\n数据写入成功')


数据写入成功
