In [None]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import os

# 1 数据清洗

In [None]:
print("1.1 从studentsInfo.xlsx 文件的“Group1”表单中读取数据")
student = pd.read_excel("studentsInfo.xlsx", "Group1", index_col=0)
student

In [None]:
print("1.2 将“案例教学”列数据值全改为NaN")
student["案例教学"] = np.nan
student

In [None]:
print("1.3 滤除每行数据中缺失3项以上（包括3项）的行")
student.dropna(thresh=student.shape[1] - 3 + 1)

In [None]:
print("1.4 滤除值全部为NaN的列")
student.dropna(axis=1)

# 2 数据填充

In [None]:
print("2.1 使用studentsInfo.xlsx 文件的数据")
student = pd.read_excel("studentsInfo.xlsx", "Group1", index_col=0)
student

In [None]:
print("2.2 使用列的平均值填充“体重”和“成绩”列的NaN数据")
student.fillna({"体重": student["体重"].mean(), "成绩": student["成绩"].mean()}, inplace=True)
student

In [None]:
print("2.3 使用上一行数据填充“年龄”列的NaN数据")
student[["年龄"]] = student[["年龄"]].fillna(method="ffill")
student

In [None]:
print('2.4 使用“中位数”填充“月生活费”NaN数据')
student[['月生活费']] = student[['月生活费']].fillna({ "月生活费": student["月生活费"].median()})
student

# 3 数据分析

In [None]:
print("3.1 读取DataScience.xls文件数据，创建为data数据对象")
data = pd.read_excel("DataScience.xlsx", "Sheet1")
data

In [None]:
print('3.2 查询df的数据量和基本结构（df.index，df.columns）')
print(data.index)
print(data.columns)

In [None]:
print('3.3 查询df中是否含有NaN数据？将含有NaN数据的行导出为数据文件pre.csv，判断采用何种数据清洗模式：填充、删除或手工填充')

# 查询是否有NaN值，如果有导出到.csv文件中
if(data.isnull().values.any()):
    print('Yes, has NaN data')
    mask_df = data.isnull().values
    nan_df = data[mask_df]
    
    # 数据清洗
    
    # 删除数据缺失过多行，保留有效值至少8个的行
    nan_df = nan_df.dropna(thresh=8)
    # 对于其他NaN值，分别采用上一行和下一行的数据填充
    nan_df = nan_df.fillna(method="bfill")
    nan_df = nan_df.fillna(method="ffill")
    
    # 保存到新文件
    nan_df.to_csv('pre.csv')
    if os.path.exists('pre.csv'):
        print('文件 pre.csv 成功创建。')
else:
    print('No, no NaN data')

In [None]:
print('3.4 查询课程名称、实验项目名称、实验类型和二级实验室名称等四列数据内容')
data[['课程名称','实验项目名称','实验类型','二级实验室名称']]

In [None]:
print('3.5 统计每一门课程的实验课时数')
acade_hour=data.groupby(by='课程名称')
acade_hour.aggregate({'实验课时数':np.sum})

In [None]:
print('3.6 统计每周开设所有实验课时数')
acade_hour_weekly=data.groupby(by='周次')
acade_hour_weekly.aggregate({'实验课时数':np.sum})

In [None]:
print('3.7 统计每门课程的实验类型分布（crosstab）')
pd.crosstab(data['课程名称'],data['实验类型'])

In [None]:
print('3.8 按班级输出他们的实验课课表')
sort_by_class=data['班级'].copy()
sort_by_class.drop_duplicates(inplace=True)
sort_by_class=list(sort_by_class)

for i in sort_by_class:
    print(i,end = '')
    print(' 实验课课表')
    mask=data['班级'].values==i
    table=data[mask]
    table.sort_values(by=['周次','星期','节次'],ascending=False)
    print(table)

In [None]:
print('3.9 分析各二级实验室承担的实验课时量')
acade_hour_sublab=data.groupby(by='二级实验室名称')
acade_hour_sublab.aggregate({'实验课时数':np.sum})

In [None]:
print('3.10 分析各二级实验室能够支持的实验类型')
pd.crosstab(data['二级实验室名称'],data['实验类型'])