In [1]:
import pandas as pd

# 读取 CSV 文件，假设文件名为 "data.csv"
df = pd.read_csv(r'C:\NINGLIK\school\1\3.xlsx')

# 查看数据框的前几行，检查数据格式
print(df.head())

# 查看数据框的描述信息，包括统计描述和数据类型
print(df.describe())
print(df.info())

# 删除全为空值的特征列
df.dropna(axis=1, how='all', inplace=True)

# 检查记录中是否存在缺失值，并显示缺失值的总数
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])

# 删除包含缺失值的记录
df.dropna(inplace=True)

# 检查数据框中是否存在无意义的重复值并删除
df.drop_duplicates(inplace=True)

# 再次查看数据框的描述信息，确保数据清理后的结果
print(df.describe())
print(df.info())


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xaa in position 14: invalid start byte

In [None]:
import matplotlib.pyplot as plt

# 绘制“口味”、“环境”、“服务”评分字段的直方图
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# 口味评分直方图
axes[0].hist(df['口味'], bins=20, color='skyblue', edgecolor='black')
axes[0].set_title('口味评分分布')
axes[0].set_xlabel('评分')
axes[0].set_ylabel('频数')

# 环境评分直方图
axes[1].hist(df['环境'], bins=20, color='lightgreen', edgecolor='black')
axes[1].set_title('环境评分分布')
axes[1].set_xlabel('评分')

# 服务评分直方图
axes[2].hist(df['服务'], bins=20, color='salmon', edgecolor='black')
axes[2].set_title('服务评分分布')
axes[2].set_xlabel('评分')

plt.tight_layout()
plt.show()


In [None]:
# Precharts 是一个假设的库，实际上没有这个库
# 这里我们使用 seaborn 来替代，因为它也支持绘制散点图和折线图

import seaborn as sns

# 绘制散点图
plt.figure(figsize=(12, 6))
sns.scatterplot(x='人均消费', y='口味', data=df, label='口味')
sns.scatterplot(x='人均消费', y='环境', data=df, label='环境')
sns.scatterplot(x='人均消费', y='服务', data=df, label='服务')
plt.title('评分与人均消费的关系 - 散点图')
plt.legend()
plt.show()

# 绘制折线图
plt.figure(figsize=(12, 6))
sns.lineplot(x='人均消费', y='口味', data=df, label='口味')
sns.lineplot(x='人均消费', y='环境', data=df, label='环境')
sns.lineplot(x='人均消费', y='服务', data=df, label='服务')
plt.title('评分与人均消费的关系 - 折线图')
plt.legend()
plt.show()


In [None]:
# 假设数据框中有一个列 '行政区' 和 '人均消费'
# 分组计算每个行政区的人均消费总值
district_avg_spending = df.groupby('行政区')['人均消费'].sum().reset_index()

# 按人均消费总值降序排序
district_avg_spending = district_avg_spending.sort_values(by='人均消费', ascending=False)

# 绘制条形图
plt.figure(figsize=(14, 8))
plt.bar(district_avg_spending['行政区'], district_avg_spending['人均消费'], color='teal')
plt.title('上海市各行政区人均消费总值')
plt.xlabel('行政区')
plt.ylabel('人均消费总值')
plt.xticks(rotation=45)
plt.show()


In [None]:
# 假设数据框中有一个列 '食品类别'
plt.figure(figsize=(14, 8))
sns.countplot(x='食品类别', data=df, palette='viridis')
plt.title('各食品类别在上海的分布数量')
plt.xlabel('食品类别')
plt.ylabel('数量')
plt.xticks(rotation=45)
plt.show()
