# 比较 Python 列表和 NumPy 数组的性能

In [None]:
import numpy as np
import time

list_array=list(range(int(1e6)))
start_time=time.time()
python_array=[val*5 for val in list_array]
end_time=time.time()
total_time=round((end_time-start_time)*1000,2)
print(f"python列表用时{total_time}毫秒。")

np_array=np.arange(1e6)
start_time=time.time()
np_array=np_array*5
end_time=time.time()
total_time=round((end_time-start_time)*1000,2)
print(f"numpy数组用时{total_time}毫秒。")

python列表用时52.83毫秒。
numpy数组用时3.57毫秒。


# Pandas 词频统计

In [None]:
import pandas as pd

p='life can be good, life can be sad, life is mostly cheerful, but sometimes sad.'
pList=p.split()
pList1=[]
for item in pList:
    if item[-1] in ',. ':
        item=item[:-1]
    pList1.append(item)
s=pd.Series(pList1)
print(s.value_counts())

life         3
can          2
be           2
sad          2
good         1
is           1
mostly       1
cheerful     1
but          1
sometimes    1
Name: count, dtype: int64


# 实验一 机器学习基础

## 变量和数据类型

In [None]:
# 变量和数据类型
a = 10 # 整数
b = 3.14 # 浮点数
c = "Hello, World!" # 字符串
d = True # 布尔值
print(type(a)) # <class 'int'>
print(type(b)) # <class 'float'>
print(type(c)) # <class 'str'>
print(type(d)) # <class 'bool'>

## 控制结构

In [None]:
# 控制结构
if a > 5:
    print("a is greater than 5")
else:
    print("a is less than or equal to 5")
# 循环
for i in range(5):
    print(i)

## NumPy

In [None]:
import numpy as np
# 创建数组
arr = np.array([1, 2, 3, 4, 5])
print(arr) # [1 2 3 4 5]
# 基本运算
print(arr + 10) # [11 12 13 14 15]
print(arr * 2) # [ 2 4 6 8 10]
# 索引和切片
print(arr[0]) # 1
print(arr[1:4]) # [2 3 4]

## Pandas

In [None]:
import pandas as pd
# 创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print(s)
# 创建 DataFrame
df = pd.DataFrame({
 'A': [1, 2, 3, 4, 5],
 'B': [5, 4, 3, 2, 1]
})
print(df)
# 数据读取与存储
df.to_csv('data.csv') # 保存到 CSV 文件
df = pd.read_csv('data.csv') # 从 CSV 文件读取
print(df)

In [None]:
# 数据清洗与处理
df.dropna(inplace=True)
df.fillna(0, inplace=True)

## Matplotlib

In [None]:
import matplotlib.pyplot as plt
# 基本绘图
plt.plot([1, 2, 3, 4, 5], [5, 4, 3, 2, 1])
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Basic Plot')
plt.show()
# 图形定制
plt.plot([1, 2, 3, 4, 5], [5, 4, 3, 2, 1], 'ro-')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Customized Plot')
plt.show()
# 子图
plt.subplot(1, 2, 1)
plt.plot([1, 2, 3, 4, 5], [5, 4, 3, 2, 1])
plt.subplot(1, 2, 2)
plt.plot([1, 2, 3, 4, 5], [1, 2, 3, 4, 5])
plt.show()

## 进阶内容

In [None]:
!pip install openai

In [None]:
from openai import OpenAI
client = OpenAI(api_key="sk-****", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
 model="deepseek-chat",
 messages=[
 {"role": "system", "content": "You are a helpful assistant"},
 {"role": "user", "content": "请介绍一下你自己"},
 ],
 stream=False
)
print(response.choices[0].message.content)

## NumPy 进阶

In [None]:
import numpy as np
import time
# 创建一个包含一百万个元素的列表
list_array = list(range(int(1e6)))
start_time = time.time()
# 将列表中的每个元素乘以 5
python_array = [val * 5 for val in list_array]
end_time = time.time()
# 计算操作所用的时间并打印
total_time = round((end_time - start_time) * 1000, 2)
print(f"python 列表用时{total_time}毫秒。")
# 创建一个包含一百万个元素的 numpy 数组
np_array = np.arange(1e6)
start_time = time.time()
# 将 numpy 数组中的每个元素乘以 5
np_array = np_array * 5
end_time = time.time()
# 计算操作所用的时间并打印
total_time = round((end_time - start_time) * 1000, 2)
print(f"numpy 数组用时{total_time}毫秒。")

## Pandas 进阶

In [None]:
import pandas as pd
# 读取 rating.txt 文件，不使用表头，并为列命名
data = pd.read_csv('rating.txt', header=None, names=['读者 ID', '图书
ID', '评分'])
# 按照 '图书 ID' 分组，并计算每组的 '评分' 平均值
result = data.groupby('图书 ID')['评分'].mean()
# 输出结果
Result

### 折线图

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
data=pd.read_csv('rating.txt',header=None,names=['读者 ID','图书 ID','评分'])
result[:10].plot()

### 直方图

In [None]:
import pandas as pd
data=pd.read_csv('rating.txt',header=None,names=['读者 ID','图书 ID','评分'])
result=data.groupby('图书 ID')['评分'].mean()
result.plot(kind='hist')

### 柱状图

In [None]:
import pandas as pd
data=pd.read_csv('rating.txt',header=None,names=['读者 ID','图书 ID','评分'])
data['图书 ID'].value_counts()[:10].plot(kind='bar')

### 饼图

In [None]:
import pandas as pd
data=pd.read_csv('rating.txt',header=None,names=['读者 ID','图书 ID','评分
'])
id=int(input('请输入你要查看评分信息的图书编号（1-10000）：'))
s=data[data['图书 ID']==id]['评分'].value_counts()/data[data['图书ID']==id]['评分'].value_counts().sum()
s.plot(kind='pie')

## Matplotlib 进阶

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#导入绘图库中的 pyplot 模块，并且简称为 plt。
#读取数据
path='一、车次上车人数统计表.xlsx';
data=pd.read_excel(path);
#筛选数据
tb=data.loc[data['车次'] == 'D02',['日期','上车人数']];
tb=tb.sort_values('日期');
tb1=data.loc[data['车次'] == 'D03',['日期','上车人数']];
tb1=tb1.sort_values('日期');
#构造绘图所需的横轴数据列和纵轴数据列
x=np.arange(1,len(tb.iloc[:,0])+1)
y1=tb.iloc[:,1]
y2=tb1.iloc[:,1]
plt.rcParams['font.sans-serif'] = 'SimHei' # 设置字体为 SimHei
plt.figure('子图')
plt.figure(figsize=(10,8))
plt.subplot(3,2,1)
plt.scatter(x,y1)
plt.xlabel('日期')
plt.ylabel('上车人数')
plt.xticks([1,5,10,15,20,24], tb['日期'].values[[0,4,9,14,19,23]],
rotation = 45)
plt.title('D02 车次上车人数散点图')
plt.subplot(3,2,2)
plt.plot(x,y1,'r*--')
plt.plot(x,y2,'b*--')
plt.xlabel('日期')
plt.ylabel('上车人数')
plt.title('上车人数走势图')
plt.legend(['D02','D03'])
plt.xticks([1,5,10,15,20,24], tb['日期'].values[[0,4,9,14,19,23]],
rotation = 45)
plt.subplot(3,2,3)
plt.bar(x,y1)
plt.xlabel('日期')
plt.ylabel('上车人数')
plt.title('D02 车次上车人数柱状图')
plt.xticks([1,5,10,15,20,24], tb['日期'].values[[0,4,9,14,19,23]],
rotation = 45)
plt.subplot(3,2,4)
plt.hist(y1)
plt.xlabel('上车人数')
plt.ylabel('频数')
plt.title('D02 车次上车人数直方图')
plt.subplot(3,2,5)
D=data.iloc[:,0]
D=list(D.unique()) #车次号 D02~D06
list1=[] #预定义每个车次的上车人数列表
for d in D:
 dt=data.loc[data['车次'] == d,['上车人数']]
 s=dt.sum()
 list1.append(s['上车人数']) #或者 s[0]
plt.pie(list1,labels=D,autopct='%1.2f%%')
#绘制饼图，百分比保留小数点后两位
plt.title('各车次上车人数百分比饼图')
plt.subplot(3,2,6)
plt.boxplot([y1.values,y2.values])
plt.xticks([1,2], ['D02','D03'], rotation = 0)
plt.title('D02、D03 车次上车人数箱线图')
plt.ylabel('上车人数')
plt.xlabel('车次')
plt.tight_layout()
plt.savefig('子图')