爬取数据

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Define the URL of the webpage
url = 'https://www.acem.sjtu.edu.cn/notices/87236.html'

# Send a GET request to the webpage
response = requests.get(url)
response.encoding = 'utf-8'  # Ensure the correct encoding

# Parse the page content using BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Find the table in the HTML (usually <table> tag)
table = soup.find('table')

# Extract headers (if any)
headers = [th.text.strip() for th in table.find_all('th')]

# If headers are empty, use the first row as headers
if not headers:
    first_row = table.find('tr')
    headers = [col.text.strip() for col in first_row.find_all('td')]

# Extract rows from the table
rows = []
for tr in table.find_all('tr')[1:]:  # Skip the header row if headers were found
    cols = tr.find_all('td')
    row = [col.text.strip() for col in cols]
    rows.append(row)

# Create a DataFrame using pandas for easy data manipulation
df = pd.DataFrame(rows, columns=headers)

# Display the DataFrame
print(df)

# Optionally, save the data to a CSV file
df.to_csv('scraped_table.csv', index=False)


统计主修分布

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 读取 CSV 文件
df = pd.read_csv('scraped_table.csv')

# 统计主修专业人数分布情况
major_counts = df['主修专业（双学位为第一主修专业）'].value_counts()

# 定义一个函数来显示百分比和人数
def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}%\n({val:d})'
    return my_format

# 绘制饼图
plt.figure(figsize=(15, 10))
major_counts.plot(kind='pie', autopct=autopct_format(major_counts), startangle=90, counterclock=False)
plt.title('主修专业人数分布情况')
plt.ylabel('')  # 隐藏 y 轴标签

# 显示图表
plt.show()

双学位项目筛选

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 读取 CSV 文件
df = pd.read_csv('scraped_table.csv')

# 筛选出符合条件的双学位项目
econ_math = df[(df['主修专业（双学位为第一主修专业）'] == '经济学') & (df['辅修模块（双学位无）'] == '无')]
fin_cs = df[(df['主修专业（双学位为第一主修专业）'] == '金融学') & (df['辅修模块（双学位无）'] == '无')]

# 分别标记为“经济学-数学与应用数学”与“金融学-计算机科学”
econ_math['双学位项目'] = '经济学-数学与应用数学'
fin_cs['双学位项目'] = '金融学-计算机科学'

# 合并两个双学位项目的数据
dual_degree_df = pd.concat([econ_math, fin_cs])

# 显示结果
print(dual_degree_df)

# 统计双学位项目人数分布情况
dual_degree_counts = dual_degree_df['双学位项目'].value_counts()

# 绘制饼图
plt.figure(figsize=(10, 6))
dual_degree_counts.plot(kind='pie', autopct='%1.1f%%', startangle=90, counterclock=False)
plt.title('双学位项目人数分布情况')
plt.ylabel('')  # 隐藏 y 轴标签

# 显示图表
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 读取 CSV 文件
df = pd.read_csv('scraped_table.csv')

# 筛选出符合条件的双学位项目
econ_math = df[(df['主修专业（双学位为第一主修专业）'] == '经济学') & (df['辅修模块（双学位无）'] == '无')]
fin_cs = df[(df['主修专业（双学位为第一主修专业）'] == '金融学') & (df['辅修模块（双学位无）'] == '无')]

# 分别标记为“经济学-数学与应用数学”与“金融学-计算机科学”
econ_math['主修专业（双学位为第一主修专业）'] = '经济学-数学与应用数学'
fin_cs['主修专业（双学位为第一主修专业）'] = '金融学-计算机科学'

# 合并两个双学位项目的数据回原数据
df.update(econ_math)
df.update(fin_cs)

# 统计主修专业人数分布情况
major_counts = df['主修专业（双学位为第一主修专业）'].value_counts()

# 定义一个函数来显示百分比和人数
def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}%\n({val:d})'
    return my_format
# 保存统计数据
major_counts.to_csv('major_counts.csv')
# 绘制饼图
plt.figure(figsize=(20, 16))
major_counts.plot(kind='pie', autopct=autopct_format(major_counts), startangle=90, counterclock=False)
plt.title('主修专业人数分布情况')
plt.ylabel('')  # 隐藏 y 轴标签

# 显示图表
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 读取 CSV 文件
df = pd.read_csv('scraped_table.csv')

# 筛选出符合条件的双学位项目
econ_math = df[(df['主修专业（双学位为第一主修专业）'] == '经济学') & (df['辅修模块（双学位无）'] == '无')]
fin_cs = df[(df['主修专业（双学位为第一主修专业）'] == '金融学') & (df['辅修模块（双学位无）'] == '无')]

# 分别标记为“经济学-数学与应用数学”与“金融学-计算机科学”
econ_math['辅修模块（双学位无）'] = '数学与应用数学'
fin_cs['辅修模块（双学位无）'] = '计算机科学'

# 更新原数据
df.update(econ_math)
df.update(fin_cs)

# 创建主修与辅修组合列
df['主修与辅修组合'] = df['主修专业（双学位为第一主修专业）'] + ' - ' + df['辅修模块（双学位无）']

# 统计主修与辅修组合情况
combo_counts = df['主修与辅修组合'].value_counts()

# 定义一个函数来显示百分比和人数
def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}%\n({val:d})'
    return my_format

# 保存统计数据为 CSV 文件
combo_counts.to_csv('combo_counts.csv')

# 绘制饼图
plt.figure(figsize=(25, 20))
combo_counts.plot(kind='pie', autopct=autopct_format(combo_counts), startangle=90, counterclock=False)
plt.title('主修与辅修组合情况')
plt.ylabel('')  # 隐藏 y 轴标签

# 显示图表
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 读取 CSV 文件
df = pd.read_csv('scraped_table.csv')

# 筛选出符合条件的双学位项目
econ_math = df[(df['主修专业（双学位为第一主修专业）'] == '经济学') & (df['辅修模块（双学位无）'] == '无')]
fin_cs = df[(df['主修专业（双学位为第一主修专业）'] == '金融学') & (df['辅修模块（双学位无）'] == '无')]

# 分别标记为“经济学-数学与应用数学”与“金融学-计算机科学”
econ_math['辅修模块（双学位无）'] = '数学与应用数学'
fin_cs['辅修模块（双学位无）'] = '计算机科学'

# 更新原数据
df.update(econ_math)
df.update(fin_cs)

# 创建主修与辅修组合列
df['主修与辅修组合'] = df['主修专业（双学位为第一主修专业）'] + ' - ' + df['辅修模块（双学位无）']

# 统计主修与辅修组合情况
combo_counts = df['主修与辅修组合'].value_counts()

# 定义一个函数来显示百分比和人数
def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}%\n({val:d})'
    return my_format

# 保存每个组合的选择人员为单独的 CSV 文件
for combo in combo_counts.index:
    combo_df = df[df['主修与辅修组合'] == combo]
    combo_df.to_csv(f'{combo}.csv', index=False)

# 保存统计数据为 CSV 文件
combo_counts.to_csv('combo_counts.csv')

# 绘制饼图
plt.figure(figsize=(25, 20))
combo_counts.plot(kind='pie', autopct=autopct_format(combo_counts), startangle=90, counterclock=False)
plt.title('主修与辅修组合情况')
plt.ylabel('')  # 隐藏 y 轴标签

# 显示图表
plt.show()

细分专业组合

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import openpyxl as px

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# 读取 CSV 文件
df = pd.read_csv('scraped_table.csv')

# 读取学生信息文件
student_info = pd.read_excel('student_info.xlsx')

# 合并数据
df = pd.merge(df, student_info, on='学号', how='left')

# 筛选出符合条件的双学位项目
econ_math = df[(df['主修专业（双学位为第一主修专业）'] == '经济学') & (df['辅修模块（双学位无）'] == '无')]
fin_cs = df[(df['主修专业（双学位为第一主修专业）'] == '金融学') & (df['辅修模块（双学位无）'] == '无')]

# 分别标记为“经济学-数学与应用数学”与“金融学-计算机科学”
econ_math['辅修模块（双学位无）'] = '数学与应用数学'
fin_cs['辅修模块（双学位无）'] = '计算机科学'

# 更新原数据
df.update(econ_math)
df.update(fin_cs)

# 创建主修与辅修组合列
df['主修与辅修组合'] = df['主修专业（双学位为第一主修专业）'] + ' - ' + df['辅修模块（双学位无）']

# 统计主修与辅修组合情况
combo_counts = df['主修与辅修组合'].value_counts()

# 定义一个函数来显示百分比和人数
def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}%\n({val:d})'
    return my_format

# 保存每个组合的选择人员为单独的 CSV 文件
for combo in combo_counts.index:
    combo_df = df[df['主修与辅修组合'] == combo]
    combo_df.to_csv(f'{combo}.csv', index=False)

# 保存统计数据为 CSV 文件
combo_counts.to_csv('combo_counts.csv')

# 绘制饼图
plt.figure(figsize=(25, 20))
combo_counts.plot(kind='pie', autopct=autopct_format(combo_counts), startangle=90, counterclock=False)
plt.title('主修与辅修组合情况')
plt.ylabel('')  # 隐藏 y 轴标签

# 显示图表
plt.show()