In [None]:
import os
print(os.path.abspath('.'))


In [None]:
# #第一部分，爬虫获取数据，列表进行存储

import requests
import csv
import math
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup
from scipy.stats import pearsonr
from scipy.stats import linregress

# 指定要爬取的网页URL
url = 'http://socr.ucla.edu/docs/resources/SOCR_Data/SOCR_Data_Dinov_020108_HeightsWeights.html'

# 发送GET请求获取网页内容
response = requests.get(url)

# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 指定要写入的CSV文件路径
output_file = "D:\\python study\\datas.xlsx"

# 使用with语句打开输出文件，确保文件在使用完后会被正确关闭
with open(output_file, 'w', newline='') as file:
    # 创建一个csv写入器
    writer = csv.writer(file)
    
    # 使用find_all方法找到网页中的所有表格行
    rows = soup.find_all('tr')
    
    # 遍历表格行，并将数据写入CSV文件
    for row in rows:
        # 使用find_all方法找到当前行的所有单元格
        cells = row.find_all('td')
        
        # 使用列表推导式将单元格文本内容存储在一个列表中，分隔符对于表格处理是关键
        data = [cell.text.strip('，') for cell in cells]
        
        # 使用writerow方法将数据写入CSV文件
        writer.writerow(data)

#print('网页数据集已成功转换为CSV文件。')


# #第二部分，进行单位转化


# 定义单位转换函数
def convert_units(value, current_unit, target_unit):
    # 在这里实现单位转换逻辑
    # 将英寸转换为厘米，将磅转换为千克
    if current_unit == 'in':
        if target_unit == 'cm':
            return float(value) * 2.54
    elif current_unit == 'lb':
        if target_unit == 'kg':
            return float(value) * 0.45359237
    return value

# 定义新的表头名
new_column_names = ['Height(Centimeters)', 'Weight(Kilograms)']

# 指定CSV文件路径
input_file = "D:\\python study\\datas.xlsx"
output_file = "D:\\python study\\converted_datas.xlsx"

# 指定需要转换的列和单位
column_names = ['Height(Inches)', 'Weight(Pounds)']
current_units = ['in', 'lb']
target_units = ['cm', 'kg']

# 打开输入文件和输出文件
with open(input_file, 'r') as file_in, open(output_file, 'w', newline='') as file_out:
    # 创建CSV读取器和写入器
    reader = csv.reader(file_in)
    writer = csv.writer(file_out)
    
    # 读取CSV文件的表头
    header = next(reader)
    
    # 确定需要转换的列的索引
    column_indices = [header.index(column_name) for column_name in column_names]
    
    # 更新新的表头名
    for i, column_index in enumerate(column_indices):
        header[column_index] = new_column_names[i]
    
    # 写入新的表头到输出文件，确保前后表头一致
    writer.writerow(header)
    
    # 遍历CSV文件的每一行数据
    for row in reader:
        # 遍历需要转换的列
        for i, column_index in enumerate(column_indices):
            # 获取需要转换的列的值
            value = row[column_index]
            
            # 进行单位转换
            converted_value = convert_units(value, current_units[i], target_units[i])
            
            # 更新转换后的值到行数据中
            row[column_index] = converted_value
        
        # 将更新后的行数据写入输出文件
        writer.writerow(row)

#print('单位转换并改变新的表头名完成。')


#第三部分，对身高和体重数据进行统计分析


# # 读取CSV文件
# data = []
# with open("D:\\python study\\converted_datas.xlsx", 'r') as file:
#     reader = csv.DictReader(file)
#     for row in reader:
#         data.append(row)

# # 将身高和体重转换为浮点数
# heights = [float(row['Height(Centimeters)']) for row in data]
# weights = [float(row['Weight(Kilograms)']) for row in data]

# # 计算最大值和最小值
# max_height = max(heights)
# min_height = min(heights)
# max_weight = max(weights)
# min_weight = min(weights)

# # 计算平均值
# average_height = sum(heights) / len(heights)
# average_weight = sum(weights) / len(weights)

# # 计算中位数
# sorted_heights = sorted(heights)
# sorted_weights = sorted(weights)
# median_height = sorted_heights[len(sorted_heights) // 2]
# median_weight = sorted_weights[len(sorted_weights) // 2]

# # 计算方差
# variance_height = sum((h - average_height) ** 2 for h in heights) / len(heights)
# variance_weight = sum((w - average_weight) ** 2 for w in weights) / len(weights)

# # 计算标准差
# std_dev_height = math.sqrt(variance_height)
# std_dev_weight = math.sqrt(variance_weight)

# # 打印结果
# print('最大身高:', max_height)
# print('最小身高:', min_height)
# print('最大体重:', max_weight)
# print('最小体重:', min_weight)
# print('平均身高:', average_height)
# print('平均体重:', average_weight)
# print('中位数身高:', median_height)
# print('中位数体重:', median_weight)
# print('身高方差:', variance_height)
# print('体重方差:', variance_weight)
# print('身高标准差:', std_dev_height)
# print('体重标准差:', std_dev_weight)


#第四部分，绘制身高体重的直方图

#下述代码是为了分别让两张图输出在一行
# fig, axs = plt.subplots(2, 2, figsize=(10, 10))
# #身高的直方图
# axs[0,0].hist(heights,bins = 5,edgecolor = 'black')
# axs[0,0].set_xlabel('Height')
# axs[0,0].set_ylabel('Count')
# axs[0,0].set_title('Height Distribution1')

# #间隔大小对身高直方图的影响
# axs[0,1].hist(heights,bins = 10,edgecolor = 'black')
# axs[0,1].set_xlabel('Height')
# axs[0,1].set_ylabel('Count')
# axs[0,1].set_title('Height Distribution2')


# #体重的直方图
# axs[1,0].hist(weights,bins = 5,edgecolor = 'black')
# axs[1,0].set_xlabel('weight')
# axs[1,0].set_ylabel('Count')
# axs[1,0].set_title('weight Distribution1')

# #间隔大小对体重直方图的影响
# axs[1,1].hist(weights,bins = 10,edgecolor = 'black')
# axs[1,1].set_xlabel('weight')
# axs[1,1].set_ylabel('Count')
# axs[1,1].set_title('weight Distribution2')

# plt.tight_layout()
# plt.show()


#第五部分，使用散点图和皮尔逊相关系数讨论身高和体重间的关系

# # 绘制散点图
# plt.scatter(heights, weights)
# plt.xlabel('Height')
# plt.ylabel('Weight')
# plt.title('Height vs Weight')

# # 计算皮尔逊相关系数
# corr, _ = pearsonr(heights, weights)
# print("Pearson correlation coefficient:", corr)

# # 显示图表
# plt.show()

#第六部分，用线性拟合实现身高和体重的预测（最小二乘法）

# 进行线性拟合:斜率（slope）、截距（intercept）、相关系数（r_value）、p-value(P值，概率在0-1之间)、标准误差（std_err）
# slope, intercept, r_value, p_value, std_err = linregress(heights,weights)
# print('斜率:',slope)
# print('截距:',intercept)
# # 使用拟合的模型进行预测（测试）
# predicted_weight = slope * 185 + intercept
# print("预测的体重:", predicted_weight)

