In [3]:
import pandas as pd

# 创建一个空的DataFrame来存储所有年份的数据
all_names = pd.DataFrame()

# 遍历每一年
for year in range(1880, 2011):
    # 读取该年份的数据
    path = f'datasets/babynames/yob{year}.txt'
    names = pd.read_csv(path, names=['name', 'sex', 'births'])
    
    # 添加一个表示年份的列
    names['year'] = year
    
    # 将该年份的数据添加到all_names中
    all_names = pd.concat([all_names, names], ignore_index=True)

# 根据年份和性别对数据进行分组，然后计算每一组的出生总数
total_births = all_names.pivot_table('births', index='year', columns='sex', aggfunc=sum)

# 添加一个表示总体出生数的列
total_births['total'] = total_births['F'] + total_births['M']

total_births

sex,F,M,total
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1880,90993,110493,201486
1881,91955,100748,192703
1882,107851,113687,221538
1883,112322,104632,216954
1884,129021,114445,243466
...,...,...,...
2006,1896468,2050234,3946702
2007,1916888,2069242,3986130
2008,1883645,2032310,3915955
2009,1827643,1973359,3801002


In [33]:
from sklearn.neural_network import MLPRegressor

# 添加一个表示男女性别比例的列
total_births['ratio'] = total_births['M'] / total_births['F']

# 分割训练集和测试集
train = total_births.loc[1880:1980]
test = total_births.loc[1981:2010]

# 提取特征和目标变量
X_train = train.index.values.reshape(-1, 1)
y_train = train['ratio']
X_test = test.index.values.reshape(-1, 1)

# 创建并训练模型
model = MLPRegressor(hidden_layer_sizes=(100,), activation='relu', solver='adam')
model.fit(X_train, y_train)

# 进行预测
predictions = model.predict(X_test)

# 打印预测结果
for year, prediction in zip(range(1981, 2011), predictions):
    print(f"{year}年, 预测比例: {prediction}")

1981年, 预测比例: 39.14923161415325
1982年, 预测比例: 39.169081358729386
1983年, 预测比例: 39.18893110330595
1984年, 预测比例: 39.208780847882196
1985年, 预测比例: 39.22863059245867
1986年, 预测比例: 39.248480337035005
1987年, 预测比例: 39.268330081611396
1988年, 预测比例: 39.2881798261877
1989年, 预测比例: 39.30802957076406
1990年, 预测比例: 39.32787931534051
1991年, 预测比例: 39.34772905991687
1992年, 预测比例: 39.36757880449312
1993年, 预测比例: 39.38742854906951
1994年, 预测比例: 39.407278293645845
1995年, 预测比例: 39.42712803822229
1996年, 预测比例: 39.44697778279871
1997年, 预测比例: 39.46682752737496
1998年, 预测比例: 39.48667727195138
1999年, 预测比例: 39.50652701652774
2000年, 预测比例: 39.526376761104046
2001年, 预测比例: 39.546226505680494
2002年, 预测比例: 39.56607625025683
2003年, 预测比例: 39.585925994833076
2004年, 预测比例: 39.60577573940941
2005年, 预测比例: 39.625625483985914
2006年, 预测比例: 39.64547522856219
2007年, 预测比例: 39.665324973138496
2008年, 预测比例: 39.68517471771486
2009年, 预测比例: 39.70502446229119
2010年, 预测比例: 39.72487420686764
