Journal of the American Oriental Society: The Origin of the Chinese People (Book Review)
左の本文を選ぶと、右側の官報原文画像で該当箇所を照合できます。
概 要
在训练模型之前, 需要对数据进行预处理。首先, 将数据集划分为训练集和测试集, 其中训练集用于训练模型, 测试集用于评估模型的性能。然后, 对训练集进行标准化处理, 即将每个特征的值减去该特征的均值, 再除以该特征的标准差。这样可以使得每个特征的均值为 0 , 标准差为 1 , 从而加快模型的收敛速度。最后, 将处理后的数据保存为文件, 以便后续使用。
## 2.2 .3 模型训练
在模型训练阶段, 我们使用了 PyTorch 框架来构建和训练神经网络模型。首先, 定义了一个包含多个全连接层的神经网络模型, 并使用 ReLU 激活函数来增加模型的非线性表达能力。然后, 使用交叉熵损失函数作为优化目标, 并采用 Adam 优化器来更新模型参数。在训练过程中, 我们设置了学习率为 0.001 , 批量大小为 64 , 并进行了 100 个 epoch 的训练。在每个 epoch 中, 我们将训练集分成多个批次, 依次输入到模型中进行前向传播和反向传播, 以更新模型参数。同时, 我们还记录了每个 epoch 的损失值和准确率, 以便观察模型的训练效果。
## 2.2 .4 模型评估
在模型评估阶段, 我们使用了测试集来评估模型的性能。首先, 将测试集输入到训练好的模型中, 得到预测结果。然后, 计算预测结果与真实标签之间的准确率、精确率、召回率和 F1 分数等指标, 以全面评估模型的性能。此外, 我们还绘制了混淆矩阵和 ROC 曲线, 以更直观地展示模型的分类效果。通过对比不同模型的性能指标, 我们可以选择最优的模型用于实际应用。
在训练模型之前,需要对数据进行预处理。首先,将数据集划分为训练集和测试集,其中训练集用于模型的训练,测试集用于评估模型的性能。然后,对训练集中的每个样本进行归一化处理,使得每个特征的均值为0,方差为1。最后,将处理后的数据输入到模型中进行训练。
### 2.2.3 模型训练
在模型训练过程中,我们使用了随机梯度下降(SGD)算法来优化模型的参数。具体来说,我们在每个epoch中遍历整个训练集,并根据损失函数的梯度更新模型的参数。为了防止过拟合,我们还使用了L2正则化技术,即在损失函数中添加一个正则化项,以惩罚较大的参数值。
### 2.2.4 模型评估
在模型训练完成后,我们使用测试集来评估模型的性能。具体来说,我们计算了模型在测试集上的准确率、精确率、召回率和F1分数等指标。此外,我们还绘制了混淆矩阵和ROC曲线,以更直观地展示模型的分类性能。
報
(号