Skip to content

阶段总结Ⅰ

深度学习概念部分

第一部分:线性回归

1.线性回归

解决连续值预测问题的基础模型,通过线性函数 $\(y = wx + b\)$ 拟合数据分布

2.损失

预测值与真实值的偏差,常用的损失函数有均方误差(MSE)和平均绝对误差(MAE)

3.梯度下降

优化算法,通过计算损失函数的梯度来更新模型参数,常用的变体有批量梯度下降、随机梯度下降和小批量梯度下降

4.超参数

需人工预设的参数(如学习率、迭代次数),直接影响模型收敛速度与泛化效果

第二部分:逻辑回归

1.逻辑回归

虽名为“回归”,实则用于二分类任务,通过Sigmoid函数将线性输出映射到[0,1]区间,表示预测为正类的概率

2.计算概率

Sigmoid函数输出表示样本属于正类的概率,设定阈值(如0.5)实现分类决策

3.损失和正则化

采用交叉熵损失(解决MSE在分类任务中梯度消失问题);引入L1/L2正则化抑制过拟合,平衡模型复杂度与拟合效果

第三部分:分类

1.分类

2.多类别分类

…………

数据部分

第四部分:处理数值数据

第五部分:处理分类数据

第六部分:数据集、泛化和过拟合

  • 数据集划分:训练集(模型训练)、验证集(超参数调优)、测试集(效果评估),避免数据泄露
  • 泛化与过拟合:泛化能力指模型对 unseen 数据的适配能力;过拟合是模型过度拟合训练集噪声导致泛化下降,需通过正则化、数据集扩充等方式缓解

高级深度学习模型部分

第七部分:多层感知机(MLP)

  • 核心定位:突破线性模型限制,通过多层神经元堆叠实现非线性拟合,是深度学习的核心架构
  • 基础逻辑:由输入层、隐藏层、输出层组成,通过激活函数(如ReLU、Sigmoid)引入非线性,利用反向传播算法更新各层参数,适配更复杂的任务(如图像识别、自然语言处理)