阶段总结Ⅰ
深度学习概念部分
第一部分:线性回归
1.线性回归
解决连续值预测问题的基础模型,通过线性函数 $\(y = wx + b\)$ 拟合数据分布
2.损失
预测值与真实值的偏差,常用的损失函数有均方误差(MSE)和平均绝对误差(MAE)
3.梯度下降
优化算法,通过计算损失函数的梯度来更新模型参数,常用的变体有批量梯度下降、随机梯度下降和小批量梯度下降
4.超参数
需人工预设的参数(如学习率、迭代次数),直接影响模型收敛速度与泛化效果
第二部分:逻辑回归
1.逻辑回归
虽名为“回归”,实则用于二分类任务,通过Sigmoid函数将线性输出映射到[0,1]区间,表示预测为正类的概率
2.计算概率
Sigmoid函数输出表示样本属于正类的概率,设定阈值(如0.5)实现分类决策
3.损失和正则化
采用交叉熵损失(解决MSE在分类任务中梯度消失问题);引入L1/L2正则化抑制过拟合,平衡模型复杂度与拟合效果
第三部分:分类
1.分类
2.多类别分类
…………
数据部分
第四部分:处理数值数据
第五部分:处理分类数据
第六部分:数据集、泛化和过拟合
- 数据集划分:训练集(模型训练)、验证集(超参数调优)、测试集(效果评估),避免数据泄露
- 泛化与过拟合:泛化能力指模型对 unseen 数据的适配能力;过拟合是模型过度拟合训练集噪声导致泛化下降,需通过正则化、数据集扩充等方式缓解
高级深度学习模型部分
第七部分:多层感知机(MLP)
- 核心定位:突破线性模型限制,通过多层神经元堆叠实现非线性拟合,是深度学习的核心架构
- 基础逻辑:由输入层、隐藏层、输出层组成,通过激活函数(如ReLU、Sigmoid)引入非线性,利用反向传播算法更新各层参数,适配更复杂的任务(如图像识别、自然语言处理)