考试范围
简答题6道
计算题3道
证明题1道(二选一)
重点
简答:
解释
- 过拟合、欠拟合
- 线性可分
- 局部极值和全局极值
- 神经网络是否可以收敛到全局极值
- 如何克服 C 均值算法对于聚类中心的敏感性
- PCA 和 LDA 异同点
- 马氏距离与欧式距离的异同点
C均值、PCA、LDA、KNN、岭回归算法流程
计算:
贝叶斯定理
欧式距离与马氏距离
Fisher准则求决策面方程
证明:
见作业一
欧氏(Euclidean)距离:
绝对值距离(街坊距离或Manhattan距离):
马氏(Mahalanobis)距离
作业一
试证明,多元正态随机矢量的线性变换仍为多元正态随机矢量。
试证明,多元正态随机矢量 X 的分量的线性组合是一正态随机变量。
试证明,对于正态分布,不相关与独立是等价的。(选作)
作业二
数据集包含 1000 个样本,其中 500 个正例,500 个反例,将其划分为包含 70% 样本的训练集和 30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
答:构建的数据集中正负样本比例应该保持在 1:1,与训练和测试集的划分比例无关。故分别在正负样本中抽样即可,设共有 N 种划分方式,则:
简述主成分分析 PCA 算法流程。
简化:
n维样本集X
1.对所有样本进行中心化
2.计算样本的协方差矩阵
3.求出协方差矩阵的特征值及对应的特征向量
4.将特征向量按对应特征值大小从小到大按行排列成矩阵,取前k行组成矩阵P
5.Y=PX即为降维到k维后的数据
简述线性判别分析 LDA 算法流程。
简化:
输入:数据集D
1.计算类内散度矩阵$S_w$
2.计算类间散度矩阵$S_b$
3.计算矩阵$S^{-1}wS_b$
4.计算矩阵的最大的d个特征值和对应的d个特征向量,得到投影矩阵
5.对样本集中的每一个样本特征xi,转化为新的样本$z_i=W^Tx_i$
6.得到样本集
比较 PCA 与 LDA 的异同点。
PCA 和 LDA 的相同点
1) PCA 和 LDA 都是经典的降维算法;
2) PCA 和 LDA 都假设数据是符合高斯分布的;
3) PCA 和 LDA 都利用了矩阵特征分解的思想。
PCA 和 LDA 的不同点
1) PCA 是无监督(训练样本无标签)的,LDA 是有监督(训练样本有标签)的;
2) PCA 是去掉原始数据冗余的维度,LDA 是选择一个最佳的投影方向,使得投影后相同类别的数据分布紧凑,不同类别的数据尽量相互远离。
3) LDA 最多可以降到 k-1 维(k 是训练样本的类别数量,k-1 是因为最后一维的均值可以由前面的 k-1 维的均值表示);
4) LDA 可能会过拟合数据。
简述 ridge regression 算法的流程。
简化:
岭回归的损失系数表达式+最优解
在最小二乘法的基础上加上一个扰动项。
作业三
详述聚类算法 C 均值的步骤。
算法基本步骤
1) 在样本集合中选择 C 个点作为初始类中心;
2) 在剩下的样本点中选择一个,计算其到各个中心点的距离,选取距离最短者将其归为那个类别;
3) 选择下一个样本,重复 2 直到计算完所有样本,若集合不发生变化或达到迭代上限则转 5 否则转 4;
4) 根据当前的类划分情况重新计算中心点,重复步骤 2;
5) 结束算法。
讨论:通过查阅相关文献,简述如何克服 C 均值算法对于聚类中心的敏感性。
FCM 算法(模糊C均值)比硬聚类算法的效果好,但是它仍然存在聚类中心和聚类数需要被提前确定的缺陷。一个好的初始化能够使得最终的聚类效果较为理想,而一个不合适的初始化可能会导致较差的聚类效果。鉴于 FCM 对聚类数初始化的严重依赖,讨论如何能够更好地初始化 FCM, 确定一个较为合适的聚类数及其重要。
百度的一个论文:
在数据采集过程中结合网格聚类算法提高计算效率,为了保存采样数据的分布特点引入权值。根据类别中心密度高、权值大的特征采用寻找连通分量的方法初步确定聚类中心,在此基础上结合自适应免疫算法,动态地确定聚类中心及其类别数。进而使FCM算法跳出局部最优,最大可能地得到全局最优解。
作业四
简述过拟合、欠拟合。
过拟合:训练的模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。
欠拟合:训练样本被提取的特征比较少,导致训练出来的模型不能很好地匹配,表现得很差,甚至样本身都无法高效的识别。
解释:线性可分。
所谓可分指可以没有误差地分开,线性可分就是说可以用一个线性函数把两类样本分开,比如二维空间中的直线、三维空间中的平面以及高维空间中的线性函数。
解释:局部极值和全局极值。
局部极值:函数的局部极值(local extremum of a function)局部极大值与局部极小值的统称.函数在它的定义域的某个开子集上的最大值与最小值。
全局极值:极值包括是给定范围内的函数的最大值和最小值,当给定函数的整个定义域的极值称为全局极值。
神经网络是否可以收敛到全局极值?
从优化的角度来看,一阶方法可以在训练数据上找到全局最优解这事情十分困难。在深度学习中,常用到随机梯度下降法来进行求解局部最优解,在深度学习中由于收敛过程中可能会使收敛点陷入鞍点中, 很难进行全局的优化,虽然有学者提出可以进行全局最优的收敛,但这只是在特定训练任务中才可以做到, 现如今在深度学习中求解全局最优解,还是需要添加相关条件才可以得到特点训练任务的全局最优解。
简述 K 近邻 KNN 分类方法。
算法的描述:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的 K 个点;
4)确定前 K 个点所在类别的出现频率;
5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类
要点
Fisher
求解逆矩阵(待定系数法)
计算方程组,得到a,b,c,d的值