1. 机器学习需要涉及到哪些数学的知识
- 微积分
- 线性代数
- 概率论
- 最优化方法
微积分 | 线性代数 | 概率论 |
---|---|---|
导数 | 向量计算 | 随机事件与概率 |
一阶导数与函数单调性 | 矩阵计算 | 条件概率与贝叶斯公式 |
一元函数极值判定法则 | 张量 | 随机变量 |
高阶导数 | 行列式 | 数学期望与方差 |
二阶导数与函数的凹凸性 | 二次型 | 常用概率分布 |
一元函数泰勒展开 | 特征值与特征向量 | 随机向量 |
偏导数与梯度 | 奇异值分解 | 协方差与协方差矩阵 |
高阶偏导数 | 常用矩阵与向量求导公式 | 最大似然估计 |
雅可比矩阵 | ||
Hessian矩阵 | ||
多元函数泰勒展开 | ||
多元函数极值判定法则 |
2. 知识点
2.1 导数与高阶导数
1. 一阶导数反映的是函数斜率,而二阶导数反映的是斜率变化的快慢,表现在函数的图像上就是函数的凹凸性。
2. 函数的凹凸性:
f′′(x)>0,开口向上,函数为凹函数,f′′(x)<0,开口向下,函数为凸函数。
#例:
f(x) = x^2是凸函数,因为f′′(x)=2>0
f(x) = -x^2则是凹函数,因为f′′(x)=-2<0
3. 函数的拐点和驻点:
驻点是指函数增减性的交替点。如f(x) = x^2,其驻点出现在x=0时,因为此时f'(0) = 0,当 x∈(-∞, 0)时,函数单调递减;而当x∈(0, +∞)时,函数单调递增。
拐点则是函数凹凸性的交替点。如f(x) = x^3,其拐点也出现在x=0时,当 x∈(-∞, 0)时,函数f''(x) = 6x, 无论x取何值,f''(x)恒小于0,为凹函数;而当x∈(0, +∞)时,f''(x)恒大于0,为凸函数。
2.2 一元函数泰勒展开
1. 什么是泰勒展开式?就使用一个多项式函数来模拟一个可导的函数。具体来说就是:
有一个原函数\(f(x)\),我再造一个图像与原函数图像相似的多项式函数\(g(x)\),为了保证相似,我只需要保证这俩函数在某一点的初始值相等,1阶导数相等,2阶导数相等,……n阶导数相等。
也就是说\(g(x)\)满足两点:
1. 初始值相等,即: \(g(x_{0}) = f(x_{0})\),\(x_{0}\)为模拟的初始点。
2. n阶导数相等,即\(g^{n}(x_{0}) = f^{n}(x_{0})\)
推导过程:
首先要在曲线 \(f(x)\) 上任选一个点,为了方便,就选 \((0, f(0))\) ,设仿造的曲线的解析式为 \(g(x)\) ,前面说了,仿造的曲线是一个多项式,假设算到n阶。
能求n次导数的多项式,其最高次数肯定也为n。所以,仿造的曲线的解析式肯定是这种形式:
\(g(x) = a_{0} + a_{1}x + a_{2}x^{2} + ... + a_{n}x^{n}\)
前面说过,必须保证初始点相同,即:
\(g(0) = f(0) = a_{0}\),求出了 \(a_{0}\)
接下来,必须保证n阶导数依然相等,即:
\(g^{n}(0) = f^{n}(0)\)
因为对\(g(x)\)求n阶导数时,只有最后一项为非零值,为\(n!a_{n}\)
由此求出\(a_{n} = \frac{f^{n}(0)}{n!}\)
求出了 \(a_{n}\) ,剩下的只需要按照这个规律换数字即可。即:
\(g(x) = g(0) + \frac{f^{1}(0)}{1!}x + \frac{f^{2}(0)}{2!}x^{2} + \frac{f^{3}(0)}{3!}x^{3} + ... + \frac{f^{n}(0)}{n!}x^{n}\)
如果上面不选0,则通式变为:
\(g(x) = g(x_{0}) + \frac{f^{1}(x_{0})}{1!}(x - x_{0}) + \frac{f^{2}(x_{0})}{2!}(x - x_{0})^{2} + \frac{f^{3}(x_{0})}{3!}(x - x_{0})^{3} + ... + \frac{f^{n}(x_{0})}{n!}(x - x_{0})^{n}\)
结合上面所说的\(g(x)\)是\(f(x)\)的多项式模拟函数,则\(f(x)\)和\(g(x)\)的关系可描述为:
\(f(x) ≈ g(x) = g(x_{0}) + \frac{f^{1}(x_{0})}{1!}(x - x_{0}) + \frac{f^{2}(x_{0})}{2!}(x - x_{0})^{2} + \frac{f^{3}(x_{0})}{3!}(x - x_{0})^{3} + ... + \frac{f^{n}(x_{0})}{n!}(x - x_{0})^{n}\)
这里用“约等于”的原因是,架设n是有限数而不是无穷。如果要改成等号,则公式变为:
\(f(x) = g(x) = g(x_{0}) + \frac{f^{1}(x_{0})}{1!}(x - x_{0}) + \frac{f^{2}(x_{0})}{2!}(x - x_{0})^{2} + \frac{f^{3}(x_{0})}{3!}(x - x_{0})^{3} + ... + \frac{f^{n}(x_{0})}{n!}(x - x_{0})^{n} + ......\)
后面的省略号为误差,又可称为余项,(数学中有拉格朗日余项和佩亚诺余项)