2020年4月2日星期四

理解矩阵的最大特征值

理解矩阵的最大特征值

最近学了numerical analysis, 自我感觉对矩阵有了更深的理解。这主要依赖于对矩阵范数的新认识。特征值作为贯穿矩阵分析始终的一个概念,是至关重要的,但是在此之前,其实我一直没有很好的理解,尤其在于它与奇异值的关系。今天我就来总结一下,顺便作为参考,防止忘性大的自己再忘掉这些重要的观点和结论。

矩阵范数

首先这一切确实是起源于矩阵范数。矩阵的范数除了满足范数的正定性、齐次性以及三角不等式三个要求以外,还应该满足一个与向量范数契合的条件以及一个与矩阵乘法契合的条件。具体而言
AxvAxv, \|Ax\|_v \leq \|A\|\|x\|_v,
以及
ABAB. \|AB\| \leq \|A\|\|B\|.
其中xv\|x\|_v是一个vector norm, 无所谓其具体形式。如果上述两个都满足,那么我们说这个矩阵范数是被这个vector norm 诱导出来的。

这样的定义其实是很严苛的,这导致矩阵范数并没有向量范数那么好构造。而且,还有一个问题是为了使得最后一个不等式有意义,我们定义的矩阵范数必须是对于方阵的,否则它的结构就会因为矩阵乘法而改变。不理解可以先跳过这一部分,其实也无关紧要。其实对于普通矩阵(行数和列数不一定一致),我们同样可以定义其范数,只不过要求会不太一样。

最容易理解的一类矩阵范数叫做operator norm:
Ap=supx0Axpxp. \|A\|_p = \sup_{x\neq 0}\frac{\|Ax\|_p}{\|x\|_p}.
这里p[1,]p\in [1,\infty]. 还有一个Frobenius norm AF=i,jai,j2\|A\|_F = \sum_{i,j} a_{i,j}^2.

当然,传统的矩阵范数,其实满足基本的范数条件即可,后面加的两个都是为了在数值分析中方便研究而引入的。

与最大特征值的联系

如果我们记AA的最大特征值为λmax(A)\lambda_{\max}(A), 那么我们有如下的定理:
λmax(A)=infA. \lambda_{\max} (A) = \inf_{\forall \|\cdot\|} \|A\|.

这是说最特征值是所有范数的取值的下界。注意,如果这个矩阵范数真的是很普通的,没有任何限制的范数,这必然是不成立的,比如范数成倍地缩小或放大后还是范数,但是在这里,既然我们假设范数和某个向量范数联系在一起,那么这个矩阵范数就有最小值,过小的范数都会违背AxvAxv,\|Ax\|_v \leq \|A\|\|x\|_v, 这个条件。

还有一点大家可能会疑惑,就是这个最大特征值本身既然是一堆范数的下确界,那么到底能不能取到呢?实际上,最大特征值并不是个范数,通过如下矩阵
A=(0100) A = \left( \begin{matrix} 0 & 1 \\ 0 & 0 \end{matrix} \right),
我们看到,其λmax=0\lambda_{\max} = 0, 但是其范数绝不可以为0,后者可以通过正定性或其由某向量范数诱导而得到。

最大特征值与最大奇异值

奇异值是什么我就不详细解释了,比较容易理解的就是所有奇异值都来自SVD。但是如何理解奇异值是个十分复杂的事情,我们还要区分他和特征值的差异。为了方便理解,我就说一说最大的那个。

最大特征值,就是最大的可能的λ\lambda v\exists v s.t. Av=λvAv = \lambda v. 而最大奇异值就是最大的可能的σ\sigma v\exist v s.t. Av/v=σ\|Av\| / \|v\| = \sigma. 可以看出,奇异值不像特征值一样关心方向,因此要求弱一些。我们可以立刻得出结论:λmaxσmax\lambda_{\max} \leq \sigma_{\max}.

此外,还有一个重点是,最大奇异值本质上就是operator 2 范数, 也就是说
σmax(A)=supx0Ax2x2=A2. \sigma_{\max}(A) = \sup_{x\neq 0}\frac{\|Ax\|_2}{\|x\|_2} = \|A\|_2.
这样来讲,得到λmaxσmax\lambda_{\max} \leq \sigma_{\max}的结论也并不难以理解了。

记得之前讲过,特征值就是谱,就是矩阵在频域上的表达,这一点我也就不多说了. 还有一个比较有趣的例子是条件数,写作
cond(A)=AA1. cond(A) = \|A\|\|A^{-1}\|.
毫无疑问,这要求AA必须可逆,否则条件数就是无穷;此外条件数是对应于不同矩阵范数的,比如刚才的operator 2 norm 就有一个cond(A)2cond(A)_2. 但是在应用中,大部分时候说到条件数大家想到的还是λmax(A)λmin(A)\frac{\lambda_{\max}(A)}{\lambda_{\min}(A)}. 这个条件数是最容易理解也不依赖矩阵范数的具体形式的。

差点忘了声明,之前说的所有特征值我们只关注magnitude, 也就是说取绝对值,所以都是正的。

本来还有一个事情要写,结果忘了,等什么时候想起来再补上吧。

没有评论:

发表评论

河南游记

 用了将近一周的时间,走过了河南的几个大城市。开封、郑州、登封、洛阳以及途径的三门峡市等。一路上看到了一众人文景观,感受了千年古都残留下的古代文化。