线性代数总结

本文目标

  • 看完“理解部分”可以对矩阵的各种操作有一种通透的感觉,一些性质无需证明即可直观感受对错
  • “性质与方法部分”便于做题和检验“理解部分”
  • “概念总结部分”当做速查手册来使用,上面两部分中提到的一些易忘概念基本都可以在这里找到

本文内容不仅限于《线性代数》,还包括部分《矩阵论》的内容,主要服务于机器学习和深度学习所需。

理解

首先,将矩阵看做一种运动、一种线性变换。例如\(\left[\begin{array}{rr} 0&-1\\1&0 \end{array}\right]\)表示逆时针旋转90度。

  • 矩阵与向量相乘,就是将这个向量进行这种线性变换,例如\(\left[\begin{array}{rr} 0&-1\\1&0 \end{array}\right] \left[\begin{array}{r} 1\\1 \end{array}\right]=\left[\begin{array}{r} -1\\1 \end{array}\right]\)
  • 两个矩阵相乘(比如\(2\times2\)),表示两种变换的叠加,\(AB\)表示先进行\(B\)变换再进行\(A\)变换。也可以理解成\(A\)\(B\)的两个列向量分别变换。
  • 矩阵这种线性变换其实是对基的变换,原来的基是\(\left[\begin{array}{r} 1\\0 \end{array}\right]\)\(\left[\begin{array}{r} 0\\1 \end{array}\right]\),经过变换\(\left[\begin{array}{rr} 0&-1\\1&0 \end{array}\right] \left[\begin{array}{rr} 1&0\\0&1 \end{array}\right]\)得到新的基是\(\left[\begin{array}{r} 0 \\1 \end{array}\right]\)\(\left[\begin{array}{r} -1\\0 \end{array}\right]\),也正是通过新基与原基的关系判断出这个矩阵表示逆时针旋转90度。考虑第一条中对向量\(\left[\begin{array}{r} 1 \\1 \end{array}\right]\)的变换,从新基的视角,这个向量仍然是\(\left[\begin{array}{r} 1\\1 \end{array}\right]\),但是在原来基的视角下向量就是\(\left[\begin{array}{r} -1\\1 \end{array}\right]\)
  • 可逆矩阵则表示进行相反的变换,将变换后的向量变回原来的样子、将变换后的基变回原来的基。
  • 非方阵只是变换前后空间维度放生了变化,依然可以把每一列看做新的基,比如一个\(3\times 2\)的矩阵,表示原来是二维空间,变换后变成三维空间(有两列,新基三个元素表示三个维度)
  • 一个矩阵可以表示哪些变换呢?伸缩、旋转、翻转、投影。
    • 三种初等变换,它们都对应一个矩阵(对单位矩阵进行相应变换),可以想想这几个矩阵单独表示什么样的变换
    • 一个\(m\times n\)的矩阵总是和\(\left[\begin{array}{rr} \mathbf{E_r}&\mathbf{O}\\\mathbf{O}&\mathbf{O} \end{array}\right]\)相抵,这表明矩阵可以看做初等矩阵的乘积,矩阵的变换可看做多个初等变换的叠加。
  • 变换是本质,矩阵只是表现形式,具体来说矩阵是在某一坐标系下该变换的表达。两个相似矩阵表示的是同一种变换,却是以不同的视角,所以得到的矩阵也不一样。
    • 举一个例子
      • 一个这样的变换:横轴扩大2倍,纵轴扩大3倍.
      • \(\left[\begin{array}{rr} 1&0\\0&1 \end{array}\right]\)坐标系下进行这样的变换,用矩阵\(A=\left[\begin{array}{rr} 2&0\\0&3 \end{array}\right]\)表示;
      • \(P=\left[\begin{array}{rr} -1&1\\1&0 \end{array}\right]\)坐标系下进行这样的变换,则用矩阵\(B=PAP^{-1}=\left[\begin{array}{rr} 3&1\\0&2 \end{array}\right]\)表示。
        • 举例:在\(P=\left[\begin{array}{rr} -1&1\\1&0 \end{array}\right]\)坐标系下的伸缩变换:将\(\left[\begin{array}{r} 1\\1 \end{array}\right]\)变成\(\left[\begin{array}{r} 2\\3 \end{array}\right]\),从直角坐标视角来看,就是将\(\left[\begin{array}{r} 0\\1 \end{array}\right]\)变成\(\left[\begin{array}{r} 1\\2 \end{array}\right]\),即\(\left[\begin{array}{r} 1\\2 \end{array}\right]=\left[\begin{array}{rr} 3&1\\0&2 \end{array}\right]\left[\begin{array}{r} 0\\1 \end{array}\right]\)
    • 使用这两个矩阵对一个向量\(\mathbf{x}\)进行变换时,
      • 如果使用\(A\)则是计算\(A\mathbf{x}\),即直接第一个元素乘2,第二个元素乘3
      • 如果使用\(B\)则是计算\(B\mathbf{x}=PAP^{-1}\mathbf{x}\),这表示先写出\(\mathbf{x}\)\(P\)坐标系下的形式,在这个坐标系下第一个元素乘2,第二个元素乘3,然后再转化到原来坐标系
      • 注意\(P\mathbf{x}\)\(P^{-1}\mathbf{x}\)的区别:
        • 已知直角坐标系中的向量\(\mathbf{x}\),做\(P\)变换得到\(P\mathbf{x}\),这个结果仍然是从直角坐标系的视角去看的
        • 已知直角坐标系中的向量\(\mathbf{x}\),要看这个向量在\(P\)坐标系中如何表示,则为\(P^{-1}\mathbf{x}\)\(P\)坐标系中的向量\(\mathbf{y}\)在直角坐标系中表示则是\(P\mathbf{y}\)
    • 这个例子说明,一个变换在不同坐标系下表现为不同矩阵;同理,一个矩阵是哪种变换也取决于坐标系,比如在\(P\)坐标系下\(A\)就不是表示横轴扩大2倍,纵轴扩大3倍了。为一个矩阵找到一组坐标系,在这个坐标系下这个矩阵表示的只是简单的伸缩变换,这个过程就是计算特征值和特征向量的过程。

矩阵\(A\)特征值和特征向量满足\(A\mathbf{x}=\lambda \mathbf{x}\)

  • 几何理解:一个变换\(A\)作用于一个向量\(\mathbf{x}\)一般会造成该向量的旋转,而如果能找到一个\(\mathbf{x}\),用\(A\)作用后没有发生旋转(但有可能发生伸缩),则\(\mathbf{x}\)就是\(A\)的特征向量,伸缩的量就是特征值,如果特征值是负数则表示变为反方向,这个几何理解从前面的公式就可以看出来。
  • 特征向量表示变换不发生旋转的方法,如果以特征向量的方向建立坐标系,则这个矩阵表示的变换就只是简单的伸缩变换。于是我们可以将一个表示复杂变换的矩阵拆解,变成选定坐标系和伸缩变换这两个过程,这就是矩阵的对角化\(\Lambda=P^{-1}AP\),这又和前面的相似联系了起来。
  • 举个例子,矩阵\(\left[\begin{array}{rr} 3&1\\0&2 \end{array}\right]\)\([(1, 0), (0, 1)]\)坐标系下表示的变换是带有一定扭曲旋转的,而在\([(-1, 1), (1, 0)]\)坐标系下则只有伸缩过程,因为这是该矩阵两个特征向量的方向。
  • 矩阵的对角化可以使一些问题简化,例如求\(A^{100}\),可以转化为求\((P\Lambda P^{-1})^{100}\)
  • 矩阵\(A\)乘任意一个向量\(\mathbf{x}\)都可以分解到特征向量的方向,以二维为例,\(A\mathbf{x}=A(a\mathbf{v}_1+b\mathbf{v}_2)=a\lambda_1\mathbf{v}_1+b\lambda_2\mathbf{v}_2\),则\(A^k\mathbf{x}=a\lambda_1^k\mathbf{v}_1+b\lambda_2^k\mathbf{v}_2\),比如\(\lambda_1<1, \lambda_2>1\),则当\(k\)逐渐增大,第一项会趋近于0。这表明矩阵作用于任意向量\(\mathbf{x}\),作用多次后的结果主要是沿\(\mathbf{v}_2\)方向变化的。这在状态转移中可以得到应用,参考Eigenvectors and Eigenvalues
  • 上一条的分解方式可以导出,矩阵的最大特征值是否大于1决定了一个向量多次左乘这个矩阵,得到的向量是趋近于0还是趋近于无穷。

行列式

  • 几何理解:矩阵的行或列向量所构成的超平行多面体的有向体积,例如二维矩阵就是两个列向量组成的平行四边形面积。它表示这个变换对空间体积的变化倍数。
  • 行列式等于所有特征值的乘积、相似矩阵行列式相等(且特征值相等)。这两条性质,表明同一变换在不同坐标系下虽然表现为不同矩阵,但它们对空间的伸缩量是一样的;所以要求行列式,直接看特征向量构建下的坐标系中的伸缩量(特征值)即可。

  • 不满秩矩阵:线性相关、不可逆、行列式为0、特征值存在0。我们现在可以从几何的角度理解这些事
  • 不满秩矩阵对应的变换,会造成新空间维度的降低。之前我们说矩阵变换包括的一种形式——投影,就是指这一点。例如二维矩阵\(\left[\begin{array}{rr} 1&-1\\-1&1 \end{array}\right]\),原来两个基向量,映射后变成了同一方向,新的空间将局限于一条线上。同理,三维不满秩矩阵变换后,新空间局限于一个面上。一个矩阵的秩就表示该变换产生新空间的维度。此外还可以使用这种几何意义去理解秩的那些性质。
  • 解释上面几条
    • 线性相关:以三维为例,第三个向量落在了前两个向量组成的平面内,而没有去扩展出第三个维度,导致了维度的降低;
    • 不可逆:新空间少了一个维度,肯定变不回原空间;
    • 行列式为0:一个方向被压缩到了0,计算体积肯定是0;
    • 特征值存在0:在特征向量坐标系下,变换完全是各个基向量的伸缩,要想表示降低维度,肯定是至少一个方向压到了0。
  • n阶方阵,秩与非零特征根的关系
    • 秩为\(r\)则说明\(\lambda=0\)的几何重数是\(n-r\)。则代数重数更高,说明非零特征值个数不超过\(r\)
      • 几何重数解释:因为此时\(A\mathbf{x}=\lambda \mathbf{x}=0\),解这个方程,基础解系的个数与\(A\)的秩直接建立了联系
    • 如果矩阵\(A\)可对角化,则代数重数等于几何重数,则非零特征值个数与秩相等

投影

  • 求向量\(\mathbf{b}\)在向量\(\mathbf{a}\)上的投影,记为\(\mathbf{p}\)。设\(\mathbf{p}=x\mathbf{a}\),则有\(0=\mathbf{p}^{\mathrm{T}}(\mathbf{p}-\mathbf{b})=x\mathbf{a}^{\mathrm{T}}(x\mathbf{a}-\mathbf{b})\),所以\(\mathbf{p}=\mathbf{a}x=\mathbf{a}\frac{\mathbf{a}^{\mathrm{T}}\mathbf{b}}{\mathbf{a}^{\mathrm{T}}\mathbf{a}}\)。现在我们想要得到一个投影矩阵,即\(\mathbf{b}\)经过这个矩阵的变换可以直接得到\(\mathbf{p}\),从上式可以看出这个矩阵是\(\frac{\mathbf{a}\mathbf{a}^{\mathrm{T}}}{\mathbf{a}^{\mathrm{T}}\mathbf{a}}\),这个矩阵称为投影矩阵。
  • 投影矩阵是幂等矩阵,几何含义是投影一次和投影多次结果一样。投影矩阵除了单位阵都不可逆,因为投影涉及降维,原来空间中各个方向的向量变换都在一条直线上了(以向量投影为例)。
  • 更高维情况。三维向量投影到一个平面时,一个二维平面可以由两个线性无关、长度为3的向量确定,即由一个\(3\times 2\)的矩阵确定。所以向量\(\mathbf{b}\)向矩阵\(A\)表示的空间投影时对应的矩阵为\(A(A^{\mathrm{T}}A)^{-1}A^{\mathrm{T}}\),其中\(A\)行数大于列数。承接前面,如果\(A\)\(3\times 1\)则还是向向量投影,降低了两个维度;如果\(A\)\(3\times 3\)则是向整个空间投影还是它本身,反映在投影矩阵上即\(A\)为方阵,中间的可逆项写开,投影矩阵就是单位矩阵。
  • 投影矩阵是对称矩阵一定可以对角化,与之相似的矩阵依然是一个投影矩阵,还是投到那个向量上,只是新的坐标系下那个向量的表示不一样了。
  • 应用:多元线性回归的最小二乘结果求出的\(\hat Y\)就是\(Y\)向量在\(X\)张成的空间上的投影,用公式表示为\(\hat Y=X(X^{\mathrm{T}}X)^{-1}X^{\mathrm{T}}Y\)。其目标是用\(X\)列向量的线性组合找到一个和\(Y\)最近的向量\(\hat Y\)
  • 投影矩阵是幂等矩阵,因此特征值只能取0或1,半正定;同时又可对角化,则非零特征值个数与秩相等。由此得出结论:投影矩阵的迹和秩相等。令\(P=X(X^{\mathrm{T}}X)^{-1}X^{\mathrm{T}}\)\(\operatorname{tr}(P)=\operatorname{rank}(P)\)
    • 同理,\(M=I-P\)也是对称矩阵可对角化,也是幂等矩阵,则迹也和秩相等。

n阶方阵\(A\)可对角化

  • 等价于\(A\)有n个线性无关的特征向量,这又意味着每个特征值的几何重数等于代数重数。
  • 首先要明确,\(A\)“有代表性”(不考虑特征向量的线性组合)的特征向量总是线性无关的,这是因为不同特征值的特征向量线性无关,一个特征值里基础解系向量之间也线性无关。那么一个方阵不可对角化,是因为拿不出n个这么多线性无关的特征向量。为什么会出现这种情况呢?因为几何重数小于代数重数。
  • 重数(multiplicity)定义:\(A\)的特征多项式\(f_A(\lambda)\)可以因式分解为类似这种形式\((\lambda-\lambda_1)^{n_1}...(\lambda-\lambda_t)^{n_t}\)\(\lambda_1\)\(f_A(\lambda)\)\(n_1\)重根,即代数重数为\(n_1\)。但用\(\lambda_1\)去算特征向量,不一定能得到\(n_1\)个,比如得到\(s_1\)个,几何重数就是\(s_1\),总有\(s_1\leq n_1\)。几何重数取决于基础解系,与要解方程那个矩阵的秩有关。
  • 举一个例子,\(\left[\begin{array}{rr} 1&1\\0 &1 \end{array}\right]\)就不可对角化,它只能找到一个方向不受变换影响\((1, 0)\)
  • 甚至有些矩阵找不到 变换后不发生旋转的向量,例如矩阵\(\left[\begin{array}{rr} 0&-1\\1&0 \end{array}\right]\)表示逆时针旋转90度,如果去算特征值会发现没有实根。
  • 因此可对角化是矩阵的一种特点,有这种特点的变换可以据此简化一些计算。不可对角化的矩阵表示这个变换无法在某一坐标系下单纯地看做伸缩变换。
  • 有些矩阵无法对角化,但都相似于Jordan标准型,对角矩阵是一种特例。Jordan标准型对角线上是一些Jordan块,每个块对应一个特征值,对角线元素相等都等于这个特征值,对角线上方元素可能是1,其他元素都是0。
    • 所以每个矩阵都相似于一个对角矩阵与幂零矩阵的和。这种看待方式也可以简化矩阵的乘方。
    • 如果Jordan块维度都是1则矩阵是对角矩阵。一个特征值的Jordan块个数是它的几何重数,一个特征值的Jordan块阶数之和是它的代数重数。Jordan块的个数是线性无关特征向量的个数。
  • 矩阵对角化的过程、找特征向量的过程,就是在找不变子空间的过程。一个矩阵不可对角化表示它有2维以上的不可进一步拆分的不变子空间,这就表现为Jordan块的维度。

对称矩阵

  • 对于一个可对角化的矩阵,它可以找到一组基,在该坐标系下这个变换只是伸缩变换;但如果找到的这组基是正交的就更好了。
    • 注意:线性无关与正交是两回事。我们一般建立的三维坐标系是正交的,三个方向两两垂直;而想象正四面体的一个角连接的三条边,它们线性无关,但不是正交的。
  • 实对称矩阵一定可以对角化,而且找到的基是正交的。即\(\Lambda=P^{-1}A P\)\(P\)是一个正交矩阵,也可以写成\(\Lambda=P^{\mathrm{T}}A P\)
  • 对称矩阵表示的变换称为对称变换,有这样的性质:\(\langle \phi(\mathbf{\alpha}), \mathbf{\beta}\rangle=\langle\mathbf \alpha, \phi(\mathbf{\beta})\rangle\)。直观上可以感受到,在正交坐标系下的伸缩变换可以满足这条性质。而对称矩阵的正交对角化则说明这个矩阵确实表示,在某一正交坐标系下的伸缩变换。

二次型

  • 举一个例子
    • \(f(x_1, x_2)=2x_1^2+6x_1x_2+5x_2^2\),这是一个代数式,可以通过配方得到\(=y_1^2+y_2^2\),其中\(y_1=x_1+x_2\)\(y_2=x_1+2x_2\)
    • 将上式用矩阵表示为\(f(x)=X^{\mathrm{T}}AX\),其中\(A=\left[\begin{array}{rr} 2&3\\3 &5 \end{array}\right]\)\(X=\left[\begin{array}{r} x_1\\x_2 \end{array}\right]\)。通过变换\(X=CY\),其中\(C=\left[\begin{array}{rr} 2&-1\\-1 &1 \end{array}\right]\),可得\(f(x)=Y^{\mathrm{T}}C^{\mathrm{T}}ACY=Y^{\mathrm{T}}BY=y_1^2+y_2^2\),其中\(B=\left[\begin{array}{rr} 1&0\\0 &1 \end{array}\right]\)
    • 如果表示为矩阵形式时,\(A\)不是对称矩阵,而是\(A=\left[\begin{array}{rr} 2&0\\6 &5 \end{array}\right]\),则用相同的变换依然可以达到配方的效果,只是\(B=\left[\begin{array}{rr} 1&-3\\3 &1 \end{array}\right]\),交叉项一正一负也会消掉。
  • 上面例子说明将系数看做矩阵,可以将代数配方的问题,转化为矩阵合同的问题。一般我们都会将系数看做对称矩阵,则一定可以对角化,而且\(P\)是正交矩阵,也满足现在的合同条件,此时\(B\)对角线上的元素就是系数矩阵的特征值。注:上面的\(B\)不是用这种方法得到的。
  • 在将二次型化为标准型时,只需要进行对角化,这时相似与合同等价。但合同还可以进一步化为规范型,即\(B\)对角线元素只会是\(1\)\(-1\)
  • 二次型的应用:圆锥曲线。给出一个椭圆方程\(2x^2+6xy+5y^2=1\),想知道椭圆的长轴短轴大小和方向,可以通过计算矩阵\(\left[\begin{array}{rr} 2&3\\3 &5 \end{array}\right]\)的特征值和特征向量获取。特征向量方向就是两轴方向,特征值是半轴长平方的倒数。注意:这里的椭圆不涉及平移,它的中心总是在原点,因此没有类似\(2x+3y\)这样的一次项。
  • 二次型的应用:优化问题。可以通过研究矩阵的性质来研究这个函数。例如正定矩阵对应严格的凸函数。

注:

  • 本文不考虑复数
  • 本文尽可能地用几何理解矩阵,但不是所有的矩阵操作都可以用几何来解释,我相信矩阵这一代数概念有比其几何意义更广泛的延伸。只是知道了几何意义,日后在遇到问题时可以试着用这种角度来想一想。
    • 数缺形时少直观,形少数时难入微。 ——华罗庚
    • 例如,矩阵转置就很难从几何角度理解

性质与方法

行列式计算方法

  • (只有方阵才能计算行列式)
  • 任意选择一行,用元素与它的代数余子式相乘再加起来,即\(|A|=a_{11}A_{11}+a_{21}A_{21}+...+a_{i1}A_{i1}+...+a_{n1}A_{n1}\)
  • 行列式展开式的每一项是不同行不同列元素相乘再乘一个符号项
  • 初等变换的影响
    • 互换矩阵两行,行列式变号
    • 行列式的一行乘一个常数加到另一行上,不改变行列式值
    • 矩阵\(A\)某一列乘一个常数\(c\)得到\(B\),则\(|B|=c|A|\)
  • 一般计算法方法:使用初等变换将某一行/列变成只有一个非零元素,使用第一条的公式计算,一层一层剥
  • 上三角矩阵行列式等于对角元的乘积
  • 矩阵两列相同则行列式为0,转置不改变行列式的值,逆矩阵行列式变为倒数
  • \(A, B\)是n阶方阵,则\(|AB|=|A||B|\)
  • \(A\)是n阶方阵,\(B\)是m阶方阵,则\(\left|\begin{array}{rr} A&O\\C &B \end{array}\right|=|A||B|\)

求逆矩阵的方法

  • \((A,E)\)做行初等变换变成\((E, A^{-1})\)。另外如果已知\(A, B\),要计算\(B^{-1}A\)时也可用\((B, A)\)做行初等变换
  • \(A^{-1}=\frac1{|A|} A^\#\),其中\(A^\#\)为伴随矩阵。这可以快速写出\(2\times 2\)矩阵的逆矩阵,\(3\times 3\)的矩阵也可以用这种方式求

秩的性质

  • \(\operatorname{rank}(A B) \leq \min (\operatorname{rank} A, \operatorname{rank} B)\)
  • \(\operatorname{rank}(A)+\operatorname{rank}(B)-n \leq \operatorname{rank}(A B)\)
  • \(\operatorname{rank}(A B)+\operatorname{rank}(B C) \leq \operatorname{rank}(B)+\operatorname{rank}(A B C)\),上面一条是这条的特例,令\(B\)是单位阵
  • \(\operatorname{rank}\left(A^{T} A\right)=\operatorname{rank}\left(A A^{T}\right)=\operatorname{rank}(A)=\operatorname{rank}\left(A^{T}\right)\)
  • 注意\(\operatorname{rank}(AB)\)不一定等于\(\operatorname{rank}(BA)\),反例:\(A=\left[\begin{array}{rr} 0&1\\0 &0 \end{array}\right]\)\(B=\left[\begin{array}{rr} 1&0\\0 &0 \end{array}\right]\)
  • \(\operatorname{rank}(A)=n-\operatorname{nullity}(A)\),这是rank-nullity theorem。
    • 应用:例如\(B\mathbf{x}=0\)的解空间,一定能满足\(AB\mathbf{x}=0\),所以\(AB\)零空间更大(不小于),维度就更大,秩就更小。第一四条性质可以用这一点配合下面一条性质证明。
  • \(\operatorname{rank}(A)=\operatorname{rank}(A^{\mathrm{T}})\)
    • 应用:比如已经证出\(\operatorname{rank}(AB)\leq\operatorname{rank}(B)\),同理可知\(\operatorname{rank}(AB)=\operatorname{rank}(B^{\mathrm{T}}A^{\mathrm{T}})\leq\operatorname{rank}(A^{\mathrm{T}})=\operatorname{rank}(A)\)
  • 行(列)初等变换不影响矩阵的秩
    • 扩展:左乘或右乘一个可逆矩阵不改变秩。因为可逆矩阵可以看做初等矩阵相乘
    • 扩展:对分块矩阵的“初等变换”也不影响矩阵的秩。因为做一次初等变换也相当于左(右)乘一个可逆矩阵。下面用这个方法证明第三条性质

\[ \begin{align} \operatorname{rank}(ABC)+\operatorname{rank}(B) &=\operatorname{rank} \left(\begin{array}{rr} ABC&\mathrm{O}\\\mathrm{O} & B \end{array}\right) =\operatorname{rank} \left(\begin{array}{rr} ABC&AB\\\mathrm{O} & B \end{array}\right)\\ &=\operatorname{rank} \left(\begin{array}{rr} \mathrm{O}&AB\\-BC & B \end{array}\right) =\operatorname{rank} \left(\begin{array}{rr} AB&\mathrm{O}\\B & BC \end{array}\right)\\ &\geq\operatorname{rank} \left(\begin{array}{rr} AB&\mathrm{O}\\\mathrm{O} & BC \end{array}\right) =\operatorname{rank}(AB)+\operatorname{rank}(BC) \end{align} \]

将变换写成矩阵相乘:\(\left(\begin{array}{rr} \mathrm{I}&A\\\mathrm{O} & \mathrm{I} \end{array}\right) \left(\begin{array}{rr} ABC&\mathrm{O}\\\mathrm{O} & B \end{array}\right)= \left(\begin{array}{rr} ABC&AB\\\mathrm{O} & B \end{array}\right)\),左乘的矩阵可逆因为行列式为1。

这里要注意一点,第一步变换不能变成这样\(\left(\begin{array}{rr} ABC&BC\\\mathrm{O} & B \end{array}\right)\),因为将第二行乘一个矩阵加到第一行是在做行变换,应该左乘矩阵,所以不能得到像\(BC\)这种在右边乘矩阵的结果。

迹的性质

  • 标量的迹等于自身:\(\operatorname{tr}(a)=a\)
  • 转置:\(\operatorname{tr}(A^{\mathrm{T}})=\operatorname{tr}(A)\)
  • 线性:\(\operatorname{tr}(A\pm B)=\operatorname{tr}(A)\pm \operatorname{tr}(B)\)
  • 交换:\(\operatorname{tr}(A^{\mathrm{T}}B)=\operatorname{tr}(B^{\mathrm{T}}A)\),其中\(A\)\(B\)维度相同,迹结果等于\(\sum_{i, j} A_{ij}B_{ij}\)
    • 常见的应用场景:将\(X\)\(X^{-1}\)凑到一起约掉,将两个\(\Sigma^{\frac12}\)凑在一起
    • 有很多项相乘时不可随意交换顺序 ,要保证维度对应,矩阵相乘有意义;多项相乘常见交换方式:从中间切一刀,右边整体移到左边
    • 类似地有:\(\operatorname{tr}\left(A^{T}(B \odot C)\right)=\operatorname{tr}\left((A \odot B)^{T} C\right)\),其中\(A, B, C\)维度相同,迹结果为\(\sum_{i, j} A_{ij}B_{ij}C_{ij}\)
    • 深度学习中的卷积计算可以写成矩阵相乘取迹的形式
    • \(\operatorname{tr}(AA^{\mathrm{T}})=\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2\)
      • 应用:比如判断两个矩阵\(A\)\(B\)是否相近,要计算\(\sum_{i=1}^m\sum_{j=1}^n (a_{ij}-b_{ij})^2\)是否足够小,其实就是看\(\operatorname{tr}\left[(A-B)(A-B)^{\mathrm{T}}\right]\)

矩阵正定判断方法

  • (首先必须是对称的,因为只有对称矩阵才会讨论是否正定的问题)
  • \(x^{\mathrm{T}}Ax>0\) (iff)
  • 所有特征值都是正的 (iff)
  • 所有顺序主子式都是正的 (iff)(但顺序主子式都非负不能推出半正定)
  • 二次型是凸函数 (iff)
  • 矩阵可以写成\(A^{\mathrm{T}}A\)形式,\(A\)可以是可逆矩阵,或秩为\(n\)\(m\times n\)矩阵,或对角线元素都是正的上三角矩阵
  • 对称的strict对角占优矩阵,且对角元都为正,则矩阵正定

正定矩阵的性质

  • 矩阵\(A\)正定可以写成\(A>0\);对称矩阵;上面标 (iff) 的就不在这里提了。
  • 正定矩阵可逆,且逆矩阵也是正定的。因为特征值是倒数也是正的。
  • 两正定矩阵的和是正定矩阵(由定义可得)
  • 可对角化,可求\(A^{\frac12}\)
  • 如果\(A\)\(B\)都是正定矩阵
    • \(ABA\)也是正定矩阵
    • 如果\(AB=BA\),则\(AB\)是正定矩阵
  • 如果\(A\)正定,则对任一列满秩矩阵\(Q\),有\(Q^{\mathrm{T}}AQ\)正定
    • 如果\(A\)半正定,则对任意矩阵\(Q\)\(Q^{\mathrm{T}}AQ\)半正定
  • 矩阵\(A\)正定,则\(A\)的所有主子矩阵全正定
  • 正定矩阵对角线元素都为正
    • 半正定矩阵对角线元素都非负
    • 更一般地,最大的对角元素不超过最大特征值,最小的对角元素不小于最小特征值,参考这里

矩阵分解

  • Spectral Decomposition(特征值分解、谱分解):对一个对称方阵\(A\),它有成对的特征值和特征向量\((\lambda_i, \mathbf{x}_i)\),则\(A\)可以进行这样的分解\(A=CDC^{\mathrm{T}}=\sum_{i=1}^n \lambda_i \mathbf{x}_i \mathbf{x}_i^{\mathrm{T}}\),其中\(C\)是正交矩阵,每一列都是特征向量(标准化后的),\(D\)是特征值对角矩阵。
    • 注意:区别于\(\Lambda=P^{\mathrm{T}}AP\),转置项在前在后的问题,一个是将矩阵分解一个是对矩阵进行变换,要移项。
      • 此外,通过计算特征值特征向量的方式来求\(C, D\)时,\(C\)必须标准化变成正交矩阵,这样才能保证\(C^{-1}=C^{\mathrm{T}}\)
    • 谱分解使矩阵的次方运算更为方便,\(A^k=CD^kC^{\mathrm{T}}\),例如\(k=\frac12, 2, -1\)
      • 但这些次方对矩阵有要求,即可对角化且特征值满足相应条件
        • 例如\(\frac12\)要求矩阵正定(对称),\(2\)则只要求是方阵,\(-1\)要求可逆。
      • 应用:正定矩阵就可以拆开写,如\(A=A^{\frac12}A^{\frac12}\),便于一些需要将矩阵拆成两项的证明
    • 补充一条性质:\(\mathbf{x}_i^{\mathrm{T}} A \mathbf{x} = \lambda_i\)
  • Cholesky Decomposition:半正定且对称方阵\(A\)可以分解为\(LL^{\mathrm{T}}\),其中\(L\)为下三角矩阵
    • 如果矩阵正定,则分解是唯一的,否则不一定唯一
    • 更多内容参考下面:特殊矩阵\(A^{\mathrm{T}}A\)
  • Singular Value Decomposition(SVD, 奇异值分解):\(A\)是一个\(m\times n\)的矩阵,可以分解为\(U\Sigma V^{\mathrm{T}}\),其中\(U\)\(m\times m\)的正交矩阵,\(V\)\(n\times n\)的正交矩阵,\(\Sigma\)是非负实对角矩阵,对角元素称为\(M\)的奇异值。
    • 计算方法:\(U\)\(AA^{\mathrm{T}}\)的特征向量组成,\(V\)\(A^{\mathrm{T}}A\)的特征向量组成。奇异值是\(A^{\mathrm{T}}A\)正的特征值的开方,即下面的\(\lambda_i\),注意到\(A^{\mathrm{T}}A\)\(AA^{\mathrm{T}}\)的非零特征值相同(零特征值数量不同)。
    • \(A=\sum_{i=1}^r \lambda_i \mathbf{u}_i \mathbf{v}^{\mathrm{T}}_i= U_r\Lambda_r V_r^{\mathrm{T}}\),其中\(r\)为矩阵\(A\)的秩,奇异值的个数为\(r\)(算重复的)。
      • \(\Lambda_r\)\(r\times r\)的对角矩阵,\(U_r\)维度为\(m\times r\)\(V_r\)维度为\(n\times r\)\(U_r\)的每一列都是特征向量,线性无关;\(V_r\)也是。
      • 为什么奇异值个数是\(r\)?即考虑\(A^{\mathrm{T}}A\)为什么有\(r\)个非\(0\)特征值,也就是特征多项式展开有几项\((\lambda-c)\)相乘。首先\(A\)的秩是\(r\)\(A^{\mathrm{T}}A\)的秩也是\(r\);其次\(A^{\mathrm{T}}A\)可对角化则代数重数等于几何重数。所以\(A^{\mathrm{T}}A\)的秩为\(r\)表示\(0\)特征值的几何重数为\(n-r\),则代数重数也是\(n-r\),所以就有\(r\)个非\(0\)特征值。
      • 也是因为\(A^{\mathrm{T}}A\)\(AA^{\mathrm{T}}\)代数重数等于几何重数,所以\(r\)个非零特征值会对应\(r\)个线性无关的特征向量,从而组成\(U_r\)\(V_r\)

逆矩阵相关

  • \((A^{\mathrm{T}})^{-1}=(A^{-1})^{\mathrm{T}}\)
  • 如果矩阵\(A\)各列线性无关,则\(A^{\mathrm{T}}A\)可逆。
  • 下面两句话等价:\(A\mathbf{x}=\mathbf{0}\)可推出\(\mathbf{x}=\mathbf{0}\)\(A\)可逆
  • \(A=\left[\begin{array}{rr} a&b\\c&d \end{array}\right]\),则\(A^{-1}=\frac{1}{|A|}\left[\begin{array}{rr} d&-b\\-c&a \end{array}\right]\)
  • \(A=\left[\begin{array}{rr} A_{11}&A_{12}\\A_{21}&A_{22} \end{array}\right]\),则通过\(AA^{-1}=\mathrm{I}\)\(A^{-1}A=\mathrm{I}\) 两种方式推导,可以得到下面两种形式的逆

\[ A^{-1}=\left(\begin{array}{lr}{\left(A_{11}-A_{12} A_{22}^{-1} A_{21}\right)^{-1}} & {-A_{11}^{-1} A_{12}\left(A_{22}-A_{21} A_{11}^{-1} A_{12}\right)^{-1}} \\ {-A_{22}^{-1} A_{21}\left(A_{11}-A_{12} A_{22}^{-1} A_{21}\right)^{-1}} & {\left(A_{22}-A_{21} A_{11}^{-1} A_{12}\right)^{-1}}\end{array}\right) \]

\[ A^{-1}=\left(\begin{array}{lr} {\left(A_{11}-A_{12} A_{22}^{-1} A_{21}\right)^{-1}} & -\left(A_{11}-A_{12} A_{22}^{-1} A_{21}\right)^{-1}A_{12}A_{22}^{-1}\\ -\left(A_{22}-A_{21} A_{11}^{-1} A_{12}\right)^{-1} A_{21}A_{11}^{-1} & {\left(A_{22}-A_{21} A_{11}^{-1} A_{12}\right)^{-1}}\end{array}\right) \]

其他性质

  • \(A^2=I\)\(A\)不一定是\(I\),有可能是对称正交矩阵,例如\(\left[\begin{array}{rr} \frac{\sqrt{2}}{2}&\frac{\sqrt{2}}{2}\\\frac{\sqrt{2}}{2} &-\frac{\sqrt{2}}{2} \end{array}\right]\)
  • 矩阵旋转\(\left[\begin{array}{rr} \cos(\theta)&-\sin(\theta)\\\sin(\theta)&\cos(\theta) \end{array}\right]\),逆时针旋转\(\theta\)
  • 对角块矩阵\(L\)\(L_1, L_2, \cdots, L_k\)组成,则\(L_i\)的特征值也是\(L\)的特征值,对应特征向量就是将其他部分填成0

概念总结

余子式和伴随矩阵

  • 余子式\(M_{ij}\):给定一个矩阵\(A=(a_{ij})_{m\times n}\),元\(a_{ij}\)的余子式是去掉第\(i\)行第\(j\)列的矩阵的行列式值
  • 代数余子式:在余子式上加了一个正负号,\(C_{ij}=(-1)^{i+j}M_{ij}\)
  • 伴随矩阵(Adjoint matrix):对一个方阵,将所有元素换成这个元素的代数余子式,再转置形成的矩阵。用\(\operatorname{adj}(A)\)表示,或\(A^\#\)。其中\(A^\#_{ij}=C_{ji}\)

初等变换

  • 行初等变换(列同理)
    • 互换变换\(E(i, j)\):交换矩阵的两行
    • 倍法变换\(E(i(c))\):用某一非零常数\(c\)乘矩阵某一行
    • 消元变换\(E(i, j(c))\):将矩阵某一行乘c加到另一行
  • 初等矩阵(elementary matrix):对单位矩阵进行一次初等变换得到的矩阵,初等矩阵都可逆
  • 行初等变换相当于左乘一个初等矩阵;列初等变换相当于右乘一个初等矩阵
  • 可逆矩阵与单位阵行(列)等价,即可以拆成多个初等矩阵相乘

主子式

  • 一个\(n\)阶矩阵的\(k\)阶主子式表示选\(k\)行,同时选与行数相同的那\(k\)列,形成一个矩阵,计算其行列式的值。一个\(n\)阶矩阵的\(k\)阶主子式可以有很多个,因为选\(k\)行的方式有很多。
  • 一个\(n\)阶矩阵的\(k\)阶顺序主子式( leading principal minors ),表示选\(1\)\(k\)行的这种主子式。
  • 如果不取行列式,则称为主子矩阵(principal submatrix)

相抵、相似、合同

  • 相抵:不要求方阵,两个矩阵可以通过有限次初等变换相互转化。一个矩阵总是和\(\left(\begin{array}{rr} \mathbf{E_r}&\mathbf{O}\\\mathbf{O} &\mathbf{O} \end{array}\right)\)相抵。
  • 相似:方阵,\(B=P^{-1}A P\),其中\(P\)为可逆矩阵。
    • 相似矩阵有相同的秩、行列式、迹、特征值
    • 两个相似矩阵是同一线性变换在不同基下的表现
  • 合同:方阵,\(B=P^{\mathrm{T}}A P\),其中\(P\)为可逆矩阵。合同必相抵,合同矩阵有相同的秩

空间

  • 子空间:类似三维空间中的一个平面,平面中两向量加减仍在平面内
  • 交空间:类似两个平面的交集是一条线
  • 和空间:两个空间中向量做和形成的空间
  • 零空间:矩阵\(A\)的零空间表示\(Ax=O\)的所有\(x\)的解的集合
  • 直和分解:\(V=V_1\oplus V_2\)。将一个空间分成2个不相交的子空间。
    • 一个\(V\)空间中的向量由\(V_1, V_2\)中向量相加表示,只有一种表示方式
    • 例如三维空间分为直角坐标系的xy, z两个空间,\((1,1,1)=(1,1,0)+(0, 0, 1)\)
    • 反例:分为xy, xz两个空间,则\((1,1,1)=(1,1,0)+(0,0,1)=(0,1,0)+(1,0,1)\),这就有了两种表示方式

映射

  • 线性映射:(1) \(\alpha, \beta \in V\)\(\phi(\alpha+\beta)=\phi(\alpha) +\phi(\beta)\),(2) \(\alpha\in V\)\(\phi(c\alpha)=c\phi(\alpha)\)
  • 投影映射:\(V=V_1\oplus V_2\)\(V\rightarrow V_1\),也是线性映射
  • 嵌入映射:\(V=V_1\oplus V_2\)\(V_1\rightarrow V\),也是线性映射
  • 同构映射:两个线性空间\(U, V\)之间的一一映射
  • 线性变换:线性空间\(V\)\(V\)本身的映射
  • 不变子空间:线性变换有\(\phi(V)\subseteq V\),若对\(V\)的子空间\(U\)仍有\(\phi(U)\subseteq U\),则\(U\)\(\phi-\)不变子空间
    • 举例:从某一坐标系视角下,矩阵可以看做伸缩变换,则坐标轴方向就是一个不变子空间,因为坐标轴方向的向量经过这个变换只是在伸缩仍然在坐标轴直线上。

特殊矩阵

  • 对称矩阵
    • 两个对称矩阵相加仍是对称矩阵
    • 两个对称矩阵相乘不一定是对称矩阵
      • 假设有对称矩阵\(A\)\(B\)\(AB\)对称等价于\(AB=BA\)
    • 对称矩阵的幂仍是对称矩阵
    • 对称矩阵的逆(如果存在)仍是对称矩阵
      • 证明:伴随矩阵求逆,即\(A^{-1}=\frac1{|A|} A^\#\)
    • \(X\)对称则对任意\(A\)\(AXA^{\mathrm{T}}\)对称
    • \(A\)为对称矩阵,对两个向量\(\mathbf{x}, \mathbf{y}\),有\(\mathbf{x}^{\mathrm{T}}A\mathbf{y}=\mathbf{y}^{\mathrm{T}}A\mathbf{x}\)
      • 证明:转置一下,注意到\(A=A^{\mathrm{T}}\)即可
      • 应用:\((\mathbf{x}+\mathbf{y})^{\mathrm{T}}A(\mathbf{x}-\mathbf{y})=\mathbf{x}^{\mathrm{T}} A\mathbf{x}-\mathbf{y}^{\mathrm{T}} A\mathbf{y}\)
  • 正规矩阵\(A\):方阵,满足\(AA^{\mathrm{T}}=A^{\mathrm{T}}A\)
    • \(A\)是正规矩阵等价于可写成\(A=P^{\mathrm{T}}\Lambda P\)形式,对应特征值特征向量,而且\(P^{\mathrm{T}}P=I\),就相当于正交对角化了。
    • 所有正交矩阵、对称矩阵、反对称矩阵(\(A^{\mathrm{T}}=-A\))都是正规矩阵
  • 正交矩阵\(A\):方阵,\(AA^{\mathrm{T}}=A^{\mathrm{T}}A=I\)
    • \(A^{\mathrm{T}}=A^{-1}\),行列式为1或-1
    • 将原来的直角坐标系做这样的变换,结果坐标系还是正交的,就好像只是将原来的坐标系进行了旋转。而实际上也是,行列式为1的正交矩阵就是一个旋转矩阵。
    • 正交变换的特点
      • \(\langle \phi(\alpha), \phi(\beta)\rangle=\langle\alpha, \beta\rangle\)
      • 向量变换后长度不变
      • 两向量变换前后夹角不变
      • 标准正交基变换后仍为标准正交基
      • 变换在标准正交基下是正交矩阵
  • \(A^{\mathrm{T}}A\)矩阵的性质,更多内容见这里
    • 对称矩阵,可对角化
    • \(\operatorname{rank}(A^{\mathrm{T}}A)=\operatorname{rank}(AA^{\mathrm{T}})=\operatorname{rank}(A)=\operatorname{rank}(A^{\mathrm{T}})\),证明见这里
    • \(A^{\mathrm{T}}A\)\(AA^{\mathrm{T}}\)的非零特征值相同;更一般地,\(AB\)\(BA\)的非零特征值相同
      • 考虑\(AB\mathbf{x}=\lambda \mathbf{x}\),左乘\(B\)\(BA(B\mathbf{x})=\lambda (B\mathbf{x})\)
    • 半正定,因为\(\mathbf{x}^{\mathrm{T}}A^{\mathrm{T}}A\mathbf{x}=(A\mathbf{x})^{\mathrm{T}}A\mathbf{x}\ge 0\),其中\(\mathbf{x}\)是非零向量
      • 如果\(A\)列满秩,则\(A^{\mathrm{T}}A\)是正定的
        • 证明:考虑到上面二次型取等号的条件是\(A\mathbf{x}=\mathbf{0}\),所以只需要考虑是否有非零解
        • 如果\(A^{\mathrm{T}}A\)正定,则\(A^{\mathrm{T}}A\)可逆。因为特征值都是正的,不会是0。
      • 半正定即所有特征值非负
    • Gram matrix:存在一组向量\(v_1, v_2, ..., v_n\),矩阵的每个元素是向量内积,即\(G_{ij}=\langle v_i, v_j\rangle\)
      • Gram矩阵是半正定的,如果向量线性无关则正定,理由参考\(A^{\mathrm{T}}A\)部分。
      • 半正定矩阵(对称)一定是某些向量的Gram矩阵,说明可以写成\(A^{\mathrm{T}}A\)形式,即Cholesky分解
  • 幂等矩阵,方阵,\(A^2=A\)
    • 特征值只能是0或1,可对角化,迹和秩相等,半正定
    • 除非是单位阵(特征值全为1),幂等矩阵不可逆
    • 常见的幂等矩阵:投影矩阵\(P\)\(M=I-P\)
  • 幂零矩阵,方阵,存在正整数\(k\)使得\(A^k=O\)
  • 转移矩阵,方阵,矩阵各元素都是非负的,并且各行元素之和等于1
  • 奇异矩阵:非满秩方阵
  • 对角占优矩阵(Diagonally dominant matrix): 对每行来说,对角线元素的绝对值大于或等于其他所有元素绝对值的加和。即\(\left|a_{i i}\right| \geq \sum_{j \neq i}\left|a_{i j}\right| \quad \text { for all } i\)
    • 更多概念
      • 上面的定义是用行来定义,因此叫row diagonal dominance,其实也可以用列来定义
      • 如果大于等于改成严格大于,则是strict(SDD)版本,上面的版本叫 weak diagonal dominance(WDD)
    • SDD可逆,WDD不一定可逆
    • WDD如果是对称矩阵,且对角元都非负,则半正定,证明见Wiki
    • SDD如果是对称矩阵,且对角元都为正,则正定

广义逆矩阵\(A^-\),目的:使更多矩阵可以拥有“逆矩阵”

  • 定义:满足\(AA^-A=A\)。若\(A\)维度是\(m\times n\),则\(A^-\)维度是\(n\times m\)
    • 其实更原始的定义是\(AGb=b\),满足这个的\(G\)称为广义逆,记为\(A^-\)。而存在广义逆的充要条件是存在\(G\)满足\(AGA=A\)
  • 如果一个矩阵存在逆矩阵,则\(A^{-1}\)是它的唯一广义逆矩阵;如果矩阵不可逆,则有无穷多矩阵满足上面关系
  • 自反广义逆,同时满足\(AGA=A\)\(GAG=G\),记为\(A_r^-\)
  • 单边逆,以左逆为例
    • \(A\)的维度是\(m\times n\),且\(\operatorname{rank}(A)=n\)即列满秩,则存在维度为\(n\times m\)\(A^{-1}_L\)满足\(A^{-1}_LA=I_n\)
      • 应用:有\(AX=B\)想表示出\(X\),而\(A\)不可逆,但列满秩,则可以\(X=A^{-1}_LB\)
      • 右逆同理,\(AA^{-1}_R=I_m\),应用时即\(XA=B\),则\(X=BA^{-1}_R\)
    • 满秩分解(Rank factorization),对于\(m\times n\)的矩阵\(A\),秩为\(r\),则可以进行这样的分解\(A=BC\),其中\(B\)\(m\times r\)\(C\)\(r\times n\)
      • 任意有限维的矩阵都可以进行这种分解,但分解方式不唯一
      • 可以看到,这样分解出来的矩阵,就会存在左逆或右逆,然后简化一些式子,举一个例子
  • M-P广义逆(伪逆),同时满足下面几个条件,记为\(A^+\)
    • \(AGA=A\)\(GAG=G\)\((AG)^{\mathrm{T}}=AG\)\((GA)^{\mathrm{T}}=GA\)
    • M-P广义逆唯一

一些形式,熟悉这些,方便将一些数值计算改成矩阵形式

  • \(\mathbf{x}^{\mathrm{T}} \mathbf{y}=\sum_{i=1}^n x_iy_i\),其中\(\mathbf{x}\)\(\mathbf{y}\)都是向量
  • \(\mathbf{x}^{\mathrm{T}}A \mathbf{x}=\sum_{i=1}^n\sum_{j=1}^n a_{ij} x_ix_j\),其中\(\mathbf{x}\)是向量
    • 特例:\(A\)为单位阵:\(\mathbf{x}^{\mathrm{T}} \mathbf{x}=\sum_{i=1}^n x_i^2\)
    • 特例:\(\Lambda\)为对角阵:\(\mathbf{x}^{\mathrm{T}}\Lambda \mathbf{x}=\sum_{i=1}^n \lambda_i x_i^2\)
    • 特例:\(\mathbf{x}=\mathbf{1}\),矩阵\(A\)的所有元素求和:\(\mathbf{x}^{\mathrm{T}}A \mathbf{x}=\sum_{i=1}^n\sum_{j=1}^n a_{ij}\)
  • 谱分解\(A=P\Lambda P^{\mathrm{T}}=\sum_{i=1}^n [\mathbf{x}_1,\cdots, \mathbf{x}_n]\Lambda [\mathbf{x}_1^{\mathrm{T}},\cdots, \mathbf{x}_n^{\mathrm{T}}]^{\mathrm{T}}=\sum_{i=1}^n\lambda_i \mathbf{x}_i \mathbf{x}_i^{\mathrm{T}}\)
  • 矩阵\(A\)的所有元素平方和:\(\operatorname{tr}(AA^{\mathrm{T}})=\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2\)
  • \(\operatorname{tr}(A^{\mathrm{T}}B)=\operatorname{tr}(AB^{\mathrm{T}})=\sum_{i=1}^n\sum_{j=1}^n a_{ij}b_{ij}=\sum_{i=1}^n \mathbf{a}_i^T \mathbf{b}_i\)
    • 类似地有:\(\operatorname{tr}\left(A^{T}(B \odot C)\right)=\operatorname{tr}\left((A \odot B)^{T} C\right)\),其中\(A, B, C\)维度相同,迹结果为\(\sum_{i, j} A_{ij}B_{ij}C_{ij}\)
    • \(\mathrm{tr}(XAX^T)=\sum_{i=1}^n \mathbf{x}_i^T A \mathbf{x}_i\)
      • 例如\(\sum_{i=1}^{N}\left(\mathbf{x}_{i}-\overline{\mathbf{x}}\right)^T \Sigma^{-1}\left(\mathbf{x}_{i}-\overline{\mathbf{x}}\right)\)可以写成\(\mathrm{tr}(X\Sigma^{-1}X^T)\)考虑矩阵维度可以帮助思考这个转化过程\(n\times p, p\times p, p\times n\)
  • 对矩阵进行三种初等变换,都能写成矩阵相乘的形式
    • 例子:左乘对角矩阵,是进行行变换,每行乘个系数;右乘对角矩阵,是进行列变换,每列乘个系数
      • 例子:相关系数矩阵与协方差矩阵的关系
    • 例子:一个行向量左乘矩阵,这个行向量只有一个位置为1,其他位置为0,相当于对这个矩阵的行进行提取。多个这样的行向量左乘该矩阵,表示多次提取行组成一个新矩阵
      • 例子:用矩阵乘法实现索引,只需构造这样的0-1向量
  • \(A_{ij}=x_iy_j\),则\(A=\mathbf{x}\mathbf{y}^\mathrm{T}\)

其他概念

  • 上三角矩阵是左下角都是0
  • Kernel:\(\operatorname{Ker}(A)\)\(A\mathbf{x}=0\)的解空间,也叫矩阵的零空间(null space)。\(\operatorname{Null}(A)\)表示矩阵\(A\)的零空间,\(\operatorname{nullity}(A)=\operatorname{dim} \operatorname{Null}(A)\)表示矩阵\(A\)的零空间维度
  • image: \(\operatorname{Im}(A)\)表示\(A\mathbf{x}\)的所有取值空间,与rank的关系:\(\operatorname{dim}(\operatorname{Im}(A))=\operatorname{rank}(A)\)
  • entry: 矩阵的元素