转置(transpose)

  • 定义:给定m x n矩阵A,则A的转置是一个n x m矩阵,它的列是由A的行组成的
  • 变量表示:
    $$ \bm{A}^T $$
  • 例:给定一个矩阵:
    $$ \bm{A} = \begin{bmatrix} A_{1,1} & A_{1,2} \cr A_{2,1} & A_{2,2} \end{bmatrix} $$
    它的转置是:
    $$ \bm{A}^{T} = \begin{bmatrix} A_{1,1} & A_{2,1} \cr A_{1,2} & A_{2,2} \end{bmatrix} $$
  • 有时,我们通过将向量元素作为行矩阵写在文本行中,然后使用转置操作将其变为标准的列向量,比如:
    $$ \bm{x} = [x_1, x_2, x_3]^T $$
  • 标量的转置等于它本身,即:
    $$ a = a^T $$

加法

  • 定义:只要矩阵的形状一样,我们可以把两个矩阵相加。两个矩阵相加是指对应位置的元素相加,比如:
    $$ \bm{C} = \bm{A} + \bm{B} $$ 其中 $$ C_{i,j} = A_{i,j} + B_{i,j} $$
  • 标量和矩阵相加时,我们只需要将其与矩阵的每个元素相加,比如
    $$ \bm{D} = \bm{B} + c $$ 其中 $$ D_{i,j} = B_{i,j} + c $$
  • 在深度学习中,我们允许矩阵和向量相加,比如:
    $$ \bm{C} = \bm{A} + \bm{b} $$ 其中 $$ C_{i,j} = A_{i,j} + b_{j} $$
    这种隐式地复制向量b到很多位置的方式,称为广播(broadcasting)

乘法

  • 定义:两个矩阵A和B的矩阵乘积(matrix product)是第三个矩阵C(n x p)。为了使乘法可被定义,矩阵A(m x n)的列数必须和矩阵B(n x p)的行数相等
  • 写法:$$ \bm{C} = \bm{A} \bm{B} $$
    具体操作方法:
    $$ C_{i,j} = \displaystyle\sum_{k} A_{i,k} B_{k,j} $$

参考目录

Goodfellow, I., Bengio, Y. and Courville, A., 2016. Deep learning. MIT press.
Lay, D.C., 2016. Linear Algebra and its applications 5th edition. Pearson.