关于矩阵，向量和标量的转置，相加和相乘

发表于 2020-08-05- 更新于 2020-08-06

-

从零开始的深度学习[理论]-线性代数

霂水流年

转置(transpose)

定义：给定m x n矩阵A，则A的转置是一个n x m矩阵，它的列是由A的行组成的
变量表示：
$$ \bm{A}^T $$
例：给定一个矩阵：
$$ \bm{A} = \begin{bmatrix} A_{1,1} & A_{1,2} \cr A_{2,1} & A_{2,2} \end{bmatrix} $$
它的转置是：
$$ \bm{A}^{T} = \begin{bmatrix} A_{1,1} & A_{2,1} \cr A_{1,2} & A_{2,2} \end{bmatrix} $$
有时，我们通过将向量元素作为行矩阵写在文本行中，然后使用转置操作将其变为标准的列向量，比如：
$$ \bm{x} = [x_1, x_2, x_3]^T $$
标量的转置等于它本身，即：
$$ a = a^T $$

加法

定义：只要矩阵的形状一样，我们可以把两个矩阵相加。两个矩阵相加是指对应位置的元素相加，比如：
$$ \bm{C} = \bm{A} + \bm{B} $$ 其中 $$ C_{i,j} = A_{i,j} + B_{i,j} $$
标量和矩阵相加时，我们只需要将其与矩阵的每个元素相加，比如
$$ \bm{D} = \bm{B} + c $$ 其中 $$ D_{i,j} = B_{i,j} + c $$
在深度学习中，我们允许矩阵和向量相加，比如：
$$ \bm{C} = \bm{A} + \bm{b} $$ 其中 $$ C_{i,j} = A_{i,j} + b_{j} $$
这种隐式地复制向量b到很多位置的方式，称为广播(broadcasting)

乘法

定义：两个矩阵A和B的矩阵乘积(matrix product)是第三个矩阵C(n x p)。为了使乘法可被定义，矩阵A(m x n)的列数必须和矩阵B(n x p)的行数相等
写法：$$ \bm{C} = \bm{A} \bm{B} $$
具体操作方法：
$$ C_{i,j} = \displaystyle\sum_{k} A_{i,k} B_{k,j} $$

参考目录

Goodfellow, I., Bengio, Y. and Courville, A., 2016. Deep learning. MIT press.
Lay, D.C., 2016. Linear Algebra and its applications 5th edition. Pearson.

money money money~ money money~

本文作者：霂水流年
本文链接：http://yoursite.com/2020/08/05/DL_Theory2/
版权声明：本博客所有文章除特别声明外，均默认采用许可协议。