Introduction
通常线性代数教材都会先讲矩阵, 然后隔着好几章再讲线性变换(线性映射), 而讲矩阵时必然会涉及到矩阵的运算. 矩阵的加法只要将对应的entry相加就行, 但是乘法的定义就不那么自然了. 事实上, 如果我们从线性映射的角度去定义矩阵的运算, 这些看似奇怪的规则就会变得十分自然.
Linear Algebra Done Right一书先引入线性映射的概念, 再将一种特殊的线性映射与矩阵联系起来. 矩阵的加法为何定义成对应元素相加? 矩阵的数乘为何定义成 $\lambda$ 去乘每一个元素? 矩阵的乘法为什么不是对应的元素相乘? 从线性映射的运算和线性映射的矩阵表示这两方面联合考虑, 你将会得到答案.
此外, 还有一个运算: 转置. 这个对应着什么呢? 在矩阵转置这一节我们将会介绍两个全新的概念: dual map(对偶映射)和 dual space(对偶空间), 它们可以解释矩阵的转置和矩阵的rank(秩), 这也是Linear map这章中最精彩的部分.
LADR有好多小结论都 left to reader 了, 参考的部分中作者省略的过程我都自己证了一遍, 在视频和笔记pdf中可以看到.
系列视频正在施工中:
- 第一节 线性映射的概念 先来看看线性映射到底是啥~. 线性映射的概念.pdf
- 第二节 用矩阵表示线性映射 紧接第一节, 根据 $V$ 中的一个基定义矩阵的元素. 用矩阵表示线性映射.pdf
- 第三节 线性映射的运算(重要) 定义映射的加法和数乘, 证明了 $\mathcal{L}(V, W)$ 在这个加法和数乘下是一个线性空间. 最后定义了映射与映射的乘法, 可用复合函数类比. 本节内容对接下来的矩阵运算的定义非常重要! 线性映射的运算.pdf
- 第四节 矩阵的加法, 数乘, 乘法 矩阵加法的对应元素相加定义看似来的十分自然, 映射的加法告诉你这么定义的合理性. 矩阵乘法的定义乍一看十分古怪, 但是从复合映射的角度考虑就得来全不费工夫.
- 第五节 对偶空间与矩阵的转置 最精彩的部分, $\mathcal{M}(T’) = (\mathcal{M}(T))^t$ 是本章最优美的定理.
以下内容是一些简略的介绍, 定理的证明和其他详细内容还请看教材和笔记pdf.
Notation
- $\mathbb{F}$ denotes $\mathbb{R}$ or $\mathbb{C}$
- $V$ and $W$ are vector spaces over $\mathbb{F}.$
线性映射的概念
def. A linear map from $V$ to $W$ is a function $T: V \to W$ with the following properties: - additivity: $T(u+v)=Tu+Tv$ for all $\lambda \in \mathbb{F}$ and $v \in V.$
- homogenity: $T(\lambda v) = \lambda (Tv)$ for all $\lambda \in \mathbb{F}$ and $v \in V$.
Notation
The set of all linear maps from $V$ to $W$ is denoted $\mathcal{L}(V, W).$
这里需要大家非常熟悉映射的概念和记号. 当然映射的一般概念不是我们这里的重点, 想要复习的同学可以查阅 Topology, 2nd Munkres 的 section 2.
$T$ 作用到 $v \in V$ 上得到 $W$ 中的元素(向量) $Tv$, 一定要明确每个元素所属的集合. 这里 $v \in V, T \in \mathcal{L}(V, W), Tv \in W.$ 初学时可以花点时间像我刚才这样把每个元素及其所属集合写下来, 要不然到对偶映射那里肯定会头晕的.
Example
我们举一个例子: 零映射. 这个映射把 $V$ 中的所有元素都映到 $W$ 中的零元. 看起来很简单是不是? 但是请注意, 这里我们遇到了两种”零”. 第一个”0”是零映射, $0 \in \mathcal{L}(V, W).$ 第二个”0”是 $W$ 中的加法单位元(additive identity), $0 \in W.$ 虽然它们看起来一模一样, 但不是同一个东西. 在没有搞清楚 $0$ 是谁的 $0$ 时, 我们并不能下一些诸如 $0=0$ 的结论. 假如我们这里 $V=W=\mathbb{R},$ 是我们非常熟悉的实数集, 那么 $0 \in \mathcal{L}(\mathbb{R}, \mathbb{R})$ 就是一个函数, 它把所有实数都映成 $0 \in \mathbb{R}.$ 既然 $0 \in \mathcal{L}(\mathbb{R}, \mathbb{R})$ 是一个函数, 那我们就换一个比较熟悉的记号 $f$ 来记零映射. 那么刚才的结论就变成了 $f(\in \mathcal{L}(\mathbb{R}, \mathbb{R})) = 0 \in \mathbb{R}.$ 由于我们没有定义映射和实数之间的大小关系, 这个式子根本就没有意义.
现在回到我们的主线: 证明零映射是线性映射, 这个在视频及笔记pdf中有.
$T$ 由基决定
Thm 3.5 Suppose $v_1, \cdots, v_n$ is a basis of $V$ and $w_1, \cdots, w_n \in W.$ Then there exists a unique linear map $T: V \to W$ such that $Tv_j=w_j$ for each $j=1, \cdots, n.$
$V$ 中一个基中的每个向量在 $T$ 下的像唯一决定了该线性映射. 凭空扔给我们一个 $T,$ 只告诉我们 $Tv_1, \cdots, Tv_n$ 这 $n$ 个元素的值(也就是定理中的 $n$ 个 $w_i$), 我们就能算出 $Tv,$ 对所有的 $v \in V.$
这是因为, $V$ 中的任一向量 $v$ 可以写成基的线性组合:
那么
而右边式子中的项都是已知的.
线性映射基本定理
用矩阵表示线性映射
矩阵长啥样就不多说了, 我们直接把矩阵和线性映射联系起来.
def. Suppose $T \in \mathcal{L}(V, W)$ and $v_1, \cdots, v_n$ is a basis of $V$ and $w_1, \cdots, w_m$ is a basis of $W.$ The matrix of $T$ with respect to these bases is the $m \times n$ matrix $\mathcal{M}(T)$ whose entries $A_{jk}$ are defined by
for $k=1, \cdots, n.$
$Tv_k$ 是 $W$ 中的向量, 能够写成 $W$ 的基的线性组合, 系数 $A_{1k}, \cdots, {A_{mk}}$ 便是矩阵第 $k$ 列的元素. 把 $k$ 从 $1$ 遍历到 $n$ 就得到了一个完整的矩阵, 称为 $T$ 关于这一组基的矩阵, 记为 $\mathcal{M}(T).$
线性映射的运算
以下仅列出keypoints, 详见视频和笔记pdf.
映射的加法和数乘
- addition: $(S+T)v := Sv + Tv$
- scalar multiplication: $(\lambda T)v := \lambda(Tv)$
- $S+T, \lambda T$ is linear.
映射的乘法(复合映射)
- $ST$ 的定义, 其中 $T \in \mathcal{L}(U, V), S \in \mathcal{L}(V, W).$
- $ST$ is a linear map from $U$ to $W.$
$\mathcal{L}(V, W)$ 是一个线性空间
按照我们定义的线性映射的加法和数乘, $\mathcal{L}(V, W)$ 构成域 $\mathbb{F}$ 上的线性空间. 由8条性质验证, 视频及笔记中有.
矩阵的加法, 数乘, 乘法
以下我们都假定 $V, W$ 是有限维线性空间, 它们的一个基分别是 $v_1, \cdots, v_n$
和 $w_1, \cdots, w_m.$
矩阵的加法
直觉上我们想把两个矩阵相加定义成对应位置元素相加:
这样定义的加法是否具有良好的性质? 我们知道, $\mathcal{L}(V, W)$ 中的每一个线性映射都对应着一个矩阵, 现设 $\mathcal{M}(T)=A, \mathcal{M}(S)=C.$ 那么就有 $A+C = \mathcal{M}(T) + \mathcal{M}(S).$ 由于 $\mathcal{L}(V, W)$ 是一个线性空间, 所以 $S+T \in \mathcal{L}(V, W),$ 它也可以由一个矩阵表示, 记为 $\mathcal{M}(S+T).$ 接下来我们就要验证按照上面的加法定义, 是否有
即映射的矩阵的和是不是等于映射的和的矩阵. 这句话可能有点拗口, 用英文讲可能会更清楚一点: We want to know if the sum of the matrices of the two maps equals to the matrix of the sum of the two maps.
要验证两个矩阵是否相等, 我们只需要验证每一列的对应元素是否相等. 考虑第 $k$ 列, 回忆线性映射的矩阵的定义, 第 $k$ 列的元素是某个线性组合的系数:
那么,
于是 $\mathcal{M}(T+S)$ 第 $k$ 列的元素从上到下依次是 $A_{1k}+C_{1k}, \cdots, A_{mk}+C_{mk}.$ 而按照我们加法的定义, $\mathcal{M}(T)+\mathcal{M}(S)$ 第 $k$ 列的元素从上到下也是 $A_{1k}+C_{1k}, \cdots, A_{mk}+C_{mk}.$ 从而 $\mathcal{M}(T)+\mathcal{M}(S)=\mathcal{M}(T+S).$ 因此这样定义的加法具有良好的性质. 看到这里, 大家可能会有疑惑, 什么叫好的性质? 注意到 $\mathcal{M}(T)+\mathcal{M}(S)=\mathcal{M}(T+S)$ 这种拆括号并括号的形式是不是很像线性映射定义中的 additivity? 这样, $\mathcal{M}$ 便满足了线性映射的必要条件中的其中一个. 事实上, $\mathcal{M}$ 本身就是一种线性映射, 这个我们后面再讲.
矩阵的数乘
跟上面的思路一样, 我们先试着定义
在这个定义之下可以验证 $\mathcal{M}(\lambda T) = \lambda \mathcal{M}(T),$ 所以这样定义是合理的.
矩阵的乘法
矩阵的乘法自然和映射的乘法联系到一起.我们希望定义矩阵的乘法, 使得在这个定义之下有
我们直接从线性映射的矩阵出发. 注意到上式右边只是形式地写出了 $\mathcal{M}(S)\mathcal{M}(T),$ 我们还没有定义这样的运算, 但是我们已经定义过映射的乘法, 所以可以表达出 $\mathcal{M}(ST)$ 的元素. 复合映射需要3个线性空间, 设 $T:U \to V, S:V \to W.$ 设 $U$ 的一个基为 $u_1, \cdots, u_p,$ $V$ 的一个基为 $v_1, \cdots, v_n,$ $W$ 的一个基为 $w_1, \cdots, w_m.$
设 $\mathcal{M}(S) = C, \mathcal{M}(T) = A.$ 由于这里涉及到多个线性空间, 为避免混淆, 我们按定义写出 $C$ 和 $A$ 的列元素:
注意这里 $C$ 的 size 为 $m \times n, A$ 的 size 为 $n \times p.$
由于 $ST \in \mathcal{L}(U, W),$ 所以我们将 $ST$ 作用在 $u_k, k = 1, \cdots, p$ 身上:
于是我们定义 $\displaystyle{(CA)_{jk} = \sum_{r=1}^{n}C_{jr}A_{rk}.}$
对偶空间与矩阵的转置
预备知识
我们的重点是研究矩阵运算与线性映射的联系, 所以为了保证连贯性, 有些线性映射的内容没有涉及, 但是对偶空间中又会用到这些小结论, 所以我将它们整合起来单独列在下方, 大家可以对着检查.
- null space and range: $\mathrm{null}~T$ and $\mathrm{range}~T$
- 线性映射基本定理:
- 逆映射 invertible maps
- 同构 isomorphism
- $\mathrm{dim}~\mathcal{L}(V, W) \cong \mathbb{F}^{m, n}$
- $\mathrm{dim}~\mathcal{L}(V, W) = (\mathrm{dim}~V)(\mathrm{dim}~W)$
Duality 对偶性
本节写于2020/8/25, 也就是七夕节啦~ 祝大家七夕快乐~
七夕节是谁过的? 是情侣过的. 情侣都是成双成对的, 也就是说一对情侣由两个人组成(consisting of two parts). 而描述 consisting of two parts 的一个英文单词是 dual,
名词形式是 duality, 也就是我们这节讲述的内容: 对偶性.
对偶空间 dual space
考虑一种特殊的线性映射: $T \in \mathcal{L}(V,\mathbb{F}),$ 它有一个新名字, 叫 $V$ 上的线性泛函(linear functional on $V$). 称 $\mathcal{L}(V, \mathbb{F})$ 为 $V$ 的对偶空间(dual space), 记作 $V’.$
对于这么一个新的线性空间, 我们要研究它的结构, 是有限维还是无限维的? 如果是有限维的, 它的一个基长成什么样子?
关于维数, 我们有 $\mathrm{dim} V’ = \mathrm{dim} V.$ 这个的证明要用到线性映射基本定理和线性空间的同构, 鉴于这篇文章主要探究的是线性映射的运算和矩阵运算间的联系, 这部分内容我会单独开一个坑填完.
这样, 我们只需在 $V’$ 中找出 $n$ 个线性无关的向量, 就得到了一个基.
先定义, 再验证. Let $\phi_j \in V’$ be such that
for $j=1, \cdots, n, k=1, \cdots, n.$
我们称 $\phi_1, \cdots, \phi_n$ 为 $v_1, \cdots, v_n$ 的一个对偶基(dual basis). 那么 $\phi_1, \cdots, \phi_n$ 是不是 $V’$ 的一个基呢?
我们只要验证 $\phi_1, \cdots, \phi_n$ 线性无关就可以了. Let $a_1, \cdots, a_n \in \mathbb{F}$ be such that
令上式两边作用到 $v_j,$ 得
由 dual basis 的定义得 $a_j = 0, j=1, \cdots, n.$ 所以 $\phi_1, \cdots, \phi_n$ 线性无关.
对偶映射 dual map
If $T \in \mathcal{L}(V, W),$ then the dual map of $T$ is the linear map $T’ \in \mathcal{L}(W’, V’)$ defined by $T’(\phi) = \phi \circ T$ for $\phi \in W’.$
这个定义涉及到了好几个线性空间: $V, W, V’, W’, \mathcal{L}(V, W), \mathcal{L}(W’, V’).$ 这就需要我们分析每个映射是从哪映到哪的, 详细的分析过程见视频.
矩阵的转置
最精彩的部分来了. 首先我们定义一下矩阵的转置:
矩阵的加法和乘法都有对应的线性映射意义, 那么转置对应着哪种线性映射呢? 这就是我们刚才讲的对偶映射. Let $T \in \mathcal{L}(V, W),$ then $\mathcal{M}(T’) = (\mathcal{M}(T))^t.$
proof. Let $\mathcal{M}(T’)=A, \mathcal{M}(T)=C.$
由线性映射的定义, 有
由对偶映射的定义,
同时, 我们还有
Therefore, $C_{kr} = A_{kr}. \quad \square$