永蔚Alex

Nautical Nonsense and Abstract Nonsense

0%

微積分:多變數函數的極值

這份筆記是關於多變數函數的極值與相關定理。

多變數函數的極值

定義 1:極值 (Extreme)

\(R\)為一集合,我們說\(f(x,y)\)\((x_0,y_0)\in R\)有極大值,若\(\forall (x,y)\in R\)\(f(x_0,y_0)\geq f(x,y)\)
類似的,若\(\forall (x,y)\in R\)\(f(x_0,y_0)\leq f(x,y)\),則說\(f(x,y)\)\((x_0,y_0)\in R\)有極小值。

定義 2:相對極值 (Relative Extreme)

給定函數\(f\)\((x_0,y_0)\),若存在一個\((x_0,y_0)\)的鄰域使得在這之中\(f(x_0,y_0)\geq f(x,y)\),則說\(f\)\((x_0,y_0)\)相對極大值。
類似的,若存在一個\((x_0,y_0)\)的鄰域使得在這之中\(f(x_0,y_0)\leq f(x,y)\),則說\(f\)\((x_0,y_0)\)相對極小值。

註記 3

和單變數的狀況一樣(見這裡),若\(f\)\((x_0,y_0)\)有相對極值,則 \[ \left\{ \begin{aligned} f_x(x_0,y_0)&=0\\ f_y(x_0,y_0)&=0 \end{aligned} \right. \]

定義 3-1:臨界點 (Critical Point)

我們說一點\((x_0,y_0)\)\(f\)的臨界點,若\(f_x(x_0,y_0)=f_y(x_0,y_0)=0\)

有限制的的極值

目標 4

假設我們有函數\(f(x,y,z)\),我們想要求在\(\phi(x,y,z)=0\)的前提下\(f\)的極值為何。
先看有兩個變數的情況,如下圖1,有曲線\(\phi(x,y)=0\)和一堆\(f(x,y)=const.\)

圖1

可以合理想像,\(f(x,y)\)的極值發生在\(f\)\(\phi\)相切的地方(圖中的\(f(x,y)=c\))。我們接著要證明這件事。

定義 5:相切 (Tangent)

我們說兩曲線相切於\((x_0,y_0)\),若其在\((x_0,y_0)\)的切線重合。

註記 5-1

由隱函數定理(這裡的定理2)知若\(f(x,y)=c\)\(\phi(x,y)=0\)相切,則 \[ \begin{aligned} f_x(x_0,y_0)&=\lambda\phi_x(x_0,y_0)\\ f_y(x_0,y_0)&=\lambda\phi_y(x_0,y_0) \end{aligned} \]

定理 6:拉格朗日乘數法 (Lagrange's Multiplier Method)

給定函數\(f(x,y)\)與限制\(\phi(x,y)=0\),給定\((\xi,\eta)\)使得\(\phi(\xi,\eta)=0\)\(\phi_x(\xi,\eta)\)\(\phi_y(\xi,\eta)\)不同時為零,則若\(f\)\((\xi,\eta)\)有在\(\phi(x,y)=0\)限制下的極值,則存在常數\(\lambda\)使得 \[ f_x(\xi,\eta)+\lambda\phi_x(\xi,\eta)=0, f_y(\xi,\eta)+\lambda\phi_y(\xi,\eta)=0 \]

證明:由於\(\phi_x\)\(\phi_y\)不同時為零,故WLOG可令\(\phi_y\neq 0\)。由隱函數定理,在\((\xi,\eta)\)附近可以把\(\phi(x,y)=0\)表作\(g(x,y)=0\)。而由\(f(x,g(x))\)\(x=\xi\)有極值知\(x=\xi\)\[ f_x+f_yg'=0\mbox{ (☆)} \] 又由定義知\(\phi(x,g(x))=0\),兩邊對\(x\)微分,有 \[ \phi_x+\phi_yg'=0\mbox{ (★)} \]\(\lambda=\frac{-f_y}{\phi_y}\),把(★)乘以\(\lambda\)加到(☆),得到 \[ f_x+\lambda\phi_x=0 \] 且由\(\lambda\)本身的定義,有 \[ f_y+\lambda\phi_y=0 \] QED

註記 6-1

實際上操作的時候,我們會用 \[ \left\{ \begin{aligned} f_x+\lambda\phi_x&=0\\ f_y+\lambda\phi_y&=0\\ \phi&=0 \end{aligned} \right. \] 來解\(\xi\), \(\eta\)\(\lambda\)

註記 6-2

這個方法通常是\(\phi(x,y)=0\)\(y\)不能簡單地被寫成\(x\)的函數時用的,如果\(y\)可以被寫成\(x\)的函數就不用這樣搞了(可以直接用單變數求極值的方法)。

例 6-3

考慮\(f(x,y)=xy\)\(x^2+y^2=1\)上的極值,我們只要解 \[ \left\{ \begin{aligned} y+\lambda(2x)&=0\\ x+\lambda(2y)&=0\\ x^2+y^2&=1 \end{aligned} \right. \] 就能解出極值的所在處了。

有時候,我們會需要處理多變數和多限制的狀況,這時需要一個引理:

引理 7:廣義隱函數定理 (Generalized Implicit Function Theorem)

考慮兩個限制\(\phi(x,y,z,t)=0\)\(\psi(x,y,z,t)=0\),若在某個點\((x,y,z,t)\)上,有 \[ D=\frac{\partial(\phi,\psi)}{\partial(x,y)}=\phi_x\psi_y-\phi_y\psi_x\neq 0 \] 則在一個鄰域內\(x\)可以寫成\(z,t\)的函數,\(y\)也可以寫成\(z,t\)的函數。(更多變數的狀況也同理)

證明:WLOG,令\(\phi_x\neq 0\),則在某個局部可以寫出\(x=X(y,z,t)\)(隱函數定理),故\(\psi(X(y,z,t),z,t)=0\),令\(\psi(X,z,t)=\tilde{x}(y,z,t)\),則由鏈鎖律(這裡的定理21)和隱函數定理有 \[ \tilde{x}_y=\psi_x\frac{-\phi_y}{\phi_x}+\psi_y=\frac{D}{\phi_x}\neq 0 \] 於是,由隱函數定理,\(\tilde{x}(y,z,t)=0\)可以寫成\(y\)\(z,t\)的函數。於是可以把\(X(y,z,t)\)中的\(y\)替換成\(z,t\)的函數,即\(x\)可以寫成\(z,t\)的函數。同理,\(y\)也能寫成\(z,t\)的函數。QED

註記 8:廣義拉格朗日乘數法 (Generalized Lagrange's Multiplier Method)

考慮函數\(f(x,y,z,t)\)要在\(\phi(x,y,z,t)=0\)\(\psi(x,y,z,t)=0\)的限制下求極值,則\(f\)可以寫成\(f(x,y,g(x,y),h(x,y))\),於是 \[ \begin{aligned} f_x+f_z\frac{\partial z}{\partial x}+f_t\frac{\partial t}{\partial x}&=0\mbox{ (A)}\\ f_y+f_z\frac{\partial z}{\partial y}+f_t\frac{\partial t}{\partial y}&=0\mbox{ (B)} \end{aligned} \] 且會有 \[ \begin{aligned} \phi_x+\phi_z\frac{\partial z}{\partial x}+\phi_t\frac{\partial t}{\partial x}&=0\mbox{ (1)}\\ \psi_x+\psi_z\frac{\partial z}{\partial x}+\psi_t\frac{\partial t}{\partial x}&=0\mbox{ (2)}\\ \phi_y+\phi_z\frac{\partial z}{\partial y}+\phi_t\frac{\partial t}{\partial y}&=0\mbox{ (3)}\\ \psi_y+\psi_z\frac{\partial z}{\partial y}+\psi_t\frac{\partial t}{\partial y}&=0\mbox{ (4)} \end{aligned} \] 又,由於雅可比行列式\(D=\phi_x\psi_y-\phi_y\psi_x\)非零,故存在\(\lambda\)\(\mu\)使得 \[ \left\{ \begin{aligned} f_z+\lambda\phi_z+\mu\psi_z&=0\\ f_t+\lambda\phi_t+\mu\psi_t&=0 \end{aligned} \right. \] 於是,\(\mbox{(1)}\times\lambda+\mbox{(2)}\times\mu+\mbox{(A)}\),得 \[ \begin{aligned} &f_x+\lambda\phi_x+\mu\psi_x+(f_z+\lambda\phi_z+\mu\psi_z)\frac{\partial z}{\partial x}+(f_t+\lambda\phi_t+\mu\psi_t)\frac{\partial t}{\partial t}=0\\ \Rightarrow&f_x+\lambda\phi_x+\mu\psi_x=0 \end{aligned} \] 同理,會有 \[ f_y+\lambda\phi_y+\mu\psi_y=0 \] 於是,會有方程組 \[ \left\{ \begin{aligned} f_x+\lambda\phi_x+\mu\psi_x&=0\\ f_y+\lambda\phi_y+\mu\psi_y&=0\\ f_z+\lambda\phi_z+\mu\psi_z&=0\\ f_t+\lambda\phi_t+\mu\psi_t&=0\\ \phi&=0\\ \psi&=0 \end{aligned} \right. \] 於是就能解極值了。

註記 8-1

一般來說,給定\(u=f(x_1,\cdots,x_n)\)及限制\(\phi_1(x_1,\cdots,x_n)=0\), \(\phi_2(x_1,\cdots,x_n)=0\), \(\cdots\), \(\phi_m(x_1,\cdots,x_n)=0\),其中\(m\leq n\),則假設雅可比行列式 \[ \frac{\partial(\phi_1,\phi_2,\cdots,\phi_m)}{\partial(x_1,x_2,\cdots,x_m)}\neq 0 \] 則存在\(\lambda_1,\lambda_2,\cdots,\lambda_m\)使得極值\((x_1,x_2,\cdots,x_n)\)滿足 \[ \left\{ \begin{aligned} f_{x_1}+\lambda_1\frac{\partial\phi_1}{\partial x_1}+\cdots+\lambda_m\frac{\partial\phi_m}{\partial x_1}&=0\\ f_{x_2}+\lambda_1\frac{\partial\phi_1}{\partial x_2}+\cdots+\lambda_m\frac{\partial\phi_m}{\partial x_2}&=0\\ &\vdots\\ f_{x_n}+\lambda_1\frac{\partial\phi_1}{\partial x_n}+\cdots+\lambda_m\frac{\partial\phi_m}{\partial x_n}&=0 \end{aligned} \right. \]

赫爾德不等式

定理 9:赫爾德不等式 (Hölder's Inequality)

給定滿足\(\frac{1}{\alpha}+\frac{1}{\beta}=1\)\(\alpha,\beta>0\),則對於任何\(u,v\geq 0\)\[ uv\leq\frac{1}{\alpha}u^\alpha+\frac{1}{\beta}v^\beta \]

證明:若\(u=0\)\(v=0\),則結論是顯然的。
假設\(u,v>0\),令\(uv=A\),則 \[ \begin{aligned} &uv\leq\frac{1}{\alpha}u^\alpha+\frac{1}{\beta}v^\beta\\ \Leftrightarrow&\frac{uv}{A}\leq\frac{1}{\alpha}\left(\frac{u}{A^{1/\alpha}}\right)^\alpha+\frac{1}{\beta}\left(\frac{v}{A^{1/\beta}}\right)^\beta\\ \Leftrightarrow&\frac{uv}{A^{1/\alpha}A^{1/\beta}}\leq\frac{1}{\alpha}\left(\frac{u}{A^{1/\alpha}}\right)^\alpha+\frac{1}{\beta}\left(\frac{v}{A^{1/\beta}}\right)^\beta \end{aligned} \]\(u'=\frac{u}{A^{1/\alpha}}\), \(v'=\frac{v}{A^{1/\beta}}\),易知\(u'v'=1\)。則 \[ uv\leq\frac{1}{\alpha}u^\alpha+\frac{1}{\beta}v^\beta\Leftrightarrow 1\leq\frac{1}{\alpha}(u')^\alpha+\frac{1}{\beta}(v')^\beta \]\(f(x,y)=\frac{1}{\alpha}x^\alpha+\frac{1}{\beta}y^\beta\), \(\phi(x,y)=xy-1\)。我們用拉格朗日乘數法求\(f\)\(\phi=0\)限制下的極值,即 \[ \left\{ \begin{aligned} x^{\alpha-1}-\lambda y&=0\\ y^{\beta-1}-\lambda x&=0\\ xy-1&=0 \end{aligned} \right. \] 於是有\(x^\alpha=y^\beta=\lambda\),而\(xy=1\),故\(x=y=1\)(不然例如\(x>1\),那\(y\)就會小於\(1\),那麼\(x^\alpha>1\), \(y^\beta<1\),會有\(x^\alpha\neq y^\beta\))。則\(f\)\(\phi=0\)的限制下有極值 \[ f(1,1)=\frac{1}{\alpha}\cdot 1^\alpha+\frac{1}{\beta}\cdot 1^\beta=1 \] 然後代個\(x=4,y=1/4\)檢查一下,會發現\(f(4,1/4)>1\),即\(f(1,1)\)應當是極小值。故有 \[ 1\leq\frac{1}{\alpha}(u')^\alpha+\frac{1}{\beta}(v')^\beta \] QED

圖2 Otto Hölder

相對極值的充分條件

註記 10

考慮一個函數\(f\),若\(f\)\((x_0,y_0)\)可能有相對極值(i.e. \(f_x=f_y=0\)),則對於所有夠小的\(h,k\),有:
1. 若\(f(x_0+h,y_0+k)-f(x_0,y_0)\geq 0\),則\(f\)\((x_0,y_0)\)有極小值。
2. 若\(f(x_0+h,y_0+k)-f(x_0,y_0)\leq 0\),則\(f\)\((x_0,y_0)\)有極大值。
\(f\)泰勒展開,則有 \[ f(x_0+h,y_0+k)-f(x_0,y_0)=\underbrace{f_x(x_0,y_0)h}_{=0}+\underbrace{f_y(x_0,y_0)k}_{=0}+\frac{1}{2}(f_{xx}(x_0,y_0)h^2+2f_{xy}(x_0,y_0)hk+f_{yy}(x_0,y_0)k^2)+\epsilon(h^2+k^2) \] 其中\(|h|,|k|\to 0\)\(\epsilon\to 0\)
考慮其他的項,令 \[ Q(h,k)=ah^2+2bhk+ck^2 \] 其中\(a=f_{xx}\), \(b=f_{xy}\), \(c=f_{yy}\)。若\(Q\)恆正或恆負,事情會比較簡單。易知 \[ Q=ah^2+2bhk+ck^2=a\left(\textcolor{red}{\left(h+\frac{b}{a}k\right)^2}+\frac{ac-b^2}{\textcolor{red}{a^2}}\textcolor{red}{k^2}\right) \] 上面紅色的部分恆正。可以看出會影響\(Q\)的正負的主要是\(a\)\(ac-b^2\)
1. 若\(ac-b^2>0\),則
  (1) 若\(a>0\),則\(Q\)恆正,\(f(x_0,y_0)\)是極小值。
  (2) 若\(a<0\),則\(Q\)恆負,\(f(x_0,y_0)\)是極大值。
2. 若\(ac-b^2<0\),則\(Q\)可正可負。

定義 10-1:鞍點 (Saddle Point)

\(ac-b^2<0\)時,稱\((x_0,y_0)\)為鞍點。


3.若\(ac-b^2=0\),因為上述泰勒展開中還有尾巴項\(\epsilon\),所以無法判斷。

註記 10-2

上面的狀況1.中其實也有可能會被尾巴的\(\epsilon\)影響,這裡要證明這並沒有關係。

證明:考慮 \[ \begin{aligned} \frac{Q(h,k)}{h^2+k^2}&=\frac{ah^2+2bhk+ck^2}{k^2+h^2}\\ &=a\left(\frac{h}{\sqrt{h^2+k^2}}\right)^2+2b\left(\frac{h}{\sqrt{h^2+k^2}}\right)\left(\frac{k}{\sqrt{h^2+k^2}}\right)+c\left(\frac{k}{\sqrt{h^2+k^2}}\right)^2 \end{aligned} \]\(u=\frac{h}{\sqrt{h^2+k^2}}\), \(v=\frac{k}{\sqrt{h^2+k^2}}\),則 \[ \frac{Q(h,k)}{h^2+k^2}=au^2+2buv+cv^2 \] 然後可以發現\(u^2+v^2=1\)。我們希望說明\(au^2+2buv+cv^2\)\(u^2+v^2=1\)上的極小值大於零(\(a>0\)的狀況,\(a<0\)時同理)。
我們有 \[ au^2+2buv+cv^2=a\left[\left(u+\frac{b}{a}v\right)^2+\frac{ac-b^2}{a^2}v^2\right] \] 已知\(ac-b^2>0\),故\(au^2+2buv+cv^2\geq 0\),且等號只在\(u=v=0\)處發生。但\(u=v=0\)不在\(u^2+v^2=1\)上,故極小值大於零。
\(Q(h,k)=2m\rho^2\),其中\(m>0\), \(\rho=\sqrt{h^2+k^2}\),則 \[ \begin{aligned} f(x_0+h,y_0+k)-f(x_0,y_0)&=\frac{1}{2}Q(h,k)+\epsilon(h^2+k^2)\\ &\geq(m+\epsilon)\rho^2 \end{aligned} \] 由於當\(|h|,|k|\to 0\)\(\epsilon/(h^2+k^2)\to 0\)(這裡的註記22)但\(m/(h^2+k^2)\)趨近一個非零的值,故\((m+\epsilon)\rho^2>0\)。故知\(f(x_0+h,y_0+k)-f(x_0,y_0)\)恆正。QED