본문 바로가기

컴퓨터공학

Maximum Likelihood Estimation(MLE)의 Loss function의 concavity에 대한 증명

Maximum Likelihood Estimation의 Objective function은 다음과 같습니다.

$$ L(w) = \prod_{i=1}^{n}f(x_i; w)^{y_i}(1-f(x_i; w))^{1-y_i} $$

$$ \text{where}\;w, x_i\;\text{is vector}\in R^D\;\text{and}\;y_i\;\in(0, 1) $$

해당 function은 확률을 N번 곱합니다. 즉 1보다 작은 값이 곱해지기 때문에 매우 작은 값을 다루게 됩니다. 이를 방지하고자 (또한 미분 계산 또한 쉽게 하고자) log를 씌운 수식을 보통 사용합니다. 이를 Maximum Log-Likelihood function이라고 합니다.

$$ \log L(w) = \sum_{i=1}^{n}y_i\log f(x_i; w) + (1-y_i)\log(1-f(x_i; w)) $$

 

한 함수의 Concavity를 증명하기 위해서는 여러 방법이 있지만, Maximum Log-Likelihood 는 연속 함수이기 때문에, 다음 수식만 만족하면 됩니다.

$$ \log L(\frac{a + b}{2}) \geq \frac{\log L(a) + \log L(b)}{2} \quad \forall \ a, b \in R^D $$

좌변을 정리하면 다음과 같습니다.

$$ \begin{align} \frac{1}{2}(\log L(a) &+ log L(b)) = \frac{1}{2}\left[\left\{\sum_{i=1}^{n}y_i\log f(x_i;a) + (1-y_i)\log f(1-f(x_i;a))\right\}\right.\\ &+\left.\left\{\sum_{i=1}^{n}y_i\log f(x_i;b) + (1-y_i)\log f(1-f(x_i;b))\right\}\right]\\ &=\frac{1}{2}\sum_{i=1}^{n}\left[y_i\log f(x_i;a) + (1-y_i)\log (1-f(x_i;a))\right.\\ &+\left.y_i\log f(x_i;b) + (1-y_i)\log f(1-f(x_i;b))\right]\\ &=\frac{1}{2}\sum_{i=1}^{n}\left[y_i\{\log f(x_i;a)+\log f(x_i;b)\}\right.\\ &\left.+(1-y_i)\{\log f(1-f(x_i;a))+ \log (1-f(x_i;b))\}\right]\\ \end{align} $$

$$ = \frac{1}{2}\sum_{i=1}^{n}\left[y_i\log\{f(x_i;a)f(x_i;b)\} \\ + (1-y_i)\log \{f(1-f(x_i;a))f(1-f(x_i;b))\}\right] \tag{a} $$

 

우변을 정리하면 다음과 같습니다.

$$ \log L\left(\frac{a+b}{2}\right)=\sum_{i=1}^{n}\left[y_i\log f\left(x_i;\frac{a+b}{2}\right)+(1-y_i)\log \left(1-f\left(x_i;\frac{a+b}{2}\right)\right)\right]\\ \tag{b} $$

 

(a)보다 (b)가 커야 하므로 $$ (a) - (b) \geq 0 $$ 이어야 합니다. 또한, 좌변과 우변의 sigma는 같은 term을 갖고 있기 때문에 합칠 수 있습니다. 합친 sigma 식의 각 term이 0보다 작으면 식이 성립합니다.

2 * (좌변 - 우변) 을 하면 다음과 같습니다.

$$ \begin{align}
& = \sum_{i=1}^{n}\left[y_i\log\{f(x_i;a)f(x_i;b)\}+(1-y_i)\log \{f(1-f(x_i;a))f(1-f(x_i;b))\}\right]\\
& - 2\sum_{i=1}^{n}\left[y_i\log f\left(x_i;\frac{a+b}{2}\right)+(1-y_i)\log \left(1-f\left(x_i;\frac{a+b}{2}\right)\right)\right]\\
& = \sum_{i=1}^{n}\left.\left[y_i\log\{f(x_i;a)f(x_i;b)\}+(1-y_i)\log \{f(1-f(x_i;a))f(1-f(x_i;b))\}\right]\right.\\
& - \left.2\left[y_i\log f\left(x_i;\frac{a+b}{2}\right)+(1-y_i)\log \left(1-f\left(x_i;\frac{a+b}{2}\right)\right)\right]\right.\\ 
& = \sum_{i=1}^{n}\left<y_i\left[\log\{f(x_i;a)f(x_i;b)\}-2\log f\left(x_i;\frac{a+b}{2}\right)\right]\right.\\
& +(1-y_i)\left[\log \{(1-f(x_i;a))(1-f(x_i;b))\} - \left.2\log \left(1-f\left(x_i;\frac{a+b}{2}\right)\right)\right]\right>\\ 
\end{align} $$

각 term에 대해서 y와 1-y는 각각 (1, 0) 이거나 (0, 1) 입니다.

 

 

즉 다음 두 식이 0보다 작거나 같으면 전체 식이 성립합니다.

$$ \begin{equation} \log\{f(a)f(b)\}-2\log f\left(\frac{a+b}{2}\right) \tag{1} \end{equation} $$

$$ \begin{equation} \log \{(1-f(x_i;a))(1-f(x_i;b))\} - 2\log \left(1-f\left(x_i;\frac{a+b}{2}\right)\right) \tag{2} \end{equation} $$

1번식을 풀어보면 이와 같이 나옵니다.

\begin{align*}
f(a)(b)\leq f\left(\frac{a+b}{2}\right)^{2}
\end{align*}

해당 식은 결국 f(x)의 log concavity를 묻는것과 동일합니다.

2번식 또한 풀어보면 이와 같습니다.

\begin{align*}
(1-f(a))(1-f(b)) \leq \left(1-f\left(\frac{a+b}{2}\right)\right)^2
\end{align*}

이 식에서 log concavity를 덜어 내면 convexity 식과 같습니다.

 

즉 convexity와 log concavity를 만족하는 모든 f(x)들에 대해 MLE는 concave 합니다.

 

대표적으로 Sigmoid 함수,  Softplus 함수, 그 외 여러 분포들 (가우시안, 푸아송, 베이불)들에 대해서 MLE는 concave 합니다.