高斯极大似然估计与MSE等价
平常做训练,很多情况下都是直接用MSE损失,从优化的角度来看,这个可以理解为希望模型输出与真实值差距越小越好。但是实际在大部分模型建模过程中都是使用的概率模型,并且采用极大似然的方式对模型进行优化。怎么统一这两种视角呢?
考虑极大似然估计问题:
$$
max\quad \mathbb{E}_{x \sim p(x), z \sim p(z)} log p(x|z)
$$
我们假设p(x|z)是高斯分布,即:
$$
p(x|z) = N(x; \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} exp(\frac{(x-\mu)^2}{2\sigma^2})
$$
取对数:
$$
log p(x|z) = - \frac{1}{2} log(2 \pi \sigma_z^2) - \frac{(x-\mu_z)^2}{2\sigma_z^2}
$$
因此优化目标转为:
$$
max \quad \mathbb{E}_{x \sim p(x), z \sim p(z)} - \frac{1}{2} log(2 \pi \sigma_z^2) - \frac{(x-\mu_z)^2}{2\sigma_z^2}
$$
我们发现,如果$\sigma_z = C$,那么优化目标就等价于MSE损失:
$$
max \quad \mathbb{E}_{x \sim p(x), z \sim p(z)} (x-\mu_z)^2
$$
所以,极大似然估计等价在满足以下假设时是与MSE等价的:
- 输出条件概率分布是高斯分布。
- 这个高分布的方差是固定的。
并且在推理时,我们通常会直接取$\mu_z$作为模型的输出(高斯分布的均值)。