CHESTNUT CODE IS POETRY

高斯极大似然估计与MSE等价

平常做训练,很多情况下都是直接用MSE损失,从优化的角度来看,这个可以理解为希望模型输出与真实值差距越小越好。但是实际在大部分模型建模过程中都是使用的概率模型,并且采用极大似然的方式对模型进行优化。怎么统一这两种视角呢?

考虑极大似然估计问题:

$$ max\quad \mathbb{E}_{x \sim p(x), z \sim p(z)} log p(x|z) $$

我们假设p(x|z)是高斯分布,即:

$$ p(x|z) = N(x; \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} exp(\frac{(x-\mu)^2}{2\sigma^2}) $$

取对数:

$$ log p(x|z) = - \frac{1}{2} log(2 \pi \sigma_z^2) - \frac{(x-\mu_z)^2}{2\sigma_z^2} $$

因此优化目标转为:

$$ max \quad \mathbb{E}_{x \sim p(x), z \sim p(z)} - \frac{1}{2} log(2 \pi \sigma_z^2) - \frac{(x-\mu_z)^2}{2\sigma_z^2} $$

我们发现,如果$\sigma_z = C$,那么优化目标就等价于MSE损失:

$$ max \quad \mathbb{E}_{x \sim p(x), z \sim p(z)} (x-\mu_z)^2 $$

所以,极大似然估计等价在满足以下假设时是与MSE等价的:

  • 输出条件概率分布是高斯分布。
  • 这个高分布的方差是固定的。

并且在推理时,我们通常会直接取$\mu_z$作为模型的输出(高斯分布的均值)。

Return to Blog