衡量一个不确定的事情到确定的难度有多大。
$$ f(x)=-log_2^x $$
其中x是某个事件概率。这个事件发生时,蕴含的信息量的大小,由函数$f(x)$计算得出。
跟信息量不同的是,熵衡量的是整个系统里的所有事件,衡量一个不确定的系统到确定难度有多大。
$$ f(p)=-\sum_{i=1}^{N}p_ilog_2^{p_i} $$
其中$p$是系统里的事件,一个系统事件的信息量乘以这个事件在系统种的占比。就是这个事件的熵。
联合熵一般大于$H(X)$+$H(Y)$,它表明了随机变量$X$和$Y$之间存在一定程度的关联性和共同信息。如果$H(X,Y)> H(X) + H(Y)$,那么说明$X$和$Y$之间的某种关系使得它们一起提供的信息量比单独提供的信息量更多。
<aside> 💡 考虑两个随机变量𝑋代表学生的学习时间,𝑌
代表考试成绩。如果学生的学习时间和考试成绩是相关的,即更多的学习时间通常导致更好的考试成绩,那么在已知学习时间的情况下,我们能更准确地预测考试成绩。这种情况下,联合熵会超过各自的熵之和,因为学习时间和考试成绩之间存在关联性,提供了额外的信息。 这种情况下,虽然考试成绩的信息量可能会减少,但整体系统的信息量并没有减少。相反,通过学习时间和考试成绩之间的关联性,我们获得了更多关于整体学习过程的信息。因此,虽然某个变量的信息量可能会减少,但整个系统的信息量可能会增加或保持不变,因为我们获得了更多关于变量之间关系的信息。
</aside>
相对熵是用来衡量两个概率系统的熵的差别,也就是说两种分布的信息量差距。公式为
$$ D_{KL}(P||Q) \\:= \sum_{i=1}^Np_i(f_Q(q_i)-f_P(p_i)) \\:=\sum_{i=1}^Np_i((-log_2^{q_i}--log_2^{p_i})\\:=\sum_{i=1}^Np_i(-log_2^{q_i})-\sum_{i=1}^Np_i(-log_2^{p_i}) $$
其中,Q和P是两个概率系统,也就是两种概率分布。$P||Q$意思是以$P$为基准,计算$P,Q$的相对熵。这个公式,相对熵是非对称的,也就是说,D(P||Q)不一定等于D(Q||P)。这是因为我们是在度量以P为真实分布的情况下,使用Q来近似P的“代价”。