星期二, 十二月 04, 2007

读“怎样度量信息?”

Google黑板报上有篇文章:怎样度量信息?

黑板报的文章我订到google reader了,所以每个标题都看过的。曾经是见到了这个标题的,没兴趣。今天从今天的黑板报链接过来,因为他在说怎样定义信息熵。很通俗易懂。终于知道信息熵的定义了。其实以前应该是看过甚至努力尝试理解过的,也许甚至是理解了的。但是当时肯定是那种硬着头皮强行理解的,所以很容易忘,而且对于这种强行理解和强行记住的东西,不自觉地很喜欢回避,就是说在有时候思想在游走的时候走到这里就避开。导致的后果就是很容易忘记。(我发现这段话很符合我的思维:罗嗦)。有趣的是他(吴军)在黑板报里还给了熵的拼音(shāng)。这确实是容易误认的字,我在上热力学课之前一直认为是叫di。我怎么不知道怎么在aoeiu上加声调呢?

这次应该不会忘了:
S=-\Sum_i {P_i*log_2 (P_i)}.
其中P_i是每个个体的出现概率。如果我忘了这个公式,我就想32个球队哪个第一,我要猜5次(前提:分组,另一个前提:我超级不是球迷)。

所以可以说“32个球队哪个会夺冠”这个问题所包含的信息量,由于用信息熵量度,于是就是说这个问题包含5个比特的信息熵。前面以2为底,所以这里就是用比特(bit)表示。

也可以问一本书(泛指)包含着多少信息熵,特价地,要用多少比特来存储这本书。

这个和蔡博士曾经提出信息熵和能量之间可能有什么联系好像还是没有关系(我仅仅只是知道了信息熵的定义了而已)。他企图算出要表示一比特的信息最少需要多少能量;然后进一步,能量和信息一一对应,就好像质量和能量之间一样。