LSIP

大规模集成网页,集成超过一千个链接的网页 
Large Scale Integrated web Page

View project on GitHub

存档大小 mht-size

mht size of web archive file

Archive as .mht file Size?

Intense writing …

LSIP / 存档大小

两种网页的文件体积

  《中国千县政府网》是在民政部《2020年县以上行政区划代码》网页的基础上,为每个政区增加了当地人民政府的网址,信息量增加,但是文件体积却更小。我们用保存为单一网页文件(.mht)的方式来比较这两个网页的文件体积,使用不同的浏览器保存会导致文件大小略有差别:

A:民政部县级政区页	3212个县级政区与代码		1.57MB~1.68MB
B:中国千县政府网	3212个县级政区与代码+政府网址	 450KB~ 565KB

  粗略的估算,A的大小在1.5MB,B的大小在0.5MB,千县网用官网三分之一的体积实现了更多的信息量。为什么A网页的信息密度这么低?查看网页源代码可以得知,该网页是用微软Excel输出,而微软历史上的网页制作工具,从最早的FrontPage开始,向来都有添加样式过多的问题,使得网页比较臃肿。其他办公软件输出网页,也有类似问题,程度不一。该现象在政府网页中比较普遍,值得改进。   

存档mht的软件

  由于各浏览器保存mht文件大小会出现差异,这里需要一个恒定的标准。正好微软在2022年结束了经典浏览器IE的更新,这个最终版本的IE正好可以作为标准。而且,IE也是最早实现mht保存功能的浏览器之一,以至于有人会错以为mht是微软的私有格式。而实际上,mht文件是很早的开放标准,