ChrAlpha's Blog

Thumbnail-%E5%9C%A8%E7%BD%91%E9%A1%B5%20404%20%E5%89%8D%E5%B0%86%E5%85%B6%E5%A4%87%E4%BB%BD%E7%9A%84%E4%B8%8D%E5%90%8C%E6%96%B9%E6%B3%95

在网页 404 前将其备份的不同方法

2020-04-01·笔记本

不知为何,许多有态度有看法的文章也被划入「不合适」一类。有人说过,互联网是有记忆的,任何个人、组织都不能真正将其抹杀。而我们能做的,就是将这些记录保存好。

unalted image

「不存在」的文章

一篇文章,特别是网上的文章,有可能由于某种原因无法在被阅读。可能是网站被屏蔽,可能是被平台下架,可能是作者手动删除。

这时候,有效地将网页备份好,不仅方便自己之后复习查看,也同时方便更多人继续感受作者原来的思想。这次就介绍几种将网页保存下来方法。

本地备份

直接将页面保存到本地应该是最直接的做法了,只要硬盘还在,你一直都能翻阅你保存好的内容。只不过这样方便不到他人就是了。

下载到本地

其实说到「保存」,应该马上联想到「下载」。

确实,直接将网页下载到本地是最方便快捷的方法之一了。桌面端直接 ctrl/command + s 即可。

unalted image

这里我们发现有三种保存方式。我们知道,一个网页,除了 HTML 文件本身,还会有 CSS 样式文件、JS 脚本文件、和使用相对路径调用的媒体资源等。这时候如果仅保存单个 HTML 很可能没法完整还原阅读体验,所以不建议使用第一种方式。而第二种和第三种都能较好地存档单个页面,区别在于第三种是将该 HTML 页面所需的资源单独下载到一个与 HTML 同级的资源文件夹内(在你没有移动的情况下),并将 HTML 中的资源调用替换为使用相对路径访问下载好的资源文件夹;而第二种 MHTML 称为聚合超文本文档,直接将所有资源封装到一个 MHTML 文件内,不再需要资源文件夹,分享的时候也只需要发送这一个 MHTML 页面,避免可能遇到的路径问题。

所以结论是,建议使用第二种方法保存网页。Android 手机的主流浏览器(如 Chrome)也可以使用「下载」方法保存网页。

注意 Android Chrome 默认保存为 HTML,需要在 chrome://flags 中将 #offline-pages-live-page-sharing 调为 Enable,这样才会默认保存为 MHTML。

unalted image

而 macOS/iOS 则是保存为 WebArchive 文件,和 MHTML 一样,这种文件格式也是将页面元素全部封装到一个文件内.

保存为 PDF

将网页「打印」为 PDF 也是一个十分方便的办法。你不用担心样式、资源问题,因为 PDF 就完完全全是你打开这个网页所看到的样子。

在电脑上,你可以使用 ctrl/command + p 打印当前页面,并在「目标打印机」选择保存为 PDF。

unalted image

注意如果你部署了懒加载,记得一定要先让所有懒加载先完成,不然 PDF 里可能都是占位图,到时候就哭笑不得了。如果有类似我博客的导航栏,可能会跑到最下方,不过不影响文章主体的阅读。

手机端稍微麻烦一点。如果你使用 Chrome,默认是没有打印选项的,而我当初刷入的是 OpenGApps 的 nano 包,没有预装 Google Cloud Print,需要在 Google Play 中手动安装,这样在分享页面才会出现打印选项。如果你使用 Firefox,据说可以有保存为 PDF 的选项,这就方便很多了。

PDF 的优点是没有格式问题,保存下来就是你当初打开页面的样子,全平台都能很好的兼容。但缺点是没有响应式设计,在桌面端上保存好的 PDF 发送到移动端查看体验就很一般了。


以上两种就是比较常用的本地备份方式,至于长截图之类的操作就不单独介绍了。当然你也可以直接将页面复制粘贴到 typora,typora 会自动识别 HTML 并转为 Markdown 格式,之后就可以选择保存或导出为 PDF(typora 自带)。

在线备份

如果本地保存是一个人独享,那么在线备份就能很方便地分享,让更多人了解作者原本的思想。但相较于本地保存,在云端备份更容易受到不可控因素影响,大家自行取舍吧。

云笔记

许多云笔记应用,像是 Evernote/OneNote/Notion,都有网页剪藏功能,体验也都不错。

桌面端使用浏览器插件,移动端巧用分享功能,都能实现。

但我平时更倾向于书面笔记,对于云笔记应用使用较少,就不放详细步骤了。

Webpage Archive

其实说到在线备份,首先想到的就是 Webpage Archive

unalted image

使用也非常简单。当你认为一篇文章可能比较敏感,就直接把 URL 粘贴到上面的输入框内并点击 save ,它就会帮你保存好当前这个版本。

而如果该页面已经「不存在」了,也可以尝试在下方的搜索框尝试搜索该网页,说不定别人已经随手保存好了。

Wayback Machine

和 Webpage Archive 一样,Wayback Machine 也是一款在线网页备份工具。

unalted image

你可以在右下方输入框内手动保存页面,也可以使用搜索功能手动索引检查是否有人已经备份了。Wayback Machine 目前已经有 4200 多亿个页面存档,体量可以说是很庞大了。

而与 Webpage Archive 不同的是,据说 Wayback Machine 会根据谷歌快照等数据自动备份网站。不过这样至少需要网站有一定名气,且没有屏蔽爬虫,有被搜索引擎收录。像是微信公众号这种严重流量封闭的平台就不适用了。

浏览器插件

这里单独推荐一个 Chrome 浏览器插件——Archiveror ,它可以帮你快速备份网页到上面介绍过的几家在线备份服务中,或者单纯保存为 MHTML 到本地,你只需要右键该网页,就可以看到选项。

unalted image

当然,这样一来该插件就可以访问你的浏览数据了。如果你不放心,那还是手动去备份吧。

看到有些优秀的文章被下架,不论原因为何,都应感到是可惜的。确实,在这个环境下,我们能做的只有真实地记录,或者让这些痕迹更加深刻,让其有迹可循。

其实说到抗封锁,第一想到的还是去中心化网络,比如区块链、BitTorrent、DHT 网络等等。但暂时还没有看到令我兴奋的解决方案,也欢迎大家讨论。

在网页 404 前将其备份的不同方法
本文作者
ChrAlpha
发布日期
2020-04-01
更新日期
2020-04-01
转载或引用本文时请遵守 CC BY-NC-SA 4.0 许可协议,注明出处、不得用于商业用途!
CC BY-NC-SA 4.0