wget是个功能强大的下载工具,支持多种网络协议。如果有一个特别的需求就是保存一个网页,包含网页内引用的各种资源,比如css文件,js文件,图片等。如果在同一个域名下,就很好处理,如果不是在同一个域名下,就需要多添加几个参数。
同一个域名下的示例
# 通过参数 -p 就可以下载这个页面的所有资源文件,比如 css,js文件 wget -p https://db.ci
Bash
wget下载不在同一个域名下的资源
# -H 允许下载其他域名下的资源 # --domains=aaa.com,bbb.com 可以下载的域名是aaa.com 和 bbb.com 这里是 # 这里说的域名必须是相等,不包含该域名下的二级域名 # -k 资源的地址,转换成本地的地址。这里有两种情况, # 第一:同一个域名下的,使用相对路径。 第二:不同域名下的也是修改成相对路径。 # 这样静态资源都统一到了同一个域名下面 # -e robots=off 不考虑robots.txt 文件,默认robots.txt 文件直接了爬行就不能抓取了。 wget -H -k -e robots=off -p --domains=www.domain1.com,www.domain2.org https://www.domain.com