使用爬虫免费下载book118的PDF文件

331

想要实现无纸化学习,用pdf上课。在book118上找到了一本课本,然而要30才能下载,所以就想到用爬虫来获得书本。
首先,随便打开一个pdf页面,来看下预览功能是怎么实现的。
在首页上随便选了一个pdf:2014年中考化学真题分类汇编:第六单元 碳和碳的氧化物.pdf


打开chrome的开发者工具,点击network标签页。
然后开始预览。


可以发现,我们需要的整个pdf以一页一个图片的形式拼合到一起。
这样,我们就可以获得一个思路:
  1. 调用book118的api来获得所有图片的链接
  2. 根据图片链接来下载图片
  3. 将下载好的图片拼合成pdf

原理上没问题,就可以开始分析url了
对于第一页的图片,可以看出这是一个GET查询


https://view45.book118.com/img/?img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
将其分成两部分,有https://view45.book118.com/img/?img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
稍微思考下可以知道我们需要获得两个数据:view45Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
那么看一下前面的Ajax查询信息,看一下如何获得这两个值


可以看到有一个json数据里有我们需要的字段
{
    ErrorMsg: ""
    Height: 1120
    NextPage: "Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc="
    PageCount: 18
    PageIndex: 1
    PageWidth: 792
    Width: 792
}


那么再来看这个字段是怎么获得的


GET请求的路径是https://view45.book118.com/pdf/GetNextPage/?f=dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY%3D&img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx&isMobile=false&isNet=True&readLimit=jlHXDXaWV9DMU%40rtQOL9FA%3D%3D&furl=YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ%3D%3D

分析查询字段可以得到
f:dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY=
img:Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx
isMobile:false
isNet:True
readLimit:jlHXDXaWV9DMU@rtQOL9FA==
furl:YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==


根据前后的查询,以及这个链接的名字,可以看出来,这个api的意思是获取下一个页面
每一次变化的是img字段,也即上一页的图片路径

分析一下,可以看出来剩下的ffurl是类似id的东西
所以要再去找一下他们是怎么获得的

可以看到请求中有加载一个页面,页面中有一些内容恰好是我们需要的


<input type="hidden" id="Url" value="dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY=" autocomplete="off" />
<input type="hidden" id="Img" value="Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx" autocomplete="off" />
<input type="hidden" id="IsMobi" value="false" autocomplete="off" />
<input type="hidden" id="IsNet" value="True" autocomplete="off" />
<input type="hidden" id="Furl" value="YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==" autocomplete="off" />
<input type="hidden" id="ReadLimit" value="jlHXDXaWV9DMU@rtQOL9FA==" autocomplete="off" />


问题转变成获得这个页面的地址,这个就比较容易获得了,点击预览后的第一个GET请求就是
https://max.book118.com/index.php?g=Home&m=View&a=viewUrl&cid=155510562&flag=1
返回的//view45.book118.com/?readpage=jlHXDXaWV9DMU@rtQOL9FA==&furl=YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==&n=1就是刚刚页面的地址
那么很自然,前面的view45也是我们GetNextPage所需要的二级域名
而这个查询也很容易看出来参数就是页面的id,也就是链接最后的数字

至此,我们已经分析出了book118预览部分获得图片地址的功能

写成代码就是先通过GET查询得到预览页面的地址,分析返回的HTML内容,筛选出所需要的字段
根据所需要的字段,以及book118的GetNextPage接口,获得所有图片地址

写成代码测试无误后,就要解决下载的问题了
下载和爬虫爬取页面内容一样,只不过一个要转换成文本,一个是二进制文件
得到数据后写出到jpg即可

而转换成pdf则需要使用一些外部的模块
搜索后选择了reportlib

代码实现见: https://github.com/OhYee/documentDownloader
发布评论
  • 点击查看/关闭被识别为广告的评论