网站类目爬取技巧
我们在爬取网站的时候,经常因为找不到类目入口需要人工整理类目元数据,再输入到爬虫程序里面,这边介绍的方法目前有两种,1. 获取 JS 对象里面的数据,2. 通过 url 分析,后续在补充
JS 对象里面包含的数据
以京东手机触屏版为例, 打开首页类目的页面
https://so.m.jd.com/webportal/channel/m_category?searchFrom=bysearchbox
我们分析的 JS 的事件 event 都在 document 文件内部,所有我们我们将 html 文件下载到本地并格式化
这个 JS 的文档就是我们想要的数据
# 这样也可以导出JS对象成Json数组
JSON.stringify(window.bigpipe.componentData.m1.data.json)
通过获取类目 URL
这些原理都是很简单,首先都是要 选择元素,然后 观察事件的 event,分析 JS 代码
评论区