发现一个练习爬虫的网站

2020年9月5日12:54:44 评论 6 1515字阅读5分3秒

发现一个练习爬虫的网站

 

网址:https://scrape.center/

 

以下是作者@崔庆才丨静觅的对每个站点的详细解释,

SSR 网站

  • ssr1:猫眼电影数据网站,数据通过服务端渲染,适合基本爬虫练习。
  • ssr2:HTTPS 无效证书网站,适合做跳过验证 HTTPS 案例。
  • ssr3:HTTP Basic Authentication 网站,适合做 HTTP 认证案例,用户名密码均为 admin。
  • ssr4:每个响应增加了 5 秒延迟,适合测试慢速网站爬取或做爬取速度测试,减少本身网速干扰。

SPA 网站

  • spa1:猫眼电影数据网站,数据通过 Ajax 加载,页面动态渲染,适合 Ajax 分析和动态页面渲染爬取。
  • spa2:猫眼电影数据网站,数据通过 Ajax 加载,数据接口参数加密且有时间限制,适合动态页面渲染爬取或 JavaScript 逆向分析。
  • spa3:猫眼电影数据网站,数据通过 Ajax 加载,无页码翻页,适合 Ajax 分析和动态页面渲染抓取。
  • spa4:新闻网站索引,数据通过 Ajax 加载,无页码翻页,适合 Ajax 分析和动态页面渲染抓取以及智能页面提取分析。
  • spa5:豆瓣图书网站,数据通过 Ajax 加载,有翻页,无反爬,适合大批量动态页面渲染抓取。
  • spa6:电影数据网站,数据通过 Ajax 加载,数据接口参数加密且有时间限制,源码经过混淆,适合 JavaScript 逆向分析。

验证码网站

  • captcha1:对接滑动拼图验证码,适合滑动拼图验证码分析处理。
  • captcha2:对接图标点选验证码,适合图标点选验证码分析处理。
  • captcha3:对接图文点选验证码,适合图文点选验证码分析处理。
  • captcha4:对接语序分析验证码,适合语序分析验证码分析处理。
  • captcha5:对接空间推理验证码,适合空间推理验证码分析处理。
  • captcha6:对接九宫格识图验证码,适合九宫格识图验证码分析处理。

模拟登录网站

  • login1:登录时用户名和密码经过加密处理,适合 JavaScript 逆向分析。
  • login2:对接 Session + Cookies 模拟登录,适合用作 Session + Cookies 模拟登录练习。
  • login3:对接 JWT 模拟登录方式,适合用作 JWT 模拟登录练习。

反爬型网站

  • antispider1:WebDriver 反爬网站,检测到 WebDriver 就不显示页面。
  • antispider2:对接 User-Agent 反爬,检测到常见爬虫 User-Agent 就会拒绝响应,适合用作 User-Agent 反爬练习。
  • antispider3:对接文字偏移反爬,所见顺序并不一定和源码顺序一致,适合用作文字偏移反爬练习。
  • antispider4:对接字体文件反爬,显示的内容并不在 HTML 内,而是隐藏在字体文件,设置了文字映射表,适合用作字体反爬练习。
  • antispider5:限制 IP 访问频率为最多 1 秒一个,如果过多则会封禁 IP。

App

  • app1:最基本的 App 案例,数据通过接口加载,无反爬,无任何加密参数,适合做抓包分析和请求模拟。
  • app2:设置了接口请求不走系统代理,因此无法直接抓包,适合做抓包特殊处理。
  • app3:对系统代理进行了检测,如果设置了代理则无法正常请求数据,适合做抓包特殊处理。
  • app4:设置了 SSL Pining,如果设置了非法证书则无法正常请求数据,适合做反 SSL Pining 处理。
  • app5:接口增加了加密参数,适合做抓包实时处理或可视化爬取或逆向分析。
  • app6:接口增加了加密参数,同时对源码进行了混淆,适合做抓包实时处理或可视化爬取或逆向分析。
  • app7:接口增加了加密参数,同时对安装包进行了加固处理,适合做抓包实时处理或可视化爬取或逆向分析。

暂且是这么多,后续还会继续增加,大家可以试着爬爬看。

发现一个练习爬虫的网站

 

继续阅读
  • 本文由 发表于 2020年9月5日12:54:44
  • 除非特殊声明,本站文章均为原创,转载请务必保留本文链接