地址:

您现在的位置 : 豆荚螟

豆荚螟

筛选出数量最多和最少的 10 个子类:

  这里,依次提取出全部的分类名称和编码,用于构造请求的 URL。由于首页的 URL 和第 2 页开始的 URL 形式不同,所以使用了 if 语句分别进行构造。接下来,请求该 URL 然后调用 self.parse() 方法进行解析,这里使用了 meta 参数用于传递相关参数。

  看了首尾,我们再看看整体,了解一下全部 App 的安装数量分布,这里去除了有很大水分的前十名 App。

  这里,除了分类名称 cate_name 可以很方便地直接提取出来,分类编码和子分类的子分类的名称和编码,我们使用了 get_category_code() 等三个方法进行提取。提取方法使用了 CSS 和正则表达式,比较简单。

  扫了一眼,更加没想到了:「QQ 音乐」竟然是倒数第一,竟然只有 3 次安装量!

  使用 Scrapy 爬取豌豆荚全网 70000+ App,并进行探索性分析。若对数据抓取部分不感兴趣,可以直接下拉到数据分析部分。

  这里随机 UA 使用 **scrapy-fake-useragent **库,一行代码就能搞定,代理 IP 直接上阿布云付费代理,几块钱搞定简单省事。

  这里面固然存在两个平台上 App 名称不一致的现象,但更有理由相信酷安很多小众的精品 App 是独有的,豌豆荚并没有。

  惊奇地发现,叫「一键锁屏」的 App 多达 40 款,这个功能 App 很难再想出别的名字了么?现在很多手机都支持触控锁屏了,比一键锁屏操作更加方便。

  点击「视频」进入第二级子类页面,可以看到每款 App 的部分信息,包括:图标、名称、安装数量、体积、评论等。

  接下来,我们看看所包含的 App 当中,在两个平台上的下载量是怎么样的:

  接着,我们可以再进入第三级页面,也就是每款 App 的详情页,可以看到多了下载数、好评率、评论数这几样参数,抓取思路和第二级页面大同小异,同时为了减小网站压力,所以 App 详情页就不抓取了。

  可以看到很多神器都没有包括,比如:RE、绿色守护、一个木函等等。豌豆荚和酷安的对比就到这里,如果用一句话来总结,我可能会说:豌豆荚太牛逼了, App 数量是酷安的十倍,所以我选酷安。


下一篇:没有了