膨胀的我爬了一下链家

别问为什么爬的是二手房，问就是买不起，嗯，是的，我连现在爬的二手房也一样买不起。

我们言归正传，我在连接上找一了一下二手房，挺多的，六万多套，就是不知道我的在哪。

听说今年房地产不景气，价格有所下降(一点点)，所以我风平浪静的心也开始蠢蠢欲动，啊，春天来了吗！！！

爬虫需要知道几个关键信息，一个是分页，另一个是详情页，我们从链家的地址可以看出https://gz.lianjia.com/ershoufang/pg2/**，pg2应该就是单词page2的缩写，赶紧翻到第三页,果不起然是pg3，分页有了我们来看看详情页，万能的**F12,通过标题直接显示出详情页，连拼接都省了，链家真贴心。

再看看里面的详情页所有数据被安排的整整齐齐，真香。

竟然万事俱备，那我们就上吧，代码撸起来！！！

爬虫框架用的是 webmagic 通过一个循环生成 pg 页，再把怕下来的数据落到MySQL数据库。
别问为啥用 webmagic ，问就是喜欢(简单)。

巴拉巴拉写好代码，代码不复杂，只要会xpath，撸遍天下都不怕，代码地址：

1	https://github.com/HWYWL/spring-boot-2.x-examples/tree/master/spring-boot-lianjia

我们来看看成果，我们来排序一下，从高到低，刺激。

红色框左边的是单价（万元/平米），右边的是总价（万元），看完这价格感觉血压有点高，手里的窝窝头突然不香了。

我们还是看看低价吧，惹不起.jpg

低价的就是很香了,除了偏僻一点、小一点。。。

爬取的时候只能爬到一百页，如果再往下就是重复数据，此时你需要增加筛选条件，数据就会变得不一样，
可能就是为了防止我这种人去爬数据做限制。不过想想其实也正常，正常看房的谁真的能翻到一百页，
我羊城的房子看看就好，不要管几手的，反正我都买不起。