Hexo视频播放

最简单的爬虫:爬取新浪微博热搜

如果你看过我之前的文章,想必对Python基础语法有了一些了解,那么我们来试试最简单的爬虫:爬取《新浪微博热搜榜》

目标网址是:

1
https://s.weibo.com/top/summary

效果:

最简单的爬虫:爬取新浪微博热搜

10行代码就可以

简单的爬虫基本就类似这个框架,以这个框架为基础,不断添加新的功能就可以了。

导入库

import requests
from bs4 import BeautifulSoup

requests 是为了模拟HTTP请求,bs4是为了解析HTML

接下来指定URL

1
url = "https://s.weibo.com/top/summary"

使用 html = requests.get(url).text 获取返回的HTML

效果:

最简单的爬虫:爬取新浪微博热搜

此时html是字符串类型的,我们再通过

1
soup = BeautifulSoup(html,"html.parser")

将它转换成bs4.BeautifulSoup类型

通过观察

最简单的爬虫:爬取新浪微博热搜

微博热搜文字都在标签中,并且热搜的 标签的href都是以“/weibo?q”开头的,以此来区分其他标签

两步

  1. 便利所有a标签

all_a = soup.find_all(“a”)

\2. 遍历所有标签,找到匹配的并输出

1
2
3
4
item all_a:
all_url = item[]
all_url.find() != -:
(item.string)

完整代码:

1
2
3
4
5
6
7
8
9
requests
bs4 BeautifulSoup
url = html = requests.get(url).text
soup = BeautifulSoup(html,)
all_a = soup.find_all()
item all_a:
all_url = item[]
all_url.find() != -:
(item.string)

以后稍复杂的爬虫也是大概这么个框架,无非就是网上加各种各样的绕过反爬虫等等功能。

如果对你有一点点帮助的话,希望点个关注,粉丝多一点我好去弄个个人认证。

完成

打赏
  • 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!
  • © 2020-2021 ZHF
  • Powered by Hexo Theme Ayer
  • PV: UV:

请我喝杯咖啡吧~

支付宝
微信