Hexo视频播放

2020-08-03

字数统计: 390字 | 阅读时长≈ 1分钟

最简单的爬虫：爬取新浪微博热搜

如果你看过我之前的文章，想必对Python基础语法有了一些了解，那么我们来试试最简单的爬虫：爬取《新浪微博热搜榜》

目标网址是：

1	`https://s.weibo.com/top/summary`

效果：

10行代码就可以

简单的爬虫基本就类似这个框架，以这个框架为基础，不断添加新的功能就可以了。

导入库

import requests
from bs4 import BeautifulSoup

requests 是为了模拟HTTP请求，bs4是为了解析HTML

接下来指定URL

1	`url = "https://s.weibo.com/top/summary"`

使用 html = requests.get(url).text 获取返回的HTML

效果：

此时html是字符串类型的，我们再通过

1	`soup = BeautifulSoup(html,"html.parser")`

将它转换成bs4.BeautifulSoup类型

通过观察

微博热搜文字都在标签中，并且热搜的标签的href都是以“/weibo?q”开头的，以此来区分其他标签

两步

便利所有a标签

all_a = soup.find_all(“a”)

\2. 遍历所有标签，找到匹配的并输出

item all_a:
    all_url = item[]
    all_url.find() != -:
       (item.string)

完整代码：

requests
bs4 BeautifulSoup
url = html = requests.get(url).text
soup = BeautifulSoup(html,)
all_a = soup.find_all()
item all_a:
    all_url = item[]
    all_url.find() != -:
       (item.string)

以后稍复杂的爬虫也是大概这么个框架，无非就是网上加各种各样的绕过反爬虫等等功能。

如果对你有一点点帮助的话，希望点个关注，粉丝多一点我好去弄个个人认证。

完成

打赏

版权声明： 本博客所有文章除特别声明外，均采用 Apache License 2.0 许可协议。转载请注明出处！