DedeCMS 5.7 采集功能完全教程
DedeCMS 的采集功能是其核心优势之一,能够帮助站长快速从其他网站抓取内容,丰富自己的站点,虽然新版 DedeCMS 已更新,但 5.7 版本的采集逻辑和流程依然是很多站长学习和使用的基础。

(图片来源网络,侵删)
准备工作:采集前的“三思”
在开始采集之前,做好规划可以让你事半功倍,避免后期大量修改。
-
明确采集目标:
- 目标网站:确定你要采集哪个网站,请务必遵守网站的
robots.txt协议和相关法律法规,不要采集有版权保护的内容,仅供学习和练习使用。 - 目标栏目:确定采集到的内容要发布到你网站的哪个栏目,这个栏目必须是支持投稿或外部采集的。
- 目标网站:确定你要采集哪个网站,请务必遵守网站的
-
分析目标网站:
- 列表页 URL:找到包含文章列表的页面。
https://example.com/news/list_1_1.html。 - 页 URL:分析列表页中的文章链接是如何构成的,通常是固定的 URL 模式,如
https://example.com/article/123.html。 - 列表规则:观察列表页的文章列表是如何组织的(如
<li>,<div class="article-item">等),并找到“下一页”的链接规则。 - 内容规则:打开一篇文章,分析文章标题、内容、作者、来源、图片、发布时间等信息在 HTML 代码中的位置(通常通过
<h1>,<div class="content">,<span class="author">等标签或 class/id 名来定位)。
- 列表页 URL:找到包含文章列表的页面。
-
准备你的 DedeCMS 环境:
(图片来源网络,侵删)- 确保你的 DedeCMS 5.7 程序已正确安装。
- 登录网站后台,进入【核心】->【采集】->【采集节点管理】。
采集流程:一步步教你做采集
采集过程主要分为五大步:创建节点 -> 匹配列表 -> 匹配内容 -> 保存选项 -> 开始采集。
步骤 1:创建采集节点
这是采集任务的总入口。
- 进入【采集节点管理】页面,点击右上角的【增加新节点】。
- 填写节点基本信息:
- 节点名称:给你的采集任务起个名字,方便识别,如“XX新闻站采集”。
- 起始URL:填写你分析好的列表页第一页的地址。
- 列表页/内容页:选择“列表”,因为我们先要抓取文章列表,再从列表进入文章内容页。
- 列表命名规则:保持默认即可,除非你有特殊需求。
- 列表保存目录:选择一个临时目录,用于存放采集到的列表文件,通常用默认的
/html/dede即可。 - 列表分页选项:
- 手动获取:如果目标网站没有“下一页”链接,或者页面结构复杂,选择此项,采集完一页后,你需要手动输入下一页的 URL 继续采集。
- 自动获取:如果目标网站的列表页有规律的“下一页”链接,强烈推荐此项,系统会自动翻页,直到最后一页。
- 目标栏目:这是最重要的一步! 选择你准备好的、用于存放采集文章的栏目。
- 作者字段的默认值:如果目标网站没有作者信息,可以在这里设置一个默认作者,如“佚名”或“管理员”。
- 来源字段的默认值:同样,可以设置一个默认来源,如“网络转载”。
- 发布选项:选择“直接发布”或“审核发布”,建议新手选择“审核发布”,方便后期检查。
- 保存:点击【保存】按钮,节点创建成功,但还没有任何采集规则。
步骤 2:匹配列表(定义如何找到文章链接)
这一步的目的是告诉 DedeCMS,在列表页上如何找到每一篇文章的链接地址。
- 在【采集节点管理】页面,找到你刚刚创建的节点,点击后面的【选择】->【选择栏目】。
- 进入【采集节点管理】页面,点击你节点的名称,进入【节点列表】页面。
- 点击右上角的【选择】->【选择栏目】,进入【列表匹配】页面。
- 开始匹配:
- 手动匹配(推荐):
- 勾选“启用手动匹配”。
- 点击【浏览】按钮,在弹出的窗口中找到你的起始 URL,点击【浏览】。
- 会加载出来,你需要用鼠标选中列表页中一篇文章的标题。
- 选中后,页面下方的【文章链接】文本框会自动填充被选中内容的 HTML 代码,通常你只需要保留最核心的部分,
class="title"或id="post-title"这样的关键标识。 - 测试:点击【测试】按钮,如果能正确弹出这篇文章的内容页,说明匹配成功,如果失败,请尝试选中不同的部分,直到成功。
- 自动匹配:
- 如果目标网站的文章链接有共同的规律(例如都包含
article/和.html),可以尝试使用正则表达式进行匹配,手动匹配更直观可靠。
- 如果目标网站的文章链接有共同的规律(例如都包含
- 手动匹配(推荐):
- 设置列表分页(如果之前选择的是自动获取):
- 在【列表匹配】页面,找到“列表分页设置”区域。
- 用鼠标选中列表页上的“下一页”按钮或链接。
- 同样,系统会自动填充代码,你只需保留关键标识即可。
- 测试:点击【测试下一页】,如果能正确跳转到第二页,则设置成功。
- 点击【保存】。
步骤 3:匹配内容(定义如何提取文章信息)
这是采集的核心,决定了你能否抓取到文章的标题、正文、图片等。

(图片来源网络,侵删)
- 在【列表匹配】页面保存后,会自动跳转到【内容匹配】页面。
- 逐个字段匹配:
- :用鼠标在内容页上选中(
<h1>我是文章标题</h1>),系统会自动填充,点击【测试】可以预览抓取结果。 - :用鼠标选中文章正文区域的开始和结束,通常是一大段
<div class="content">...</div>。注意:要包含所有正文,包括换行和图片。 - 文章作者:选中作者信息。
- 文章来源:选中来源信息。
- 发布时间:选中发布时间。
- 缩略图/图片:
- 缩略图:选中文章中的第一张图片(或你希望作为缩略图的图片)的
<img>标签,DedeCMS 会自动提取src属性作为图片地址。 - 内容图片:选中包含所有正文图片的
<div>或<p>区域,DedeCMS 会自动提取该区域内的所有图片。
- 缩略图:选中文章中的第一张图片(或你希望作为缩略图的图片)的
- :用鼠标在内容页上选中(
- 图片处理(非常重要!):
- 勾选 “下载远程图片并本地化”,这样采集到的图片会自动下载到你网站的服务器上,并替换为本地路径,避免日后目标网站失效导致图片丢失。
- 目录设置:可以设置图片保存在哪个目录,如
/uploads/images/2025/10/。 - 替换图片地址:如果目标网站的图片是相对路径(如
/images/pic.jpg),需要勾选此项并填写域名(如https://example.com),才能正确下载。
- 点击【保存】。
步骤 4:设置保存选项
这一步决定了采集到的文章最终以什么形式保存。
- 匹配】页面保存后,会进入【保存选项】页面。
- 关键设置:
- 内容关键字:可以手动输入,也可以选择“自动提取”,建议使用自动提取,它会从文章标题和正文中提取出现频率较高的词作为关键字。
- 内容摘要:同样可以手动输入或“自动提取”,自动提取会截取正文的前几百个字符作为摘要。
- 内容Tag标签:可以手动输入,或使用“自动提取”,提取的关键词会以 Tag 的形式附加到文章上,有助于SEO和聚合。
- 发布选项:再次确认是“直接发布”还是“审核发布”。
- 远程附件:如果文章中包含附件(如
.zip,.pdf),可以勾选此项进行下载。
- 点击【保存】。
步骤 5:开始采集
所有规则都设置完毕,现在可以开始正式采集了。
- 在【保存选项】页面保存后,会回到【节点列表】页面。
- 找到你的节点,点击后面的【选择】->【选择栏目】。
- 在弹出的页面中,你会看到节点状态为“就绪”,点击【开始采集】。
- 系统会先抓取列表页,找到所有文章链接,然后逐个打开文章内容页进行抓取,这个过程可能需要一些时间,取决于文章数量和服务器速度。
- 采集完成后,你可以到对应的栏目中查看采集到的文章。
进阶技巧与常见问题
-
采集的文章乱码怎么办?
- 原因:目标网站和你的网站编码不一致(如目标网站是
GBK,你的网站是UTF-8)。 - 解决:在【采集节点管理】中,编辑你的节点,在“高级选项”里找到“目标网页编码”,手动设置为正确的编码(如
gbk或utf-8)。
- 原因:目标网站和你的网站编码不一致(如目标网站是
-
采集失败,提示“无法获取内容”?
- 原因:
- 目标网站设置了反爬虫机制,拒绝了你的请求。
- URL 输入错误。
- 匹配规则不正确,导致系统找不到链接或内容。
- 解决:
- 先检查 URL 是否正确。
- 回到【列表匹配】或【内容匹配】页面,重新测试规则,确保能正确选中内容。
- 如果是反爬虫,可以尝试更换 IP、降低采集频率,或者寻找更稳定的采集目标。
- 原因:
-
如何只采集标题和链接,不采集正文(用于做站内聚合)?
匹配】页面,你可以只匹配“文章标题”和“文章链接”,其他字段(如内容、作者等)可以留空或不匹配,保存后,采集的文章正文会是空的,但标题和链接是正确的,适合做“图文资讯”等聚合栏目。
-
采集后的文章需要大量修改,怎么办?
- DedeCMS 采集到的文章是保存在数据库中的,你可以利用系统的批量维护功能,对已发布的文章进行批量修改标题、关键字、栏目等,如果内容格式需要大改,可能需要手动调整或使用更高级的数据库操作。
-
采集规则太复杂,记不住怎么办?
- DedeCMS 的采集规则是保存在数据库里的,你可以将配置好的节点导出,下次需要采集类似网站时,直接导入规则,稍作修改即可使用,非常方便,在【采集节点管理】页面有导入/导出按钮。
DedeCMS 采集功能虽然强大,但需要耐心和细心,核心在于“分析网站 -> 定义规则 -> 测试验证”这三个循环,多练习几次,熟悉了 HTML 标签的定位和 DedeCMS 的匹配逻辑后,你就能高效地利用它来丰富你的网站内容了。
再次强调:请尊重原创,合理使用采集功能,避免侵犯他人版权。
