织梦采集完如何导出?步骤方法是什么?

99ANYc3cd6
预计阅读时长 11 分钟
位置: 首页 织梦建站 正文

这两个操作通常不是连续的,而是内容生产流程中的两个独立步骤:

织梦采集完了织梦导出
(图片来源网络,侵删)
  1. 采集:从其他网站自动抓取内容,并保存到您自己的网站数据库中。
  2. 导出:将您网站数据库中的内容(文章、栏目等)导出为文件(如HTML、XML、Excel等),用于备份、迁移或其他用途。

下面我将分两部分详细说明。


第一部分:织梦内容采集

采集是织梦CMS一个非常强大的功能,可以让你快速搭建网站内容,流程大致分为:创建采集节点 -> 采集并入库

准备工作

  1. 目标网站分析:在采集前,你需要分析目标网站的页面结构。

    • 列表页URL:包含所有文章链接的页面,http://target.com/list-1.html
    • 内容页URL规则:列表页中每篇文章链接的规律,/article/123.html/view-123-456.html
    • 内容页字段:你需要抓取哪些内容,比如文章标题、作者、来源、发布时间、图片、正文内容等。
  2. 创建对应栏目:在织梦后台,你需要为采集到的内容创建一个或多个栏目,采集时,文章会直接发布到指定的栏目下。

    织梦采集完了织梦导出
    (图片来源网络,侵删)
    • 登录织梦后台 -> 核心 -> 栏目管理 -> 增加顶级栏目
    • 填写栏目名称、选择栏目类型(通常为“普通栏目”),并设置好其他参数。

创建采集节点

  1. 进入采集管理

    • 登录织梦后台 -> 采集 -> 采集节点管理
  2. 添加新节点

    • 点击 “增加新节点” 按钮。
    • 填写节点基本信息
      • 节点名称:给你的采集任务起个名字,方便管理,如“XX新闻采集”。
      • 保存位置:选择你之前创建好的目标栏目。
      • 列表页网址:粘贴你分析好的目标网站列表页URL,如果有多页,可以使用通配符,http://target.com/list-{page}.html,然后在下面的“分页范围”中设置起始页和结束页。
      • 发布选项:选择“直接发布到网站”或“保存到待审核”,建议新手选择“保存到待审核”,以便检查内容质量。
      • 作者:可以设置为固定值,如“佚名”,或者选择“从来源网址获取”。
      • 来源:同样可以设置为固定值,如“XX网”,或从来源网址获取。
      • 可以设置为空,让系统自动从标题提取,或指定固定关键词。
      • 缩略图:选择是否下载远程图片作为缩略图,并设置本地保存目录。
      • :选择是否下载远程图片,并设置本地保存目录。
  3. 匹配和提取规则(最关键的一步)

    • 获取列表链接:系统会自动加载你填写的列表页,你需要用鼠标高亮选择列表页中文章标题的链接,系统会自动匹配规则。
    • 获取下一页链接:如果列表有分页,用鼠标高亮选择“下一页”或“2”这样的链接,系统会自动识别分页规则。
    • :点击 页进行测试”,然后从刚才获取的列表链接中随便点开一个链接进入内容页。
    • 页中,你需要依次高亮选择要抓取的字段:
      • 用鼠标选中文章标题,系统会自动生成规则。
      • 发布时间:选中发布时间。
      • 内容正文非常重要,你需要用鼠标从文章开头一直拖动到文章结尾,选中所有正文内容,系统会尝试自动识别,如果遇到广告、版权声明等无关内容,需要手动调整规则,删除不需要的部分。
      • 缩略图:如果开启了下载缩略图,系统会尝试自动抓取正文中的第一张图片。
  4. 保存节点

    • 所有规则设置完毕后,点击 “保存” 按钮,一个采集节点就创建成功了。

执行采集

  1. 返回节点列表:在 “采集节点管理” 页面,你会看到你刚创建的节点。
  2. 开始采集
    • 在节点后面,点击 “开始采集”
    • 系统会先获取列表中的所有文章链接,然后逐个打开内容页,按照你设定的规则抓取内容并保存到数据库中。
    • 采集过程中,请保持浏览器页面开启,不要刷新或关闭。

第二部分:织梦内容导出

导出功能主要用于数据备份数据迁移,织梦本身没有独立的“导出”按钮,导出是通过后台的 “数据库备份/还原” 功能来实现的。

导出整个网站数据(最常用)

这个操作会导出你网站所有的数据,包括文章、栏目、会员、模型数据等,通常用于网站迁移或完整备份。

  1. 进入数据库管理

    • 登录织梦后台 -> 系统 -> 数据库备份/还原
  2. 开始备份

    • “数据备份” 标签页下,点击 “开始备份” 按钮。
    • 选择要备份的表:系统会列出你数据库中的所有表,默认情况下,它会自动选择所有与内容相关的核心表(如dede_archives文章表、dede_arctype栏目表等),你可以全选,也可以只选择你需要备份的表。
    • 备份选项
      • 备份方式:选择“压缩成zip格式”可以减小文件体积。
      • 是否需要锁定:一般不需要勾选。
    • 点击“开始备份”
  3. 获取备份文件

    • 备份过程可能需要一些时间,完成后,你会在页面上看到一个备份记录。
    • 点击记录后面的 “下载” 按钮,即可将整个数据库的备份文件(一个 .sql 文件或 .zip 压缩包)下载到你的本地电脑。
    • 重要提示:这个 .sql 文件是纯数据,不包含网站程序文件(如PHP、HTML、图片等),完整的网站备份 = 程序文件 + 数据库备份文件。

导出特定栏目或文章(不常用,需手动)

织梦没有直接提供“导出某个栏目所有文章为Word/Excel”的功能,如果需要这个功能,通常需要借助第三方插件或手动操作。

  • 手动方法(以导出为Excel为例)

    1. 获取文章ID列表:在后台 发布” -> “普通文章” 中,进入你想要导出的栏目,你可以通过全选文章,然后点击“删除”(但不要真正删除),在弹出的确认框里可以看到所有选中文章的ID。
    2. 查询数据库:登录你的网站数据库管理工具(如phpMyAdmin),执行SQL查询,根据ID列表批量提取文章标题、内容等字段。
    3. 导出数据:在phpMyAdmin中,可以将查询结果直接导出为CSV(Excel)格式。
  • 插件方法

    在织梦官方论坛或第三方插件市场搜索“文章导出”、“内容导出”等关键词,可以找到一些现成的插件,安装后即可在后台实现按栏目导出文章的功能。


总结与注意事项

功能 核心路径 关键点 结果
采集 采集 -> 采集节点管理 分析目标网站结构
正确匹配列表页和内容页规则
规则测试无误后保存并执行
将外部网站内容存入你网站的数据库
导出 系统 -> 数据库备份/还原 用于完整数据备份/迁移
备份的是数据库,不包含程序文件
备份后需要手动下载
生成一个包含所有网站数据的 .sql.zip 文件

重要提醒

  • 遵守法律时,请务必遵守相关法律法规和目标网站的 robots.txt 协议,尊重知识产权,不要采集受版权保护的内容。
  • 内容质量:采集来的内容通常质量不高,建议进行人工编辑和优化后再发布,以提升网站SEO和用户体验。
  • 定期备份:无论是采集前还是采集后,都建议定期使用“数据库备份”功能来备份数据,以防数据丢失。
-- 展开阅读全文 --
头像
c语言atomic实现
« 上一篇 04-05
织梦5.7如何彻底去掉织梦链?
下一篇 » 04-05

相关文章

取消
微信二维码
支付宝二维码

目录[+]