July 29, 2025 学习 RAGFlow 的检索流程 经过一段时间的学习,我们已经深入了解了 RAGFlow 从文件上传、解析、分块到知识库构建的全过程,并探索了 RAPTOR、知识图谱、标签集等高级功能。至此,知识库的构建阶段已经完成,接下来我们将进入 RAG 应用的核心环节:检索与...- 阅读剩余部分 -
July 28, 2025 构建和使用 RAGFlow 的标签集 检索准确性是衡量生产级 RAG 框架的试金石。除了自动关键词提取、自动问题提取、知识图谱等提升检索效果的方法外,RAGFlow 还引入了自动提取标签的功能,它会根据每个知识块的相似性,自动将用户自定义标签集中的标签映射到...- 阅读剩余部分 -
July 25, 2025 学习 RAGFlow 知识库高级配置 目前为止,我们已经学习了很多关于 RAGFlow 的知识库配置,包括分块方法,PDF 解析器,嵌入模型,RAPTOR 策略,提取知识图谱等,除此之外,还剩下一些高级配置,我们今天一起来看下:页面排名(pagerank)当...- 阅读剩余部分 -
July 24, 2025 学习 RAGFlow 的知识图谱功能 昨天我们学习了 RAGFlow 的 RAPTOR 分块策略,今天我们将继续学习另一种高级配置 —— 提取知识图谱(use_graphrag):该特性自 v0.16.0 起引入,开启该配置后,RAGFlow 会在当前知识库的分块上构建知识图谱,构建步骤...- 阅读剩余部分 -
July 23, 2025 学习 RAGFlow 的 RAPTOR 分块策略 在学习知识库配置时,我们提到了一个高级配置 —— 使用召回增强 RAPTOR 策略(use_raptor):开启该配置后,RAGFlow 会使用 RAPTOR 分块策略,这是去年提出的一种增强型文档预处理技术,旨在解决多跳问答问题,通过对文档片段进...- 阅读剩余部分 -
July 22, 2025 学习 RAGFlow 的 DeepDoc 技术之视觉处理 我们之前已经学过,DeepDoc 由 解析器(parser) 和 视觉处理(vision) 两个部分组成。解析器提供了不同格式文档的通用解析方法,我们花了两天时间,对这 10 个解析器的源码做了深入分析;今天我们将学习 DeepD...- 阅读剩余部分 -
July 21, 2025 学习 RAGFlow 的 DeepDoc 技术之解析器(二) 在上一篇文章中,我们学习了 RAGFlow 的 DeepDoc 技术,并对 DeepDoc 的 10 大解析器做了个概览,目前我们已经学习了其中的 3 种解析器,包括:DOCX 解析器、Excel 解析器 和 PPT 解析器。...- 阅读剩余部分 -
July 18, 2025 学习 RAGFlow 的 DeepDoc 技术之解析器 我们昨天将任务执行器中的 do_handle_task() 函数从头到尾梳理了一遍,详细学习了 RAGFlow 的文件解析和分块逻辑。其中还遗漏了一些关键技术点,包括 DeepDoc 深度解析文档、RAPTOR 分块策略、Grap...- 阅读剩余部分 -
July 17, 2025 再学 RAGFlow 的文件解析逻辑 经过几天的学习,我们了解了 RAGFlow 的文件上传和解析流程,了解了解析任务是如何触发并放入 Redis Stream 消息队列中,等待任务执行器消费和处理的。今天我们将继续学习任务执行器中最重要的函数 do_handle_task...- 阅读剩余部分 -
July 16, 2025 学习 RAGFlow 的知识库配置 书接上回,昨天我们深入学习了如何触发解析任务,如何通过 Redis Stream 作为消息队列投递任务,以及任务执行器如何利用 trio 异步框架和消费者组机制,消费和处理这些任务。我们可以用 Redis 客户端连接到 Redi...- 阅读剩余部分 -