Fork me on GitHub

学习 RAGFlow 的检索流程

经过一段时间的学习,我们已经深入了解了 RAGFlow 从文件上传、解析、分块到知识库构建的全过程,并探索了 RAPTOR、知识图谱、标签集等高级功能。至此,知识库的构建阶段已经完成,接下来我们将进入 RAG 应用的核心环节:检索与...

- 阅读剩余部分 -

构建和使用 RAGFlow 的标签集

检索准确性是衡量生产级 RAG 框架的试金石。除了自动关键词提取、自动问题提取、知识图谱等提升检索效果的方法外,RAGFlow 还引入了自动提取标签的功能,它会根据每个知识块的相似性,自动将用户自定义标签集中的标签映射到...

- 阅读剩余部分 -

学习 RAGFlow 知识库高级配置

目前为止,我们已经学习了很多关于 RAGFlow 的知识库配置,包括分块方法,PDF 解析器,嵌入模型,RAPTOR 策略,提取知识图谱等,除此之外,还剩下一些高级配置,我们今天一起来看下:页面排名(pagerank)当...

- 阅读剩余部分 -

学习 RAGFlow 的知识图谱功能

昨天我们学习了 RAGFlow 的 RAPTOR 分块策略,今天我们将继续学习另一种高级配置 —— 提取知识图谱(use_graphrag):该特性自 v0.16.0 起引入,开启该配置后,RAGFlow 会在当前知识库的分块上构建知识图谱,构建步骤...

- 阅读剩余部分 -

学习 RAGFlow 的 RAPTOR 分块策略

在学习知识库配置时,我们提到了一个高级配置 —— 使用召回增强 RAPTOR 策略(use_raptor):开启该配置后,RAGFlow 会使用 RAPTOR 分块策略,这是去年提出的一种增强型文档预处理技术,旨在解决多跳问答问题,通过对文档片段进...

- 阅读剩余部分 -

学习 RAGFlow 的 DeepDoc 技术之视觉处理

我们之前已经学过,DeepDoc 由 解析器(parser) 和 视觉处理(vision) 两个部分组成。解析器提供了不同格式文档的通用解析方法,我们花了两天时间,对这 10 个解析器的源码做了深入分析;今天我们将学习 DeepD...

- 阅读剩余部分 -

学习 RAGFlow 的 DeepDoc 技术之解析器

我们昨天将任务执行器中的 do_handle_task() 函数从头到尾梳理了一遍,详细学习了 RAGFlow 的文件解析和分块逻辑。其中还遗漏了一些关键技术点,包括 DeepDoc 深度解析文档、RAPTOR 分块策略、Grap...

- 阅读剩余部分 -

再学 RAGFlow 的文件解析逻辑

经过几天的学习,我们了解了 RAGFlow 的文件上传和解析流程,了解了解析任务是如何触发并放入 Redis Stream 消息队列中,等待任务执行器消费和处理的。今天我们将继续学习任务执行器中最重要的函数 do_handle_task...

- 阅读剩余部分 -

学习 RAGFlow 的知识库配置

书接上回,昨天我们深入学习了如何触发解析任务,如何通过 Redis Stream 作为消息队列投递任务,以及任务执行器如何利用 trio 异步框架和消费者组机制,消费和处理这些任务。我们可以用 Redis 客户端连接到 Redi...

- 阅读剩余部分 -