Fork me on GitHub

学习 RAGFlow 知识库高级配置

目前为止,我们已经学习了很多关于 RAGFlow 的知识库配置,包括分块方法,PDF 解析器,嵌入模型,RAPTOR 策略,提取知识图谱等,除此之外,还剩下一些高级配置,我们今天一起来看下:页面排名(pagerank)当...

- 阅读剩余部分 -

学习 RAGFlow 的知识图谱功能

昨天我们学习了 RAGFlow 的 RAPTOR 分块策略,今天我们将继续学习另一种高级配置 —— 提取知识图谱(use_graphrag):该特性自 v0.16.0 起引入,开启该配置后,RAGFlow 会在当前知识库的分块上构建知识图谱,构建步骤...

- 阅读剩余部分 -

学习 RAGFlow 的 RAPTOR 分块策略

在学习知识库配置时,我们提到了一个高级配置 —— 使用召回增强 RAPTOR 策略(use_raptor):开启该配置后,RAGFlow 会使用 RAPTOR 分块策略,这是去年提出的一种增强型文档预处理技术,旨在解决多跳问答问题,通过对文档片段进...

- 阅读剩余部分 -

学习 RAGFlow 的 DeepDoc 技术之视觉处理

我们之前已经学过,DeepDoc 由 解析器(parser) 和 视觉处理(vision) 两个部分组成。解析器提供了不同格式文档的通用解析方法,我们花了两天时间,对这 10 个解析器的源码做了深入分析;今天我们将学习 DeepD...

- 阅读剩余部分 -

学习 RAGFlow 的 DeepDoc 技术之解析器

我们昨天将任务执行器中的 do_handle_task() 函数从头到尾梳理了一遍,详细学习了 RAGFlow 的文件解析和分块逻辑。其中还遗漏了一些关键技术点,包括 DeepDoc 深度解析文档、RAPTOR 分块策略、Grap...

- 阅读剩余部分 -

再学 RAGFlow 的文件解析逻辑

经过几天的学习,我们了解了 RAGFlow 的文件上传和解析流程,了解了解析任务是如何触发并放入 Redis Stream 消息队列中,等待任务执行器消费和处理的。今天我们将继续学习任务执行器中最重要的函数 do_handle_task...

- 阅读剩余部分 -

学习 RAGFlow 的知识库配置

书接上回,昨天我们深入学习了如何触发解析任务,如何通过 Redis Stream 作为消息队列投递任务,以及任务执行器如何利用 trio 异步框架和消费者组机制,消费和处理这些任务。我们可以用 Redis 客户端连接到 Redi...

- 阅读剩余部分 -

学习 RAGFlow 的文件解析逻辑

昨天我们已经学习了 RAGFlow 文件上传的相关逻辑,今天继续学习文件解析的逻辑。触发文件解析文件上传后,在文件列表中会有一个 “解析” 按钮,点击后会触发文件解析:调用接口为 /v1/document/run,其实现逻辑位于 api/a...

- 阅读剩余部分 -

学习 RAGFlow 的文件上传逻辑

在上一篇中,我们学习了 RAGFlow 的系统架构和启动流程,了解了 RAGFlow 的 API 服务器(API Server) 和 任务执行器(Task Executor) 两大核心组件,一个负责提供外部接口和平台基本功能,另一个则负责...

- 阅读剩余部分 -