PageIndex预研报告

概述

PageIndex是无向量模型依赖的RAG解决方案,通过推理模型将PDF或者markdown文档转换为JSON文件来实现检索

基本信息

  1. 官网地址:https://pageindex.ai
  2. GitHub地址:https://github.com/VectifyAI

适用场景

  1. 基于特定资料库的问答

注意事项

1. 部分开源

PDF/markdown转换为JSON有做开源(https://github.com/VectifyAI/PageIndex),但核心服务是闭源的,只能通过服务调用(sdk/http rest api/mcp http/mcp stdio)完成。
如果需要私有化部署需要单独联系采购

MCP没有支持文档转换

基于http的mcp不支持PDF/markdown转换为JSON。需要自己在后台页面中上传,操作较为繁琐

PDF/markdown转换为JSON效果不稳定

我上传了一份20+页的PDF,在后台看到的结果中只有2页。
因为无法直接上传我通过PageIndex生成好的json文件,只能使用云端默认的模型

评价

就我自己本身的应用场景来看,目前基于向量模型的方案没有遇到瓶颈,暂不考虑PageIndex

另外PageIndex这个服务只是作者引流的一个开源仓库,实际服务与这个开源仓库关系不大