PageIndex预研报告

概述
PageIndex是无向量模型依赖的RAG解决方案,通过推理模型将PDF或者markdown文档转换为JSON文件来实现检索
基本信息
- 官网地址:https://pageindex.ai
- GitHub地址:https://github.com/VectifyAI
适用场景
- 基于特定资料库的问答
注意事项
1. 部分开源
PDF/markdown转换为JSON有做开源(https://github.com/VectifyAI/PageIndex),但核心服务是闭源的,只能通过服务调用(sdk/http rest api/mcp http/mcp stdio)完成。
如果需要私有化部署需要单独联系采购
MCP没有支持文档转换
基于http的mcp不支持PDF/markdown转换为JSON。需要自己在后台页面中上传,操作较为繁琐
PDF/markdown转换为JSON效果不稳定
我上传了一份20+页的PDF,在后台看到的结果中只有2页。
因为无法直接上传我通过PageIndex生成好的json文件,只能使用云端默认的模型
评价
就我自己本身的应用场景来看,目前基于向量模型的方案没有遇到瓶颈,暂不考虑PageIndex
另外PageIndex这个服务只是作者引流的一个开源仓库,实际服务与这个开源仓库关系不大