PDF解析过程中大字典的压缩选型
0x01前情提要 目前在做一个非结构化数据解析项目,非结构化数据中占比最大的主要是PDF格式。 在解析过程中会使用pymupdf对PDF中的文本和图像做初步解析 api会返回一个类似上图结构的字典, 层级大概是doc→page→block→line→span→char 我们的解析逻辑代码会根据pym
0x01前情提要 目前在做一个非结构化数据解析项目,非结构化数据中占比最大的主要是PDF格式。 在解析过程中会使用pymupdf对PDF中的文本和图像做初步解析 api会返回一个类似上图结构的字典, 层级大概是doc→page→block→line→span→char 我们的解析逻辑代码会根据pym