PDF解析过程中大字典的压缩选型

0x01前情提要目前在做一个非结构化数据解析项目，非结构化数据中占比最大的主要是PDF格式。在解析过程中会使用pymupdf对PDF中的文本和图像做初步解析 api会返回一个类似上图结构的字典，层级大概是doc→page→block→line→span→char 我们的解析逻辑代码会根据pym