文章摘要
作者发现司法部在发布爱泼斯坦档案时,因操作不当将部分 PDF 附件以 Base64 编码的文本形式直接打印在证据页中。文章详细记录了作者尝试使用 pdftoppm、ImageMagick 和 Tesseract 等工具提取并还原这些文件的过程。尽管尝试了设置 OCR 字符白名单和调整页面分割模式,但由于原始扫描件质量极差、存在字符幻觉及行对齐问题,还原工作最终陷入僵局。
社区讨论
社区讨论对作者的尝试表示支持,但对目前未能成功还原结果感到遗憾。有评论指出,虽然传统的 OCR 工具难以应对这种高难度的 Base64 文本识别,但未来可以尝试使用针对性的机器学习(ML)模型来提高识别准确率。整体讨论聚焦于技术可行性与改进方案。