<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>PDF on E7Coding</title><link>https://www.e7coding.com/tags/pdf/</link><description>Recent content in PDF on E7Coding</description><generator>Hugo</generator><language>zh-cn</language><managingEditor>Joy</managingEditor><webMaster>Joy</webMaster><lastBuildDate>Tue, 30 Jun 2026 13:35:00 +0800</lastBuildDate><atom:link href="https://www.e7coding.com/tags/pdf/index.xml" rel="self" type="application/rss+xml"/><item><title>baidu/Unlimited-OCR 模型介绍：长文档 OCR 的新选择</title><link>https://www.e7coding.com/posts/baidu-unlimited-ocr-introduction/</link><pubDate>Tue, 30 Jun 2026 13:35:00 +0800</pubDate><author>Joy</author><guid>https://www.e7coding.com/posts/baidu-unlimited-ocr-introduction/</guid><description>&lt;p&gt;最近百度开源了一个新的 OCR 模型：&lt;strong&gt;baidu/Unlimited-OCR&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;它不是传统意义上「识别一张图片里的文字」的轻量 OCR 工具，而是更偏向 &lt;strong&gt;长文档解析&lt;/strong&gt;：把论文、报告、书籍、扫描 PDF 这类多页文档，尽量完整地转成可读、可编辑、可继续处理的文本或 Markdown。&lt;/p&gt;
&lt;p&gt;如果你关心的是 PDF 转 Markdown、长文档 OCR、本地私有化文档解析，那么这个模型值得放进候选列表。&lt;/p&gt;
&lt;h2 id="它解决的不是单页-ocr而是长文档解析"&gt;它解决的不是单页 OCR，而是长文档解析&lt;/h2&gt;
&lt;p&gt;传统 OCR 很多时候处理的是单张图片：截图、证件、发票、表单、票据。&lt;/p&gt;
&lt;p&gt;但真实文档解析经常更麻烦：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一份 PDF 有几十页，甚至上百页。&lt;/li&gt;
&lt;li&gt;页面里有多栏排版、表格、标题、脚注、引用。&lt;/li&gt;
&lt;li&gt;内容里可能混有中文、英文、公式、代码、图注。&lt;/li&gt;
&lt;li&gt;用户希望拿到的不是一堆孤立文本框，而是一份结构尽量完整的 Markdown。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就是 &lt;code&gt;baidu/Unlimited-OCR&lt;/code&gt; 更擅长的方向。它更像一个「文档转写模型」，目标不是只把字识别出来，而是尽量保留文档的阅读顺序和结构。&lt;/p&gt;</description></item></channel></rss>