Skip to main content
Back to registry

pdf-ocr

yejinlei/pdf-ocr-skill

PDF OCR技能用于从影印版PDF文件和图片文件中提取文字内容。该技能支持两种OCR引擎:

Installs437
Install command
npx skills add https://github.com/yejinlei/pdf-ocr-skill --skill pdf-ocr
Security audits
Gen Agent Trust HubWARN
SocketWARN
SnykPASS
About this skill
PDF OCR技能用于从影印版PDF文件和图片文件中提取文字内容。该技能支持两种OCR引擎: 安装RapidOCR以获得本地识别能力: RapidOCR引擎 : 硅基流动API引擎 : 对于复杂的扫描版PDF或图片,识别准确率可能会有所不同 建议使用高清晰度的扫描版PDF或图片以获得更好的识别效果 在与 AI IDE 中的助手交互时,您可以使用以下提示词来指定使用不同的 OCR 引擎: 示例 1:使用本地引擎 示例 2:使用云端引擎 示例 3:自动选择 当 AI 助手接收到这些提示词时,会: 通过使用这些提示词,您可以在与 AI IDE 交互时灵活控制 OCR 引擎的选择,获得最佳的识别效果 RapidOCR初始化失败 硅基流动API 401错误 PDF转图片失败 识别结果为空 MIT License - 详见 LICENSE.txt - RapidOCR (本地引擎):无需API密钥,免费使用,识别速度快 - 硅基流动大模型 (云端引擎):使用AI大模型进行高精度OCR识别 - 支持影印版PDF文件的文字提取 - 支持多种图片格式的文字识别(JPG、PNG、BMP、GIF、TIFF、WEBP) - 双引擎支持 :RapidOCR(本地)和硅基流动API(云端) - 支持中文和英文文字识别 - 保持文字的顺序和结构 - 自动将PDF页面转换为图片进行识别 - 智能引擎切换:当RapidOCR初始化失败时自动切换到硅基流动API - 复制 .env.example 文件并重命名为 .env - 根据需要配置以下选项: - PDF文件 : .pdf - 图片文件 : .jpg, .jpeg, .png, .bmp, .gif, .tiff, .webp - 处理扫描版合同、协议等文档 - 提取影印版书籍、报告中的文字 - 处理无法直接复制文字的PDF文件 - 批量处理扫描版PDF文档 - 识别截图、扫描件等图片中的文字 - 处理手写体或印刷体图片文字识别 - RapidOCR引擎 : - 完全免费,无需网络连接 - 首次使用会自动下载模型文件 - 识别速度取决于CPU性能 - 硅基流动API引擎 : - 需要有效的API密钥 - 可能会产生费用 - 识别速度取决于文件页数、图片大小和网络状况 - 对于复杂的扫描版PDF或图片,识别准确率可能会有所不同 - 建议使用高清晰度的扫描版PDF或图片以获得更好的识别效果 - "使用本地 OCR 引擎处理这个 PDF" - "用 RapidOCR 识别这个文件" - "本地处理,不需要 API" - "快速识别这个文档" - "离线处理这个 PDF" - "不使用硅基流动 API,用本地引擎" - "使用硅基流动 API 处理这个 PDF" - "用大模型 OCR 识别这个文件" - "高精度识别这个文档" - "处理复杂的扫描件" - "用云端 OCR 引擎" - "使用 AI 大模型识别" - 解析用户意图,确定要使用的引擎 - 调用 PDFOCRProcessor(engine="rapid") 或 PDFOCRProcessor(engine="siliconflow") - 执行 OCR 识别并返回结果 - 明确指定引擎 :如果您对引擎有特定要求,最好在提示词中明确说明 - 提供上下文...

Source description provided by the upstream skill listing. Community reviews and install context appear in the sections below.

Community Reviews

Latest reviews

Sign in to review

No community reviews yet. Be the first to review.

Browse this skill in context
FAQ
What does pdf-ocr do?

PDF OCR技能用于从影印版PDF文件和图片文件中提取文字内容。该技能支持两种OCR引擎:

Is pdf-ocr good?

pdf-ocr does not have approved reviews yet, so SkillJury cannot publish a community verdict.

What agent does pdf-ocr work with?

pdf-ocr currently lists compatibility with codex, gemini-cli, opencode, kimi-cli, amp, cline.

What are alternatives to pdf-ocr?

Skills in the same category include telegram-bot-builder, flutter-app-size, sharp-edges, iterative-retrieval.

How do I install pdf-ocr?

npx skills add https://github.com/yejinlei/pdf-ocr-skill --skill pdf-ocr

Related skills

Alternatives in Software Engineering