Skip to main content
Generaldvcrn

pdf-parser

使用 MinerU API 解析 PDF 文件(会将你指定的文件上传到 https://mineru.net 进行解析)。

Stars
15
Source
dvcrn/openclaw-skills-marketplace
Updated
2026-05-29
Slug
dvcrn--openclaw-skills-marketplace--pdf-parser
View on GitHubRaw SKILL.md

// install — copy + paste into any project

mkdir -p .claude/skills && curl -fsSL https://raw.githubusercontent.com/dvcrn/openclaw-skills-marketplace/HEAD/plugins/alex-zxyz--mineru-pdf-parser/skills/pdf-parser/SKILL.md -o .claude/skills/pdf-parser.md

Drops the SKILL.md into .claude/skills/pdf-parser.md. Works with Claude Code, Cursor, and any agent that loads SKILL.md files from .claude/skills/.

PDF Parser Skill

基于 MinerU 提供 PDF 解析能力。

功能

  • PDF 解析: 将 PDF 转换为 Markdown 格式
  • 公式识别: 支持 LaTeX 公式提取
  • 表格识别: 自动识别并转换表格结构
  • OCR: 支持图片型 PDF 文字识别
  • 多语言: 支持中文、英文,日文、韩文等

⚠️ 安装前必读

使用本技能即表示:

  1. 你愿意提供你的 MinerU API Token (MINERU_TOKEN)
  2. Token 会被发送给 https://mineru.net/
  3. 确认 MinerU 服务可信,接受其隐私政策
  4. 已在本地源码中确认无额外意外行为

前提条件

1. 安装依赖

pip install requests

2. 获取 MinerU Token

访问 https://mineru.net/ 注册并获取 API Token。

3. 设置环境变量

Windows (PowerShell):

$env:MINERU_TOKEN = "your-token-here"

macOS / Linux:

export MINERU_TOKEN=your-token-here

支持的引擎

引擎 说明
vlm VLM 引擎(默认)
pipeline 管道引擎
MinerU-HTML HTML 输出

快速开始

# 解析 PDF (默认 vlm 引擎)
python scripts/mineru_api.py -f <pdf路径> --wait

# 指定引擎
python scripts/mineru_api.py -f <pdf路径> --engine pipeline --wait

选项

参数 说明 默认值
-f, --files 本地 PDF 文件 -
--engine 解析引擎 vlm
--lang 语言 (ch/en/ja/ko) ch
--wait 等待解析完成

环境变量

变量 必填 说明
MINERU_TOKEN MinerU API Token

输出

解析结果保存在 ~/.openclaw/MinerU_Results/ 目录下。

工作流

  1. 设置 MINERU_TOKEN 环境变量
  2. 执行解析命令
  3. 等待解析完成
  4. 读取 full.md 分析内容
  5. 根据内容重命名目录