文档解析技术在当今社会中发挥着至关重要的作用,不仅提升了信息处理的效率和准确性,还为各行业的数字化转型和智能化发展提供了有力支持。,5月22日,字节跳动开源的全新文档解析模型Dolphin横空出世,凭借仅322M参数的轻量级架构,在性能上实现了对GPT-4.1,Claude3.5等重量级模型的全面超越!

技术架构

github项目地址: https://github.com/bytedance/Dolphin

在线解析:  http://115.190.42.15:8888/dolphin

现在让为我们部署Dolphin模型,通过实战来感受一下文档解析的能力吧。

Dolphin模型部署

一、安装依赖环境

在GitHub上拉取Dolphin项目源码,安装所需的环境依赖:

# 下载依赖包会存在依赖冲突的情况,建议修改使用以下依赖版本
albumentations==1.4.0
numpy==1.26.0
omegaconf==2.3.0
opencv-python==4.11.0.86
opencv-python-headless==4.5.5.64
pillow==9.3.0
timm==0.5.4
torch==2.1.0
torchvision==0.16.0
transformers==4.47.0
accelerate==1.6.0
pymupdf==1.26
# 获取代码
git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin

# 为项目新建一个虚拟环境
conda create -n Dolphin  python=3.11

# 激活虚拟环境
conda activate Dolphin 

# 安装环境依赖包
pip install -r requirements.txt  # 可选清华园安装 -i https://pypi.tuna.tsinghua.edu.cn/simple

二、下载模型权重

选项A:原始模型格式(基于配置)

从我的夸克网盘或个人云盘下载,并将它们放在。/checkpoint文件夹中。

夸克网盘:

链接:https://pan.quark.cn/s/75352af299b0

提取码:WDZV

选项B:Huggingface模型格式

1.huggingface模型地址:

https://huggingface.co/ByteDance/Dolphin

2.魔搭的模型地址:

https://www.modelscope.cn/models/ByteDance/Dolphin

# 1.从Hugging Face Hub下载模型
Git LFS安装
git clone https://huggingface.co/ByteDance/Dolphin ./hf_model

# 2.魔搭下载模型
git clone https://www.modelscope.cn/ByteDance/Dolphin.git ./models

三、解析测试

1.页面级解析

使用Huggingface模型格式进行测试。

1.首先运行程序来看解析单个文档图片的效果,如图包括json和markdown结果:

# 进入Dolphin主目录,git仓库后的目录
cd Dolphin
# 运行解析程序
python demo_page_hf.py --model_path ./models/Dolphin --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

2.处理一个目录中所有的文档图像。

# 处理目录
python demo_page_hf.py --model_path ./models/Dolphin --input_path ./demo/page_imgs --save_dir ./results1

2.元素级解析

# Process a single table image
python demo_element_hf.py --model_path ./models/Dolphin --input_path ./demo/element_imgs/table_1.jpeg --element_type table

# Process a single formula image
python demo_element_hf.py --model_path ./models/Dolphin --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula

# Process a single text paragraph image
python demo_element_hf.py --model_path ./models/Dolphin --input_path ./demo/element_imgs/para_1.jpg --element_type text

图像表格解析效果:

参考链接

希望这篇博客对你有帮助!如果有其他问题,欢迎随时提问!