
Dolphin文档图像解析实战
AI-摘要
切换
Guhe GPT
AI初始化中...
介绍自己
生成本文简介
推荐相关文章
前往主页
前往tianli博客
文档解析技术在当今社会中发挥着至关重要的作用,不仅提升了信息处理的效率和准确性,还为各行业的数字化转型和智能化发展提供了有力支持。,5月22日,字节跳动开源的全新文档解析模型Dolphin横空出世,凭借仅322M参数的轻量级架构,在性能上实现了对GPT-4.1,Claude3.5等重量级模型的全面超越!
技术架构
github项目地址: https://github.com/bytedance/Dolphin
在线解析: http://115.190.42.15:8888/dolphin
现在让为我们部署Dolphin模型,通过实战来感受一下文档解析的能力吧。
Dolphin模型部署
一、安装依赖环境
在GitHub上拉取Dolphin项目源码,安装所需的环境依赖:
# 下载依赖包会存在依赖冲突的情况,建议修改使用以下依赖版本
albumentations==1.4.0
numpy==1.26.0
omegaconf==2.3.0
opencv-python==4.11.0.86
opencv-python-headless==4.5.5.64
pillow==9.3.0
timm==0.5.4
torch==2.1.0
torchvision==0.16.0
transformers==4.47.0
accelerate==1.6.0
pymupdf==1.26
# 获取代码
git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin
# 为项目新建一个虚拟环境
conda create -n Dolphin python=3.11
# 激活虚拟环境
conda activate Dolphin
# 安装环境依赖包
pip install -r requirements.txt # 可选清华园安装 -i https://pypi.tuna.tsinghua.edu.cn/simple
二、下载模型权重
选项A:原始模型格式(基于配置)
从我的夸克网盘或个人云盘下载,并将它们放在。/checkpoint文件夹中。
夸克网盘:
链接:https://pan.quark.cn/s/75352af299b0
提取码:WDZV
选项B:Huggingface模型格式
1.huggingface模型地址:
https://huggingface.co/ByteDance/Dolphin
2.魔搭的模型地址:
https://www.modelscope.cn/models/ByteDance/Dolphin
# 1.从Hugging Face Hub下载模型
Git LFS安装
git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
# 2.魔搭下载模型
git clone https://www.modelscope.cn/ByteDance/Dolphin.git ./models
三、解析测试
1.页面级解析
使用Huggingface模型格式进行测试。
1.首先运行程序来看解析单个文档图片的效果,如图包括json和markdown结果:
# 进入Dolphin主目录,git仓库后的目录
cd Dolphin
# 运行解析程序
python demo_page_hf.py --model_path ./models/Dolphin --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results
2.处理一个目录中所有的文档图像。
# 处理目录
python demo_page_hf.py --model_path ./models/Dolphin --input_path ./demo/page_imgs --save_dir ./results1
2.元素级解析
# Process a single table image
python demo_element_hf.py --model_path ./models/Dolphin --input_path ./demo/element_imgs/table_1.jpeg --element_type table
# Process a single formula image
python demo_element_hf.py --model_path ./models/Dolphin --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula
# Process a single text paragraph image
python demo_element_hf.py --model_path ./models/Dolphin --input_path ./demo/element_imgs/para_1.jpg --element_type text
图像表格解析效果:
参考链接
希望这篇博客对你有帮助!如果有其他问题,欢迎随时提问!
- 感谢你赐予我前进的力量
赞赏者名单
因为你们的支持让我意识到写文章的价值🙏
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 故河
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果