]> _ Git - cubist_pdf.git/commitdiff
wip #7556 @3
authorVincent Vanwaelscappel <vincent@cubedesigners.com>
Tue, 15 Jul 2025 14:00:00 +0000 (16:00 +0200)
committerVincent Vanwaelscappel <vincent@cubedesigners.com>
Tue, 15 Jul 2025 14:00:00 +0000 (16:00 +0200)
resources/tools/docling/convert_page.py

index 402a21ee87459df69b5e244fdd1d2d3c53e2c7cf..802e17eabb28f67a7e0a60578ce8f269b31040e3 100644 (file)
@@ -1,7 +1,6 @@
 import sys
 from pathlib import Path
 
-from docling.backend.docling_parse_v2_backend import DoclingParseV2DocumentBackend
 from docling.backend.docling_parse_v4_backend import DoclingParseV4DocumentBackend
 from docling.datamodel.document import InputFormat
 from docling.datamodel.pipeline_options import PdfPipelineOptions
@@ -22,6 +21,6 @@ converter = DocumentConverter(
 )
 result = converter.convert(sys.argv[1])
 i=0
-for md in result.document.export_to_markdown(page_break_placeholder="<!-- page break -->", image_mode=ImageRefMode.EMBEDDED).split("<!-- page break -->"):
+for md in result.document.export_to_markdown(page_break_placeholder="<!-- page break -->", image_mode=ImageRefMode.REFERENCED).split("<!-- page break -->"):
     i+=1
     Path(sys.argv[2]+"p"+str(i)+".md").write_text(md)
\ No newline at end of file