相關軟件:

1.mutool 工具 : 免費開源PDF批處理工具,可轉PDF至文本/圖片/HTML網頁

MuPDFmupdf.com/index.html

備選:可用其他:如福昕/Abbyy FineReader/萬興PDF/PDFXCview來提取
還有一種方案為: 先用Calibre工具轉換PDF成ZIP格式,然后解壓成圖片
小型PDF文檔,直接用Word或WPS打開另存為Html,或在線網頁轉換也可.

2.img2html 工具 : 批量轉換圖片->Html網頁工具 百度網盤提取碼: 84gf

https://pan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqgpan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqg

備選:也可自己寫python腳本來生成網頁,如果簡單可直接寫成一個批處理

具體流程:

1.使用mutool工具轉換pdf文檔,生成每頁一個圖片

2.使用img2html批處理腳本生成簡單的index網頁

3.在SuperMemo中導入網頁,按分割符號Split分割

4.使用Alt+X圖片提取,截圖識別進行文本內容提取

說明及使用:

以下為mutool工具常見的一些使用命令,非常簡單,但功能豐富,靈活,軟件開源/速度快/無限制.

mutool工具常見使用案例

PDF文檔文本增量

如果只是簡單的提取PDF文件內的文本,不含圖片,用上面第二條命令,指定-F txt 即可,也可以直接-F html 不加 -O preserve-images 參數即可.

mutool draw -F txt file.pdf 2,3,6-20 后面的數字是轉換的頁碼范圍,不加的話默認轉換所有
mutool convert -F html -o outfile_name%d.html file.pdf 不加 -O preserve-images 參數

1.使用mutool工具轉換pdf到圖片,比較輕量/而且免費,具體可以到下圖所示的官網下載:

https://www.mupdf.com/index.htmlwww.mupdf.com/index.html

下載客戶端工具

使用這個鏈接下載

下載后解壓出如下, 我們只需拷貝其中的一個mutool.exe文件至C:\Windows\System32即可

拷貝工具至C盤路徑

打開cmd窗口,只執行mutool命令如下(具體的幫助可查看如下官網鏈接),即代表工具安裝正常:

https://mupdf.com/docs/index.htmlmupdf.com/docs/index.html

命令行輸入mutool命令

PDF轉換操作: cmd下進入磁盤指定目錄(圖片會生成在這,不建議C盤)后執行如下腳本并回車:

方法一:

  • 如下命令指定了PDF文件輸出格式,輸出為帶頁碼的圖片,要進行PDF轉換頁碼為1,3,4,5-12頁

mutool convert -F png -o myfile-%d.png ./輕松Scrum之旅.pdf(全文路徑) 1,3,4,5-12

方法二:

mutool draw -F png -o myfile-%d.png ./輕松Scrum之旅.pdf(全文路徑) 1,3,4,5-12
mutool convert -F cbz -o my_zip_file.cbz ./輕松Scrum之旅.pdf(全文路徑) 1,3,4,5-12

方法三:

使用mutool run javascript文件

在本文中我們只用方法一來實現,具體步驟如下:

單PDF轉換成多圖片

稍等一會我們即可在Windows窗口中看到轉換后的圖片如下,注意:命令行取消操作則按Ctrl+C

圖片提取成功的界面


2.使用img2html工具轉換多個圖片至html,上面提供下載的是一個批處理,具體你可自己修改:

圖片生成網頁批處理腳本內容

把bat文件放置于以上圖片同一目錄,雙擊執行即可,過一會可看到生成一個index.html文件如下:

放置于圖片目錄雙擊img2html

生成網頁內容如上,可用IE打開


3.在SuperMemo中導入網頁,按分割符號Split分割,生成多個子元素主題,具體操作如下:

拷貝所有文件(index.html,所有圖片)至多媒體文件夾,具體路徑在option選項中下的elements:

用IE瀏覽器打開index.html,在supermemo中快捷鍵ctrl+shift+a導入IE中打開的網頁如下:

快捷鍵ctrl+enter打開命令窗口,輸入split選首項分割(分割符號即上面我們批處理中設置的):

輸入split分割命令

選擇按自定義分割

輸入批處理中的分割符

如上圖:最終分割成了每個圖片一個子element元素


4.添加學習計劃并對新元素進行增量學習和提取,圖片提取使用alt+x , 文字提取使用OCR工具

分支視圖中添加學習元素

分支視圖中開始學習內容

1.圖片內容的提取

快捷鍵Ctrl+F8下載并插入成圖片組件

alt+左鍵單擊右側圖片組件進行操作

如上圖,alt+左鍵點擊,邊框變成綠色時即可提取,鼠標中鍵雙擊放大,加shift中鍵雙擊縮小,鼠標框選釋放后alt+x提取,unzoom重置縮放,重置后可再次提取.生成的圖片會成為當前元素子元素

提取內容結果如下: (提示:你也可以直接用Ctrl+Shift+M使用預定義模版來批量改變內容樣式)

刪除內容圖片,并添加內容(相關筆記)

2.文本內容的提取

因為針對PDF導入并分割的是圖片,因此我們要使用OCR工具進行文本內容提取(任何一個可以截圖識文的工具都可以)如quicker/itext/abbyy等,接著只添加一個子元素并粘貼識別內容即可:

使用OCR工具識圖并粘貼到新建子元素