SuperMemo-PDF文檔圖片增量方法是
相關軟件:
1.mutool 工具 : 免費開源PDF批處理工具,可轉PDF至文本/圖片/HTML網頁
MuPDFmupdf.com/index.html
備選:可用其他:如福昕/Abbyy FineReader/萬興PDF/PDFXCview來提取
還有一種方案為: 先用Calibre工具轉換PDF成ZIP格式,然后解壓成圖片
小型PDF文檔,直接用Word或WPS打開另存為Html,或在線網頁轉換也可.
2.img2html 工具 : 批量轉換圖片->Html網頁工具 百度網盤提取碼: 84gf
https://pan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqgpan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqg
備選:也可自己寫python腳本來生成網頁,如果簡單可直接寫成一個批處理
具體流程:
1.使用mutool工具轉換pdf文檔,生成每頁一個圖片
2.使用img2html批處理腳本生成簡單的index網頁
3.在SuperMemo中導入網頁,按分割符號Split分割
4.使用Alt+X圖片提取,截圖識別進行文本內容提取
說明及使用:
以下為mutool工具常見的一些使用命令,非常簡單,但功能豐富,靈活,軟件開源/速度快/無限制.
mutool工具常見使用案例
PDF文檔文本增量
如果只是簡單的提取PDF文件內的文本,不含圖片,用上面第二條命令,指定-F txt 即可,也可以直接-F html 不加 -O preserve-images 參數即可.
mutool draw -F txt file.pdf 2,3,6-20 后面的數字是轉換的頁碼范圍,不加的話默認轉換所有
mutool convert -F html -o outfile_name%d.html file.pdf 不加 -O preserve-images 參數
1.使用mutool工具轉換pdf到圖片,比較輕量/而且免費,具體可以到下圖所示的官網下載:
https://www.mupdf.com/index.htmlwww.mupdf.com/index.html
下載客戶端工具
使用這個鏈接下載
下載后解壓出如下, 我們只需拷貝其中的一個mutool.exe文件至C:\Windows\System32即可
拷貝工具至C盤路徑
打開cmd窗口,只執行mutool命令如下(具體的幫助可查看如下官網鏈接),即代表工具安裝正常:
https://mupdf.com/docs/index.htmlmupdf.com/docs/index.html
命令行輸入mutool命令
PDF轉換操作: cmd下進入磁盤指定目錄(圖片會生成在這,不建議C盤)后執行如下腳本并回車:
方法一:
如下命令指定了PDF文件輸出格式,輸出為帶頁碼的圖片,要進行PDF轉換頁碼為1,3,4,5-12頁
mutool convert -F png -o myfile-%d.png ./輕松Scrum之旅.pdf(全文路徑) 1,3,4,5-12
方法二:
mutool draw -F png -o myfile-%d.png ./輕松Scrum之旅.pdf(全文路徑) 1,3,4,5-12
mutool convert -F cbz -o my_zip_file.cbz ./輕松Scrum之旅.pdf(全文路徑) 1,3,4,5-12
方法三:
使用mutool run javascript文件
在本文中我們只用方法一來實現,具體步驟如下:
單PDF轉換成多圖片
稍等一會我們即可在Windows窗口中看到轉換后的圖片如下,注意:命令行取消操作則按Ctrl+C
圖片提取成功的界面
2.使用img2html工具轉換多個圖片至html,上面提供下載的是一個批處理,具體你可自己修改:
圖片生成網頁批處理腳本內容
把bat文件放置于以上圖片同一目錄,雙擊執行即可,過一會可看到生成一個index.html文件如下:
放置于圖片目錄雙擊img2html
生成網頁內容如上,可用IE打開
3.在SuperMemo中導入網頁,按分割符號Split分割,生成多個子元素主題,具體操作如下:
拷貝所有文件(index.html,所有圖片)至多媒體文件夾,具體路徑在option選項中下的elements:
用IE瀏覽器打開index.html,在supermemo中快捷鍵ctrl+shift+a導入IE中打開的網頁如下:
快捷鍵ctrl+enter打開命令窗口,輸入split選首項分割(分割符號即上面我們批處理中設置的):
輸入split分割命令
選擇按自定義分割
輸入批處理中的分割符
如上圖:最終分割成了每個圖片一個子element元素
4.添加學習計劃并對新元素進行增量學習和提取,圖片提取使用alt+x , 文字提取使用OCR工具
分支視圖中添加學習元素
分支視圖中開始學習內容
1.圖片內容的提取
快捷鍵Ctrl+F8下載并插入成圖片組件
alt+左鍵單擊右側圖片組件進行操作
如上圖,alt+左鍵點擊,邊框變成綠色時即可提取,鼠標中鍵雙擊放大,加shift中鍵雙擊縮小,鼠標框選釋放后alt+x提取,unzoom重置縮放,重置后可再次提取.生成的圖片會成為當前元素子元素
提取內容結果如下: (提示:你也可以直接用Ctrl+Shift+M使用預定義模版來批量改變內容樣式)
刪除內容圖片,并添加內容(相關筆記)
2.文本內容的提取
因為針對PDF導入并分割的是圖片,因此我們要使用OCR工具進行文本內容提取(任何一個可以截圖識文的工具都可以)如quicker/itext/abbyy等,接著只添加一個子元素并粘貼識別內容即可:
使用OCR工具識圖并粘貼到新建子元素
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。
