PDF2Excel
PDF2Excel
此程式以Python開發,使用轉換精準度最高的函式庫,再搭配另一支VBA小程式,可快速將PDF檔案裡的表格轉成Excel格式輸出。
下載
PDF2Excel.exe:https://tinyurl.com/yaxku6bj
搭配使用的VBA:https://tinyurl.com/yd7t5m9b
Demo
短片演示:
影片演示:
使用限制
此程式適用於無須文字辨識(OCR)的PDF,僅測試於Windows作業系統。
使用方法
- 點開PDF2Excel.exe,無須安裝,因將Python環境包裝在單一執行檔中,開啟程式可能會需要點時間。
- 選取分割PDF表格的方式,垂直及水平各分三種切割方式:
- lines
- lines_strict
- text
- 如果PDF的表格用「線」分欄的話,則垂直分割選「lines」;列只有文字沒有線的話,水平分割則選「text」可達到最佳效果,公開資訊觀測站上財報用這種方式應可截取到最完整的表格。
- 選擇PDF檔案存放的資料夾,批次轉換資料夾內所有PDF檔案成Excel檔案,只轉換PDF檔案裡的表格,文字區塊一律跳過。
- Excel工作表命名原則以PDF頁碼當作工作表名稱,例如轉換第一頁的表格,輸出的Excel工作表名稱為"Sheet1";若一頁裡偵測到多個表格,例如第三頁有兩個表格,輸出"Sheet3_1"、"Sheet3_2",以此類推。
- 輸出Excel檔案後,使用VBA增益集(Text2Column.xlam),將字串轉成Excel可運算的儲存格格式。
- 轉換僅在本地端執行,無須擔心資料外洩,若有疑慮請詳下方原始碼。
給開發者
以Python寫成,關鍵的轉換只有十幾行程式,若已有Python環境可參考PDFPlumber Github文件自行客製參數,若熟pandas可以再更進一步依照提取出的資料另做處理。
pip install pdfplumber
pip install pandas