要提取圖片中的文字,可以使用光學字符識別(OCR)技術,OCR 是一種將圖片中的文字轉換為可編輯、可搜索文本的技術,有許多 OCR 工具和庫可以用于 Python,如 pytesseract 和 Tesseract,以下是使用 pytesseract 提取圖片中文字的簡短解答:
1、安裝 pytesseract 和 Pillow 庫,在命令行中輸入以下命令:
pip install pytesseract pip install Pillow
2、導入所需的庫,并設置 Tesseract 的路徑,在 Python 代碼中輸入以下內容:
from PIL import Image import pytesseract 如果需要,設置 Tesseract 的路徑 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
3、打開圖片并使用 pytesseract 提取文字,在 Python 代碼中輸入以下內容:
image = Image.open('path/to/your/image.jpg') text = pytesseract.image_to_string(image, lang='chi_sim') # 如果是中文圖片,使用 'chi_sim' 語言包 print(text)
4、保存提取的文字到文件,在 Python 代碼中輸入以下內容:
with open('output.txt', 'w', encoding='utf-8') as f: f.write(text)
就是使用 pytesseract 提取圖片中文字的方法。
發表評論
2024-06-21 04:23:15回復
使用專業的 OCR 軟件或在線工具如百度智能云等打開需要識別的照片進行操作;也可以利用智能手機上的APP功能實現快速拍照識別和文本內容的導出保存下來即可成功完成文字的提煉工作 。