削減訓練數據的深度學習技術:用於中國古籍文字識別的學習訓練數據減少了70%

2017/02/23     來源:富士閱讀原文

富士通研究開發中心有限公司(注1)(以下簡稱:FRDC)開發出了一項高精度識別中國古籍文字的深度學習技術,利用該技術,以少量的學習數據便可實現高精度的文字識別。這項技術通過結合以下兩種引擎進行學習,一種是利用古籍文字圖像以及與之關聯的文字(訓練數據)進行學習的深度學習識別引擎、另一種的是針對任意兩個文字圖像是否為同一文字這一特點進行學習的深度學習引擎。與傳統方法相比,這項技術可以利用少量訓練數據獲得高精度的識別率,在一項針對中國古籍文字識別的研究中減少了70%的訓練數據。 該技術對加快中國圖書館大量館藏古籍文獻的數字化、促進古籍文獻共享以及歷史考察等學術研究,都將起到積極的推動作用。....more