搜索引擎只能觸及到10%的內容,深網中的內容如何浮出?

2016/08/15     來源:百道網閱讀原文

根據互聯網數據中心(IDC)的預測,從2013年到2020年,網絡數據的數量將會以10倍的數量增長,從4.4萬億到44萬億。流行的搜索引擎只能觸及到10%的互聯網內容,其餘90%在網頁上並沒有收錄,因為這些數據大部分都儲存在圖書館中。這些數據要麼是存儲的格式決定了其不能被搜索到,要麼則是其所在區域的安全措施不允許機器自動搜索進入。要想把位於「深網」的內容挖掘出來,研究者正在制定標準,或者說是資源描述框架(RDF)。這些標準和框架能夠讓人類可讀的信息變成可理解的並且可被搜索工具再次利用的,這些搜索工具能夠對分配到網頁上的元數據進行篩選。...more