語義分析技術:知識工程平臺的基石

    [加入收藏][字號: ] [時間:2014-03-03  來源:全球石油化工網  關注度:0]
    摘要:   摘要:知識工程旨在面向企業業務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規模地獲取知識是支撐其目標達成的關鍵技術,也是技術難點。而語義分析為知識的獲取和應用提...

      摘要:知識工程旨在面向企業業務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規模地獲取知識是支撐其目標達成的關鍵技術,也是技術難點。而語義分析為知識的獲取和應用提供了一種有效的方法和手段。

     

      從企業層面講,企業開展知識工程建設旨在面向企業業務應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。主要包括三大要素:知識獲取、知識組織表示和知識應用。想要獲取知識和實現知識的應用,首先要知道知識長什么樣,當前主要的知識表示形式為一個包含多種不同類型的結點和邊的知識圖以及圖結點之間的關系集合。那么如何獲得這個結點以及如何獲得這個邊(關系)就是知識獲取所要做的工作。



    圖1 知識圖示例
     

      當前知識獲取主要有三種方式:非自動知識獲取、知識抽取、機器學習知識。非自動知識獲取常采用直接編輯知識、利用大眾智慧等手段,效率較低,無法應用于大規模的知識獲取;完全機器學習的難度較大;知識抽取是目前最有效的方式。

     

      所謂知識抽取,指的是通過對文本資料進行內容分析處理,對蘊含于文本中的知識進行識別、理解和篩選,抽取出每個知識點,并以一定的形式存入知識庫中。那么如何通過對文本資料進行內容分析從而達到識別并抽取出知識的目的呢?語義分析就是有效的手段和方法。

     

      語義,又稱語意,指的是話語所包含的意義,在計算機科學領域,可以稱之為數據對應現實世界中事物所代表概念的含義。簡單來說,語義分析的根本目的是為了讓計算機理解自然語言,一旦計算機擁有了這種能力,就可以從文本信息中識別并抽取出知識。

     

      對于特定領域來說,完全句法分析和深入的語義理解一方面在技術上還達不到,而且也是沒有必要的。只要從輸入的文本中抽取關注的信息,填寫在預定義好的模板的屬性槽中,即可完成特定領域文本的知識抽取的第一步。

     

      如這段文字:2005年11月1日,周杰倫發行了第六張國語專輯《十一月的蕭邦》,包含了《夜曲》、《發如雪》等十二首動聽的歌,大家可以在專輯當中,嗅出他潛藏的浪漫古典因子。



    圖2 主體與事件抽取示例    

     

      圖2就是典型的通過主體和事件將這段文字轉化為一張圖的例子,其中主體是指某種具體事物的個體或集合體,事件是指與主體所施行的或主體被施加的動作、過程等等。如前所說,這只是知識抽取的第一步,如果只停留在這個層面,我們只能稱之為信息抽取,而非知識抽取。將N篇這樣的文章進行信息抽取處理,然后建立它們之間的關聯,形成一個網絡。以新聞為例,經過抽取和管理,我們可以看到某個地點發生的各類新聞,發現在某個人物身上的各類新聞,甚至于可以抽取到兩個新聞之間內在的關聯(比如這兩個新聞所述對象是某某關系)等等,而這些可以稱之為關聯類的知識。

     

      目前,這種基于語義的半自動抽取技術在特定產業領域商業化、工程化應用較少,這是因為如果想獲得高質量的語言分析結構,就需要構建面向特定領域的成熟語料。

     

      北京億維訊科技有限公司依托基于語義的知識抽取技術及其知識工程平臺在石化等特定領域的應用,是目前為數不多的領域化應用。億維訊將“業務對象”和“業務主題”作為文本中的抽取點,編寫該產業領域不同知識類型的知識模板框架,在文本分析挖掘時首先進行知識類別識別,根據類別調用相應的框架。圖3為從億維訊知識工程軟件界面中截取的方法類知識模板,其中摘要是半自動提取,關鍵詞、分類、業務主題、知識來源、提供者等為自動提取。據了解,目前億維訊正在設計更加細化、具有針對性的可配置摘要,即形成摘要的模板框架。

     

      通過將知識模板中知識的相關屬性進行關聯,則可以構建關于某一特定業務主題或其它屬性的知識網絡。



    圖3 知識模板示例
     

      將語義分析落實到大量的具體的篇章文本上,形成熟語料庫,其中包括詞匯級別的義素、語義特征的標注、實體標注,句子級別的語義角色標注,還有語法句法范圍的詞性標注、句法功能標注等等。我們可以想象,當大量文章(一般來說至少100萬字的量級)進行了這樣的標注后,我們需要什么知識,就可以從中抽取出一些信息后進行加工和關聯而得到。在未來,或者說已經有人在做,當標注好的熟語料已經達到一定量級,我們甚至可以通過機器學習的方式對其他未標注的文章進行自動標注,那么也就實現了自然語言計算機自動處理的最終目標,也就解決了知識自動獲取的難題。

     

      不僅如此,基于語義的知識獲取與表示因為使知識具有了良好定義的語法和語義,所以有充分的表達能力,能清晰的表達有關領域的各種知識;便于有效的檢索和共享;容易管理,易于維護知識庫的完整性和一致性。而這些正是知識工程的應有之義。因此,我們說,語義分析是知識工程建設中非常關鍵的支撐技術,是知識工程平臺的基石。



              您的分享是我們前進最大的動力,謝謝!
    關于我們 | 會員服務 | 電子樣本 | 郵件營銷 | 網站地圖 | 誠聘英才 | 意見反饋
    Copyright @ 2012 CIPPE.NET Inc All Rights Reserved 全球石油化工網 版權所有
    京ICP證120803號 京ICP備05086866號-8 京公網安備110105018350
    亚洲欧美国产日韩av野草社区| 在线成人精品国产区免费| 久久精品国产亚洲AV电影| 免费视频成人国产精品网站| 99在线精品视频在线观看| 国产亚洲精品成人AA片新蒲金| 国产在线精品国自产拍影院同性 | 91精品国产入口| 亚洲级αV无码毛片久久精品| 日韩精品内射视频免费观看| 国产精品午夜福利在线观看地址| 亚洲美女精品视频| 亚洲精品无码永久在线观看你懂的 | 国产福利微拍精品一区二区| 亚洲2022国产成人精品无码区| 500av导航大全精品| 在线观看日韩一区| 精品久久中文网址| 亚洲国产精品xo在线观看| 久久精品一本到99热免费| 熟妇无码乱子成人精品| 久久综合久久精品| 国产AV无码专区亚洲精品| 一本一本久久A久久综合精品| 亚洲国产日韩a在线播放| 国产一区二区三区精品久久呦| 在线日产精品一区| 日韩精品无码熟人妻视频| 无码精品视频一区二区三区 | 国产福利精品一区二区| 国精品无码一区二区三区在线蜜臀| 国产精品麻豆欧美日韩WW| 伊人天堂av无码av日韩av| 国产成人精品免费直播| 国产精品亚洲一区二区三区| 国产精品久久久久一区二区| 国产精品亚洲а∨天堂2021 | 一级一级特黄女人精品毛片视频| 亚洲国产精品VA在线看黑人 | 国产精品不卡高清在线观看| 2021国产精品视频一区|