資訊中心
當前位置: 首頁 > 資訊中心
自然語言處理在中文地址解析中的應用
返回


綜述:

自然語言處理技術在金融領域中已經越來越多的被應用,防控中心在對企業監測預警中,通過企業注冊地址的解析,準確分析企業的遷入、遷出,區域企業的新增、減少,繪制風險企業的分布地圖,從區域的維度對企業的風險進行預判。

關于自然語言處理

自然語言處理(Natural Language Processing , NLP)是一門通過建立形式化的計算模型來分析、理解和處理自然語言的學科,也是一門橫跨語言學、計算機科學、數學等領域的交叉學科?,F在,自然語言處理的工具有很多,也有社會計算等領域的機構和專家在研究更加精確的技術。就目前來看,分詞系統、語義分析、文本分類、信息檢索和機器翻譯等是比較常見的應用方法。

在地址解析中的應用

由于中文語法的特點及表達方式的差異,對地址數據表述經常會出現不規范、甚至出現錯誤的情況。非標準地址或錯誤地址主要有以下幾種情況:1、行政區劃信息缺漏,地址串具有明確的指向性;2、行政區劃信息缺漏,地址串不具有明確的指向性;3、地址串的地址元素之間存在混亂、導致的空間約束關系不明晰;4、地址串存在描述錯誤的空間約束關系。

從地址數據源中檢測和消除錯誤數據、不一致數據,提升數據總體質量,對地址進行標準化的清洗工作,是一項重要的環節。

自然語言處理在地址解析中的應用主要采用中文分詞技術對地址進行分詞。中文分詞技術是中文文本處理的一個基礎步驟,也是中文人機自然語言交互的基礎模塊。中文分詞根據實現場景的不同,主要分為基于詞典分詞算法和基于統計的機器學習算法。詞典分詞算法分詞速度塊,但存在難以窮舉的問題,統計算法則克服了詞典算法的不足,通過機器自動學習,但對訓練數據規模較大。

在統計學模型中,條件隨機場(CRF)是其中一種基于概率統計的機器學習模型,常用于自然語言處理中的分詞、詞性標注、命名實體識別等。在處理序列標注問題方面效果良好,可以長距離地表達上下文依賴,具備強泛化能力和較好的學習能力,滿足批量解析地址和快速實現地址編碼的要求。

針對大量自然語言描述隨意的地址,首先設計一套地址要素分類標注體系,將原始語料進行地址要素分類標注和格式轉換,得到標準化的標注語料。然后制定特征模板,選取已標注語料開展模型訓練,根據模板生成大量特征函數,并計算權重從而得到訓練好的模型。最后,利用訓練好的模型進行預測,得到最佳標注地址序列,實現對未知地址的解析。

總結

近年來,由于深度學習技術的出現和發展,以BERT為代表的大規模預訓練模型得到了廣泛的應用,自然語言處理技術也突破并顛覆了傳統技術的范式,尤其是在金融防控領域中,自然語言處理已經越來越多的被應用在了輿情分析、監測預警等場景中。防控中心在對企業監測預警中,通過企業注冊地址的解析,準確分析企業的遷入、遷出,區域企業的新增、減少,繪制風險企業的分布地圖,從區域的維度對企業的風險進行預判。

然而,當前自然語言處理領域還存在著諸多問題,例如模型可解釋性問題、缺少邏輯推理能力、依賴大量標注數據等,相應的也有很多研究試圖解決上述問題,例如研究小樣本的模型訓練、在深度神經網絡中引入先驗的專家知識(如知識圖譜)等等。雖然目前自然語言處理技術還遠未達到人類處理和理解語言的程度,但目前技術的飛速發展已顯現出自然語言處理技術的未來是非常值得期待的。

本文內容為原創,轉載請注明出處!


粵公網安備 44010602001922號

2021网站无需下载急急急_老铁推荐个2021网站好吗_麻豆画精品传媒2021网站