您當前的位置：首頁 > 市場 > 百科 > 行業(yè)研究 > 專家專欄 > HIT專家 > EMR產(chǎn)品經(jīng)理-Zidane的專欄

EMR與自然語言處理相關(guān)幾個問題的總結(jié)

時間：2011-07-22 06:30:34 來源：作者：Zidane

一，國內(nèi)外EMR應(yīng)用情況

近年來，EMR作為醫(yī)療信息化的一個重點方向，在國內(nèi)外均有很大的發(fā)展，以下分別以美國和日本為例，簡單介紹下國內(nèi)外EMR的應(yīng)用狀況。

美國的情況：

美國在電子病歷相關(guān)的模型與理論等多個方面均完成了大量工作，同時，結(jié)合美國的衛(wèi)生管理部門對于醫(yī)藥行業(yè)存在問題的分析，美國的電子病歷系統(tǒng)建設(shè)具有十分明顯的針對性，所建設(shè)的系統(tǒng)一定要立足于解決在醫(yī)療實踐中切實存在的錯誤與問題。

美國著名的HIMSS首先將電子病歷(EMR)劃分為臨床數(shù)據(jù)存儲庫（CDR）、臨床決策支持系統(tǒng)（CDSS）、受控醫(yī)學詞匯表(CMV)、計算機支持醫(yī)院醫(yī)囑系統(tǒng)（CPOE）、藥品管理系統(tǒng)、以及臨床文檔應(yīng)用程序等若干個部分，然后結(jié)合其他醫(yī)療信息系統(tǒng)的建設(shè)過程，將EMR的建設(shè)分成了如下8個階段：

階段0：藥品管理系統(tǒng)、LIS（檢驗科信息系統(tǒng)）、RIS（放射科信息系統(tǒng)）三大主要臨床輔助系統(tǒng)沒有建立；

階段1：藥品管理系統(tǒng)、LIS、RIS三大主要臨床輔助系統(tǒng)實現(xiàn)；

階段2：主要臨床輔助系統(tǒng)提供數(shù)據(jù)給CDR以便醫(yī)師重新得到或回顧結(jié)果，CDR包括了一個受限醫(yī)學詞匯表和臨床決策支持/規(guī)則引擎。這個階段CDR可以鏈接來自影像系統(tǒng)的信息；

階段3：護理系統(tǒng)、圖表、治療計劃和電子藥物管理系統(tǒng)（eMAR）已經(jīng)實現(xiàn)并和CDR結(jié)合。臨床決策支持的第一個水平是實現(xiàn)對醫(yī)囑錄入的操作錯誤檢查（如藥物/藥物、藥物/食品、藥物/檢查沖突檢查）。PACS（醫(yī)學影像系統(tǒng)）的接口能讓醫(yī)師通過組織內(nèi)部網(wǎng)絡(luò)訪問相關(guān)的醫(yī)學圖像；

階段4：護理和CDR環(huán)境中增加了供任何臨床醫(yī)師使用的CPOE，同時實現(xiàn)了涉及到基于醫(yī)學協(xié)議的第二水平臨床決策支持；

階段5：全跟蹤藥物治療管理環(huán)境完全實現(xiàn)，eMAR和條形碼以及其它自動標識技術(shù)（如 RFID）已實現(xiàn)，并與CPOE及藥物系統(tǒng)結(jié)合在一起，在藥物管理上實現(xiàn)患者衛(wèi)生保健過程中安全的最大化；

階段6：實現(xiàn)上面提到的完全的醫(yī)療文檔/圖表。第三水平的臨床決系統(tǒng)和臨床醫(yī)生診療行為的向?qū)�。這些向?qū)c以變化的及依從性的警報形式提供的協(xié)議和成果相關(guān)。一個完全功能的PACS系統(tǒng)在內(nèi)部網(wǎng)絡(luò)內(nèi)向醫(yī)師提供醫(yī)學圖像，取代了所有膠片圖像；

階段7：臨床信息能夠與在一個區(qū)域衛(wèi)生網(wǎng)絡(luò)中所有的實體（如其它醫(yī)院、門診部、急救中心、雇主，付款人和患者）經(jīng)過電子事務(wù)或交換電子記錄方式方便地共享。醫(yī)學記錄完全電子化/無紙化。這個階段允許醫(yī)療機構(gòu)支持真正的EHR；

上述各階段的劃分，是和美國醫(yī)療行業(yè)現(xiàn)狀有密切的關(guān)系，根據(jù)美國醫(yī)學研究所與疾控中心的一份統(tǒng)計報告，醫(yī)療處置不當或錯誤近年來一直排在美國人死因的前十位，排名高于多種常見疾病，人數(shù)初步估算在48，000到96，000之間，而此類錯誤中，絕大部分是藥品使用錯誤。

同時，美國醫(yī)學研究所認為，在每年發(fā)生的幾百萬件醫(yī)療錯誤中，有相當比例可預(yù)防。

在上述基本共識的基礎(chǔ)上，美國電子病歷建設(shè)的第一階段就是要構(gòu)建藥品管理系統(tǒng)，重點防范藥品使用錯誤，然后在第二階段對臨床輔助系統(tǒng)進行建設(shè)，以獲得客觀準確的數(shù)據(jù)來支持更準確的決策，然后在后續(xù)的階段當中，對醫(yī)療操作的過程與文檔信息兩個方面進行信息化的建設(shè)與完善工作，真正提高醫(yī)療質(zhì)量。

HIMSS曾經(jīng)對美國的5000多家醫(yī)院進行了評分，0-2階段的占70%以上，到達第6階段的為1%左右，3-5階段的大約在20%，大部分醫(yī)院的信息化水平基本處于第3階段。

同時，美國電子病歷在建設(shè)過程中，結(jié)合美國醫(yī)療界公私結(jié)合，注重規(guī)范與效率等特征，十分注意信息化建設(shè)的實效，故此，形成了傳統(tǒng)手工流程與信息化流程相結(jié)合，科室與全院相結(jié)合，使用電子病歷與不使用電子病歷人員相結(jié)合的復(fù)雜局面。

此外，由于美國醫(yī)療系統(tǒng)制度的不統(tǒng)一，且各地醫(yī)院發(fā)展不均衡，所要解決的問題與階段存在差異，造成了在諸多大型醫(yī)院內(nèi)部系統(tǒng)數(shù)量大，客觀上促進了集成與相關(guān)標準的發(fā)展。

一個基于IHE組織定義的醫(yī)院系統(tǒng)集成實例示意圖

日本的情況：

日本2006年的IT新改革戰(zhàn)略中，涉及到醫(yī)療的部分，將日本的醫(yī)療信息化建設(shè)分為如下5步目標：

1，制定醫(yī)療衛(wèi)生全面發(fā)展規(guī)劃

有效地促進醫(yī)療，健康，護理，福利各方面的系統(tǒng)信息化；

2，進一步推動醫(yī)療信息系統(tǒng)的發(fā)展

進一步普及電子病歷等醫(yī)療信息系統(tǒng)，提高醫(yī)療服務(wù)質(zhì)量，保證醫(yī)療安全，促進各醫(yī)療機關(guān)間的相互合作；

3，促進遠程醫(yī)療

促進遠程醫(yī)療，消除地區(qū)間醫(yī)療服務(wù)水平的差距，同時，利用數(shù)字電視等手段，實現(xiàn)緊急救援時對病人的指導；

4，構(gòu)建國民健康數(shù)據(jù)庫與應(yīng)用服務(wù)平臺

到2010年，構(gòu)建國民健康信息數(shù)據(jù)庫和能充分利用該數(shù)據(jù)庫的應(yīng)用服務(wù)平臺，讓國民也能把握自己的健康狀況，努力促進國民的健康；

5，實現(xiàn)醫(yī)療結(jié)算全面OnLine

計劃于2011年，實現(xiàn)醫(yī)療結(jié)算的全面OnLine化，削減醫(yī)療保險成本，建立結(jié)算數(shù)據(jù)庫，推進疾病預(yù)防的發(fā)展，并推動國民醫(yī)療費用合理化；

其中的第二個階段，電子病歷是發(fā)展的重點。

日本目前電子病歷的建設(shè)高度突出了多個系統(tǒng)與功能進行集成的特征，在不同角色的工作站中，將患者信息管理，醫(yī)囑與臨床處置，臨床路徑，決策支持等幾個方面的功能實現(xiàn)了很好的集成。

多種資料表明，由于日本國內(nèi)醫(yī)療服務(wù)的高標準要求，促成了日本的電子病歷系統(tǒng)在細節(jié)處理與人性化設(shè)計方面的明顯優(yōu)勢。

二，EMR主要涉及的技術(shù)及其發(fā)展

目前，電子病歷的實現(xiàn)所涉及的幾個關(guān)鍵技術(shù)問題有：

Ø 結(jié)構(gòu)化處理方式

Ø 編輯工具

Ø 存儲方式

Ø 系統(tǒng)集成

1，結(jié)構(gòu)化處理方式

電子病歷的首要職能是作為醫(yī)療過程的一種記錄形式而存在，而為了能夠在醫(yī)療過程中提供安全可靠的信息，為臨床人員提供信息資源，對個體或群體患者制定科學的醫(yī)療計劃，并為公共衛(wèi)生方面的工作提供支持等，必須將文檔的理解層級由人工可識別，過渡到計算機可識別，直到計算機可處理，為實現(xiàn)這個目標，病歷內(nèi)容的結(jié)構(gòu)化顯然是必須要完成的工作。

以下，我們從現(xiàn)有病歷的基本結(jié)構(gòu)模型，結(jié)構(gòu)化的幾種主要實現(xiàn)方式，以及優(yōu)缺點等幾個方面，綜合了解下目前有關(guān)病歷結(jié)構(gòu)化處理工作的進展：

（1）病歷的結(jié)構(gòu)模型

在電子病歷出現(xiàn)以前，臨床病歷幾乎完全以自然語言進行描述。一個典型的模型是POMR，目前國內(nèi)常見的病歷結(jié)構(gòu)，基本是POMR思想指導下的SOAP描述方式：

S-Subjective：主觀內(nèi)容，可以近似認為是主訴與現(xiàn)病史

O-Objective：客觀內(nèi)容，體現(xiàn)在輔助檢查

A-Assessment：評估性的內(nèi)容，可以認為診斷是屬于這類

P-Plan：計劃，診療計劃屬于這個范圍

但是，毫無疑問，結(jié)構(gòu)化到這種程度，遠遠不能滿足從電子病歷挖掘醫(yī)療規(guī)律，支持循證醫(yī)學與臨床科研等工作的要求。

（2）結(jié)構(gòu)化的幾種主要實現(xiàn)方式與優(yōu)缺點

目前，結(jié)構(gòu)化的實現(xiàn)方式多種多樣，但實際總結(jié)起來，其技術(shù)思想基本是兩大類：SDE與MLP。

SDE（結(jié)構(gòu)化數(shù)據(jù)錄入）的方式：是目前可以實現(xiàn)極高程度結(jié)構(gòu)化的一種數(shù)據(jù)采集方式，通過軟件上的菜單，選項框等各種控件，結(jié)合一定的醫(yī)學智能判斷，實現(xiàn)在預(yù)定模板范圍內(nèi)的信息100%準確獲取，國外代表產(chǎn)品系列為OpenSDE。

SDE的操作方式最大的優(yōu)點是能夠完整準確的獲得臨床信息；缺點則是由于將受控詞匯原封不動的表現(xiàn)在前端，使得臨床醫(yī)生操作極為不便，在效率和靈活性上有明顯的缺陷。

MLP（醫(yī)學語言處理）的方式：則是尊重臨床人員采用自然語言描述病歷的習慣，在自然語言描述的內(nèi)容基礎(chǔ)上，通過預(yù)定義的術(shù)語集來實現(xiàn)信息的獲取等工作。

MLP方式的優(yōu)點是與幾乎完全繼承了醫(yī)務(wù)人員以往的工作習慣，操作簡便，學習曲線平滑；缺點則是現(xiàn)有的自然語言處理技術(shù)準確性不足，在某些場景下尚不能達到醫(yī)療工作的需要。

目前，針對上述問題的解決方案，一般從如下兩個方向進行考慮：

融合：將SDE與MLP兩種方式進行結(jié)合

這種思路指導下的典型例子，是目前國內(nèi)普遍出現(xiàn)的在“所見即所得”編輯器基礎(chǔ)上的受控詞匯嵌入自然語言的模板，通過直觀的編輯工具，結(jié)合具體的臨床科室，將病歷內(nèi)容盡可能采用自然方式展現(xiàn)出來，同時，對其中有臨床科研與其他數(shù)據(jù)利用價值的詞匯進行結(jié)構(gòu)化處理，兩類數(shù)據(jù)并存于整個文檔中，結(jié)構(gòu)化的數(shù)據(jù)類似于一種鑲嵌方式存在；當數(shù)據(jù)利用時，就可以從同一個病歷文檔中，獲得多方面的數(shù)據(jù)。

這種融合的思路最大的優(yōu)勢是通過臨床工作的嚴肅性保證了數(shù)據(jù)的準確，同時也能夠一定程度的解決SDE與MLP的矛盾，目前面臨的主要問題是，在不同的臨床科室內(nèi)，是否能定制出對多個病種足夠適應(yīng)的模板；以及在不同的科研與數(shù)據(jù)利用要求下，是否可能通過一個模板來滿足多個不同角度與科研與數(shù)據(jù)利用的要求。

目前，國內(nèi)推出的《電子病歷架構(gòu)與數(shù)據(jù)標準》，提出了臨床文檔-文檔段-數(shù)據(jù)組-數(shù)據(jù)元的四級概念，其核心思想是將病歷內(nèi)容逐層的進行結(jié)構(gòu)化處理，對電子病歷的技術(shù)實現(xiàn)，具有很高的指導意義。

分立：從實際需求出發(fā)，在不同的業(yè)務(wù)場景下?lián)P長避短，有針對性的發(fā)揮SDE與MLP兩種方式各自的優(yōu)勢。

目前，這種思路也有相當比例的市場，比如，從醫(yī)療工作的要求來看，某些需要獲取的信息比較簡練，且操作時間要求高，則可以將需要采集的內(nèi)容固化到軟件界面上，定制為高度簡潔的SDE式窗口，臨床醫(yī)療工作者只需要簡單的點選與操作，即可完成必要的數(shù)據(jù)采集；而對于病歷文檔這種自然語言特征明顯的內(nèi)容，則結(jié)合機器自動處理與人工標注，實現(xiàn)數(shù)據(jù)利用的需要。

（3）可能的幾個突破方向

通過上述的比較，已經(jīng)可以看出，在SDE與MLP兩種方式存在融合與分立的現(xiàn)狀，技術(shù)上可能的幾個突破方向，無非是以下幾種：

基于多維術(shù)語集的智能模板：

不論是SDE還是MLP，首先均需要標準化的術(shù)語集支持，在此基礎(chǔ)上，方可以定義諸如醫(yī)療行為索引，醫(yī)療行為關(guān)系及相應(yīng)字典等構(gòu)成臨床數(shù)據(jù)中心的基礎(chǔ)設(shè)施。

在標準化術(shù)語集存在后，為解決自然語言描述與受控結(jié)構(gòu)化描述之間的矛盾，可基于多維術(shù)語集智能模板來實現(xiàn)高命中率的模板，如根據(jù)患者的基本信息，初步印象，關(guān)鍵檢查與檢驗，重要癥狀與體征，生成與臨床醫(yī)生期望較為接近的模板。

自然語言處理（尤其是中文）技術(shù)的發(fā)展：

病歷中的檢驗與醫(yī)療處置類信息一般已經(jīng)高度結(jié)構(gòu)化，要提高信息利用率，首先要解決的問題是多系統(tǒng)數(shù)據(jù)的集成，但對于病史類文字，則可能要寄希望于自然語言處理技術(shù)（尤其是中文分詞技術(shù)）的進一步發(fā)展，這種在后期結(jié)構(gòu)化的方式最大的優(yōu)點在于可以將原始文檔幾乎完全獨立，完全根據(jù)自然語言處理的發(fā)展程度來進行數(shù)據(jù)利用工作。

2，編輯工具

目前，電子病歷的編輯工具是電子病歷系統(tǒng)實現(xiàn)的基礎(chǔ)性構(gòu)件，通過編輯器，可以反映出一個電子病歷系統(tǒng)的數(shù)據(jù)架構(gòu)，對結(jié)構(gòu)化的處理程度等多方面的設(shè)計水平。

電子病歷的編輯工具可根據(jù)是否所見即所得與是否結(jié)構(gòu)化，分為如下幾類：

（1）SDE式編輯工具

與這種編輯工具最接近的醫(yī)療概念，是表格病歷。

嚴格來說，這種編輯工具并不能成為完整的電子病歷編輯器，因為其僅僅是通過界面的方式，完成了一定的信息采集工作，諸如排版，文本格式處理等一系列功能，均需要額外提供排版工具來進行處理。

一些優(yōu)秀的SDE編輯器，可以一定程度上適應(yīng)不同科室的要求，實現(xiàn)前后文選擇控件內(nèi)容之間的關(guān)系，體現(xiàn)一定的醫(yī)療邏輯，故目前這種編輯工具還是有一定比例的市場。

目前，此類編輯器的技術(shù)實現(xiàn)，大多是采用Windows環(huán)境下的開發(fā)工具，如PB，Delphi，VB或VC#等，將多個控件組合成為科室模板，同時將每個控件所代表的醫(yī)療信息內(nèi)置于模板中，在每個科室調(diào)用時，根據(jù)所選擇的控件值所反映出的醫(yī)療關(guān)系，對整個界面上的控件布局進行控制，以體現(xiàn)醫(yī)療邏輯與流程。

（2）“所見即所得”的自由文本編輯器

此類編輯器功能一般較為簡單，對結(jié)構(gòu)化涉及較少，多為直接調(diào)用相對成熟的文本編輯組件，如MS Word，同時進行簡單的結(jié)構(gòu)劃分，如主訴，現(xiàn)病史級別的劃分。

對于這種編輯器，如果要進行病歷內(nèi)容結(jié)構(gòu)化的工作，則只能采用自然語言處理的技術(shù)。

（3）“所見即所得”的結(jié)構(gòu)化病歷編輯器

顧名思義，這種編輯器是將文本編輯功能與結(jié)構(gòu)化的設(shè)計融合在一起，既能對文本進行常規(guī)排版，同時還可以在其中體現(xiàn)出對病歷結(jié)構(gòu)化的編輯。

此類編輯器的設(shè)計初衷，大多是要充分照顧自然語言輸入的習慣，并在編輯的同時，直接完成結(jié)構(gòu)化詞匯的生成，完成對病歷數(shù)據(jù)利用的準備。

從技術(shù)角度來看，這種編輯器的設(shè)計思路是較為先進的，但最大的不足是實現(xiàn)難度較大，目前業(yè)內(nèi)普遍認為，此類編輯器從開發(fā)到成熟，平均需要5-6年的時間。

目前，這種編輯器由于要直接處理復(fù)雜的內(nèi)容節(jié)點，通常與xml技術(shù)相結(jié)合。

3，存儲方式

首先，xml技術(shù)由于其自解釋，實現(xiàn)多級對象節(jié)點方便，文檔類型定義與文檔內(nèi)容可分離等多種特性，已經(jīng)成為電子病歷領(lǐng)域文檔實體的事實標準。

目前，電子病歷內(nèi)容具體的存儲方式可以簡單的歸結(jié)為如下幾類：

（1）基于關(guān)系型數(shù)據(jù)庫

目前，鑒于關(guān)系型數(shù)據(jù)庫占據(jù)了相當高的市場份額，故基于關(guān)系型的數(shù)據(jù)庫存儲也成為電子病歷市場的主流選擇，具體的實現(xiàn)，一般有字段存儲+應(yīng)用期組合，xml作為對象存儲，xml原生存儲等三種方式：

字段存儲+應(yīng)用期組合

這種方式是對病歷的結(jié)構(gòu)進行拆解，然后存入數(shù)據(jù)庫的字段，在應(yīng)用層調(diào)用時，通過對各個數(shù)據(jù)字段的組合，生成邏輯上的xml文檔供應(yīng)用層使用。

此方式最大的優(yōu)點在于某些簡單的數(shù)據(jù)利用要求出現(xiàn)時，可以充分利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫的優(yōu)勢，提供極好的性能，但缺點則是由于對復(fù)雜的數(shù)據(jù)操作一律要在客戶端處理，故技術(shù)實現(xiàn)較為繁瑣，運行效率也容易受到限制。

xml與數(shù)據(jù)庫字段的關(guān)系圖

xml作為對象存儲

這種方式通常結(jié)合了數(shù)據(jù)庫系統(tǒng)對xml的存儲支持，目前業(yè)內(nèi)主流的數(shù)據(jù)庫系統(tǒng)均支持將xml作為BLOB字段進行存儲

此種方式，將病歷文檔進行大粒度的分解后，直接以xml方式存儲于數(shù)據(jù)庫的BLOB字段中，同時，為了某些簡單的數(shù)據(jù)檢索等需要，通常會在存儲該xml文檔時，將該文檔中一些常用的數(shù)據(jù)直接存儲在數(shù)據(jù)字段中。

xml原生存儲

xml原生存儲的方式是伴隨著數(shù)據(jù)庫對xml的存儲技術(shù)不斷進步而產(chǎn)生的，某些數(shù)據(jù)庫系統(tǒng)軟件針對xml的特征設(shè)計存儲結(jié)構(gòu)，可以在整體存儲xml文檔的同時，還可以高效的實現(xiàn)對xml內(nèi)部詳細信息的檢索。

該方式目前最大的缺陷，是所提供的檢索技術(shù)對現(xiàn)有的粗細結(jié)合粒度的xml文檔檢索能力有限。

（2）基于后關(guān)系型數(shù)據(jù)庫

以Cache為代表的數(shù)據(jù)庫系統(tǒng)軟件，在其內(nèi)部實現(xiàn)了強大的面向?qū)ο蠊δ�，可以實現(xiàn)諸如無窮分級這樣的特殊功能，但由于在國內(nèi)市場份額不高，技術(shù)支持相對較少等原因，前景不甚明朗。

（3）文件服務(wù)與數(shù)據(jù)庫相結(jié)合

某些較早期的電子病歷系統(tǒng)中，有些是將病歷文件直接存儲于文檔服務(wù)器上，然后在提交或歸檔時，存儲于數(shù)據(jù)庫中，該方式同樣存在客戶端壓力較大的問題，今后應(yīng)當會逐漸被替代。

4，系統(tǒng)集成

電子病歷的一個重要功能是實現(xiàn)臨床信息集成，向臨床醫(yī)療工作者全面展示相關(guān)信息，但由于電子病歷的各周邊系統(tǒng)建設(shè)程度參差不齊，且起始階段就無統(tǒng)一標準，而隨著實際應(yīng)用的逐漸深入，一線使用者對集成的要求與日俱增，為解決此類問題，美國提出了諸如HL7，DICOM等一系列標準。

目前，國內(nèi)的各個系統(tǒng)集成過程中，對于較為簡單的集成要求，直接采用界面集成的方法；對于若干系統(tǒng)之間的數(shù)據(jù)通信，往往是雙方約定數(shù)據(jù)庫的讀寫范圍，直接在數(shù)據(jù)庫層面進行數(shù)據(jù)集成。

但是，當一個醫(yī)療單位的信息化系統(tǒng)數(shù)量達到一定程度之后，上述方式的問題立即凸顯，隨著系統(tǒng)的增多，需要集成的工作量呈平方增長關(guān)系。

通過對此類情況的處理，國內(nèi)某些醫(yī)療單位與公司在信息集成方面也總結(jié)了比較豐富的經(jīng)驗，選擇性的使用HL7等國際標準，通過Web Services與MQ等技術(shù)手段，也積累了一定的成熟案例。

三，自然語言處理技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用現(xiàn)狀及趨勢

按照維基百科上的介紹，自然語言處理的關(guān)鍵技術(shù)基本涵蓋如下方面：

文本朗讀與語音合成，語音識別，中文分詞，詞性標注，句法分析，自然語言生成，文本分類，信息檢索，信息抽取，文字校對，問答系統(tǒng)，機器翻譯，自動摘要。

其中，中文分詞與信息檢索及信息抽取，是自然語言處理技術(shù)的重要問題，在醫(yī)療領(lǐng)域應(yīng)用也主要集中于這幾個方面，因信息檢索與抽取等技術(shù)相對比較成熟，本文的討論將主要集中于其中的中文分詞。

目前的中文分詞，一般有三大類

（1）基于詞典的分詞：一般將需要處理的文檔與詞典中的詞匯進行匹配，在匹配過程中，根據(jù)優(yōu)先匹配長度的不同，有最大與最小匹配算法；而根據(jù)掃描方向的差別，又可分為正向匹配和逆向匹配算法，以及將正反兩個方向相結(jié)合的雙向匹配法。

從精度來看，在上述幾種方法當中，逆向匹配略高于正向匹配，但目前已有的此類算法錯誤率依然導致精度不能滿足實際使用的需要，所以在實際使用時，大多是將基于詞典的方法作為分詞第一步工作，然后結(jié)合其他方法進一步處理。

具體改進的方式，大概有如下幾種，結(jié)合分類特征表示的優(yōu)化，結(jié)合詞性標注的優(yōu)化，以及后續(xù)加以其他分詞手段（如基于統(tǒng)計語言模型）的處理。

目前，主要基于詞典的分詞方法，一般用于簡單的醫(yī)療文檔處理，如檢查報告，或者病歷文檔中的文檔段級別，如手術(shù)記錄，并在此基礎(chǔ)上結(jié)合一定的人工判斷與加工，這種應(yīng)用的發(fā)展是得益于此類文檔一般結(jié)構(gòu)相對固定，同時詞匯集合數(shù)量比較小，術(shù)語描述受控程度較高。

通過目前應(yīng)用的現(xiàn)狀也驗證了一個基本事實：術(shù)語詞典的完善與精確程度對分詞的準確度有十分重大的影響。

（2）基于統(tǒng)計的分詞：基于統(tǒng)計的分詞方法近年來由于機器學習等技術(shù)的發(fā)展也日漸成熟，這種分詞方法的一個基本前提是：詞匯是由字組成的，然后通過組合出現(xiàn)的概率來判斷是否某個短字符串是否是一個詞，判斷概率時，將各個字在文檔中出現(xiàn)的概率相乘：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

單純使用這種分詞方法時最常見的缺陷是只顧頻率，忽視實際意義，比如可能會分出很多“之一”“我的”等常用但意義不大的詞匯，為彌補此缺陷，通常會結(jié)合基于詞典的分詞來處理。

基于統(tǒng)計的分詞另一個重要的實現(xiàn)方式是采用機器學習的方法，準備好一套已經(jīng)預(yù)先分詞完畢的預(yù)料，通過機器學習的模型去學習分詞的規(guī)律，然后利用抽象出的規(guī)律對新的文本進行分詞。

目前，基于統(tǒng)計的分詞對于同義詞的處理有較好的效果，通常與其他分詞方式結(jié)合使用，但由于實現(xiàn)的技術(shù)難度較高，目前在醫(yī)療實踐中尚未廣泛應(yīng)用。

（3）基于規(guī)則與理解的分詞：這種分詞方法的理論基礎(chǔ)是構(gòu)造在漢語詞法分析基礎(chǔ)上的，有報道稱采用層疊隱馬爾可夫模型進行處理，也取得了較好的效果。

這種分詞方法在進行詞法分析的階段，綜合考慮長度，平均長度，自由語素度以及各種過濾器，如布隆過濾器。

此類分詞引擎的實現(xiàn)技術(shù)難度相當高，目前，國內(nèi)這方面最成熟的成果是ICTCLAS。

綜上，三種分詞方法可以從多個方面進行個對比，如下表：

三種分詞方法的優(yōu)劣對比

分詞方法	基于字符串匹配分詞	基于理解的分詞	基于統(tǒng)計的分詞
歧義識別	差	強	強
新詞識別	差	強	強
需要詞典	需要	不需要	不需要
需要語料庫	否	否	是
需要規(guī)則庫	否	是	否
算法復(fù)雜性	容易	很難	一般
技術(shù)成熟度	成熟	不成熟	成熟
實施難度	容易	很難	一般
分詞準確性	一般	準確	較準
分詞速度	快	慢	一般

目前，中文分詞在實踐中的最大難點在歧義的處理和特殊詞識別。

歧義的識別，基于統(tǒng)計與規(guī)則的方法都能進行一定程度的處理，不過考慮到醫(yī)療的文字描述準確性的要求，更多的應(yīng)當首先在文檔的生成過程中盡可能消除歧義。

對于特殊詞識別，基于詞典的處理方式是不可能處理的，鑒于新詞的生成也是很大程度上符合既往規(guī)則的產(chǎn)物，故對于新詞識別，可優(yōu)先考慮基于理解的分詞方法。

四，自然語言處理技術(shù)在EMR中的實現(xiàn)要點

目前的醫(yī)療文檔（尤其是病歷）絕大部分是以自然語言描述，大量已發(fā)現(xiàn)與未發(fā)現(xiàn)的信息存在于現(xiàn)有的醫(yī)療文檔中，不論是臨床醫(yī)學還是基礎(chǔ)生物醫(yī)學，都對于現(xiàn)有文檔的信息處理與知識發(fā)現(xiàn)提出很高要求，自然語言處理，尤其是中文分詞的發(fā)展，毫無疑問會極大程度的為這些工作提供幫助。

但是，考慮到漢語本身的復(fù)雜性，完成此工作，必須要從中文分詞以及自然語言處理的基礎(chǔ)理論，醫(yī)學模型以及軟件工程實踐等多個方面綜合考慮，才有實現(xiàn)并逐步進行完善的可能。

簡單的說，使用自然語言的相關(guān)成果，為醫(yī)療領(lǐng)域的信息化（尤其是EMR）建設(shè)服務(wù)時，可以優(yōu)先考慮從如下幾個方面入手：

1，半自動中文分詞

目前，由于病歷相關(guān)的術(shù)語集過于復(fù)雜與理論化，在實際用于臨床時，合適的裁剪模型尚不成熟，所以可以考慮機器自動分詞加上人工的方式來處理。

具體操作時，可以在某個研究項目開展時，選擇性的對某些文檔先進行機器自動化分詞處理，這樣即使存在某些分詞不準確導致案例遺漏的情況，也可以通過適當擴大樣本量來補充；在機器自動處理完成后，進行一定的人工審核與數(shù)據(jù)完善，并進行記錄，最終將處理后的數(shù)據(jù)作為研究的信息來源。

通過上述處理步驟后，可進行進一步的檢索與分析工作。

此類方式的核心在于通過不斷提高機器自動分詞的準確度與速度，減少擴大的樣本量與人工處理的工作量。

2，自然語言生成

鑒于醫(yī)療當中存在某些表格病歷類似的情況，可以在某些醫(yī)療單據(jù)通過點選的方式，確定關(guān)鍵信息，然后生成符合醫(yī)療規(guī)范要求的自然語言，由人工進行一定的修改完善后，作為最終的醫(yī)療文檔。

3，小范圍搜索引擎的構(gòu)建

對于常見病的經(jīng)典病歷，以及某些診療指南與臨床證據(jù)，可以構(gòu)建科室級以及院級的搜索引擎，綜合使用自動標注、中文分詞加信息檢索的技術(shù)，隨時提煉各類信息供臨床醫(yī)療工作者使用。

上述各類應(yīng)用的技術(shù)難點，在于如下幾個關(guān)鍵的設(shè)施是否足夠完善：

1，可根據(jù)需要進行簡化以適應(yīng)臨床工作的術(shù)語集

高度可用的術(shù)語集是分詞與分類等一系列工作的基礎(chǔ)，關(guān)鍵在于如何在實踐中找到合理的篩選標準，將現(xiàn)有的高度規(guī)范的術(shù)語集工作與臨床的具體實踐相結(jié)合后，可以既照顧臨床工作的方便，又能保證生成數(shù)據(jù)與規(guī)范術(shù)語的對應(yīng)。

2，結(jié)合醫(yī)學規(guī)則的中文分詞算法

基于規(guī)則的中文分詞算法在現(xiàn)有的分詞算法當中屬于技術(shù)難度較高者，一個重要的原因是漢語的詞匯全集十分復(fù)雜，但醫(yī)學的詞匯集合具有“較有限”“相對規(guī)范”等特點，故可以將醫(yī)療邏輯作為一個規(guī)則庫不斷的進行豐富，同時結(jié)合詞典分詞與統(tǒng)計分詞，提高醫(yī)學中文分詞算法的精度與速度。

3，大數(shù)據(jù)量的存儲與多系統(tǒng)集成技術(shù)

進行完善的醫(yī)療研究與臨床工作，往往需要多方面的數(shù)據(jù)進行支持，且電子病歷在實際工作中產(chǎn)生的數(shù)據(jù)量是比較大的，已有證據(jù)表明，電子病歷所產(chǎn)生的數(shù)據(jù)量在各醫(yī)療信息系統(tǒng)中幾乎一直排名前三。

在這樣的背景下，需要引起注意的是隨著數(shù)據(jù)應(yīng)用要求的不斷提高，大量數(shù)據(jù)的存儲架構(gòu)上的調(diào)整，以及如何將多個系統(tǒng)進行集成，綜合利用各個系統(tǒng)的數(shù)據(jù)為醫(yī)學實踐服務(wù)。

來頂一下

返回首頁

欄目更新

欄目熱門

亚洲午夜网_国产美女精品中文网蜜芽宝贝_亚洲国产福利成人一区_免费无码av片在线观看中文_国产高清在线精品一本大道

EMR與自然語言處理相關(guān)幾個問題的總結(jié)