本分詞器工具是采用IK分詞器,主要詞庫為sougou.dic
點擊我體驗(新版)IK在線分詞
IK Analyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始, IKAnalyzer已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IK Analyzer 3.0則發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。
采用了特有的“正向迭代最細粒度切分算法“,具有50萬字/秒的高速處理能力。
采用了多子處理器分析模式,支持:英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計數(shù)法),中文詞匯(姓名、地名處理)等分詞處理。
優(yōu)化的詞典存儲,更小的內(nèi)存占用。支持用戶詞典擴展定義
針對Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser;采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合,能極大的提高Lucene檢索的命中率。
GoogleCode開源項目 :http://code.google.com/p/ik-analyzer/
GoogleCode SVN下載:http://ik-analyzer.googlecode.com/svn/trunk/
Elasticsearch安裝IK Analyzer:http://zijieyoumin.cn/blog/84.html