IK Analyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始, IKAnalyzer已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IK Analyzer 3.0則發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。
采用了特有的“正向迭代最細粒度切分算法“,具有50萬字/秒的高速處理能力。
采用了多子處理器分析模式,支持:英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學計數(shù)法),中文詞匯(姓名、地名處理)等分詞處理。
優(yōu)化的詞典存儲,更小的內(nèi)存占用。支持用戶詞典擴展定義
針對Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser;采用歧義分析算法優(yōu)化查詢關鍵字的搜索排列組合,能極大的提高Lucene檢索的命中率。
GoogleCode開源項目 :http://code.google.com/p/ik-analyzer/
GoogleCode SVN下載:http://ik-analyzer.googlecode.com/svn/trunk/
Elasticsearch安裝IK Analyzer:http://zijieyoumin.cn /blog/84.html
綜合技術交流:點擊加入--> [SO JSON官方交流①群][收費]
綜合技術交流:點擊加入--> [SO JSON官方交流②群][免費]
要求:不能發(fā)廣告、暴力、政治、付費教程,違者直接踢出。
備注:入群費用5元,沒有QQ錢包,可以先支付寶
or 微信
掃碼支付5元贊助后,我拉您進去。QQ聯(lián)系我。
掃碼贊助:贊助二維碼。
技術交流QQ群:①群259217951,②群166848545
站長郵箱:so@sojson.com
對頁面內(nèi)容有任何疑問和建議,請聯(lián)系我們。
所有贊助/開支都講公開明細,用于網(wǎng)站維護:贊助名單查看
正在加載... ...