国产精品一区二区精品_久久小视频_天堂va在线观看_99久久夜色精品国产亚洲96_日本手机在线视频_av成人免费

當前位置:首頁 > 網(wǎng)站舊欄目 > 學習園地 > 設計軟件教程 > 采訪IK Analyzer 中文分詞器開源項目作者林良益(十三)

采訪IK Analyzer 中文分詞器開源項目作者林良益(十三)
2010-01-14 23:28:07  作者:  來源:
眾所周知,全文搜索幾乎已經(jīng)成為每個網(wǎng)站的必須提供的基本功能之一,用Lucene構(gòu)造一個“索引-查詢”的應用是常見的java解決方案,目前由linliangyi2007創(chuàng)立的IK Analyzer是最好的Lucene 中文分詞器之一。

首先介紹一下IKAnalyzer:IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer 已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。最近剛剛發(fā)布了 3.1.1Stable穩(wěn)定版本,新版本的IKAnalyzer 則發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。

linliangyi2007 (林良益) 是一位資深的Java開發(fā)者和優(yōu)秀開源開發(fā)者, JavaEye非常榮幸的采訪了他。

linliangyi2007 (林良益)  博客:http://linliangyi2007.javaeye.com/

歡迎大家推薦更多開源項目給我們,支持中國的開源項目發(fā)展,發(fā)站內(nèi)短信給JavaEye管理員或者發(fā)信到webmaster@javaeye.com,謝謝。

采訪IK Analyzer 中文分詞器開源項目作者linliangyi2007 Top

JavaEye:1. hi,linliangyi2007 你好,非常榮幸能夠采訪你。你能介紹一下IK Analyzer 中文分詞器開源項目是如何創(chuàng)立的嗎?

linliangyi2007:好的,這個要從和lucene的結(jié)緣開始說起了,大概05年左右,開始是為了完成一個電信的信息管理系統(tǒng),里面需要用到全文檢索的。后來發(fā)現(xiàn)對中文搜索,lucene沒有很好的分詞支持。當時我發(fā)現(xiàn)最棒的就是車東的CJK了,應該說,他的blog文章對我的IK Analyzer 誕生起了很大的影響。 后來,我們公司開始做一個基于web gis的本地信息搜索網(wǎng)站的互聯(lián)網(wǎng)應用,這就促使我萌生了自己寫一個中文分詞器的想法。最開始是基于對詞典的匹配,后來對詞典中未出現(xiàn)的詞語就有了進一步處理的想法,IK Analyzer 的設計理念也是一步一步形成的。這期間也結(jié)合了很多互聯(lián)網(wǎng)用戶的搜索體驗的反饋。

有趣的是,我的兩位好朋友,也就是paoding分詞器的作者和JE-MMAnalyzer分詞器的作者,都在基本相同的時期開始了各自的分詞器研究。  三個人也就熱火朝天的討論開了,有交流,也有比較。因為有了這樣一個圈子和氛圍,也使的IK分詞器一直從06年底開始,不斷的更新到現(xiàn)在。 大家的處理速度,算法的優(yōu)化,還有詞典的整理一直在持續(xù)。當然,由于大家都有自己的工作(吃飯問題很實際啊),期間都有一段時間,暫停了項目的發(fā)展,IK2.0是在07年初發(fā)布的,3.0則到了09年,最近剛剛發(fā)布了 3.1.1Stable穩(wěn)定版本


JavaEye:2. IK Analyzer 中文分詞器項目的特點和應用的主要方面是哪些?新版本做了哪些修正?

linliangyi2007:IK Analyzer 是更多的考慮了互聯(lián)網(wǎng)用戶在產(chǎn)品及名址信息搜索這塊的應用,IK特別適用于搜索商家,產(chǎn)品,名址,如商品交易,美食,娛樂,電子地圖等,因為它是基于這樣的應用誕生的。IK在一開始的設計的時候,它有一個隱形的目標,是對數(shù)詞,量詞,專有名詞的增強處理,這是由于它的基于web gis搜索的需求定位決定的。 如果持續(xù)使用IK的用戶,應該會發(fā)現(xiàn),IK的早期版本對數(shù)量詞,專有名詞的切分,是整體輸出的,舉個例子:“2009年12月”,在IK1.x版本的時候,是作為一個詞元輸出的,對未知的路名,人名,商店,公司名稱都是如此,因此很多用戶說,IK早先版本的分詞效果“看起來”特別好,注意,我這里說的是“看起來", 但搜索起來就未必了。

由于lucene搜索的倒排搜索結(jié)構(gòu),決定了lucene搜索的速度優(yōu)勢在于“全詞匹配”而非like匹配,這就造成了過于粗粒度的輸出分詞結(jié)果好看,但用戶經(jīng)常搜索不到東西,在飽受公司客戶“無情的”打擊之后,IK后續(xù)的版本對此做了很大的改進。后期版本的切分越來越細碎,越來越不“漂亮”了,這點在3.0尤其明顯,但保證了用戶在分詞搜索中的召回率。問題是,這點的改進會帶來另一方面的負面影響,詞打得太散,搜索的準確度下降了,為此IK3.0從問題的另一角度來提供了相對的解決方案。

JavaEye:3. 能否詳細介紹一下這個解決方案?

linliangyi2007:好的,使用lucene搜索的開發(fā)者應該注意到,分詞器在其中扮演著兩個角色:一個是在lucene建立索引庫時候,對文檔進行切分。這時候,細粒度的切分,保證信息能盡可能的被“查找到”;另一個使用分詞器的過程,實在用戶輸入搜索關鍵字的過程。分詞器要多關鍵字進行分詞,而后同索引匹配。 IK3.0就在這個地方為用戶提供了一個相對優(yōu)化的搜索方式,一個是IKQueryParser,這個也是我在blog中吐血推薦的, 呵呵。對于大多普通的搜索應用,它能為用戶提供不錯的搜索關鍵字組合。

舉個例子,用戶搜索“永和服裝飾品”,對于分詞器而言,它會切分出“永和”“和服”“服裝”“裝飾”“飾品”等。但分詞器沒有判斷的能力(實際上,目前所有的分詞器,即便有部分排除歧義的功能,也不完善),如果強制分詞器進行排歧義處理,則可能會得出完全錯誤的結(jié)果。IK則是嘗試給出所有可能的方案,在IKQueryparser 中,它不是簡單的返回所有分詞結(jié)果的組合,而是建立起一個分詞樹,將有可能的組合放在一起,它的輸出會類似于這樣:(“永和” && “服裝” &&  “飾品”) || (“和服”&& “裝飾”), 通過這個搜索邏輯去索引中進行匹配,在現(xiàn)實中,我們完全可以假設只有合理的詞元會搭配在一起, 那么,不合理的搭配,它的就可能不會出現(xiàn),或者即使出現(xiàn),但匹配度較低。 因此,IK3.0又給出了一個IKSimilarity的相似度評估器,來提高多詞匹配的優(yōu)先度,這樣的搜索,就能形成高匹配度的文檔,出現(xiàn)在前面,低匹配度的在后面,不合理的匹配就不出現(xiàn)的結(jié)果。這個也是自己的項目實戰(zhàn)經(jīng)歷了。

IKSimilarity是實現(xiàn)了lucene Similarity的接口的,在進行搜索前,使用IndexSearch的API進行設置就好,這個在IK3.0的DEMO中有詳細的例子說明,至此,IK3.0在盡可能保證文檔召回率的前提下,實現(xiàn)了相關文檔搜索匹配度的優(yōu)先。當然,這不能絕對意義上杜絕不正確信息被搜索出來(PS:就目前各大主要搜索引擎的實現(xiàn)也是這樣的)。在分詞器的設計中,應該說不盡是IK,其他分詞器的作者也是絞盡腦汁的想了很多, 但目前還沒有特別完美的方案。對IK而言,我也收到了來至各方面用戶的反饋,有用在互聯(lián)網(wǎng)搜索領域的,有用于企業(yè)內(nèi)部搜索的,還有做語言分析的,但就我個人的感覺而言,目前很難在一個分詞器中,實現(xiàn)多種目標。因此,我很贊同paoding的作者說的一句話,沒有最好的分詞器,只有最適合于某個領域的分詞器。

JavaEye:4. 你能分析和比較一下類似的其他中文分詞器項目嗎?

linliangyi2007:簡單說一下吧:

JE-MManalyzer:它的算法具有歧義分析,比較適合做垂直搜索和信息挖掘。他的中文名稱是“極易”,開發(fā)者的理念是-簡單即是美。

中科院的分詞器:中科院的分詞器很牛,其切分結(jié)果明顯基于語義分析。

paoding:paoding的結(jié)構(gòu)設計的非常靈活,適合于對其進行開源改造。

mmseg4j:單從mmseg4j 的項目介紹上看,它是一個很純粹的基于詞典分詞的實現(xiàn),既有細粒度的切分,也有最大長度的切分。應該說,是一個學習詞典分詞的很好的典范。

JavaEye:5. IK Analyzer 未來的roadmap是什么? 你對 IK Analyzer的規(guī)劃和目標是什么?

linliangyi2007:就IK后期的roadmap而言,主要致力于兩點,一個是詞典的整理優(yōu)化,這塊工作量是巨大的,且是枯燥的,呵呵。3.1.版本后詞條是27萬,但其中有不少的“不合格”詞語,需要被剔除。第二是,有可能引入詞頻和字頻的統(tǒng)計算法,來優(yōu)化對未知詞語的處理,這個還處于理論階段。

后期的想法,可能會考慮犧牲一定的性能,來換取分詞效果,從企業(yè)應用和中小型互聯(lián)網(wǎng)應用而言,10萬漢字/秒以上的處理速度,應該都能夠滿足需求了。  

JavaEye:6. 你對整個lucene搜索領域怎么看?能推薦幾個你覺得比較關注的搜索領域熱點嗎?

linliangyi2007:lucene是一個相當優(yōu)秀的全文檢索核心框架,基于它的應用是很多的。就lucene自己而言,已經(jīng)發(fā)展出了nutch(面向互聯(lián)網(wǎng)),solr(面向企業(yè)集群)等多種應用,這些也都是全文索引領域最經(jīng)常用到的。而實際上,lucene的索引特性還可以用在更多方面,比如,你可以用它了做web gis的地圖引擎,這是一個已經(jīng)成功實現(xiàn)的商用項目。

因此,對lucene的關注,我覺得應該開放自己的思維。因為索引在計算機應用中,領域是非常廣泛的,大家應該不拘一格。這點要歸功于google對數(shù)據(jù)搜索應用概念的推廣,深入人心。

JavaEye:7. 未來搜索引擎的發(fā)展方向會有哪些呢?

linliangyi2007:大型互聯(lián)網(wǎng)應用,比如google,他們的應該不僅是分詞器了,應該是一個自然語言處理系統(tǒng)了,包括了自我學習能力。

先說搜索的內(nèi)容形式,會多元化,實際上已經(jīng)有國外的公司在研發(fā)了,基于音頻的,圖像的搜索,如通過歌詞搜索音頻內(nèi)容,從搜索的用戶體驗上,會結(jié)合用戶的使用習慣給出搜索結(jié)果。也就是說,在未來,有可能你和我在google上搜索相同的詞語,出來的結(jié)果會有不同。

還有,就是搜索形式可能會更多,有針對特定類型信息的垂直搜索,信息挖掘,也可能是針對SNS方式的人際網(wǎng)絡搜索。 其實搜索的本質(zhì)就是按照用戶的視角將紛繁的數(shù)據(jù)進行合理的組織,再呈現(xiàn)在用面前; 從最早的MIS系統(tǒng)的sql搜索,到現(xiàn)在,一直如此。至于搜索領域google這樣的大公司,基于新的搜索技術(shù)的公司未來有可能有機會超過他們,我想,最終的網(wǎng)絡世界一定是大一統(tǒng)的。大家以后應該是買數(shù)據(jù)賺錢,而不是服務了。服務的方式是有限的,服務的內(nèi)容(數(shù)據(jù))是無限的,是需要人們創(chuàng)造和提供的。

JavaEye:8. 目前IK Analyzer 是你一個人開發(fā)?還是有其他合作開發(fā)者?現(xiàn)在你平均每天花在IK Analyzer 上的時間大概是多久呢?

linliangyi2007:IK目前就我一人,我也一直在尋找合作者。(JavaEye: 希望什么樣的合作者?)最關鍵的是興趣和恒心吧。我基本上每天都會花至少30分鐘來解答網(wǎng)友的問題,然后如果需要,就進行修訂。平時有了新想法,就會進行試驗,如果可行,就會發(fā)布新版本。有時候一天會有20多封郵件咨詢問題,當然有時候一周才一封,呵呵。


JavaEye:9. 目前大概有多少用戶在使用IK Analyzer?

linliangyi2007:初步估計從06年底到現(xiàn)在,應該有1萬多用戶。(JavaEye:很厲害  )  主要都是國內(nèi)的,畢竟是中文的。

JavaEye:10. 為什么給這個項目起IK Analyzer 這個名字呢?

linliangyi2007:呵呵,這個問題問的好,我很喜歡Diablo,尤其是Diablo II,我玩暗黑7年了。暗黑中有個角色,野蠻人哦,它的終極套裝就是“不朽之王Immortal King”,IK誕生的那一天,剛好是我打出一整套套裝的那一天,于是就用這個套裝的名字做紀念了,呵呵,感謝暴雪,感謝JavaEye,感謝CCAV。。。    聽說java也是這么命名的,當時的設計人員正在喝java咖啡來著……

JavaEye:11. 你的開發(fā)環(huán)境是什么? 使用什么操作系統(tǒng),和IDE?

linliangyi2007:我用Eclipse,操作系統(tǒng)多是windows,偶爾用linux, 客戶多使用unix。

JavaEye:12. 通過開發(fā)IK Analyzer ,你對中國的軟件開發(fā)人員做開源項目有什么感受和想法嗎?

linliangyi2007:現(xiàn)在大家日常用的開發(fā)平臺,95%以上都是國外的組織貢獻的,中國在這塊,是需要趕上的。中國的開源比前幾年有了明顯的發(fā)展,但還需要大家一起來參與。希望大家能逐步型成貢獻代碼的習慣,其實開源不一定每個人都有做一個項目,參與其中就好, 哪怕就一小段的代碼。linux能成功,它的很多核心代碼都被閱讀過,并通過網(wǎng)友們進行了補充和修訂。中國的開源氛圍薄弱,我覺得更多的是中國傳統(tǒng)思想中,對知識保守的因素,師傅對徒弟都要留一手,何況是同業(yè)者呢。但我要說,思想的交互是互利的,知識在開放的氛圍中增長的速度要遠超過封閉的開發(fā), 我經(jīng)常跟我的同事進行頭腦風暴,大家都很有收獲的,碰撞后的思想,往往能產(chǎn)生意料之外的好結(jié)果。


JavaEye:13. 作為一個JavaEye老會員,你對JavaEye網(wǎng)站有什么建議和意見嗎?

linliangyi2007:希望javaeye更專業(yè)更有深度。對新人創(chuàng)造更包容,更寬松的咨詢空間,對老人們則是思想碰撞,溫故知新的場所。

安徽新華電腦學校專業(yè)職業(yè)規(guī)劃師為你提供更多幫助【在線咨詢
国产精品一区二区精品_久久小视频_天堂va在线观看_99久久夜色精品国产亚洲96_日本手机在线视频_av成人免费
<button id="0mgmq"><pre id="0mgmq"></pre></button>
  • <tr id="0mgmq"></tr>
  • <abbr id="0mgmq"><source id="0mgmq"></source></abbr> <button id="0mgmq"></button>
  • 亚洲精品二区| 日本一区免费看| 伊人久久综合| 欧美在线高清| 日韩一区国产在线观看| 99视频在线播放| 久久经典综合| 在线视频欧美一区| 亚洲日本成人| 亚洲黄色视屏| 亚洲精品在线观看免费| 在线国产精品一区| 国产字幕视频一区二区| 欧美日韩岛国| 亚洲婷婷在线| 91久久精品www人人做人人爽| 欧美激情一区| 国产精品av一区二区| 欧美一区亚洲二区| 伊人情人网综合| 亚洲欧洲一区二区| 中文字幕欧美人与畜| 一区二区三区视频在线播放| 一本一生久久a久久精品综合蜜 | 久久免费黄色| 亚洲欧美日韩综合一区| 国产一区二区三区免费不卡| 国产精品美女黄网| 久久国产免费| 国产精品久久国产三级国电话系列| 97超碰最新| 久久久一本精品99久久精品| 欧洲亚洲一区二区三区四区五区| 日本精品一区| 欧美日韩蜜桃| 亚洲一区二区毛片| 国产精品日韩欧美一区二区三区| 久草一区二区| 欧美成人一区二区在线| 夜夜爽av福利精品导航| 久久一日本道色综合久久| 超碰97人人人人人蜜桃| 欧美日韩国产高清视频| 欧美日韩在线高清| 新狼窝色av性久久久久久| 国内视频一区| 中文字幕一区二区三区精彩视频| 亚洲精品影院| 国外成人免费视频| 一本一本a久久| 国产午夜精品一区二区三区欧美| 91精品国产一区二区三区动漫| 精品一区2区三区| 欧美视频观看一区| av色综合网| 欧美一区二区三区久久精品| 男人天堂欧美日韩| 日本一区二区在线视频观看| 18成人免费观看视频| 国产精品免费在线| 国产精品xvideos88| 99视频免费观看| 一区二区三区四区五区精品| 亚洲综合三区| 亚洲激情一区二区| 久久在线精品| 欧美福利视频| 国产精品毛片va一区二区三区| 亚洲在线欧美| 国产伦精品一区二区三区视频孕妇 | 欧美 日韩 国产一区二区在线视频 | 99国产精品99久久久久久粉嫩| 国产精品久久久久久久免费大片 | 欧美国产综合视频| 国产精品久久国产三级国电话系列 | 国产女主播一区二区| 久久久久久艹| 久久成人在线| 欧美日韩在线大尺度| 精品国产电影| 免费亚洲网站| 1024日韩| 伊人久久99| 久久久一本精品99久久精品66| 亚洲少妇一区| 国产综合网站| 女人一区二区三区| 欧美专区在线| 日韩天天综合| 欧美日韩国产成人精品| 牛人盗摄一区二区三区视频| 久久av最新网址| 亚洲精品1区2区| 欧美精品一区在线| 视频在线99| 精品国产免费久久久久久尖叫| 9色精品在线| 韩国自拍一区| 欧美二区视频| 一本一道久久a久久精品综合| 久久免费看av| 国产精品视频免费一区二区三区| 一区二区精品在线| 伊人成人在线| 亚洲精品护士| 国自产拍偷拍福利精品免费一| 天堂av一区二区| 欧美精品尤物在线| 久久av一区二区三区亚洲| 波多野结衣久草一区| 亚欧美中日韩视频| 国产偷国产偷亚洲高清97cao| 尤物网精品视频| 亚洲免费高清| 亚洲欧美日韩综合国产aⅴ| 在线一区日本视频| 亚洲一区二区在线看| 国产精品日韩欧美一区| 亚洲一区二区三区午夜| 国产精品区免费视频| 亚洲一区精彩视频| 久久久久久一区| 99高清视频有精品视频| 国产精品一区二区三区四区五区| 99热最新在线| 久久综合九九| 偷拍视频一区二区| 欧美福利一区| 亚洲高清不卡| 久久精品欧美| 久久伊人资源站| 亚洲成人午夜在线| 国产主播一区| 羞羞答答国产精品www一本| 母乳一区在线观看| 国产精品亚洲综合| 色吧亚洲视频| 亚洲无线视频| 91精品黄色| 欧美一级二级三级九九九| 最新精品视频| 国产精品午夜av在线| 高清视频在线观看一区| 蜜桃传媒视频麻豆第一区免费观看| 日本高清不卡一区二区三| 中文字幕av日韩精品| 99热在线精品观看| 国产日韩一区二区| 欧美1区免费| 久久国产高清| 日韩av免费电影| 99热这里只有成人精品国产| 国产九色精品| 欧美日韩国产综合网| 免费视频久久| 日韩精品一区二区三区色偷偷 | 国产精品国产精品| 欧美在线亚洲综合一区| 亚洲一区网站| 日韩在线国产| 在线亚洲精品| 欧美日韩精品久久| 国产欧美短视频| 欧美一区二区三区四区夜夜大片| 永久久久久久| 欧美日韩在线高清| 国产精品日本| 一区在线电影| 国产伦理一区二区三区| 欧美三级午夜理伦三级中文幕| 99久久久久国产精品免费| 欧美在线三级| 久久久婷婷一区二区三区不卡| 亚洲免费激情| 日韩在线导航| 国产福利不卡| 99视频+国产日韩欧美| 欧美一二三四五区| 久久亚洲影院| 亚洲日本欧美| 一区二区精品视频| 久久精品久久精品国产大片| 一本一道久久综合狠狠老精东影业| 欧美日本韩国国产| 91精品久久香蕉国产线看观看| 欧美片第1页综合| 鲁鲁狠狠狠7777一区二区| 久久精品五月婷婷| 亚洲精美视频| 女人色偷偷aa久久天堂| 欧美一级二级三级| 国产精品久久亚洲| 久久婷婷激情| 一区二区国产在线观看| 欧美私人啪啪vps| 亚洲国产欧美不卡在线观看| 精品国产二区在线| 美女91精品| 亚洲欧美日韩精品一区二区| 亚洲国产99|