[solr ] 如何对数字进行一元分词
jiangyad
2011-08-05
项目中使用了solr,最近客户提出了新的需求,就是对身份证号码及电话号码的查询,只要输入部分数字或号码,那么也能查到所需要的结果,而且要高亮显示。改写了mmseg4j的代码,对数字的一元分词是实现了,但是数量级在百万的时候还可以。到几千万上亿的话,搜索速度就相当慢了,有的甚至要5分钟结果才能出来。那位大侠以前也遇到过这样的问题?
|
|
chenkan2000
2011-12-14
我用Lucene3.4,中文和数字二元分词,7000W条记录,索引文件200G,一般5秒以内出查询结果。
|