大家好,我 目前正在研究 使用nutch + solr技术 建立企业内部搜索平台. 初步框架已经完成,
版本:
nutch 使用 apache-nutch-1.10-bin
solr 使用 apache-solr-4.0.0
功能:
1) 可以实现nutch 抓取网页,并同步到solr collection 中
2) 在solr可以通过query 查询出匹配的记录.并实现了中文分词支持.
3) 在nutch上 重写 parse-html 源码 增加了 分析 meta keyword功能.并增加了一个 nutch 扩展,使得同步到solr中的数据多一个字段 meta-keyword.
4) 通过修改nutch-site.xml 实现重复抓取 相同的网址
5) 实现英文 suggest
困境:
1) 在solr suggest方面, 仅仅实现了英文 提示. 无法完成 中文提示, 需要请教大家了.
2) 还有一个问题是 通过query 查询出来的记录,如何出来包含关键字的一段简介呢?
如果有感兴趣的 同学可以相互交流下.
第二问题 已经通过 hl 实现了.