庖丁有两种分词模式:
most-words:最大词量分词方式,此模式对应的词典编译类为MostWordsModeDictionariesCompiler
max-word-length:按词在词典中的原序来进行编译,基本不再做其他处理,此模式对应的词典编译类为SortingDictionariesCompiler
most-words是默认的分词模式。
classpath下添加的paoding-dic-home.properties文件
paoding.dic.home.config-fisrt=this
paoding.dic.home=classpath:dic
classpath下配置添加paoding-analyzer.properties,内容如下(需要根据分词模式来选择哪种compiler):
#PaodingAnlyzer Mode, "most-words", "max-word-length", "class:com.xxx.MyTokenCollectorImpl"...
#paoding.analyzer.mode=most-words
#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler
#paoding.analyzer.mode=max-word-length
paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler
最后 删掉.compile文件
分享到:
相关推荐
paoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jar
paoding-analysis-4.3.0.jar
paoding-rose-2.0
修改了paoding-analysis6的部分源码,使之支持lucene6.2.1
paoding-analysis-4.4.0.jar 庖丁分词jar,支持lucene4.4.0及solr4.4.0版本。
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...
Lucene建立索引jar包和Paoding庖丁分词jar包,Lucene结合Paoding庖丁分词创建索引索引jar包汇总
paoding-analysis-4.1.0.jar,自己修改了一下源码,支持lucene4.1和solr4.1版本。
paoding-analysis-6.2.1.jar;paoding-analysis-6.2.1.jar;
paoding分词与gate使用,给公司做报告时准备的ppt
Paoding中文分词参考手册.htm paoding-analysis.jar
对Lcuene的良好的封装,提供了中文分词字典 功能强大
Java 调用了paoding分词插件,把新闻的内容进行解析,按照词频,进行新闻的分类,小例子,做着玩的
paoding分词jar ,支持lucence3以上的版本。本人使用的lucence是3.5的,没有问题。
包含基本所需要的jar,比较全面,内涵盖了log4j.上传下载所需的jar.
paoding 中文分词 环境搭建 欢迎交流学习
支持lucene4.0的paoding分词