Paoding分词-扩展词典 - modabobo - ITeye博客

`

modabobo

浏览: 509381 次

最近访客更多访客>>

leimingchao

totong

zjy_369

sweetbear12

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1334)

社区版块

存档分类

最新评论

Paoding分词-扩展词典

阅读更多

庖丁有两种分词模式：

most-words：最大词量分词方式,此模式对应的词典编译类为MostWordsModeDictionariesCompiler

max-word-length：按词在词典中的原序来进行编译，基本不再做其他处理，此模式对应的词典编译类为SortingDictionariesCompiler

most-words是默认的分词模式。

classpath下添加的paoding-dic-home.properties文件
paoding.dic.home.config-fisrt=this
paoding.dic.home=classpath:dic

classpath下配置添加paoding-analyzer.properties，内容如下（需要根据分词模式来选择哪种compiler）：

#PaodingAnlyzer Mode, "most-words", "max-word-length", "class:com.xxx.MyTokenCollectorImpl"...

#paoding.analyzer.mode=most-words

#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler

#paoding.analyzer.mode=max-word-length

paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler

最后删掉.compile文件

分享到：

由砰砰砰关门引起的万千思绪 | ubuntu配置android开发环境和编译源码遇到 ...

2013-11-11 11:33
浏览 249
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

paoding-analysis.jar: paoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jar

paoding-analysis-4.3.0.jar: paoding-analysis-4.3.0.jar

paoding-rose-2.0.jar: paoding-rose-2.0

paoding-analysis6.2.1.jar: 修改了paoding-analysis6的部分源码，使之支持lucene6.2.1

paoding-analysis-4.4.0.jar: paoding-analysis-4.4.0.jar 庖丁分词jar，支持lucene4.4.0及solr4.4.0版本。

zhzhenqin-paoding-analysis-master.zip_WEK_lucene_分词词库: Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为...

Lucene建立索引jar包和Paoding分词jar包: Lucene建立索引jar包和Paoding庖丁分词jar包，Lucene结合Paoding庖丁分词创建索引索引jar包汇总

paoding-analysis-4.1.0.jar: paoding-analysis-4.1.0.jar,自己修改了一下源码，支持lucene4.1和solr4.1版本。

paoding-analysis-6.2.1.jar: paoding-analysis-6.2.1.jar;paoding-analysis-6.2.1.jar;

paoding分词与gate使用: paoding分词与gate使用，给公司做报告时准备的ppt

Paoding-analysis: Paoding中文分词参考手册.htm paoding-analysis.jar

paoding-analysis-2.0.4-alpha2.rar_2.0.4-alpha2_paoding-analysis-: 对Lcuene的良好的封装,提供了中文分词字典功能强大

Java调用paoding分词器对抓取的xml里面的新闻按照出现的词频进行分类: Java 调用了paoding分词插件，把新闻的内容进行解析，按照词频，进行新闻的分类，小例子，做着玩的

paoding-analysis3.5.jar: paoding分词jar ，支持lucence3以上的版本。本人使用的lucence是3.5的，没有问题。

paoding-rose-1.0.1.jar: 包含基本所需要的jar,比较全面，内涵盖了log4j.上传下载所需的jar.

paoding 分词: paoding 中文分词环境搭建欢迎交流学习

支持lucene4.0的paoding分词: 支持lucene4.0的paoding分词

Global site tag (gtag.js) - Google Analytics