日语分词工具

条件:对日开垦语言管理

务求:解析词语,将词语中的英语单词分割,转变方式。

分析:

  职务1:词语拆分

手机版下载,  职分2:调换格局

 

克罗地亚语的款式调换能够用kanavetor去贯彻 很轻便直接调用Kana类的convert方法就能够,在Kana的官英特网可以看看用法(固然看不懂介绍,看见管网的表格应该也就可想而知了~)。

首要在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是一款非常好用的泰语分词工具,况兼,分解后的词是足以自动将汉字,平假名等转变来カタカナ的,有像样须求的能够平昔用这几个而不用再去追寻其余工具了。Kuromoji作者找到了多少个版本,二个是kuromoji,0.7.7版本,官英特网说捐赠给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,目前不思虑。另外多少个版本是kuromoji-ipadic,那一个东东和kuromoji都是贰个商家出的,然则略有分裂,稍微商量了须臾间,kuromoji在选拔的时候是不得不找到jar包,找不到源代码文件的,通过maven下载能够,可是gradle是引进不了的。而kuromoji-ipadic则是gradlle也足以援用,并且引进之后能够看见源码。别的kuromoji毕竟是从前的api,还会有局地非常小的劣点。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "t" + );

4 }

↑↑↑这些api对波兰语汉字的识别率不比上面包车型大巴api(有个别简体马耳他语汉字和特别目生的鉴定识别不出去,毕竟是老版本),况兼境遇不认得的汉字时token调用get方法会获得null。。。不提出使用。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new爆发发生实例的,所以一旦您的工具或系统须求改换大量语汇,要留神不要做太多的new操作,不然会相当慢非常慢非常慢,此时能够定义成静态常量只怕单例情势。

应接大家商议和求教。

 

本文由金沙电玩城捕鱼发布于手机版下载,转载请注明出处:日语分词工具

您可能还会对下面的文章感兴趣: