使用Stanford套件进行分词及词性标注

1、首先下载两个工具,分别是分词工具及标定工具
Stanford Word Segmenter
Stanford POS Tagger
http://nlp.stanford.edu/software/
需要安装JDK8的哦。

2、测试例子
en.txt

Don't ever let somebody tell you you can't do something, not even me. 
You got a dream, you gotta protect it. 
People can’t do something themselves, they wanna tell you you can’t do it. 
If you want something, go get it. 
Period.

zh.txt

别让别人告诉你你成不了才,即使是我也不行。
如果你有梦想的话,就要去捍卫它。
那些一事无成的人想告诉你你也成不了大器。
如果你有理想的话,就要去努力实现。
就这样。

3、执行语句

segment.bat ctb zh.txt GBK 0 > zhws.txt
segment.bat ctb en.txt GBK 0 > enws.txt

stanford-postagger models/chinese-distsim.tagger zhws.txt > zhpos.txt
stanford-postagger models/english-bidirectional-distsim.tagger enws.txt > enpos.txt

4、测试结果
enpos.txt

Do_VB n't_RB ever_RB let_VB somebody_NN tell_VB you_PRP you_PRP ca_MD n't_RB do_VB something_NN ,_, not_RB even_RB me_PRP ._.
You_PRP got_VBD a_DT dream_NN ,_, you_PRP got_VBD ta_RB protect_VB it_PRP ._.
People_NNS can_MD '_POS t_NN do_VBP something_NN themselves_PRP ,_, they_PRP wan_VBP na_TO tell_VB you_PRP you_PRP can_MD '_POS t_NN do_VBP it_PRP ._.
If_IN you_PRP want_VBP something_NN ,_, go_VB get_VB it_PRP ._.
Period_NN ._.

zhpos.txt

别#AD 让#VV 别人#NN 告诉#VV 你#PN 你#PN 成不了#AD 才#AD ,#PU 即使#CS 是#VC 我#PN 也#AD 不#AD 行#VV 。#PU
如果#CS 你#PN 有#VE 梦想#NN 的话#SP ,#PU 就要#AD 去#VV 捍卫#VV 它#PN 。#PU
那些#DT 一事无成#VV 的#DEC 人#NN 想#VV 告诉#VV 你#PN 你#PN 也#AD 成#VV 不了#AD 大器#NN 。#PU
如果#CS 你#PN 有理想#VV 的话#SP ,#PU 就要#AD 去#VV 努力#AD 实现#VV 。#PU
就#AD 这样#VA 。#PU

Comments are closed.