使用LingPipe进行分词及词性标注

1、首先下载LinePipe
http://alias-i.com/lingpipe/

2、测试例子
en.txt

Don't ever let somebody tell you you can't do something, not even me. 
You got a dream, you gotta protect it. 
People can’t do something themselves, they wanna tell you you can’t do it. 
If you want something, go get it. 
Period.

3、运行gui_pos_en_general_brown.bat

4、测试结果
enpos.txt

<?xml version="1.0" encoding="GBK"?><output><s i="0"><token pos="np">Don</token><token pos="'">'</token><token pos="ql">t</token> <token pos="rb">ever</token> <token pos="vb">let</token> <token pos="pn">somebody</token> <token pos="vb">tell</token> <token pos="ppo">you</token> <token pos="ppss">you</token> <token pos="md">can</token><token pos="'">'</token><token pos="rbt">t</token> <token pos="do">do</token> <token pos="pn">something</token><token pos=",">,</token> <token pos="*">not</token> <token pos="vb">even</token> <token pos="ppo">me</token><token pos=".">.</token></s> 
<s i="1"><token pos="ppss">You</token> <token pos="vbd">got</token> <token pos="at">a</token> <token pos="nn">dream</token><token pos=",">,</token> <token pos="ppss">you</token> <token pos="vbn">gotta</token> <token pos="vb">protect</token> <token pos="ppo">it</token><token pos=".">.</token></s> 
<s i="2"><token pos="nns">People</token> <token pos="md">can</token><token pos="nil">’</token><token pos="nil">t</token> <token pos="do">do</token> <token pos="pn">something</token> <token pos="ppls">themselves</token><token pos=",">,</token> <token pos="ppss">they</token> <token pos="vb">wanna</token> <token pos="vb">tell</token> <token pos="ppo">you</token> <token pos="ppss">you</token> <token pos="md">can</token><token pos="nil">’</token><token pos="nil">t</token> <token pos="do">do</token> <token pos="ppo">it</token><token pos=".">.</token></s> 
<s i="3"><token pos="cs">If</token> <token pos="ppss">you</token> <token pos="vb">want</token> <token pos="pn">something</token><token pos=",">,</token> <token pos="vb">go</token> <token pos="vb">get</token> <token pos="ppo">it</token><token pos=".">.</token></s> 
<s i="4"><token pos="nn">Period</token><token pos=".">.</token></s></output>

Comments are closed.