这个工作看似简单,其实也经常出错。
史上著名的那句“下雨天留客天留我不留”,就是一个令人抓狂的例子,不同的断句方法会导致完全不同的理解。
当然,这个例子有点极端,但现代生活中仍不乏引发歧义的句子,请看这句:今年我国取得辉煌科技成果。
经过分词处理应该变成:今年、我国、取得、辉煌、科技、成果。
可是,李松在一家新闻网站上看到这句话时,却变成了这个样子:
今年我国取得辉煌科技(814,036)成果。
这是怎么回事?
原来,股市里刚好有一家名叫“辉煌科技”的上市公司,而这家新闻网站大概是偏重财经消息,遵循股票名称优先的原则,因此分词的结果就成了:今年、我国、取得、辉煌科技、成果。
而其中的“辉煌科技(814,036)”表示最新的股价及涨幅。
像这种情况就是分词不当引起的,然而在新闻网站中却并不罕见。