情感分析与观点挖掘 – 哪个妞污

情感分析与观点挖掘

刚看完MSRA研究员wei furu关于情感分析与观点挖掘的讲座,对这一领域有了基本了解。这一研究方向从狭义上讲,就是从文本形式的数据中挖掘得到其表达的情感或是观点,比如“我认为奥巴马是一个好总统”,可以知道表述的是积极的好的情感。而研究任务就是识别出情感。

具体展开,此领域有三个子任务:1)找到观点的发出者(Holder);2)找到观点指向者(Target);3)识别出观点(Polarity)。比如刚才的“我认为奥巴马是一个好总统”, Holder是“我”,Target是“奥巴马”,Polarity是“好”。

从挖掘的对象(数据)来讲,又可以分为文档级别,句子级别和短语(词)级别三大类。上面的这个例子对应的就是句子级别。

对于第一个子任务的解决方案,本质思想是类似找命名实体的思路,具体算法可以用CRF或是基于pattern的一些方法,这些算法当前效果一般,在常用的公开数据集上的F1在60-70%左右。

对于第二个子任务,感觉会更难一些,具体到一个产品来讲,比如一个相机,它会有好几个属性(Feature):大小,重量,颜色,像素等等,如何能从自然描述里准确知道它是对应哪个属性感觉会更难。PPT中介绍一个Liu Bing老师的文章:基本思想是用关联规则的算法,把一个产品对应的多个feature的描述算一些置信度和支持度。本质思想是同样的一些形容词会用来描述不同的属性,比如amazing这个词,可以说the picture is amazing,也可以说the color is amazing。通过一些关联规则统计可以发现一些属性。这一部分在常用的数据集中准召率也60-70%的样子。

对于第三任务,是研究比较多,大概的算法有以下几类:1)有一个注明情感的词典,数一个每个情感词表达的情感是积极或是消极,然后做一下投票就可得到对象级别的情感。这里还介绍一些收集情感词典的方法,基本是NLP当中常用的套路。2)机器学习的方法,就是一个很正常的分类任务,搞个模型,设计一些特征跑一下的样子。这里给了一些实验效果,基本结论就是ML更牛一点。3)机器翻译的方法,基本思路是复用MT的框架,自己设定一些对齐规则。4)其他方法,无非就是半监督,主题模型之类的东西。

后面介绍了一些Tweet情感分析的工作,想对之前,主要引入了上下文和领域相关的知识(规则),一个比较有意思是在基于传统的机器学习方法得到一个模型后,再进行Graph based optimization的思路,这种算法将每条tweet内容的转发关系,上下条内容等建立图关系,将传统ML样本是独立同分布(IID)的假设做了扩展以适应数据之间有联系的真实场景。

还有最后一个工作是基于多语言数据的情感分析,具体场景就是英语的词典或是语料一般比较多,而汉语的比较少,如何借助另一方来使自己的任务做到更好。似乎比较类似迁移学习的思路,具体没太关注,大致是用co-training的思想,同时引入了词级别的对齐信息做到了更好的效果。

最最令我印象深刻的是本文中给出的一些future work,比较有趣,也比较实在:

1)情感分析一般文章或句子中一两个词就很清楚的表明立场,而当前做法还是词袋模型,似乎有点冗余,甚至有噪声存在。

2)逆情感想象:比如“不是特别好”之类。

3)组合转义很大:比如“好得 不能再好”。

4)领域和表述对象相关。比如“这个电影票房不可预测,这个完成时间不可预测”

5)上下文相关。

6)imbalance learning。很多都是没有情感的,正负情感也是不一样的。

7)要区分用户。比如50%的用户是积极的,50%的消极的。而女性中,80%的是积极的。

8)sentiment insight mining。比如“奥巴马是好总统”,但具体好在哪些方面不知。

9)隐含的情感。文学作品中的反话

一些可以学习的资料:

Sentiment Analysis in Practice Tutorial by Yongzheng

Zhang et al. (ebay research lab | ICMD | 2011)

Sentiment Symposium Tutorial by Christopher Potts

(Stanford Linguistics | 2011)

Sentiment Analysis Tutorial by Bing Liu (University of Illinois at

Chicago | AAAI | 2011)

Opinion Mining and Sentiment Analysis: NLP Meets

Social Sciences by Bing Liu (University of Illinois at Chicago | 2010)

Opinion Mining and Summarization by Bing Liu (University

of Illinois at Chicago | WWW| 2008)

Sentiment analysis and opinion mining (survey) by Bo

Pang and Lillian Lee (Cornell University | 2008)

更多文章请关注:哪个妞污,那个妞污!  ngn5.com    女娲之情感漫谈吧   ngn5.com/category/qingganmantan

发表回复