近来发现了snownlp这个库,这个类库是特地针对中文文本举行文本发掘的。
主要功能:
- 中文分词(Character-Based Generative Model)
- 词性标注(TnT 3-gram 隐马)
- 情绪剖析(如今练习数据主若是生意器械时的评价,以是对其他的一些能够效果不是很好,待处置惩罚)
- 文本分类(Naive Bayes)
- 转换成拼音(Trie树完成的最大婚配)
- 繁体转简体(Trie树完成的最大婚配)
- 提取文本关键词(TextRank算法)
- 提取文本择要(TextRank算法)
- tf,idf
- Tokenization(分割成句子)
- 文本类似(BM25)
- 支撑python3(谢谢erning)
官网信息:
snownlp github:https://github.com/isnowfy/snownlp
运用及源码剖析:
snownlp类库的装置:
$ pip install snownlp
运用snownlp举行情绪剖析:
#-*- coding:utf-8 -*- from snownlp importSnowNLP#建立snownlp对象,设置要测试的语句 s = SnowNLP(u'买来给家婆用来洗儿子的衣服的')print("1",s.words)#将句子分红单词 #['买', '来', '给', '家婆', '用', '来', '洗', '儿子', '的', '衣服', '的'] s.tags#比方:[(u'这个', u'r'), (u'器械', u'n'), #(u'至心', u'd'), (u'很', u'd'), #(u'赞', u'Vg')] #挪用sentiments要领猎取主动情绪几率 positive的几率 print("2",s.sentiments)
s.pinyin#将汉字语句转换为Pinyin语句 #比方:[u'zhe', u'ge', u'dong', u'xi', #u'zhen', u'xin', u'hen', u'zan']#———————————————————————————————————————————————————————————————————————————————————————————————————————— s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')
s.han#将繁体字转换为简体字 #u'「繁体字」「繁体中文」的叫法 #在台湾亦很罕见。'#———————————————————————————————————————————————————————————————————————————————————————————————————————— text = u'''天然言语处置惩罚是盘算机科学范畴与人工智能范畴中的一个主要偏向。
它研讨能完成人与盘算机之间用天然言语举行有用通讯的种种理论和要领。
天然言语处置惩罚是一门融言语学、盘算机科学、数学于一体的科学。
因此,这一范畴的研讨将触及天然言语,即人们一样平常运用的言语,
以是它与言语学的研讨有着亲昵的联络,但又有主要的区分。
天然言语处置惩罚并非一样平常地研讨天然言语,
而在于研制能有用地完成天然言语通讯的盘算机体系,
特别是个中的软件体系。因此它是盘算机科学的一部分。'''s=SnowNLP(text)
s.keywords(3) #[u'言语', u'天然', u'盘算机'] s.summary(3) #[u'因此它是盘算机科学的一部分', #u'天然言语处置惩罚是一门融言语学、盘算机科学、 #数学于一体的科学', #u'天然言语处置惩罚是盘算机科学范畴与人工智能 #范畴中的一个主要偏向'] s.sentences#分红句子#———————————————————————————————————————————————————————————————————————————————————————————————————————— s = SnowNLP([[u'这篇', u'文章'],
[u'那篇', u'论文'],
[u'这个']])print(s.tf) #TF意义是词频(Term Frequency) print(s.idf) #IDF意义是逆文本频次指数(Inverse Document Frequency) s.sim([u'文章'])#[0.3756070762985226, 0, 0]
完成历程:
1.起首从SnowNLP入手,看一下sentiments要领,在sentiments要领中,挪用了sentiment下的分类要领。
#-*- coding: utf-8 -*- from __future__ importunicode_literalsfrom . importnormalfrom . importsegfrom . importtagfrom . importsentimentfrom .sim importbm25from .summary importtextrankfrom .summary importwords_mergeclassSnowNLP(object):def __init__(self, doc):
self.doc=doc
self.bm25=bm25.BM25(doc)
@propertydefwords(self):returnseg.seg(self.doc)
@propertydefsentences(self):returnnormal.get_sentences(self.doc)
@propertydefhan(self):returnnormal.zh2hans(self.doc)
@propertydefpinyin(self):returnnormal.get_pinyin(self.doc)
@propertydefsentiments(self):return sentiment.classify(self.doc)#挪用了sentiment的classify分类要领 @propertydeftags(self):
words=self.words
tags=tag.tag(words)returnzip(words, tags)
@propertydeftf(self):returnself.bm25.f
@propertydefidf(self):returnself.bm25.idfdefsim(self, doc):returnself.bm25.simall(doc)def summary(self, limit=5):
doc=[]
sents=self.sentencesfor sent insents:
words=seg.seg(sent)
words=normal.filter_stop(words)
doc.append(words)
rank=textrank.TextRank(doc)
rank.solve()
ret=[]for index inrank.top_index(limit):
ret.append(sents[index])returnretdef keywords(self, limit=5, merge=False):
doc=[]
sents=self.sentencesfor sent insents:
words=seg.seg(sent)
words=normal.filter_stop(words)
doc.append(words)
rank=textrank.KeywordTextRank(doc)
rank.solve()
ret=[]for w inrank.top_index(limit):
ret.append(w)ifmerge:
wm=words_merge.SimpleMerge(self.doc, ret)returnwm.merge()return ret
2.sentiment文件夹下的__init__文件
sentiment中建立了Sentiment对象
起首挪用load要领加载练习好的数据字典,然后挪用classify要领,在classify要领中现实挪用的是Bayes对象中的classify要领。
#-*- coding: utf-8 -*- from __future__ importunicode_literalsimportosimportcodecsfrom .. importnormalfrom .. importsegfrom ..classification.bayes importBayes#数据文件途径 data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),'sentiment.marshal')classSentiment(object):def __init__(self):#建立Bayes对象 self.classifier =Bayes()#生存练习好的字典数据 def save(self, fname, iszip=True):
self.classifier.save(fname, iszip)#加载字典数据 def load(self, fname=data_path, iszip=True):
self.classifier.load(fname, iszip)#对文档分词 defhandle(self, doc):
words=seg.seg(doc)
words=normal.filter_stop(words)returnwords#练习数据集 deftrain(self, neg_docs, pos_docs):
data=[]#读取悲观批评list,同时为每条批评加上neg标签,也放入到一个list中 for sent inneg_docs:
data.append([self.handle(sent),'neg'])#读取主动批评list,为每条批评加上pos标签 for sent inpos_docs:
data.append([self.handle(sent),'pos'])#挪用分类器的练习数据集要领,对模子举行练习 self.classifier.train(data)#分类 defclassify(self, sent):#挪用贝叶斯分类器的分类要领,猎取分类标签和几率 ret, prob =self.classifier.classify(self.handle(sent))#若是分类标签是pos直接返回几率值 if ret == 'pos':returnprob#若是返回的是neg,因为显现的是主动几率值,因此用1减去悲观几率值 return 1-prob
classifier=Sentiment()
classifier.load()#练习数据 deftrain(neg_file, pos_file):#翻开悲观数据文件 neg = codecs.open(neg_file, 'r', 'utf-8').readlines()
pos= codecs.open(pos_file, 'r', 'utf-8').readlines()
neg_docs=[]
pos_docs=[]#遍历每一条悲观批评,放入到list中 for line inneg:
neg_docs.append(line.rstrip("\r\n"))#遍历每一条主动批评,放入到list中 for line inpos:
pos_docs.append(line.rstrip("\r\n"))globalclassifier
classifier=Sentiment()#练习数据,传入主动、悲观批评list classifier.train(neg_docs, pos_docs)#生存数据字典 def save(fname, iszip=True):
classifier.save(fname, iszip)#加载数据字典 def load(fname, iszip=True):
classifier.load(fname, iszip)#对语句举行分类 defclassify(sent):return classifier.classify(sent)
sentiment中包含了练习数据集的要领,看一下是怎样练习数据集的:
在sentiment文件夹下,包含了以下文件:
neg.txt和pos.txt是已分类好的批评数据,neg.txt中都是悲观批评,pos中是主动批评
sentiment.marshal和sentiment.marshal.3中寄存的是序列化后的数据字典,这个也稍后再说
(1)在train()要领中,起首读取悲观和主动批评txt文件,然后猎取每一条批评,放入到list鸠合中,花样大抵以下
[ ' 还没有收到书!!!还没有收到书 ' , ' 小熊宝宝我以为孩子不喜欢,能换其余吗 ' , ......]
#练习数据 deftrain(neg_file, pos_file):#翻开悲观数据文件 neg = codecs.open(neg_file, 'r', 'utf-8').readlines()
pos= codecs.open(pos_file, 'r', 'utf-8').readlines()
neg_docs=[]
pos_docs=[]#遍历每一条悲观批评,放入到list中 for line inneg:
neg_docs.append(line.rstrip("\r\n"))#遍历每一条主动批评,放入到list中 for line inpos:
pos_docs.append(line.rstrip("\r\n"))globalclassifier
classifier=Sentiment()#练习数据,传入主动、悲观批评list classifier.train(neg_docs, pos_docs)
然后挪用了Sentiment对象中的train()要领:
在train要领中,遍历了传入的主动、悲观批评list,为每条批评举行分词,并为加上了分类标签,此时的数据花样以下:
批评分词后的数据花样:['收到','没有'...]
加上标签后的数据花样(以悲观批评为例):[ [['收到','没有' ...],'neg'] , [['小熊','宝宝' ...],‘neg’] ........]]
能够看到每一条批评都是一个list,个中又包含了批评分词后的list和批评的分类标签
#练习数据集 deftrain(self, neg_docs, pos_docs):
data=[]#读取悲观批评list,对每条批评分词,并加上neg标签,也放入到一个list中 for sent inneg_docs:
data.append([self.handle(sent),'neg'])#读取主动批评list,为每条批评分词,加上pos标签 for sent inpos_docs:
data.append([self.handle(sent),'pos'])#挪用分类器的练习数据集要领,对模子举行练习 self.classifier.train(data)
经由了此步调,已对数据处置惩罚完毕,接下来就能够对数据举行练习
3.classification下的bayes.py
#-*- coding: utf-8 -*- from __future__ importunicode_literalsimportsysimportgzipimportmarshalfrom math importlog, expfrom ..utils.frequency importAddOneProbclassBayes(object):def __init__(self):#标签数据对象 self.d ={}#一切分类的词数之和 self.total =0#生存字典数据 def save(self, fname, iszip=True):#建立对象,用来存储练习效果 d ={}#增加total,也就是主动悲观批评分词总词数 d['total'] =self.total#d为分类标签,存储每一个标签的数据对象 d['d'] ={}for k, v inself.d.items():#k为分类标签,v为标签对应的一切分词数据,是一个AddOneProb对象 d['d'][k] = v.__dict__ #这里推断python版本 if sys.version_info[0] == 3:
fname= fname + '.3' #这里可有两种要领能够挑选举行存储 if notiszip:##将序列化后的二进制数据直接写入文件 marshal.dump(d, open(fname, 'wb'))else:#起首猎取序列化后的二进制数据,然后写入文件 f = gzip.open(fname, 'wb')
f.write(marshal.dumps(d))
f.close()#加载数据字典 def load(self, fname, iszip=True):#推断版本 if sys.version_info[0] == 3:
fname= fname + '.3' #推断翻开文件体式格局 if notiszip:
d= marshal.load(open(fname, 'rb'))else:try:
f= gzip.open(fname, 'rb')
d=marshal.loads(f.read())exceptIOError:
f= open(fname, 'rb')
d=marshal.loads(f.read())
f.close()#从文件中读取数据,为total和d对象赋值 self.total = d['total']
self.d={}for k, v in d['d'].items():
self.d[k]=AddOneProb()
self.d[k].__dict__ =v#练习数据集 deftrain(self, data):#遍历数据集 for d indata:#d[1]标签-->分类种别 c = d[1]#推断数据字典中是不是有以后的标签 if c not inself.d:#若是没有该标签,到场标签,值是一个AddOneProb对象 self.d[c] =AddOneProb()#d[0]是批评的分词list,遍历分词list for word ind[0]:#挪用AddOneProb中的add要领,增加单词 self.d[c].add(word, 1)#盘算总词数 self.total = sum(map(lambdax: self.d[x].getsum(), self.d.keys()))#贝叶斯分类 defclassify(self, x):
tmp={}#遍历每一个分类标签 for k inself.d:#猎取每一个分类标签下的总词数和一切标签总词数,求对数差相当于log(某标签下的总词数/一切标签总词数) tmp[k] = log(self.d[k].getsum()) -log(self.total)for word inx:#猎取每一个单词涌现的频次,log[(某标签下的总词数/一切标签总词数)*单词涌现频次] tmp[k] +=log(self.d[k].freq(word))#盘算几率,因为直接获得的几率值比较小,这里应当运用了一种要领来转换,道理还不是很邃晓 ret, prob =0, 0for k inself.d:
now=0try:for otherk inself.d:
now+= exp(tmp[otherk]-tmp[k])
now= 1/nowexceptOverflowError:
now=0if now >prob:
ret, prob=k, nowreturn (ret, prob)
from . importgood_turingclassBaseProb(object):def __init__(self):
self.d={}
self.total= 0.0self.none=0defexists(self, key):return key inself.ddefgetsum(self):returnself.totaldefget(self, key):if notself.exists(key):returnFalse, self.nonereturnTrue, self.d[key]deffreq(self, key):return float(self.get(key)[1])/self.totaldefsamples(self):returnself.d.keys()classNormalProb(BaseProb):defadd(self, key, value):if notself.exists(key):
self.d[key]=0
self.d[key]+=value
self.total+=valueclassAddOneProb(BaseProb):def __init__(self):
self.d={}
self.total= 0.0self.none= 1 #增加单词 defadd(self, key, value):#更新该种别下的单词总数 self.total +=value#若是单词未涌现过 if notself.exists(key):#将单词到场对应标签的数据字典中,value设为1 self.d[key] = 1 #更新总词数 self.total += 1 #若是单词涌现过,对该单词的value值加1 self.d[key] += value
在bayes对象中,有两个属性d和total,d是一个数据字典,total存储一切分类的总词数,经由train要领练习数据集后,d中存储的是每一个分类标签的数据key为分类标签,value是一个AddOneProb对象。
def __init__(self):
self.d={}
self.total= 0.0
在AddOneProb对象中,一样存在d和total属性,这里的total存储的是每一个分类各自的单词总数,d中存储的是一切涌现过的单词,单词作为key,单词涌现的次数作为value.
为了下次盘算几率时,不消从新练习,能够将练习获得的数据序列化到文件中,下次直接加载文件,将文件反序列为对象,从对象中猎取数据便可(save和load要领)。
4.获得练习数据后,运用质朴贝叶斯分类举行分类
该要领可自行查阅。
Comment here is closed