【说话处理惩罚与Python】2.4词典资料
添加时间:2013-5-25 点击量:
词典或者词典资料是一个词/或短语以及一些相干信息的凑集,例如:词性和词意定义等相干信息。
一个词项包含词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不合的词拼写雷同,被称为同音异义词。
词汇列表语料库
NLTK包含一些仅仅包含词汇列表的语料库。
#过滤文本,这个函数策画文本的词汇表,然后删除所有在现有的词汇列表中呈现的元素,只留下罕有或者拼写错误的词。
def unusual_words(text):
text_vocab=set(w.lower() for w in text if w.isalpha())
english_vocab=set(w.lower() for w in nltk.corpus.words.words())
unusual=text_vocab.difference(english_vocab)
return sorted(unusual)
停用词语料库:那些高频词汇,如the,to等
#定义一个函数来策画文本中没有在停用词列表中词的比例
def content_fraction(text):
stopwords=nltk.corpus.stopwords.words(‘engilsh’)
content=[w for w in text if w.lower() not in stopwords]
return len(content)/len(text)
姓名语料库:分为男性和女性
#研究姓名结尾与男女比例
cfd=nltk.ConditionFreqDist(
(fileid,name[-1])
for fileid in names.fileids()
for name in names.words(fileid))
cfd.plot()
文艺不是炫耀,不是花哨空洞的文字堆砌,不是一张又一张的逆光照片,不是将旅行的意义转化为名牌包和明信片的物质展示;很多时候它甚至完全不美——它嘶吼、扭曲,它会痛苦地抽搐,它常常无言地沉默。——艾小柯《文艺是一种信仰》
词典或者词典资料是一个词/或短语以及一些相干信息的凑集,例如:词性和词意定义等相干信息。
一个词项包含词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不合的词拼写雷同,被称为同音异义词。
词汇列表语料库
NLTK包含一些仅仅包含词汇列表的语料库。
#过滤文本,这个函数策画文本的词汇表,然后删除所有在现有的词汇列表中呈现的元素,只留下罕有或者拼写错误的词。
def unusual_words(text):
text_vocab=set(w.lower() for w in text if w.isalpha())
english_vocab=set(w.lower() for w in nltk.corpus.words.words())
unusual=text_vocab.difference(english_vocab)
return sorted(unusual)
停用词语料库:那些高频词汇,如the,to等
#定义一个函数来策画文本中没有在停用词列表中词的比例
def content_fraction(text):
stopwords=nltk.corpus.stopwords.words(‘engilsh’)
content=[w for w in text if w.lower() not in stopwords]
return len(content)/len(text)
姓名语料库:分为男性和女性
#研究姓名结尾与男女比例
cfd=nltk.ConditionFreqDist(
(fileid,name[-1])
for fileid in names.fileids()
for name in names.words(fileid))
cfd.plot()
文艺不是炫耀,不是花哨空洞的文字堆砌,不是一张又一张的逆光照片,不是将旅行的意义转化为名牌包和明信片的物质展示;很多时候它甚至完全不美——它嘶吼、扭曲,它会痛苦地抽搐,它常常无言地沉默。——艾小柯《文艺是一种信仰》