} } }

    【说话处理惩罚与Python】2.4词典资料

    添加时间:2013-5-25 点击量:

    词典或者词典资料是一个词/或短语以及一些相干信息的凑集,例如:词性和词意定义等相干信息。


    一个词项包含词目(也叫词条)以及其他附加信息。例如:词性和词意定义。两个不合的词拼写雷同,被称为同音异义词。


     


    词汇列表语料库


    NLTK包含一些仅仅包含词汇列表的语料库。



    过滤文本,这个函数策画文本的词汇表,然后删除所有在现有的词汇列表中呈现的元素,只留下罕有或者拼写错误的词。
    

    def unusual_words(text):

    text_vocab
    =set(w.lower() for w in text if w.isalpha())

    english_vocab
    =set(w.lower() for w in nltk.corpus.words.words())

    unusual
    =text_vocab.difference(english_vocab)

    return sorted(unusual)


     


    停用词语料库:那些高频词汇,如the,to



    定义一个函数来策画文本中没有在停用词列表中词的比例
    

    def content_fraction(text):

    stopwords
    =nltk.corpus.stopwords.words(‘engilsh’)

    content
    =[w for w in text if w.lower() not in stopwords]

    return len(content)/len(text)


     


    姓名语料库:分为男性和女性



    研究姓名结尾与男女比例
    

    cfd
    =nltk.ConditionFreqDist(

    (fileid,name[
    -1])

    for fileid in names.fileids()

    for name in names.words(fileid))

    cfd.plot()


    文艺不是炫耀,不是花哨空洞的文字堆砌,不是一张又一张的逆光照片,不是将旅行的意义转化为名牌包和明信片的物质展示;很多时候它甚至完全不美——它嘶吼、扭曲,它会痛苦地抽搐,它常常无言地沉默。——艾小柯《文艺是一种信仰》
    分享到: