【说话处理惩罚与Python】6.4决定计划树/6.5朴实贝叶斯分类器/6.6最大熵分类器
添加时间:2013-5-28 点击量:
6.4决定计划树
决定计划树是一个简单的为输入值选择标签的流程图。这个流程图由搜检特点值的决定计划节点
和分派标签的叶节点构成。为输入值选择标签,我们以流程图的初始决定计划节点(称为其根节点)开端。
 
熵和信息增益在决定计划树桩断定上的应用(可以自行查找相干材料浏览)
可以参考:http://blog.csdn.net/athenaer/article/details/8425479
决定计划树的一些毛病:
1、可能会导致过拟合。
因为决定计划树的每个分支会划分练习数据,在
练习树的低节点,可用的练习数据量可能会变得很是小。是以,这些较低的决定计划节点可能过
拟合练习集,进修模式反应练习集的特质而不是题目底层明显的说话学模式。对这个题目的
一个解决规划是当练习数据量变得太小时停止割据节点。另一种规划是长出一个完全的决定计划
树,但随掉队行剪枝剪去在开辟测试集上不克不及进步机能的决定计划节点。
2、强迫遵守特定的次序搜检。
它们强迫特点遵守一个特定的次序进行搜检,即使特点可能是
相对自力的。例如:按主题分类文档(如体育、汽车或谋杀之谜)时,特点如hasword(foot
ball),极可能默示一个特定标签,无论其他的特点值是什么。因为决意树顶部四周的空间有
限,大项目组这些特点将须要在树中的很多不合的分支中反复。因为越往树的下方,分支的数
量成指数倍增长,反复量可能很是大
我们下面将评论辩论的朴实贝叶斯分类办法降服了这一限制,容许所有特点“并行”的起感化。
6.5朴实贝叶斯分类器
在朴实贝叶斯分类此中,每个特点都有讲话权,来断定哪个标签应当被分派到一个给定的输入值。为一个输入值选择标签,朴实贝叶斯分类器以策画每个标签的先验概率开端,它由在练习集上搜检每个标签的频率来断定。之后,每个特点的供献与它的先验概率组合,获得每个标签的似然估计。似然估计高的标签会分派给输入值。
潜伏概率模型
懂得朴实贝叶斯分类器的另一种体式格式是它为输入选择最有可能的标签。
我们可以策画表达式P(label|features),给定一个特此外特点集,一个输入,具有特定标签的概率。
P(label|features)= P(features,label)/P(features),此中P(features,label)为该标签的似然。
P(features,label) = P(label) ×P(features|label)====》P(features,label) = P(label) ×∏f ∈featuresP(f|label)
此中,P(label)是一个给定标签的先验概率;每个P(f|label)是一个零丁的特点对标签可能性的供献。
零计数和腻滑
建树朴实贝叶斯模型时,我们凡是采取更错杂的技巧,为了防止给定标签的标签可能性为0,这种技巧称作腻滑技巧。
非二元特点
自力的朴实
为什么会称为朴实,因为它不切实际的假设所有的特点之间是彼此自力的。
双重计数的原因
P(features,label) = w[label]×∏f ∈features w[f,label](推敲在练习点的供献之间可能的彼此感化)
在这里,w[label]是一个给定标签的“初始分数”,w[f,label]是给定特点对一个标签的可能性所作的供献。我们称这些值w[label]和w[f,label]为模型的参数或权重。应用朴实贝叶斯算法,我们零丁设置这些参数:
w[label]= P(label)
w[f,label] = P(f|label)
鄙人一节的分类器中,它在选择这些参数的值时会推敲他们之间的可能的彼此感化。
6.6最大熵分类器
P(features)= Σx ∈corpus P(label(x)|features(x))
此中P(label|features),一个特点为features将有类标签label 的输入的概率,被定义为:P(label|features)= P(label,features)/Σlabel P(label,features)
最大熵模型
最大熵分类器模型是朴实贝叶斯分类器模型的泛化。
下面的内容摘自:http://wiki.52nlp.cn/%E6%9C%80%E5%A4%A7%E7%86%B5%E6%A8%A1%E5%9E%8B%E4%B8%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86
最大熵模型与天然说话处理惩罚
日常生活生计中,很多工作的产生发挥解析出必然的随机性,实验的成果往往是不断定的,并且也不知道这个随机现象所功用的概率分布,所有的只有一些实验样本或样本特点,统计学经常关怀的一个题目,在这种景象下如何对分布作出一个公道的揣度?按照样本信息对某个未知分布作出揣度的办法,最大熵的办法就是如许一个办法。
最大熵道理是在1957 年由E.T.Jaynes 提出的,其首要思惟是,在只把握关于未知分布的项目组常识时,应当拔取合适这些常识但熵值大概率分布。因为在这种景象下,合适已知常识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不断定性,熵大时侯,申明随机变量最不断定,换句话说,也就是随机变量最随机,对其行动做正确猜测最艰苦。从这个意义上讲,那么最大熵道理的本质就是,在已知项目组常识的前提下,关于未知分布最公道的揣度就是合适已知常识最不断定或最随机的揣度,这是我们可以作出的独一不偏不倚的选择,任何其它的选择都意味着我们增长了其它的束缚和假设,这些束缚和假设按照我们把握的信息无法作出。
天然说话处理惩罚中很多题目都可以归结为统计分类题目,很多机械进修办法在这里都能找到应用,在天然说话处理惩罚中,统计分类发挥解析在要估计类a 和某高低文b 共现的概率P(a,b) ,不合的题目,类a 和高低文b 的内容和含义也不雷同。在词性标注中是类的含义是词性标注集中的词类标识表记标帜,而高低文指的是当前被处理惩罚的词前面一个词及词类,后面一个词及词类或前后若干个词和词类。凡是高低文有时是词,有时是词类标识表记标帜,有时是汗青决定计划等等。大范围语料库中凡是包含a 和b 的共现信息,但b 在语料库中的呈现经常是稀少的,要对所有可能的(a,b)策画出靠得住的P(a,b) ,语料库范围往往老是不敷的。题目是要发明一个办法,哄骗这个办法在数据稀少的前提下靠得住的估计P(a,b) 。不合的办法可能采取不合的估计办法。
p=argmaxH(p) p∈P
P(p|p是X上满足前提的概率分布)
特点:(x, y)
y:这个特点中须要断定的信息
x:这个特点中的高低文信息
关于某个特点(x, y)的样本——特点所描述的语法现象在标准凑集里的分布:
(xi, yi)pairs
yi是y的一个实例
xi是yi的高低文
特点函数:对于一个特点(x0, y0),定义特点函数:
f(x, y)=1 若是y=y0且x=x0
0 其他景象
特点函数期望值:
对于一个特点(x0, y0),在样本中的期望是:
p(f)=Σp(x, y)f(x, y)
p(x, y)是(x, y)在样本中呈现的概率
前提:
对每一个特点(x, y),模型所建树的前提概率分布要与练习样本发挥解析出来的分布雷同。
Epfj =Σp(x) fj(x)
于是,最大熵模型可默示为
p=-argmaxΣp(y|x)p(x)logp(y|x)
p∈P
P={p(y|x)|?fi: Σp(y|x)p(x)fi(x, y)=Σp(x, y)fi(x, y)
(x,y) (x,y)
?x: Σp(y|x) =1 }
y
即解带限制前提的极值题目。
 
生成式分类器对比前提式分类器
朴实贝叶斯分类器是一个生成式分类器的例子,建树一个模型,猜测P(input,label)即(input,label)对的结合概率。
所以:生成式模型可以用来答复下列题目
1. 一个给定输入的最可能的标签是什么?
2. 对于一个给定输入,一个给定标签有多大可能性?
3. 最有可能的输入值是什么?
4. 一个给定输入值的可能性有多大?
5. 一个给定输入具有一个给定标签的可能性有多大?
6. 对于一个可能有两个值中的一个值(但我们不知道是哪个)的输入,最可能的标签
是什么?
最大熵分类器是前提式分类器的一个例子。前提式分类器建树范型猜测P(label|input),一个给定输入值的标签的概率,是以前提式模型仍然可以被用来答复题目1、2.
无论对感情还是对生活,“只要甜不要苦”都是任性而孩子气的,因为我们也不完美,我们也会伤害人。正因为我们都不完美,也因为生活从不是事事如意,所以对这些“瑕疵”的收纳才让我们对生活、对他人的爱变得日益真实而具体。—— 汪冰《世界再亏欠你,也要敢于拥抱幸福》
6.4决定计划树
决定计划树是一个简单的为输入值选择标签的流程图。这个流程图由搜检特点值的决定计划节点
和分派标签的叶节点构成。为输入值选择标签,我们以流程图的初始决定计划节点(称为其根节点)开端。
 
熵和信息增益在决定计划树桩断定上的应用(可以自行查找相干材料浏览)
可以参考:http://blog.csdn.net/athenaer/article/details/8425479
决定计划树的一些毛病:
1、可能会导致过拟合。
因为决定计划树的每个分支会划分练习数据,在
练习树的低节点,可用的练习数据量可能会变得很是小。是以,这些较低的决定计划节点可能过
拟合练习集,进修模式反应练习集的特质而不是题目底层明显的说话学模式。对这个题目的
一个解决规划是当练习数据量变得太小时停止割据节点。另一种规划是长出一个完全的决定计划
树,但随掉队行剪枝剪去在开辟测试集上不克不及进步机能的决定计划节点。
2、强迫遵守特定的次序搜检。
它们强迫特点遵守一个特定的次序进行搜检,即使特点可能是
相对自力的。例如:按主题分类文档(如体育、汽车或谋杀之谜)时,特点如hasword(foot
ball),极可能默示一个特定标签,无论其他的特点值是什么。因为决意树顶部四周的空间有
限,大项目组这些特点将须要在树中的很多不合的分支中反复。因为越往树的下方,分支的数
量成指数倍增长,反复量可能很是大
我们下面将评论辩论的朴实贝叶斯分类办法降服了这一限制,容许所有特点“并行”的起感化。
6.5朴实贝叶斯分类器
在朴实贝叶斯分类此中,每个特点都有讲话权,来断定哪个标签应当被分派到一个给定的输入值。为一个输入值选择标签,朴实贝叶斯分类器以策画每个标签的先验概率开端,它由在练习集上搜检每个标签的频率来断定。之后,每个特点的供献与它的先验概率组合,获得每个标签的似然估计。似然估计高的标签会分派给输入值。
潜伏概率模型
懂得朴实贝叶斯分类器的另一种体式格式是它为输入选择最有可能的标签。
我们可以策画表达式P(label|features),给定一个特此外特点集,一个输入,具有特定标签的概率。
P(label|features)= P(features,label)/P(features),此中P(features,label)为该标签的似然。
P(features,label) = P(label) ×P(features|label)====》P(features,label) = P(label) ×∏f ∈featuresP(f|label)
此中,P(label)是一个给定标签的先验概率;每个P(f|label)是一个零丁的特点对标签可能性的供献。
零计数和腻滑
建树朴实贝叶斯模型时,我们凡是采取更错杂的技巧,为了防止给定标签的标签可能性为0,这种技巧称作腻滑技巧。
非二元特点
自力的朴实
为什么会称为朴实,因为它不切实际的假设所有的特点之间是彼此自力的。
双重计数的原因
P(features,label) = w[label]×∏f ∈features w[f,label](推敲在练习点的供献之间可能的彼此感化)
在这里,w[label]是一个给定标签的“初始分数”,w[f,label]是给定特点对一个标签的可能性所作的供献。我们称这些值w[label]和w[f,label]为模型的参数或权重。应用朴实贝叶斯算法,我们零丁设置这些参数:
w[label]= P(label)
w[f,label] = P(f|label)
鄙人一节的分类器中,它在选择这些参数的值时会推敲他们之间的可能的彼此感化。
6.6最大熵分类器
P(features)= Σx ∈corpus P(label(x)|features(x))
此中P(label|features),一个特点为features将有类标签label 的输入的概率,被定义为:P(label|features)= P(label,features)/Σlabel P(label,features)
最大熵模型
最大熵分类器模型是朴实贝叶斯分类器模型的泛化。
下面的内容摘自:http://wiki.52nlp.cn/%E6%9C%80%E5%A4%A7%E7%86%B5%E6%A8%A1%E5%9E%8B%E4%B8%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86
最大熵模型与天然说话处理惩罚
日常生活生计中,很多工作的产生发挥解析出必然的随机性,实验的成果往往是不断定的,并且也不知道这个随机现象所功用的概率分布,所有的只有一些实验样本或样本特点,统计学经常关怀的一个题目,在这种景象下如何对分布作出一个公道的揣度?按照样本信息对某个未知分布作出揣度的办法,最大熵的办法就是如许一个办法。
最大熵道理是在1957 年由E.T.Jaynes 提出的,其首要思惟是,在只把握关于未知分布的项目组常识时,应当拔取合适这些常识但熵值大概率分布。因为在这种景象下,合适已知常识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不断定性,熵大时侯,申明随机变量最不断定,换句话说,也就是随机变量最随机,对其行动做正确猜测最艰苦。从这个意义上讲,那么最大熵道理的本质就是,在已知项目组常识的前提下,关于未知分布最公道的揣度就是合适已知常识最不断定或最随机的揣度,这是我们可以作出的独一不偏不倚的选择,任何其它的选择都意味着我们增长了其它的束缚和假设,这些束缚和假设按照我们把握的信息无法作出。
天然说话处理惩罚中很多题目都可以归结为统计分类题目,很多机械进修办法在这里都能找到应用,在天然说话处理惩罚中,统计分类发挥解析在要估计类a 和某高低文b 共现的概率P(a,b) ,不合的题目,类a 和高低文b 的内容和含义也不雷同。在词性标注中是类的含义是词性标注集中的词类标识表记标帜,而高低文指的是当前被处理惩罚的词前面一个词及词类,后面一个词及词类或前后若干个词和词类。凡是高低文有时是词,有时是词类标识表记标帜,有时是汗青决定计划等等。大范围语料库中凡是包含a 和b 的共现信息,但b 在语料库中的呈现经常是稀少的,要对所有可能的(a,b)策画出靠得住的P(a,b) ,语料库范围往往老是不敷的。题目是要发明一个办法,哄骗这个办法在数据稀少的前提下靠得住的估计P(a,b) 。不合的办法可能采取不合的估计办法。
p=argmaxH(p) p∈P
P(p|p是X上满足前提的概率分布)
特点:(x, y)
y:这个特点中须要断定的信息
x:这个特点中的高低文信息
关于某个特点(x, y)的样本——特点所描述的语法现象在标准凑集里的分布:
(xi, yi)pairs
yi是y的一个实例
xi是yi的高低文
特点函数:对于一个特点(x0, y0),定义特点函数:
f(x, y)=1 若是y=y0且x=x0
0 其他景象
特点函数期望值:
对于一个特点(x0, y0),在样本中的期望是:
p(f)=Σp(x, y)f(x, y)
p(x, y)是(x, y)在样本中呈现的概率
前提:
对每一个特点(x, y),模型所建树的前提概率分布要与练习样本发挥解析出来的分布雷同。
Epfj =Σp(x) fj(x)
于是,最大熵模型可默示为
p=-argmaxΣp(y|x)p(x)logp(y|x)
p∈P
P={p(y|x)|?fi: Σp(y|x)p(x)fi(x, y)=Σp(x, y)fi(x, y)
(x,y) (x,y)
?x: Σp(y|x) =1 }
y
即解带限制前提的极值题目。
 
生成式分类器对比前提式分类器
朴实贝叶斯分类器是一个生成式分类器的例子,建树一个模型,猜测P(input,label)即(input,label)对的结合概率。
所以:生成式模型可以用来答复下列题目
1. 一个给定输入的最可能的标签是什么?
2. 对于一个给定输入,一个给定标签有多大可能性?
3. 最有可能的输入值是什么?
4. 一个给定输入值的可能性有多大?
5. 一个给定输入具有一个给定标签的可能性有多大?
6. 对于一个可能有两个值中的一个值(但我们不知道是哪个)的输入,最可能的标签
是什么?
最大熵分类器是前提式分类器的一个例子。前提式分类器建树范型猜测P(label|input),一个给定输入值的标签的概率,是以前提式模型仍然可以被用来答复题目1、2.
无论对感情还是对生活,“只要甜不要苦”都是任性而孩子气的,因为我们也不完美,我们也会伤害人。正因为我们都不完美,也因为生活从不是事事如意,所以对这些“瑕疵”的收纳才让我们对生活、对他人的爱变得日益真实而具体。—— 汪冰《世界再亏欠你,也要敢于拥抱幸福》