#西宾爆款制造机#
思了解更多精彩内容,快来关心腾科IT西宾
Boosting算法是一种集成学习要领,通过冉冉迭代本质弱分类器,并通过加权组合它们的展望成果来构建一个强分类器。底下是Boosting算法(以AdaBoost为例)的详备经由和一个案例:
1. 数据准备:当先,将数据集分为本质集和测试集。本质集用于本质Boosting模子,测试集用于评估模子的性能。
2. 开动化权重:关于本质聚合的每个样本,开动化一个权重,使得通盘样本的权重之和为1。开动权重不错是均匀散布的,即每个样本的权重十分。
3. 迭代本质弱分类器:轮回进行以下体式,直到达到住手条目(举例,达到最大迭代次数或分类器性能充足好):
a. 本质一个弱分类器:使用现时样本权重本质一个弱分类器,举例决议树桩(仅有一个分裂节点的决议树)。
b. 联想分类器时弊:联想弱分类器在本质集上的时弊,通过比拟分类器的展望成果和本色标签。
c. 联想分类器权重:基于分类器的时弊,联想分类器的权重。时弊越小的分类器权重越大,暗示分类器的展望成果关于革命造作更有泰斗性。
d. 更新样本权重:凭证分类器的权重和分类器的展望成果,更新每个样本的权重。被造作分类的样本权重加多,被正确分类的样本权重减少。
e. 归一化样本权重:将样本权重归一化,使得通盘样本的权重之和为1。
4. 构建强分类器:将通盘弱分类器的展望成果加权组合,赢得最终的强分类器。
底下是一个浅近的AdaBoost算法的联想实例,假定咱们有一个二元分类问题,数据集包含6个样本和2个特征(X1和X2),目标变量为类别标签(Y):
| 样本 | X1 | X2 | Y |
|------|----|----|---|
| 1 | 1 | 2 | 0 |
| 2 | 2 | 1 | 0 |
| 3 | 3 | 3 | 1 |
| 4 | 4 | 2 | 1 |
| 5 | 3 | 4 | 0 |
| 6 | 5 | 5 | 1 |
咱们将构建一个包含3个弱分类器的AdaBoost模子。
1. 开动化权重:开动权重为均匀散布,每个样本的权重为1/6。
2. 迭代本质弱分类器:
a. 弱分类器1:使用现时样本权重本质一个弱分类器。
在第一次迭代中,咱们聘用一个决议树桩手脚弱分类器,它聘用最好的特征和阈值进行二元分类。
- 决议树桩聘用特征X1和阈值2进行分类。样本1、2、3和5被正确分类,样本4和6被造作分类。
b. 联想分类器时弊:联想弱分类器在本质集上的时弊。
- 弱分类器1时弊:造作分类的样本权重之和为1/6 + 1/6 = 1/3。
c. 联想分类器权重:基于分类器的时弊,联想分类器的权重。
- 弱分类器1权重:凭证时弊联想公式,弱分类器1的权重为0.5 * log((1 - 1/3) / (1/3)) ≈ 0.4236。
d. 更新样本权重:凭证分类器的权重和分类器的展望成果,更新每个样本的权重。
- 被造作分类的样本权重加多,被正确分类的样本权重减少。
样本1、2、3和5的权重由1/6加多到1/6 * exp(0.4236) ≈ 0.1889。
样本4和6的权重由1/6减少到1/6 * exp(-0.4236) ≈ 0.0625。
e. 归一化样本权重:将样本权重归一化,使得通盘样本的权重之和为1。
- 归一化后的样本权重:0.1889 + 0.1889 + 0.1889 + 0.1889 + 0.0625 + 0.0625 = 1。
f. 弱分类器2和弱分类器3的本质经由与弱分类器1相同,凭证更新后的样本权重本质分类器并联想权重。
3. 构建强分类器:将通盘弱分类器的展望成果加权组合,赢得最终的强分类器。
强分类器的展望成果由每个弱分类器的展望成果乘以其对应的权重,然后取加权成果的标记手脚最终的展望类别。
假定弱分类器1、弱分类器2和弱分类器3的权重区分为0.4236、0.5432和0.6789,它们的展望成果区分为[-1, -1, 1, 1, -1, 1],则强分类器的展望成果为:
加权成果= 0.4236 * (-1) + 0.5432 * (-1) + 0.6789 * 1 ≈ 0.6987
最终的展望类别为sign(0.6987) = 1。