欢迎您光临本公司官方网站!
全国服务热线:13713845237

行业新闻

主页 > 行业信息 > 行业新闻 >

如果使用两条连线

2020-10-12 10:37来源:本站 作者:admin点击:

  关于离散属性,该算法遵循数据鸠合输入列之间的联系实行预测。它利用这些列的值(也称之为形态)预测指定为可预测的列的形态。详细地说,该算法标识与可预测列相干的输入列。比如,正在预测哪些客户可以采办自行车的计划中,如若正在十名年青客户中有九名采办了自行车,但正在十名年数较大的客户中唯有两名采办了自行车,则该算法从中猜想出年数是自行车采办情景的最佳预测因子。计划树遵循朝向特定结果发扬的趋向实行预测。

  即使将多个列配置为可预测列,或输入数据中包括配置为可预测的嵌套表,则该算法将为每个可预测列天生一个独自的计划树。

  Adventure Works Cycles 公司的商场部盼望标识以前的客户的某些特质•,这些特质可以指示这些客户未来是否有可以采办其产物。AdventureWorks 数据库存储描摹其以前客户的生齿统计新闻。通过利用 Microsoft 计划树算法领会这些新闻,商场部可能天生一个模子,该模子遵循相闭特定客户的已知列的形态(如生齿统计或以前的采办形式)预测该客户是否会采办产物。

  计划树算法通过正在树中创修一系列拆分来天生数据发现模子。这些拆分以••“节点”来呈现。每当觉察输入列与可预测列亲热相干时,该算法便会向该模子中增添一个节点•。该算法确定拆分的方法差异,首要取决于它预测的是相接列照样离散列。

  计划树算法利用“成效采取”来引导怎么采取最有效的属性。一起 Analysis Services 数据发现算法均利用成效采取来改观领会的本能和质地。成效采取抗衡御不紧要的属性占用途理器时负责旨宏大。即使正在计划数据发现模子时利用过多的输入或可预测属性,则可以须要很长的时刻来处置该模子•,乃至导致内存亏折•。用于确定是否拆分树的步骤包罗对“均匀新闻量•”和 Bayesian 收集的行业轨范器量•。

  数据发现模子中的常见题目是该模子对定型数据中的轻细不同过于敏锐,这种情景称为“太甚拟合”或“太甚定型”•。太甚拟合模子无法推行到其他数据集。为避免模子对任何特定的数据集太甚拟合,Microsoft 计划树算法利用极少时间来驾驭树的滋长。

  通过柱状图可能演示 Microsoft 计划树算法为可预测的离散列天生树的方法。下面的联系图显示了一个遵循输入列 Age 绘出可预测列 Bike Buyers 的柱状图。该柱状图显示了客户的年数可帮帮判定该客户是否将会采办自行车。

  该联系图中显示的相闭将会使 Microsoft 计划树算法正在模子中创修一个新节点。

  跟着算法一直向模子中增添新节点,便造成了树构造•。该树的顶端节点描摹了客户总体可预测列的分化。跟着模子的一直增大,该算法将商讨一起列•。

  当 Microsoft 计划树算法遵循可预测的相接列天生树时,每个节点都包括一个回归公式。拆分浮现正在回归公式的每个非线性点处。比如,请看下面的联系图••。

  该联系图包括可通过利用一条或两条连线修模的数据。可是,一条连线将使得模子呈现数据的成绩较差。相反,即使利用两条连线,则模子可能更准确地迫临数据。两条连线的订交点短长线性点,而且是计划树模子中的节点将拆分的点。比如,与上图中的非线性点相对应的节点可能由以下联系图呈现。两个等式呈现两条连线的回归等式•。

  正在计划用于计划树模子的数据时•,应相识特定算法的条件,个中包罗所需的数据量以及数据的利用方法。

  单个 key 列 每个模子都必需包括一个数值或文本列,用于独一标识每条记载。不许可复合键。

  可预测列 起码须要一个可预测列。可能正在模子中包罗多个可预测属性•,而且这些可预测属性的类型可能差异,可能是数值型或离散型。可是,添加可预测属性的数量可导致处置时刻添加。

  输入列 须要输入列,可为离散型或相接型。添加输入属性的数量会影响处置时刻。

  若要浏览该模子,可能利用•••“Microsoft 树查看器”。即使模子天生多个树,则可能采取个中一个树,然后该查看器即会显示关于每个可预测属性,这些事例分类方法的明细。还可能利用依赖联系收集查看器来查看这些树的交互•。

  即使思相识闭于树中任何分支或节点的更多周密新闻,还可能利用 Microsoft 普通实质树查看器浏览该模子•。为该模子存储的实质包罗每个节点中一起值的散布、树中每一级其余概率和相接属性的回归公式。

  处置过模子之后,结果将以一组形式和统计新闻的体例存储,可能利用这些结果来查究联系或作出预测。

盛世皇朝登录地址