Python3.0 实现决策树算法的流程

更新时间：2020-07-22 04:48:01 作者：startmvc

决策树的一般流程检测数据集中的每个子项是否属于同一个分类ifsoreturn类标签Else 寻找

决策树的一般流程

检测数据集中的每个子项是否属于同一个分类


if so return 类标签
Else

寻找划分数据集的最好特征

划分数据集

创建分支节点


from math import log
import operator
#生成样本数据集
def createDataSet():
 dataSet = [[1,1,'yes'],
 [1,1,'yes'],
 [1,0,'no'],
 [0,1,'no'],
 [0,1,'no']]
 labels = ['no surfacing','flipper']
 return dataSet,labels
# 计算香农熵 香农 大神必须要膜拜啊，信息界的根目录人物啊
# no surfacing 指的是 不浮出水面能否生存 1 标识 是 0 指的是否
# flipper 指的是是否有脚
# yes no指的是否是鱼类
def calcShannonEnt(dataSet):
 numEntries = len(dataSet) # 用上面的createDataSet dataSet 这个值就是5
 #定义标签字典
 labelCounts = {}
 # 为所有可能的分类创建字典
 for featVec in dataSet:
 currentLabel = featVec[-1] #这个-1指的是去取最后一个维度 对应数据dataSet 这里取的是yes和no
 if currentLabel not in labelCounts.keys():
 # 如果当前分类标签不在 标签字典中
 labelCounts[currentLabel] = 0
 # 其他情况 分类标签分类加1
 labelCounts[currentLabel] += 1
 #定义香农熵 以2为底数求对数
 shannonEnt = 0.0
 for key in labelCounts:
 #计算 yes 或者No 出现的概率
 pro = float(labelCounts[key])/numEntries
 # 计算香农熵
 shannonEnt -= pro*log(pro,2)
 return shannonEnt
#dataSet是待划分的数据集， 划分数据集的特征 axis 特征的返回值value
#最后是创建了一个新的列表对象
def splitDataSet(dataSet, axis , value):
 # 创建新list对象
 retDataSet = []
 for featVec in dataSet:
 if featVec[axis] == value:
 reducedFeatVec = featVec[:axis]
 reducedFeatVec.extend(featVec[axis+1:])
 retDataSet.append(reducedFeatVec)
 return retDataSet
# 选择最好的特征值进行数据集划分
def chooseBestFeatureToSplit(dataSet):
 # len(dataSet[0]）是计算这一行有多少列，即有多少个特征值
 numFeatures = len(dataSet[0])-1 # -1 是最后一个特征值就不要记录在内了，算baseEntrop的时候已经算了最后一个特征值yes no
 baseEntropy = calcShannonEnt(dataSet)
 bestInfoGain = 0.0
 bestFeature = -1
 for i in range(numFeatures):
 #创建唯一的分类标签列表 也就是说提取dataSet每一行第i个值 就提取dat
 featList = [example[i] for example in dataSet]
 # 取出有几种特征值
 uniqueVals = set(featList)
 newEntropy = 0.0
 for value in uniqueVals:
 #创建特征值的子数据集
 subDataSet = splitDataSet(dataSet,i, value)
 #计算该特征值数据对总数在数据对总数出现的概率
 pro = len(subDataSet)/float(len(dataSet))
 #计算分割出来的子集香农熵
 newEntropy += pro*calcShannonEnt(subDataSet)
 #计算信息增益 得到最好的特征值 这个理论是这样的g(D,A) = H(D)-H(D/A）
 infoGain = baseEntropy-newEntropy
 #取出最大的信息增益，此时特征值最大
 if(infoGain >bestInfoGain):
 bestInfoGain = infoGain
 bestFeature = i
 return bestFeature
'''
#构建决策树是根据特征值的消耗来计算的，如果后面的特征值已经全部用完了
但是还没有分出结果，这个时候就需要使用多数表决方式计算节点分类
最后返回最大的分类
'''
def majorityCnt(classList):
 # 分类的字典
 classCount = {}
 for vote in range(classList):
 #如果不在 分类字典中
 if vote not in classCount.keys(): classCount[vote] = 0
 classCount[vote] += 1
 # 根据出现的次数大到小排序
 sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
 return sortedClassCount[0][0]
#创建决策树
def createTree(dataSet, labels):
 # 获取数据样本每组最后一组的特征值 这里是yes,no
 classList = [example[-1] for example in dataSet]
 # 如果说这个classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no
 if(classList.count(classList[0]) == len(classList)):
 return classList[0]
 #如果遍历完所有的特征返回出现次数最多的
 #是用消耗特征值的方式进行构造决策树的，每次会消掉一个特征值
 if len(dataSet[0]) == 1:
 return majorityCnt(classList)
 #选择最好的特征值
 bestFeat = chooseBestFeatureToSplit(dataSet)
 bestFeatLabel = labels[bestFeat]
 myTree = {bestFeatLabel:{}}
 # 删除labels中的一特征值
 del(labels[bestFeat])
 #找到特征值那一列
 featValues = [example[bestFeat] for example in dataSet]
 uniqueVals = set(featValues)
 for value in uniqueVals:
 # labels列表的赋值
 subLabels = labels[:]
 myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
 return myTree
dataSet,lables = createDataSet()
shannonEnt= calcShannonEnt(dataSet)
my = createTree(dataSet,lables)
print(my)

总结

以上所述是小编给大家介绍的Python3.0 实现决策树算法的流程,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

python 决策树算法 python 决策树

文章分类

Python3.0 实现决策树算法的流程