前置课程:KNN (K值选择)
LinearRegression
线性回归 vs 逻辑回归(e.g. Boston房价的一个量)
模型的建立与求解——理解逻辑回归
分类(classification)
通过目标函数来刻画预测标签与真实标签之间的差距
示例:
sklearn -> LogisticRegression
多变量与多分类——理解多变量
一个样本点有多个特征属性
多变量与多分类——理解多分类
One-vs-all VOA策略
示例:
LogisticRegression中的multi_class = ‘ovr’
1 | def train(x,y): |
分类模型的评估
评价指标:准确率、精确率、召回率(TP、FN、FP、TN)
召回率越高该模型寻找正样本的能力越强
整体评估值:算术平均、加权平均
混淆矩阵:对角线上的值代表正确的量
示例:sklearn —— classification_report
逻辑回归求解
正则化:目的是为了防止过拟合
Sigmoid函数
$\beta_0$:截距
——————-分隔符———————–
20241212
机器学习算法之决策树
什么是决策树
几个概念
根节点、父节点、子节点、决策路径、分裂属性、叶子节点
根节点 -> 父节点 -> 子节点
节点的“不纯度”
节点内尽量都是“同类”的数据
用“不纯度”来度量
两个指标度量:1、entropy熵;2、Gini系数
$GINI = 1 - $ $\Sigma$ $p(i)^2$
$Entropy = -$ $\Sigma$ $p(i)log p(i)$
信息增益
信息增益Gain
20241219
降维:PCA
why to do PCA
机器学习算法的复杂度和数据的维数有着密切关系,甚至呈现指数级关联
实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,但机器学习的资源消耗是不可接受的,必须对数据进行降维
降维当然意味着信息的丢失,要减少丢失的信息
PCA基本思想
在降维的同时将信息的损失尽量降低
主成分分析
主成分的特点
- 主成分是原变量的线性组合
- 各个主成分之间互不相关,不同的主成分轴之间相互正交
- 主成分按照方差的大小依次排列,第一主成分对应最大的方差(特征值)
- 每个主成分的均值为0
1 | import pandas as pd |