Logical_Regression

前置课程:KNN (K值选择)

LinearRegression

线性回归 vs 逻辑回归(e.g. Boston房价的一个量)

模型的建立与求解——理解逻辑回归

分类(classification)

通过目标函数来刻画预测标签与真实标签之间的差距

示例:
sklearn -> LogisticRegression

多变量与多分类——理解多变量

一个样本点有多个特征属性

多变量与多分类——理解多分类

One-vs-all VOA策略

示例:
LogisticRegression中的multi_class = ‘ovr’

1
2
def train(x,y):
model = LogisticRegression(...)

分类模型的评估

评价指标:准确率、精确率、召回率(TP、FN、FP、TN)

召回率越高该模型寻找正样本的能力越强

整体评估值:算术平均、加权平均

混淆矩阵:对角线上的值代表正确的量

示例:sklearn —— classification_report

逻辑回归求解

正则化:目的是为了防止过拟合

Sigmoid函数
$\beta_0$:截距

——————-分隔符———————–

20241212

机器学习算法之决策树

什么是决策树

几个概念

根节点、父节点、子节点、决策路径、分裂属性、叶子节点

根节点 -> 父节点 -> 子节点

节点的“不纯度”

节点内尽量都是“同类”的数据

用“不纯度”来度量

两个指标度量:1、entropy熵;2、Gini系数

$GINI = 1 - $ $\Sigma$ $p(i)^2$

$Entropy = -$ $\Sigma$ $p(i)log p(i)$

信息增益

信息增益Gain


20241219

降维:PCA

why to do PCA

机器学习算法的复杂度和数据的维数有着密切关系,甚至呈现指数级关联
实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,但机器学习的资源消耗是不可接受的,必须对数据进行降维
降维当然意味着信息的丢失,要减少丢失的信息

PCA基本思想

在降维的同时将信息的损失尽量降低

主成分分析

主成分的特点

  • 主成分是原变量的线性组合
  • 各个主成分之间互不相关,不同的主成分轴之间相互正交
  • 主成分按照方差的大小依次排列,第一主成分对应最大的方差(特征值)
  • 每个主成分的均值为0
1
2
3
4
5
6
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
data = pd.read_csv('./iris.csv')
print(data.head())