2024-12-05

Logical_Regression

前置课程：KNN （K值选择）

LinearRegression

线性回归 vs 逻辑回归（e.g. Boston房价的一个量）

模型的建立与求解——理解逻辑回归

分类（classification）

通过目标函数来刻画预测标签与真实标签之间的差距

示例：
sklearn -> LogisticRegression

多变量与多分类——理解多变量

一个样本点有多个特征属性

多变量与多分类——理解多分类

One-vs-all VOA策略

示例：
LogisticRegression中的multi_class = ‘ovr’

1 2	def train(x,y): model = LogisticRegression(...)

分类模型的评估

评价指标：准确率、精确率、召回率（TP、FN、FP、TN）

召回率越高该模型寻找正样本的能力越强

整体评估值：算术平均、加权平均

混淆矩阵：对角线上的值代表正确的量

示例：sklearn —— classification_report

逻辑回归求解

正则化：目的是为了防止过拟合

Sigmoid函数
$\beta_0$:截距

——————-分隔符———————–

20241212

机器学习算法之决策树

什么是决策树

几个概念

根节点、父节点、子节点、决策路径、分裂属性、叶子节点

根节点 -> 父节点 -> 子节点

节点的“不纯度”

节点内尽量都是“同类”的数据

用“不纯度”来度量

两个指标度量：1、entropy熵；2、Gini系数

$GINI = 1 - $ $\Sigma$ $p(i)^2$

$Entropy = -$ $\Sigma$ $p(i)log p(i)$

信息增益

信息增益Gain

20241219

降维：PCA

why to do PCA

机器学习算法的复杂度和数据的维数有着密切关系，甚至呈现指数级关联
实际机器学习中处理成千上万甚至几十万维的情况也并不罕见，但机器学习的资源消耗是不可接受的，必须对数据进行降维
降维当然意味着信息的丢失，要减少丢失的信息

PCA基本思想

在降维的同时将信息的损失尽量降低

主成分分析

主成分的特点

主成分是原变量的线性组合
各个主成分之间互不相关，不同的主成分轴之间相互正交
主成分按照方差的大小依次排列，第一主成分对应最大的方差（特征值）
每个主成分的均值为0

import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
data = pd.read_csv('./iris.csv')
print(data.head())