概率论常见术语 概率(Probability) 概率是指某个事件发生的可能性,通常用0到1之间的数字来表示: 0 表示事件不可能发生 1 表示事件必然发生 条件概率(Conditional Probability) 条件概率是指在知道事件 A 已经发生的情况下,另一个事件 B 发生的概率,记作 P(B|A)。它的计算公式为: $$ P(B|A) = \frac{P(A \cap B)} 2024-07-26 数学 #数学
10_感知机 1 概述 感知机(Perceptron)是二分类模型, 接收多个信号,输出一个信号。 感知机的信号只有 0、1 两种取值。 𝑥1、𝑥2 是输入信号,𝑦 是输出信号,𝑤1、𝑤2 是权重,○ 称为神经元或节点。只有当输入信号和权重计算之后超过阈值 θ 时才会输出 1,也称之为神经元被激活。 $$y= \begin{cases} 0 & (w_1x_1+w_2x_2\l 2024-07-25 机器学习 #机器学习 #感知机
09_K-means聚类 1 概述 聚类是一种无监督学习,不需要预先定义的标签,只是根据数据特征去学习,通过度量特相似度或者距离,然后把已知的数据集划分成若干个不同的类别。与分类不同,聚类任务的标是发现数据内在的结构。 聚类分为两类: 硬聚类:每个数据点仅属于一个聚类 软聚类:每个数据点被赋予属于每个已识别聚类的概率 聚类算法大体上可以分为: 基于质心的聚类 基于密度的聚类 层次聚类 谱聚类 2024-07-23 机器学习 #机器学习 #K-means
08_集成学习 1 概述 集成学习(Ensemble Learning)并不是一种具体的算法,而是一种思想:将多个单模型组合成一个综合模型,从而克服单一模型可能存在的局限性,提高准确性和稳定性,获得比单一模型更好的泛化能力。 1.1 术语说明 基学习器 (base learner)、基模型(base model)、基估计器 (base estimator),指的是集成学习中的单个模型。 进一步将基学习器 2024-07-22 机器学习 #机器学习 #集成学习
07_朴素贝叶斯 1 概述 1.1 贝叶斯定理 贝叶斯定理是概率论中的一个重要定理,它描述了如何从主观经验或已知事实出发,通过收集到的样本数据(证据)来更新对事件发生概率的认知(信念)。贝叶斯定理的数学表达式为: $$P(A \mid B) = \frac{P(B \mid A)}{P(B)} \cdot P(A)$$ P(A) 是事件 A 发生的先验概率,我们可以理解为已知事实或主观经验(主观概率 2024-07-19 机器学习 #机器学习 #朴素贝叶斯
06_决策树 1 概述 决策树(Decision Tree)是一种基于树形结构的算法,根据一系列条件判断逐步划分数据,缩小范围,最终得出预测结果。决策树由 4 部分组成: 根节点:树的节点,包含所有数据 内部节点:表示特征上的判断条件 分支:根据判断条件分出的路径 叶子节点:最终分类或回归的结果 决策树适用于需要规则化、可解释性和快速决策的场景,尤其在数据特征明确、样本量适中的情况下表现 2024-07-18 机器学习 #机器学习 #决策树
05_逻辑回归 1 概述 逻辑回归(Logistic Regression)尽管名字中含有“回归”,但逻辑回归实际上是一种分类算法,用于处理二分类问题。逻辑回归通过将线性回归的输出作为输入,映射到[0,1]区间,来表示某个类别的概率。 常用的映射函数是 sigmoid 函数:$𝑓(𝑥)=\frac{1}{1+𝑒^{−𝑥}}$,将线性回归的输出作为输入会得到 {0, 1} 的输出。 $$ 𝑃(� 2024-07-16 机器学习 #机器学习 #逻辑回归
04_线性回归 1 概述 回归模型是机器学习和统计学中的一种基本模型,用于预测连续型输出变量。简单的说,给定一组输入变量(自变量)和对应的输出变量(因变量),回归模型旨在找到输入变量和输出变量之间的映射关系。 线性回归分类: 一元线性回归:建立一个因变量与单个自变量之间线性关系的模型,也就是只有一个特征。 y = wx + b $\small{y}$ 是目标变量(因变量), x 是输入变量(自变 2024-07-14 机器学习 #线性回归 #机器学习
03_KNN算法 1 概述 K近邻算法(k-nearest neighbors, KNN)是一种用于分类和回归的非参数统计方法。KNN 算法的原理是从历史数据中找到 $\small{k}$ 个跟新输入的实例最邻近的实例,根据它们中的多数所属的类别来对新实例进行分类或者输出新实例的目标值。K近邻算法没有显式的学习训练过程,它用的是“近朱者赤,近墨者黑”这样一种简单朴素的思想来实现分类或回归。 分类问题: 2024-07-13 机器学习 #机器学习 #KNN