import os import pandas as pd import numpy as np from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import LabelBinarizer from sklear...
EM算法步骤 (1) 随机初始化模型参数θ的初值 \(\theta_{0}\) (2) \(j=1,2,...,J\) 开始EM算法迭代: E步:计算联合分布的条件概率期望: [Q_{i}(z_{i})=p(z_{i} x_{i},\theta_{j})] [l(\theta,\theta_{j})=\sum_{i1}^{...
Chapter 1. Policy-Based Class Design 1.2 Policies and Policy Classes template <class T> struct OpNewCreator { static T* Create() { return new T; } }; template <cla...
《冬牧场》 在读《冬牧场》之前,关于牧民的书籍依稀记得的只有《狼图腾》《大地之灯》,严格的说《大地之灯》还不算是,写藏民的。可能是被新疆呼伦贝尔之类的文案给忽悠了,或者是给大街小巷凤凰传奇“操马的汉字威武雄壮”给误导了,竟然一直以为游牧生活自由而且简单。 李娟笔下展现的正儿八经的哈萨克游牧族的生活艰辛超乎想象,特别是冬窝子里的日子。冬天新疆零下四十多度,冬牧场荒凉广阔,一马平川连树和大点...
线性分类器 Large Margin Classification 根据样本边界(即支持向量),按照最大间隔进行划分的一种方法。最大间隔分类器对样本数目不敏感,对样本边界敏感,对样本scale敏感。 Soft Margin Classification 软间隔分类器相对硬间隔分类器(对边界有要求,边界不能交叉,即需要线性可分)而言,采取了更加灵活的策略:在最大化间隔同时,限制间隔侵犯...
线性回归在机器学习任务中非常常见且,模型相对简洁易实施,值得仔细学习。 Linear Regression模型的基本任务 Linear Regression模型的基本预测方程: [\tag{1} \hat{y} = {w_1}{x_1} + {w_2}{x_2}+ … + {w_n}{x_n}] 用矩阵的形式表达为: [\tag{2} h_{w}(X) = {w}^T \cdot ...
Boosting方法有两个代表Adaptive Boost和Gradient Boost,在之前的笔记(文章在这里[机器学习]集成学习常用模型和方法)中有详细简单介绍Adaptive Boost算法细节,书中的证明看得云里雾里没有仔细钻下去。这篇笔记着重就Gradient Boost展开学习一下,并计划了解一下比较Kaggle上热门的XGBoost库。Gradient Boost算法直接读w...
集成学习最基本的思想是构建多个分类器,用某种策略将多个结果集成,输出最终学习的结果。相比单个的模型,集成学习模型由于学习了多个子模型,会获得“更好一点”的结果。Kaggle上的大杀器XGBoost和Random Forest分别均属于集成学习模型。 Voting Classifiers:多分类器角度 最容易理解的选举方法,接收多个分类器的结果进行投票,得分最高的结果作为最终输出。 Ba...
KNN工作原理 KNN方法简单且容易理解,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分为这个类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高(KD树派上用场) 适用数据范围:数值型和标称型 K值的选择 李航《统计学习方法》3.2.3 k 值的选择...
Recurrent Neurons RNN and HMM Backpropagation Through Time(BPTT) Gradient Vanishing / Gradient Exploding LSTM Cell Papers Main layer Input Gate Forget Gate...
发现新版本的内容。