kaggle上的入门问题,mnist手写识别,用cnn + tensorflow实现一遍,参考:https://www.kaggle.com/c/digit-recognizer import numpy as np import pandas as pd import tensorflow as tf %matplotlib inline import matplotlib.pyplo...
决策树模型 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 属性选择度量方法 初始的数据集 相对于已经分类完毕的数据集更加混乱。决策树的目标是希望找到一...
朴素贝叶斯定理 事件A,事件B相互独立时: [P(AB) = P(A)P(B)] 事件A,事件B相互不独立时,则需要计算条件概率P(A|B)。定义 P(A|B)为事件B已经发生的前提下,事件A发生的概率。叫做事件B发生下时间A的条件概率。其基本求解公式为: [P(AB) = P(B)P(A B)] 同理 ...
问题 提取图像中的矩形区域,可以算是LCD检测项目的原型验证里的一部分 算法梳理 threshold.png:阈值分割算法,迅速分割出感兴趣的区域(显示屏亮色部分) dilate、erode:腐蚀和膨胀算法,用于消除‘麻点’噪声,图像效果好的话可以不使用 canny.png:canny算法检测边缘轮廓 contours.png:寻找轮廓中的闭包,找出面积较大的区块,拟...
问题 根据提供交通状况数据(包含时间、雨、风、可见度等天气状况和周末、节假日、时间段等时间信息组成)做预测模型(预测事故数目),尽可能最大化预测的准确率。数据长这样: accident num:预测目标,即交通事故事故数目 weekend workday:是否是周末、是否是工作日 t0 t1 t2 t3:将一天时间分成4段,一段就是一行数据,一个time frame,题目中的定...
Windows上用欧陆词典,Linux上用Goldendict,奈何Goldendict没有生词本,所以下载源码加了个小模块进去。 新增功能: 生词 添/删/分组/星标 生词导出,导出的文本可导入到欧陆词典。 git: https://github.com/yixiaoyang/goldendict 干的事情也蛮简单,效果如图所示,生词本导出后我用来做Anki卡片的(背单...
多层感知器 单个感知器只能一刀两半,多个感知器则可以多次分割,直到分割给出想要的分类方式。 网络拓扑 反向传导算法(BP算法) BP算法是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 BP算法过程 用一张图表示前向(FP)和后向(BP算法,Ba...
人工神经网络(Artificial Neural Net,缩写ANN),现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。不要被唬住了,ANN做的事其实只有一刀切(单层神经网络),一刀切不清楚的就多切几刀(多层神经网络)。 计算模型 人工神经网络由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成。每个节点代表一种特定的...
K-Means算法简介 K-Means聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心,centroids)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。K-均值是一种通过反复迭代直至收敛到确定值的迭迭代贪婪算法. K-Means计算是NP-困难的,不过可借助启发式...
普通最小二乘法的原理理解 目标 线性最小二乘拟合(linear least square fit)常用于数据拟合,以寻找数据之间的关系方程。 我们遇到的实际问题是在校准ADC仪器时,读取到两个输入变量: ADC测量值序列x:即ADC的原始读值。 万用表测量值序列y:在认为万用表是准确的情况下用来校准ADC数据,分析出ADC测量之和真实值之间的关系方程,这样就可以用ADC值计算...
发现新版本的内容。