您现在的位置是:首页 > 正文

机器学习——实践

2024-04-01 01:46:46阅读 3

目录

一、数据集划分

1、交叉验证

2、不平衡数据的处理

 代价敏感学习

二、评价指标

三、正则化、偏差和方差

为什么要标准化/归一化?

过拟合的处理——Dropout

过拟合的处理——Early stopping

过拟合的处理——数据增强

偏差和方差

 ​编辑


一、数据集划分

  1. 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。  
  2. 验证集(Validation Set):也叫做开发集( Dev Set ),用来做模型选择(model selection),即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,可选;
  3. 测试集(Test Set): 为了测试已经训练好的模型的精确度。

  •  三者划分:训练集、验证集、测试集
  • 机器学习:60%,20%,20%;70%,10%,20%
  • 深度学习:98%,1%,1% (假设百万条数据)

1、交叉验证

 1. 使用训练集训练出k个模型

2. 用k个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)

3. 选取代价函数值最小的模型

4. 用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

2、不平衡数据的处理

数据不平衡是指数据集中各类样本数量不均衡的情况.

常用不平衡处理方法有采样和代价敏感学习

采样有欠采样、过采样和综合采样的方法.

 代价敏感学习

代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法

比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很多多类样本分类为少类样本,降低少类样本分类的查准率。

二、评价指标

1. 正确肯定(True Positive,TP):  预测为真,实际为真
 2. 正确否定(True Negative,TN):预测为假,实际为假
 3. 错误肯定(False Positive,FP):  预测为真,实际为假
 4. 错误否定(False Negative,FN):预测为假,实际为真

  混淆矩阵(confusion_matrix)

 有100张照片,其中,猫的照片有60张,狗的照片是40张。

输入这100张照片进行二分类识别,找出这100张照片中的所有的猫。

  • 正例(Positives):猫
  • 负例(Negatives):狗

识别结果的混淆矩阵

1、正确率(Accuracy)=(TP+ TN)/S

TP+ TN =70,S= 100,则正确率为: Accuracy =70/100=0.7 

2、精度(Precision)=TP/(TP+ FP)

TP=40,TP+ FP=50。 Precision =40/50=0.8

3、召回率(Recall)=TP/(TP+ FN)

TP=40,TP+FN =60。则召回率为: Recall =40/60=0.67

ROC和PR曲线 

三、正则化、偏差和方差

为什么要标准化/归一化?

提升模型精度:不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

加速模型收敛:最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。

之前介绍过,过拟合可以通过正则化来处理,这里我们介绍另外几种方法  

过拟合的处理——Dropout

 Dropout的功能类似于L2正则化,与L2正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围

keep-prob=1(没有dropout)       keep-prob=0.5(常用取值,保留一半神经元)

在训练阶段使用,在测试阶段不使用!

过拟合的处理——Early stopping

Early stopping代表提早停止训练神经网络

Early stopping的优点是,无需尝试L2正则化超参数λ的很多值。

过拟合的处理——数据增强

数据增强:随意翻转和裁剪、扭曲变形图片

偏差和方差

 

偏差Bias:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如上图第二行所示。

方差Variance: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如上图右列所示。

方差、偏差和模型复杂度

下图是模型复杂度与误差的关系,一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小,在虚线处,差不多是模型复杂度的最恰当的选择,其“偏差”和“方差”也都适度,才能“适度拟合”。

 

1. 获得更多的训练实例——解决高方差
2. 尝试减少特征的数量——解决高方差
3. 尝试获得更多的特征——解决高偏差
4. 尝试增加多项式特征——解决高偏差
5. 尝试减少正则化程度λ——解决高偏差
6. 尝试增加正则化程度λ——解决高方差

网站文章

  • 配置中心ETCD搭建与简单使用 热门推荐

    1 ETCD配置 1.1 Ubuntu安装ETCD 以下配置均在Ubuntu16.04系统中。 (1)使用wget命令对ETCD进行安装 wget https://github.com/etcd-io...

    2024-04-01 01:46:38
  • QT connect使用简单介绍 最新发布

    QT connect使用简单介绍 最新发布

    QT connect 使用简单介绍

    2024-04-01 01:46:31
  • 吃豆人html代码原理,如何用HTML做一个吃豆人?

    吃豆人html代码原理,如何用HTML做一个吃豆人?

    首先做一个项目的先想如何去实现它。比如做一个吃豆人,如图:167b84dcbf0d3ed647b6b8c4abd75f92.jpg首先,需要分析这个吃豆人的组成部分。上半部分嘴,下半部分嘴,豆基本就三...

    2024-04-01 01:46:06
  • linux命令行设置颜色

    linux命令行设置颜色

    最近一直用linux,看着命令行一成不变的颜色,真的无语!话不多说,直接上教程。 1、编辑.bashrc文件. vim .bashrc 2、在.bashrc文件最后一行加入以下设置。(vim编辑器输入...

    2024-04-01 01:45:51
  • element--Cascader 点击文字选中+选中隐藏+多选

    //element Cascader 点击文字选中+选中隐藏+多选.el-cascader-panel .el-radio {width: 100%;height: 100%;z-index: 10;...

    2024-04-01 01:45:44
  • Vue-富文本编辑器组件封装之TinyMCE

    Vue-富文本编辑器组件封装之TinyMCE

    文章目录背景相关依赖接入说明中文文档组件汉化导入插件创建组件实例组件应用示例效果预览编辑器窗口上传图片效果内容小窗口预览遇到的问题及解决方案在dialog(弹窗)层级、遮挡问题预览效果宽度调整问题图片...

    2024-04-01 01:45:18
  • ffmpeg混音以及音视频混合处理

    ffmpeg混音以及音视频混合处理 ffmpeg的命令 这里是我最近研究的音视频混合处理的一些ffmpeg的命令 // 音频拼接 ffmpeg -i "concat:first.mp3|se...

    2024-04-01 01:45:10
  • MySQL基础笔记(七)DML

    MySQL基础笔记(七)DML

    DML主要是对数据进行增(insert)删(delete)改(update)操作。注意:如果update语句没有加where条件,则会将表中所有数据全部修改!将张三的生日改为 1999-12-12 分数改为99.99。

    2024-04-01 01:45:03
  • 联想小新I1000 win10电脑系统安装教程

    联想小新I1000 win10电脑系统安装教程

    最近因为之前电脑太卡了,想要给自己的联想小新重装系统,发现网上说采用以下方式安装的win10系统会更干净一些,过程做以下记录。

    2024-04-01 01:44:39
  • 软件测试 | FTP 性能测试脚本开发(2) 最新发布

    而许多内网的客户端不能用 PORT 模式登录 FTP 服务器,因为从服务器的 TCP20 端口无法和内部网络的客户端建立一个新的连接,从而造成了无法工作。在二进制传输中,保存文件的位序,以便原始和备份...

    2024-04-01 01:44:32