五陵年少

You wear a mask for so long, you forget who you were beneath it.

应用R语言建模分析

R语言,回归分析

完整的代码及运行过程在GitHub上 导入需要使用的R包: 画图: library(gridExtra) library(grid) library(ggplot2) 数据处理: library(data.table) library(dplyr) 分类变量变为数值变量: library(dummies) 数据预处理及模型创建: library(caret) 读入...

向caret包中的train添加xgboost-R语言

利用train实现xgboost的grid search

利用事先编好的xgboost调用函数,实现在train中grid搜索调用xgboost算法。 首先载入事先编写好的函数代码 代码放在GitHub上 source("where you put the xgboost.R in your computer") 然后设置参数 设置参数有两种,一种是自己定义参数值,另一种是随机生成参数。 定义参数值: xgbgrid <- e...

聚类在模型构建中的应用

利用聚类创建新变量

导入所需包及数据 library(caret) library(data.table) library(dummies) load_train <- read.csv('https://datahack-prod.s3.ap-south-1.amazonaws.com/train_file/train_u6lujuX_CVtuZ9i.csv') load_test <- re...

利用bayesAB包进行贝叶斯AB测试

Bayesian AB Testing

注:本文翻译自bayesAB包作者的博客, bayesAB包的更详细的信息及用法见bayesAB包作者的GitHub 贝叶斯基本知识点: 先验概率: 基于主观经验或已有的知识推断,对某个随机变量的不确定性的一种猜测。 似然函数: 似然函数是一种关于统计模型参数的函数,即在给定观测值时,关于参数的似然函数等于给定参数后观测值的概率。ps:同时我们可以利用似然函数估计样本的分布参...

A/B Testing, from scratch——翻译

A/B测试详解

本人能力有限,翻译只是为了更好的理解,如有错误欢迎指正! 本文翻译自《A/B Testing, from scratch》 介绍 A/B测试是一项的随机对照实验,并在实验中比较两种产品变量的表现。这些变量通常用变量A和变量B来表示。从商业角度来看我们想知道某个变量的表现是否优于其他变量。 例如我们想评估在结账页面中绿色的结账按钮是否优于橙色结账按钮。 一周后我们收集到如下数据: ...

Going Deeper into Regression Analysis with Assumptions, Plots & Solutions——翻译

深入理解回归分析

本人能力有限,翻译只是为了更好的理解,如有错误欢迎指正! 本文翻译自《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》 介绍 在预测模型中,回归分析经常是第一步骤。毋庸置疑,回归分析应用起来非常简单,语法和参数都不会引起任何混淆。 但是仅仅只是运行一行代码,并不能解决实际的目的。不...

ACompleteTutorialonTreeBasedModelingfromScratch——翻译

基础决策树建模指南

本人能力有限,翻译只是为了更好的理解,如有错误欢迎指正! 本文翻译自《A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)》 1 决策树是什么?它是如何工作的? 决策树是一种监督学习算法(有预先定义的目标变量),并且经常被用在分类问题上。它既能用于分类变量也能用于连续变量。 在这个算法中,它...

聚类小总结

聚类

样本单元间关联的度量 连续变量样本单元间的常用度量: 首先定义标准符号: = 变量K中第i个样本单元的值。 n = 样本单元的个数。 p = 变量的个数。 欧几里得距离(Euclidean Distance): 闵可夫斯基距离(Minkowski Distance): Canberra Metric: Czekanowski Coefficient...

7 Important Model Evaluation Error Metrics Everyone should know-翻译

模型误差度量的几个方法

本人能力有限,翻译只是为了更好的理解,如有错误欢迎指正。 本文翻译自《7 Important Model Evaluation Error Metrics Everyone should know》 七个重要的模型误差度量 你的目的不仅仅是构建一个预测模型,而是创建和选择一个对样本以外的数据同样具有高度精度的模型。因此在用模型计算预测值之前,去检测模型准确度是非常重要的一个步骤。 目录...

A Comprehensive guide to Data Exploration——翻译

数据预处理的步骤和方法

本人能力有限,翻译只是为了更好的理解,如有错误欢迎指正! 本文翻译自《A Comprehensive guide to Data Exploration》 数据探索和预处理的几个步骤: 数据的好坏往往能决定最后结果的好坏,所以一旦你的商业假设准备好了,花费一些时间去做数据的探索和预处理是值得的。根据作者的个人经验的估计,数据探索、清洗和预处理的时间能占到整个项目的 70%。 下面是为了...