在开展数据科学项目时,您在寻找什么? EDA阶段最重要的部分是什么?如果在EDA阶段没有完成某些事情,可能会影响进一步的统计、机器学习建模。其中之一是找到异常值。在这篇文章中,我们将尝试了解什么是异常值?为什么识别异常值很重要?方法是什么?不要担心,我们不会仅仅只讲理论部分,我们也会对数据进行一些编码和绘图。
既然我们知道异常值可能是一个错误或者只是一个方差,你会如何决定它们是否重要。那么,如果它们是错误的结果,那么它非常简单,我们就可以忽略它们,但如果它只是数据的变化,我们需要进一步思考。在我们尝试了解是否忽略异常值之前,我们需要知道如何识别它们。
大多数人可能会想,就像我们在前面提到的板球例子中所做的那样,我可以在数据的高峰期找到异常值。让我们考虑一个包含500列和10k +行的文件,您是否仍然认为可以手动找到异常值?为了减轻异常值的发现,我们有很多统计方法,但我们只会讨论其中的一些。大多数情况下,我们会尝试查看可视化方法(最简单的方法)而非数学方法。
我们将根据两种类型的分析找出异常值,单变量(一个变量异常值分析)和多变量(两个或多个变量异常值分析)。不要感到困惑,当你开始编码和绘制数据时,你会发现自己检测异常值有多容易。为了简单起见,我们将从检测异常值的基本方法开始,并慢慢地继续前进方法。
这里我们分析了Uni-variate异常值,即我们只使用DIS列来检查异常值。但我们也可以进行多元异常分析。我们可以用箱型图进行多元分析吗?那么它取决于,如果你有一个分类值,那么你可以使用任何连续变量,并进行多元异常值分析。由于我们在波士顿房屋数据集中没有明确的价值,因此我们可能需要忘记使用箱形图进行多变量异常值分析。
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。如定义所示,散点图是显示两个变量值的点的集合。我们可以尝试从我们的住房数据集中绘制两个变量的散点图。
你一定想知道,这对识别异常值有什么帮助?那么,在计算Z-Score的同时,我们对数据进行重新缩放和居中,并查找距离零太远的数据点。这些距离零太远的数据点将被视为异常值。在大多数情况下,使用3或-3的阈值,即,如果Z-Score分别大于或小于3或-3,则该数据点将被识别为异常值。
总结他们的解释,包括错误的数据、错误的计算,这些可以被识别为离群值,并应该在他们改变数据的水平时被丢弃,也就是说,当您建模数据时会引起问题的平均值。对于前5人获得10K,20K,30K,40K和50K的薪水,突然其中一人开始获得100K的薪水。考虑到这种情况,因为你是一名雇主,新的薪资更新可能被视为有,或者你可能还需要增加其他员工的薪水,以保持平衡。因此,您可能有多种理由想要了解并纠正异常值。
在整个中,我们看到了数据分析阶段如何能够遇到一些不寻常的数据,即异常值。我们了解了可用于检测和删除这些异常值的技术。但是有人提出了一个关于确定是否可以移除异常值的问题。为了回答这些问题,我们发现了更多的读物(这些链接在前一节中提到)。希望这篇文章有助于读者了解异常值。
本文由325游戏 (www.325qp.net)整理发布
网友评论 ()条 查看