1142 阅读 2020-08-06 09:16:02 上传
以下文章来源于 All about linguistics
5. Violin plots(小提琴图)
我对小提琴图印象深刻。大概是去年5月份,我去参加学术发表的时候,看到过一次小提琴图,当时我和我的搭档都对这个图很感兴趣,就去问了这个图要怎么做。结果得到的回答是,要用R写代码,我就暂时放弃了。现在能通过Jamovi绘制小提琴图,确实方便了很多。
在Jamovi的界面里可以看到,Box plot 和 Violin 是一起在 Box Plots下面的。说明两者可以叠加在一起呈现。因此,我们首先打开Iris数据的箱形图分析结果,同时勾选小提琴图的选项,来看两者一起呈现的效果图。
从这里可以看到,整个小提琴图的形状看起来像是墨迹测试图 (Rorschach inkblot)(这是讲解里的比喻,还蛮形象的,感兴趣的可以搜索墨迹测试),但同时它很好地传达了箱形图的一些重点。比如在第一个图里,箱形图显示大多数案例集中在中间的区域,而小提琴图也显示出了这一点,整个图看上去中间部分比较粗壮。
而在萼片宽度这里,由于萼片宽度的数据呈现出了leptokurtic distribution (高狭峰分布),因此有明显的离散值。在小提琴图里,直接把最上方的离散值归为最大值,最下方的离散值归为最小值了,整个形状和高狭峰分布一致。
花瓣长度和宽度对应的小提琴图也是一样,由于花瓣长宽度都呈现出了双峰分布的形态,因此小提琴图也是很明显的有一个分层的形态。
下面以花瓣宽度为例,看一下小提琴图单独出现的样子:
基本上和箱形图一起出现时的样子没什么变化,也没有过多的大小的调整,看起来很可爱。
其实,可以把小提琴图当作箱形图与密度图的结合。与箱形图相比,小提琴图可以更直接地反映数值的密度分布范围。
最后看一下以品种分类后的三组鸢尾花的萼片长度和花瓣宽度的小提琴图。小提琴图和箱形图显示的趋势是一样的。尤其是花瓣宽度的图中,很明显Setosa的小提琴图形状看起来很奇怪,这和它本身的数值所体现出来的高狭峰分布的状态,以及有明显的离散值的情况一致。而其他两种鸢尾花的花瓣宽度的小提琴图就显得非常正常了。
总结:小提琴图是一种较新的的分析方式,这个名称来源自图形所表现出的形状。小提琴图算是箱形图和密度图的结合体,可以直观地表现出数值的密度分布范围。在分析数据时,使用小提琴图可能会给我们一些新的启发。
6. Dot plots (点状图)
箱形图和小提琴图能展现定量变量或连续变量的分布状况,但实际操作中,我们可能想直接查看数据,这时,点状图就是一种更好的选择。
还是打开Iris数据,这次用小提琴图分析留下的的结果数据。因为Violin plots 和 dot plots 同属于Box plots,因此两者可以叠加出现。有些时候,叠加呈现的效果并不好,我们看的时候也很不方便,但是小提琴图和点状图很适合叠加在一起呈现,因为小提琴图本身是空白的,而点状图里的点刚好填补了一部分空白,两者并不会互相干扰。以萼片长度为例:
这里的点就代表了所有数据,在萼片长度里大概有150个点左右。从最低值向上排列到最高值,同时数值排列的密度和小提琴图显示的密度是几乎一致的。在Jamovi里,默认的点状图的表现方式是 jittered,所以这就是一个 jittered chart (抖动图),图里的每一个点都要准确地在中间这条线上。但是在抖动图里我们很难说出某个特定位置上有多少个点,因为一个点可能会覆盖在另一个点上。
总体而言,抖动图是随机地将数据向左或向右散布,因此它们通常不会彼此重叠,这样我们能更容易地看到数据分布的密度。
除了抖动图,还有另外一种做点状图的方式,就是 stacked chart (暂时不确定中文翻译是什么,就先叫堆叠图吧),这种方式更适合喜欢规整的使用者。
以花瓣长度为例:
在堆叠图里,每个数值都准确地去到了他们需要去的地方,并在图表中表现出了对称性。我们可以更清楚地看到每一个点的分布, 同时点的分布的状态也和小提琴图的整个形状是一致的。
同样,再来看三种鸢尾花的相关数据。
以萼片宽度为例。这里的小提琴图的长宽高和点状图的排列看起来是一致的,非常清楚。
总结:
点状图和小提琴图一起看,能够帮助我们更好地了解数据分布的形态。堆叠图呈现出的内容更加有序,整洁,比抖动图更直观一些。
7. Bar plots (条形图)
Jamovi里给出的最后一种图表分析方式是条形图。条形图非常简单,它直接展示了每个类别的具体数量。
这里我们不再使用Iris数据,而是使用Bugs数据来具体分析。具体的变量,我们只看gender, region, education 这三个,这三者都是定量变量。
首先,确定这三类数据的频率。
这个频率表分别展示了每个变量里具体的每个小的类别所占的比例。
这时,只需要在Jamovi里勾选 bar plots,Jamovi就会自动对这些定类变量 (nominal variable) 中是分类变量 (categorical variable) 或者是定序变量 (ordinal variable)的进行整理。生成的图表在频率表的下方。
相对于饼状图(pie chart)来说,条形图更容易阅读,因为它们所需要的只是相对线性判断,这也是 Jamovi里不提供饼状图的原因。
重新选定变量 education,再用 gender作为分类的依据,可以得到不同性别类别下被试者拥有的受教育程度的情况。
这时,再勾选条形图,能得到一个paired bar plot / grouped bar plot。这个对比图就将每种教育程度下的男女性别数的状况全部显现出来了。对比图按照各个受教育程度类别的首字母顺序排列,蓝色代表女性,黄色代表男性。可以从下面的对比图里很明显地看到,在大部分情况下,女性的比例要高于男性。
总结:
条形图是一种非常简单直观的将数据可视化的方法。如果想要快速地了解分类变量或者定序变量,使用条形图是一个不错的选择。
8. Exporting tables & plots (图表导出)
使用Jamovi进行数据分析后,我们往往想要将所得的图表导出到我们实际需要的地方,比如 Word, Powerpoint, Excel或者通过可以在线编辑的平台进行储存,比如Google Docs,Google Slides,以及 Google Sheets。 但是,实际上Jamovi里所导出的数据并不是在每一个平台上都一样适用。
首先来看表格的导出。使用Iris数据,鼠标右击表格,选择copy即可。
(1) Word:完美粘贴,和Jamovi里出现的表格一模一样,表格边框是隐形的,需要修改的话可以先显示边框再进行修改,非常方便。
(2) Powerpoint:不推荐。虽然可以粘贴过去,但是格式乱了,而且最后一行的数据消失了。
(3) Excel:推荐。除了格式需要些许调整,其他部分都很好。
(4) Google Docs:可以但不推荐。可以粘贴过去,但是需要修改格式,重新排列。
(5) Google Slides:还不错。基本上只要将表格宽度调整一下就可以了。
(6) Google Sheets:推荐。和在Excel里得到的结果类似,稍微调整即可。
除了直接复制之外,在Jamovi里还可以选择 export,导出的时候有两个选择,一个是 PDF,一个是HTML。选择其中一个进行保存后会得到一个单独的文件,也是很不错的选择。
总结:对于表格来说,导出表格后,最好将表格放在像Excel这类的电子表格里,不仅格式调整起来简单快速,同时还可以进一步编辑。
最后来看图表导出的方式。还是Iris数据。这里我们来看三种不同品种的鸢尾花的花瓣长度的结果图。选择复制:
(1) Word:完美粘贴,和Jamovi里出现的图一模一样,并且可以自行调整大小。
(2) Powerpoint:和Word一样,可以按照个人需求调整大小。
(3) Excel:可以直接粘贴,有无背景取决于使用者自己的设定。
(4) Google Docs:无法直接粘贴过去,需要将图片首先导出,这里图表导出的格式有四种,分别是:PDF,PNG,SVG 和 EPS。这里可以选择PNG,保存之后再导入即可。
(5) Google Slides:也是无法直接粘贴,需要先导出为图片保存后再导入。
(6) Google Sheets:同上。
总结:对于表格来说,直接复制粘贴到 Word,PowerPoint 和 Excel里,或者先导出为图片格式后再导入到 Google Docs,Slides 和 Sheets里都是不错的选择。
结语:
数据可视化分析的内容就全部结束了。希望对你有所帮助~
本次更新就到这里~
下期开始更新 T-TESTS 相关内容^^
欢迎讨论!
第三部分的教程内容分享如下:
链接:
https://pan.baidu.com/s/1xKEbICzd-9_iuizJjboewg
提取码: ufum
