论文是Whole-genomeresequencingofLactucaaccessionsrevealsthedomesticationhistoryofcultivatedlettuce
image.png这篇论文的数据是公开的,代码也公开了一部分,那我们就可以按照他的代码来学二代测序的数据分析啦
今天我们来学习一些论文中Fig1c的画图代码,如下
image.png数据对应的是论文中的sourcedatafigure1
图的主要内容是散点图展示主成分分析的结果,并且将局部的区域放大展示
首先是读入数据df-readxl::read_excel("NG/___MOESM4_ESM.xlsx",sheet="Fig1c",n_max=)head(df)tail(df)
这里直接读入excel文件用到的是readxl包中的read_excel()函数,需要制定
文件路径excel表格中的sheet名称这里的n_max参数是指定读进来的数据的最多行数,英文这个数据集结尾处有一些注释内容,我们不需要,所以需要制定这个参数,自己的数据集通常是不需要指定这个参数的
先画一个简单的散点图library(ggplot2)ggplot(data=df,aes(x=PC1,y=PC2))+geom_point(aes(color=Species))image.png
这个看着和论文中的有些不一样,仔细看看应该是论文中对PC1去了一个负数,而且论文中的图也映射了点的形状
对PC1取一个负数library(dplyr)df%%mutate(PC1.1=-PC1)-df
画图
ggplot(data=df,aes(x=PC1.1,y=PC2))+geom_point(aes(color=Species,shape=Species))image.png
这里会遇到一个警告信息
Warningmessages:1:Theshapepalettecandealwithamaximumof6discretevaluesbecausemorethan6be