跟着NatureGenetics学画

白癜风有什么偏方吗 https://m-mip.39.net/czk/mipso_7375991.html

论文是Whole-genomeresequencingofLactucaaccessionsrevealsthedomesticationhistoryofcultivatedlettuce

image.png

这篇论文的数据是公开的,代码也公开了一部分,那我们就可以按照他的代码来学二代测序的数据分析啦

今天我们来学习一些论文中Fig1c的画图代码,如下

image.png

数据对应的是论文中的sourcedatafigure1

图的主要内容是散点图展示主成分分析的结果,并且将局部的区域放大展示

首先是读入数据

df-readxl::read_excel("NG/___MOESM4_ESM.xlsx",sheet="Fig1c",n_max=)head(df)tail(df)

这里直接读入excel文件用到的是readxl包中的read_excel()函数,需要制定

文件路径excel表格中的sheet名称

这里的n_max参数是指定读进来的数据的最多行数,英文这个数据集结尾处有一些注释内容,我们不需要,所以需要制定这个参数,自己的数据集通常是不需要指定这个参数的

先画一个简单的散点图

library(ggplot2)ggplot(data=df,aes(x=PC1,y=PC2))+geom_point(aes(color=Species))image.png

这个看着和论文中的有些不一样,仔细看看应该是论文中对PC1去了一个负数,而且论文中的图也映射了点的形状

对PC1取一个负数

library(dplyr)df%%mutate(PC1.1=-PC1)-df

画图

ggplot(data=df,aes(x=PC1.1,y=PC2))+geom_point(aes(color=Species,shape=Species))image.png

这里会遇到一个警告信息

Warningmessages:1:Theshapepalettecandealwithamaximumof6discretevaluesbecausemorethan6be


转载请注明:http://www.zshuz.com/jcrzl/9015.html